Hvorfor mindsker bagging i maskinlæring variansen?

Indhold

Q:

EN:

Bootstrap-aggregering eller "bagging" i maskinlæring mindsker variansen gennem opbygning af mere avancerede modeller af komplekse datasæt. Specifikt skaber bagging-metoden delmængder, der ofte overlapper hinanden for at modellere dataene på en mere involveret måde.

En interessant og ligefrem idé om, hvordan man anvender posning, er at tage et sæt tilfældige prøver og udtrække det enkle middelværdi. Brug derefter det samme sæt prøver til at oprette snesevis af undersæt, der er bygget som beslutningstræer for at manipulere de eventuelle resultater. Det andet middelværdi skal vise et sandere billede af, hvordan de enkelte prøver forholder sig til hinanden med hensyn til værdi. Den samme idé kan anvendes til enhver egenskab i ethvert sæt datapunkter.

Da denne tilgang konsoliderer opdagelsen i mere definerede grænser, reducerer den variansen og hjælper med overfitting. Tænk på en scatterplot med noget distribuerede datapunkter; ved at anvende en pakkemetode "krymper" ingeniørerne kompleksiteten og orienterer opdagelseslinierne til glattere parametre.

Nogle taler om værdien af bagging som "skill og erobre" eller en type "assisteret heuristik." Ideen er, at gennem ensemble-modellering, såsom brug af tilfældige skove, kan dem, der bruger posning som en teknik, få dataresultater, der er mindre i varians. Med hensyn til mindskelse af kompleksiteten kan posning også hjælpe med overfitting. Tænk på en model med for mange datapunkter: sige, en tilslut-prikker med 100 ikke-justerede prikker. Den resulterende visuelle datalinje vil være tagget, dynamisk, flygtig. Derefter "udjævnes" variationen ved at sammensætte sæt evalueringer. I ensemblets læring betragtes dette ofte som sammenføjning med flere "svage elever" for at give et "stærkt lærings" samarbejdsresultat. Resultatet er en jævnere, mere kontureret datalinje og mindre vild variation i modellen.

Det er nemt at se, hvordan ideen om sækning kan anvendes på enterprise IT-systemer. Virksomhedsledere vil ofte have et "fugleperspektiv" over, hvad der sker med produkter, kunder osv. En overfittet model kan returnere mindre fordøjelige data og mere "spredte" resultater, hvor posning kan "stablilisere" en model og gøre den mere nyttig til slutbrugere.