Samverkande Expertnät

1 Samverkande Expertnät 2 3 1 2 3 Parallella nätverk Sammanvägning av svaren Två olika fördelar Utjämna egenheter hos nätverken Låt nätverken specialisera sig Egenskaper hos ett enkelt nätverk Överträning kan undvikas genom att avbryta inlärning i förtid Ger upphov till ett systematiskt fel Övertränade nät undviker detta men ger stor varians Medelvärdet av flera nät minskar variansen

Ensemble Averaging Träna flera nät Samma nätstruktur Samma träningsdata Olika startvärden för vikterna Överträna gärna näten Använd nätens medelsvar Näten tenderar att hamna i olika lokala minima Medelvärdet jämnar ut variationerna

1 2 3 Träna flera nätverk på olika uppsättningar träningsexempel Sekvensiell approach Använd tidigt tränade nät för att hitta besvärliga träningsexempel Träna senare nät i första hand på de besvärliga exemplen genom Klassisk (Schapire, 1990) 1 Träna nät 1 2 Filtrera träningsexemplen genom nät 1 Behåll lika många exempel där nät 1 svarar fel som när det svarar rätt 3 Träna nät 2 på dessa filterade exempel 4 Filtrera fram de träningsexempel där nät 1 och nät 2 svarar olika 5 Träna nät 3 med dessa exempel genom filtrering kräver många träningsexempel Onödigt många exempel kastas bort Alternativa metoder viktar istället om sannolikheten/vikten för olika träningsexempel Svaret från kommittémaskinen sätts samman som medelvärdet eller majoritetssvaret från de tre näten. Adaptive (Freund och Schapire, 1996) Batch learning Styr aktivt sannolikheten att de olika exemplen används Exempel som klassas fel får större sannolikhet i nästa nät Grindnätet viktar nätens svar beroende på hur bra de olika näten blev AdaBoost 1 Starta med att alla exempel är lika sannolika 2 Upprepa för i = 1..n: 1 Träna nät i 2 Mät hur ofta nätet gör fel ɛ i 3 β i = ɛi 1 ɛi 4 Minska sannolikheten för alla rätt klassade exempel med faktorn β i 3 Vikta nätens svar med log 1 β i

1 2 3 Statisk sammanvägning Dynamisk sammanvägning Modell av verkligheten Data kan höra till flera olika kategorier Varje kategori har data med en enkel fördelning Olika kategorier förekommer med olika sannolikhet Enkelt Mixture-of-Experts nät Expertnäten Enlagers linjära enheter y k = w T k x Idé: nätverken ska vara experter för var sin kategori grindnätet väljer vilken expert som har rätt Grindnätet Viktande enligt SoftMax y = k y k φ( a k T x) där φ(u k) = eu k i eu i Gradientföljning Träning av ett Mixtures-of-Experts nät Gradientföljning Maximera Log-Likelihood för observerade data Funktion av nätens vikter Experternas vikter justeras i proportion till hur mycket grindnätet tror på experten Grindnätets vikter uppdateras så att det bättre svarar mot hur väl experterna beskrev träningsdata

Betrakta kategorierna som icke observerbara variabler Upprepa 1 Skatta sannolikheten för olika kategorier för varje mönster 2 Uppdatera parametrarna för kategorin så att de stämmer med skattningen E-steget Räkna ut sannolikheten för att ett mönster x hör till kategorin u givet parametrarna ˆΘ P(u x, ˆΘ) M-steget Beräkna nya parametrar Θ som maximerar förväntad likelihood Θ = argmax Θ P(u x, ˆΘ) log P(x, u Θ) u Klassiskt EM-problem Mix av två normalfördelningar Bestäm centrum för båda fördelningarna < µ 1, µ 2 > Q i,j = P(u i x j, < µ 1, µ 2 >) = e (x j µ i ) 2 /2σ 2 k e (x j µ k ) 2 /2σ 2 µ i = 1 m m Q i,j x j j=1