Ulf Grandin, IMA. Multivariate Sortera dessa figurer! en översikt. Håkan Fridén - IVL Ulf Grandin - SLU. ta Metoder

Multivariat ta Metoder en översikt Håkan Fridén - IVL Ulf Grandin - SLU Multivariate methods Sortera dessa figurer! a e h b c f i d g

Multivariate methods Bästa sorteringen är i två dimensioner Andel rött Redness 7 3 Degree of circularity Rundhet Multivariate methods Kvantifieraa figurerna Figure Redn ess Roun dnes s 5 3 4 5 5 5 5 6 5 7 8 5 9 4

Multivariate methods Multivariat analys på samma figurer.5 PC CA-axel.5 -.5 - -.5 -.5 - -.5.5.5 PCA-axel 5 Multivariate methods Sortera dessa figurer! 37 4 4 9 56 4 34 8 4 3 9 63 5 36 3 5 8 57 6 7 6 89 59 6 3 45 47 33 44 5 6 8 9 4 6 96 46 68 3 3 55 98 6 85 7 67 69 3 7 66 5 7 7 48 99 9 9 88 94 38 7 77 78 79 8 8 4 53 65 5 64 87 35 84 54 9 86 97 95 8 43 5 49 76 58 93 75 73 39 74 83 8

Multivariate methods Kvantifiera det som beskriver figurerna! Figure Lines Corners Circular Fill Red Yellow Blue 4 4 4 4 9 8 3 4 4 8 6 4 4 4 4 7 4 6 5 4 4 6 8 6 4 4 5 7 4 4 4 8 8 4 4 3 6 4 9 4 4 4 6 4 4 8 5 5 9 8 3 5 8 6 4 4 5 7 4 6 Multivariate methods Resultat från en multivariat analys 879 39 788 777 766 755 744 733 7 7.5 Circularity AX.5 769 9688677 666 655 644 633 6 6 Blue Yellow Fylled Red -.5 6 45958 99 5 83938 57 8988 74948 379998 87 5647 6 36 97 86 46 96 555 35 85 45 95 544 34 84 44 94 533 33 83 43 93 5 3 8 4 9 5 3 8 4 9 Lines Corers - - -.5.5.5 AX

3 5 3 7 4 Sortera dessa provytor! Multivariate methods 6 Multivariate methods Kvantifiera det som beskriver provytorna Species Site Site Site 3 Site 4 Site 5 Site 6 Site 7 Blueberries 5 Lingon berries Sheep's fescue Moss Moss Moss 3 Moss 4

Multivariate methods Resultat från en multivariat analys Ordinatio on axis.5.5 -.5 - -.5 -.5-7 5 4 6 3 -.5.5.5 Ordination axis 4 4 klasser av metoder. För att beskriva strukturen i ett enstaka dataset. För att förklara strukturer i ett dataset med hjälp av ett annat dataset 3. För att beskriva strukturen i ett enstaka dataset, efter att tagit bort variationen orsakad av ett annat dataset (co-faktorer) 4. För att förklara strukturer i ett dataset med ett annat dataset, efter att ta bort variationen orsakad av ett tredje dataset

Multivariata metoder Multivariat dataanalys omfattar i allmänhet samtidig analys av flera variabler än bara några få. Grundtanken är att ju fler variabler vi har med desto bättre kan vi beskriva den situation vi vill studera. Världen är multivariat! Utmaningen är att hantera de korrelationer och samspelseffekter som ofta finns mellan variablerna. Vi har två metodgrupper Beskrivande analys (BA) Relationsanalys (RA) Beskrivande analys (BA) Översikt, sortering och klassificering Beskrivande analys syftar till att visa strukturen i våra data, både inom observationerna och variablerna, men också dem emellan (Bara X-variabler) Utan kända klasser PCA Principalkomponentanalys CA Korrespondensanalys (+ kanonisk CA) KA - Klusteranalys Med kända klasser KNN K närmaste grannar ANOVA - Variansanalys SIMCA (anv PCA), PLS-DA Fridén Infotech AB

BA PCA, principalkomponentanalys Arbetshästen vid multivariatt dataanalys Finner dominanta strukturerr i data Separerar struktur från brus Avvikare syns lätt Klarar bortfall i data (dock inte alla algoritmer) Lämplig för översikt, sortering och klassificering Fridén Infotech AB Exempel PCA - Arbetslöshet Data: Arbetslöshet i % inom olika sektorer för länder i Europa (3 grupper: EEC, ickeeecväst, ickeeecöst). AGR MIN MAN PS CON SER FIN SPS TC Group Belgium 3.3.9 7.6.9 8. 9. Denmark 9...8.6 8.3 4.6 3 France.8.8 7.5.9 8.9 6.8 4 W_Germany 6.7.3 35.8.9 7.3 4.4 5 Ireland 3...7.3 7.5 6.8 6 Italy 5.9.6 7.6.5. 8. 7 Luxembourg 7.7 3. 3.8.8 9. 8.5 8 Netherlands 6.3..5. 9.9 8. 9 UK.7.4 3..4 6.9 6.9 Austria.7. 3..4 9. 6.8 Finland 3..4 5.9.3 7.4 4.7 Greece 4.4.6 7.6.6 8..5 3 Norway 9..5.4.8 8.6 6.9 4 Portugal 7.8.3 4.5.6 8.4 3.3 5 Spain.9.8 8.5.7.5 9.7 6 Sweden 6..4 5.9.8 7. 4.4 7 Switzerland 7.7. 37.8.8 9.5 7.5 8 Turkey 66.8.7 7.9..8 5. 9 Bulgaria 3.6.9 3.3.6 7.9 8. Czechoslovakia 6.5.9 35.5. 8.7 9. E_Germany 4..9 4..3 7.6. Hungary.7 3. 9.6.9 8. 9.4 3 Poland 3..5 5.7.9 8.4 7.5 4 Romania 34.7. 3..6 8.7 5.9 5 USSR 3.7.4 5.8.6 9. 6. 6 Yugoslavia 48.7.5 6.8. 4.9 6.4 6. 6.6 7. 6.5 3. 7. 6..6 5.7 5..3 6..8.8 6..6. 5.7 4.6 9. 6. 6.8 8.5 6.8 5.7 8.3 6.4 4.9 6.8 7. 5.5 4.3 7.6.4. 6.7 4.7 7.6 9.4.7 6.7 5.7 8.5.8 5.5 6. 3.4 6.8 5.3 5.4 5.7..9 3..7 8. 6.7 3.9 7.9 7. 3.. 8.4 3.9 7. 8. 3.9 6. 6.9 3.3.7 5. 3.5 3.6 9.3 3.3 5.3 4. 3

Exempel PCA - Arbetslöshet Med komponenter förklaras 6% av variationen i data Unemploy.M (PCA-X), Overview Series (Settings for Group) t[comp. ]/t[comp. ] Missing Colored according to values in variable Unemploy(Group) 3 Unemploy.M (PCA-X), Overview p[comp. ]/p[comp. ] Colored according to model terms t[] 4 3 - - E_Germany Hungary Czechoslov Poland Bulgaria Romania USSR Luxembourg Austria W_Germany UK Ireland Greece Sw Finland itzerlan Italy Spain Portugal Belgium Norw ay France Sw eden Netherland Denmark Yugoslavia Turkey p[].5.4.3.. -. -. -. -3-4 -5-4 -3 - - 3 4 5 6 t[] RX[] =.38746 RX[] =.36686 Ellipse: Hotelling T (.95) SIMCA-P+.5 - -6-4 4:6:39.6 MAN TC CON SPS PS MIN AGR -.3 -.4 -.5 SER FIN -.4 -.3 -. -. -....3.4.5 p[] RX[] =.38746 RX[] =.36686 SIMCA-P+.5 - -6-4 4:7:9 Exempel PCA - Arbetslöshet Man kan också se på observationer och variabler i samma bild Unemploy.M (PCA-X), Overview p(corr)[comp p. ]/p(corr)[comp. ] p(corr)[] (X) t(corr)[]..8 MIN.6.4. -. -. -.4 -.6 MAN PS TC CON SPS SER Hungary E_Germany Czechoslov Poland Bulgaria Romania USSR Luxembourg Austria W_Germany UK Ireland Greece Sw Finland itzerlan Italy Spain Portugal Belgium NorwFrance ay Sw eden Netherland Denmark FIN Yugoslavia AGR Turkey -.8 -. -. -.8 -.6 -.4 -. -...4.6.8. p( (corr)[], t(corr)[] SIMCA-P+.5 - -6-4 4:34:4

Exempel PCA - Arbetslöshet Resultaten kan också visas i 3D: Unemploy.htm Exempel PCA - Arbetslöshet Även den omodellerade variationen (residualen) kan visualiseras Unemploy.M (PCA-X), Overview DModX[Comp. ](Normalized).8.6 D-Crit(.5).4 DModX[](Norm)...8.6.4.. Belgium Denmark France W_Germany Ireland Italy Luxembourg Netherland UK Austria Finland Greece Norway Portugal Spain Sweden Switzerlan Turkey Bulgaria Czechoslov E_Germany Hungary Poland Romania USSR Yugoslavia Obs ID (Primary) M-D-Crit[] =.79 - RX(cum)[] =.3759 SIMCA-P+.5 - -6-4 6:3:

BA Korrespondensanalys (CA) Kusin till PCA Användningsområden pa arallella med PCA Används då beskrivningsvariablerna har en klockformad fördelning (d.v.s. djur och växter) PCA baseras på linjär fördelning (t.ex. vattenkemi) PCA Exempel - Korrespondensanalys Används för att studera växt och djursamhällen. Kan råka ut för en matematisk artefakt; avhjälps med Detrended correspondencee analysis, DCA Finns som hypotestestande variant Canonical correspondece analysis, CCA. Ett förklaringsdataset inkluderas i analyserna. Provytor Växter Miljöfaktorer

BA - Klusteranalys Grupperar observationerna enligt likhet Ingen unik primär lösning pga många uppdelningsmetoder och många likhetskriterier Resultatet presenteras ofta i ett dendrogram (träddiagram) Exempel Klusteranalys (okända klasser) Data: Arbetslöshet i Europa

BA klassificering - SIMCA Bygger på separate PCA-modeller för varje klass Nya observationer klassas till den klass som den passar Metoden upptäcker observationer som inte passar till någon klass! Beskrivande analys Sammanfattning PCA är den rekommenderade metoden: Den är robust och väl lämpad för att Visualisera data Finna grupperingar Upptäcka avvikare Klassificera nya observationer Bra grafisk diagnostik och presentation CA (correspondence analysis) är att rekommendera vid Klockformad respons hos beskrivningsvariablerna Klusteranalys: För att objektivt dela in ett material i grupper.

Relationsanalys (RA) Samband och prediktioner (X- och Y- variabler) relationsanalys syftar till att beskriva relationen mellan två grupper av variabler. Ofta kallar vi den ena gruppen för förklaringsvariabler och den andra för beroendevariabler. Vi vill vet hur förklaringsvariab blerna kan användas för att beskriva och prediktera beroendevariablerna Med ursprungsvariabler MLR, SMLR Med latenta variabler / underrumsmetoder PLS, MANOVA? (ANN) RA MLR och SMLR (ursprungsvariabler) MLR - multipel linjär regression Den mest felanvända metoden Fungerar dåligt med korrelerade variabler Hanterar inte bortfall Klarar bara en Y-variabel per modell Antar att X är exakt och % relevant SMLR stegvis MLR Väljer en delmängd av X-variablerna beroende på deras modelleringsförmåga Stor risk för övermodellering Urvalet och resultaten är mycket data- och brusberoende det finns väldigt många sätt att välja X-variabler i stora dataset

RA PLS (latenta variabler) Maximerar kovariansen mellan Y och Y Korrelerade variabler ger stabilare modell Finner samband i närvaro av både brus och bortfall Klarar flera Y i samma modell Intern validering reducerar risken för övermodellering Grafisk presentation för diagnostik och prediktion Upptäcker avvikare inför prediktioner för nya observationer Olinjäritet mellan X och Y fångas med transformationer och/eller tillägg av högre ordningens termer av X (ex: x 3, X *x 5, X *x 7 ) Kan också användas för identifiering av tidsseriemodeller typ AR, MA och ARMA med tillägg av tidsförsk kjutna X- och/eller Y-variabler på X- sidan Exempel PLS - Krondroppsdata Data: X tid, plats, nederbörd, Y analyser av olika föroreningar i krondropp M3.DS M3 Variable(SO4-Sex) Colored according to Obs ID (Blåbärskullen ÖF) AK BF BK TK M3.M (PLS), Time Nederb Site as X RVY[4](cum) QVY[4](cum) AK9/93.9 AK9/9.8 9.7 8 AK93/94 AK9/9.6 SO4-Sex 7 6 5 4 3 AK95/96 AK97/98 AK98/99 AK/AK96/97 BF/ BF98/99 BF6/7 BF5/6 BF99/ BF97/98 BF96/97 AK5/6 AK/3 AK/ BF4/5 BF3/4 BF/ BF/3 AK4/5 AK3/4 AK99/ BF7/8 AK6/7 AK7/8 AK94/95 BF7/8 BF6/7 BF5/6 BF4/5 BF3/4 BF/3 BF/ BF/ BF99/ BF98/99 BF97/98 BF96/97 AK7/8 AK6/7 AK5/6 AK4/5 AK3/4 AK/3 AK/ AK/ AK99/ AK98/99 AK97/98 AK96/97 AK95/96 AK94/95 AK93/94 AK9/93 AK9/9 AK9/9 BK7/8 BK6/7 BK5/6 BK4/5 BK3/4 BK/3 BK/ BK/ BK99/ BK98/99 BK97/98 BK96/97 TK7/8 TK6/7 TK5/6 TK4/5 TK3/4 TK/3 TK/ TK/ TK99/ TK98/99 TK97/98 TK96/97 Obs ID (Primary) BK5/6 BK/ BK99/ BK98/99 BK96/97 BK/3 BK/BK97/98 BK4/5 BK3/4 BK7/8 BK6/7 TK5/6 TK/ TK98/99 TK96/97 TK6/7 TK4/5 TK/3 TK/ TK97/98 TK99/ TK7/8 TK3/4 SIMCA-P+.5 - -4-6 6:46:.5.4.3... H+ SO4-S SO4-Sex Cl- NO3-N NH4-N Ca+ Mg+ Na+ K+ Mn+ oorgn Var ID (Primary) SIMCA-P+.5 - -4-6 8:54: M3.M (PLS), Time Nederb Site as X CoeffCS[Last comp.](so4-s) 4 M3.M (PLS), Time Nederb Site as X YPred[Last comp.](so4-s)/yvar(so4-s) Colored according to Obs ID (Primary) AK9/93 AK9/9 AK BF BK TK CoeffCS[4](S SO4-S).6.4. -. -. -.4 -.6 Site(AK) Site(BF) Site(BK) Site(TK) Yr Nedb Var ID (Primary) SIMCA-P+.5 - -6-4 6:5:35 Yr*Yr Y V a r ( S O 4 - S ) 8 6 4 AK98/99 AK97/98 AK95/96 AK96/97 AK/ BF98/99 BK/ BF/ AK/ BK5/6 BK99/ BF6/7 BF99/ AK5/6 BF97/98 AK99/ BF5/6 AK3/4 AK4/5 AK/3 AK6/7 BF3/4 BF4/5 BF/3 BF/ BK98/99 BK96/97 BF96/97 BK4/5 BK/3 BK/ BK97/98 BK3/4 BK6/7 BK7/8 BF7/8 TK5/6 AK7/8 TK/ TK98/99 TK96/97 TK4/5 TK/3 TK/ TK6/7 TK99/ TK97/98 TK3/4 TK7/8 AK93/94 AK94/95 AK9/9 3 4 5 6 7 8 9 3 4 YPred[4](SO4-S) RMSEE =.8475 SIMCA-P+.5 - -4-6 8:5:34

Relationsanalys - sammanfattning PLS passar i de flesta fallen PLS är överlägset MLR, och SMLR när det finns många och korrelerade X-variabler PLS har bättre grafiska diagnostiska möjligheter än de andra metoderna Stegvis regression är inte alls rekommendabelt