Ulf Grandin, IMA. Multivariate Sortera dessa figurer! en översikt. Håkan Fridén - IVL Ulf Grandin - SLU. ta Metoder

Relevanta dokument
Multivariat statistik inom miljöövervakning. En introduktion

Konsumentprisets fördelning

Nätkostnader ur ett internationellt perspektiv. Sweco för Villaägarna,

Elkundernas fördelning per avtalstyp jan -03 jan %

Elkundernas fördelning per avtalstyp

Elkundernas fördelning per avtalstyp

Elkundernas fördelning per avtalstyp

Elkundernas fördelning per avtalstyp

Elkundernas fördelning per avtalstyp jan -03 jan -02

Aktuellt från SUHF Karin Röding Statssekreterare. Utbildningsdepartementet

Elkundernas fördelning per avtalstyp

Elkundernas fördelning per avtalstyp

Vuxen- vaccinations- program. Malin Bengnér Smittskyddsläkare Region Jönköpings län

Att lära av Pisa-undersökningen

Lön, lönekostnad och arbetskraftskostnader i olika länder för arbetare inom tillverkningsindutrin år

Vad händer om vi sätter människors lycka och välbefinnande först när vi bidrar till att forma framtidens samhälle?

Mötesplats Open Access april 2007

PTS främjar konkurrensen på bredbandsområdet.

SVCA:s årsrapport 2013

a-kassan MYTER, FAKTA OCH FÖRSLAG

Vård och omsorg på dina villkor! Vårdkvalitet i samverkan. Gösta Bucht, professor emeritus i Geriatrik Talesperson för vård och omsorg, SPF

Allt som krävs för en ren, säker och effektiv fordonsverkstad

Gröna korridorer. IVA 15 november Björn Widell

FRAMTIDEN BÖRJAR I SKOLAN. Håkan Bergman

Förutsättningar för framtidens äldreomsorg - krav, utmaningar och möjligheter Mårten Lagergren

Utträdesåldern från arbetslivet. ett internationellt perspektiv

Mobilitet inom Erasmus+ Erasmusansvarigmöte

SVENSK STANDARD SS-EN ISO /A1:2016

Termoventiler 4H_SE.indd H-SERIEN

FRAMTIDA SKATTER PÅ FÖRNYBARA DRIVMEDEL

Satsa på infrastrukturen en lösning på många utmaningar

scales - översikt Mikael Exempel Testdatum: Rapport framtagen: Online Assessment Online Assessment

Ditt antibiotikaavtryck. Jenny Lundström, VMD Almedalen 2014

SMÅFÖRETAGEN. ÄR Större ÄN DU TROR I. utrikeshandeln

Det ekonomiska läget i Europa - Maj Jan Bergstrand

ECAD Sverige, Gävle 18 september 2012

Orsaker till och effekter av arbetstidsförlängning

Erfarenheter och effekter av venture capital. Anders Isaksson

Delårsinformation HL Display-koncernen januari - juni 2012

Utmaningar och vägval för det svenska elsystemet

Energi- och klimatpolitiken i EU

Åsa Löfström docent em.

Viktoriadagen maj Strama Uppsala län

Flexicurity en myt? Lars Calmfors 17/1-07 Arbetsmarknadsdepartementet

Offentliga pengar till teknikutveckling (FoU, fouu)?

HbA1c och en uppdatering från EurA1c-studien. Gunnar Nordin. Equalis proteinanvändarmöte

Arbetsmarknadsläget 2018

Bygga linjära modeller! Didrik Vanhoenacker 2007

Manuell spänning och förslutning Pneumatisk spänning och förslutning

Sveriges internationella forskningssamarbeten hur bör de utvecklas? Hans Pohl

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

Magnus Angermund Board Member FTTH Council Europe

Gängtappar för underhåll, reparationer och renovering. Nyheter

SS-ISO Hållbar Upphandling - Vägledning. En översikt av standarden GreenS

Arbetstidsförlängning en ny trend?

Aktuellt om jordbrukspolitiken (CAP) i Sverige för tillitsvalgte i Akershus och Østfold bondelag. November 2015

Europeiska unionens officiella tidning L 59/1 FÖRORDNINGAR

Karin Hjorth Rybbe Europaprogrammen. Västsverige en stark kunskapsbaserad ekonomi 29 maj 2006

Bioenergiklustret i Västnyland

Biobränslenas roll i Sverige och Europa

Vad handlar eurokrisen om?

Sveriges bytesbalansöverskott. Martin Flodén Handelshögskolan i Stockholm 7 februari, 2006

SVENSK STANDARD SS-EN ISO

Drogvaneundersökning Social utveckling Ulla Kungur

FÖRBÄTTRAR FINANSPOLITISKA RÅD FINANSPOLITIKEN? Ekonomiska Samfundet i Finland. John Hassler februari 2014

SVENSK STANDARD SS-EN ISO 5555/A1:2014

Vad man bör tänka på innan man börjar analysera sina data SLU

SVENSK STANDARD SS-EN ISO

Made in Sweden?

FÖRBÄTTRAR FINANSPOLITISKA RÅD FINANSPOLITIKEN? John Hassler Mars 2015

SVENSK STANDARD SS-EN ISO

INVESTERINGAR I LÄRARYRKETS ATTRAKTIVITET STEFAN LÖFVEN, MAGDALENA ANDERSSON, IBRAHIM BAYLAN 18 AUGUSTI 2014

Statistik , Stansens PC-klass ASA-huset. Schema: mån ti ons to fre

SIFO Radioundersökningar. Rapport II 2007

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN

Svensk sjukvård genom europeiska glasögon några reformtips. Johan Hjertqvist VD, Health Consumer Powerhouse Global Utmaning den 27 oktober 2015

SVENSK STANDARD SS-EN ISO

SVENSK STANDARD SS-EN ISO 7291:2010/A1:2015

SVENSK STANDARD SS- EN ISO :2015/A1:2017

Interkulturell kommunikation och ledarskap. Att leda framgångsrikt i en mångkulturell/internationell miljö

Besvärligt men inte hopplöst - ungdomsarbetslösheten och krisen

Pressfrukost Avstamp avtalsrörelsen 2016

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Erasmus+ Regelverk Jari Rusanen

Sms:a utan gränser kommissionen vill sätta stopp för orimliga roamingavgifter för textmeddelanden utomlands

HD WIRELESS N OUTDOOR CLOUD CAMERA DCS-2330L INSTALLATIONSGUIDE

Exportsuccé, innovativ och hållbar 10 fakta om MÖBELNATIONEN SVERIGE

Använd dig av fördelarna i Norgrens unika On-line tjänster!

Betänkandet SOU 2012:75 Pris, tillgång och service fortsatt utveckling av läkemedels- och apoteksmarknaden

SIFO Radioundersökningar Rapport II 2008

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Regeringens klimat- och energisatsningar

Satsningar på forskning och utveckling i ett globalt perspektiv

PIAAC. Programme for the International Assessment of Adult Competencies. En internationell undersökning av vuxnas kunskaper och färdigheter

SVENSK STANDARD SS-EN ISO 9876

Aktuella Solvens 2-frågor

Transkript:

Multivariat ta Metoder en översikt Håkan Fridén - IVL Ulf Grandin - SLU Multivariate methods Sortera dessa figurer! a e h b c f i d g

Multivariate methods Bästa sorteringen är i två dimensioner Andel rött Redness 7 3 Degree of circularity Rundhet Multivariate methods Kvantifieraa figurerna Figure Redn ess Roun dnes s 5 3 4 5 5 5 5 6 5 7 8 5 9 4

Multivariate methods Multivariat analys på samma figurer.5 PC CA-axel.5 -.5 - -.5 -.5 - -.5.5.5 PCA-axel 5 Multivariate methods Sortera dessa figurer! 37 4 4 9 56 4 34 8 4 3 9 63 5 36 3 5 8 57 6 7 6 89 59 6 3 45 47 33 44 5 6 8 9 4 6 96 46 68 3 3 55 98 6 85 7 67 69 3 7 66 5 7 7 48 99 9 9 88 94 38 7 77 78 79 8 8 4 53 65 5 64 87 35 84 54 9 86 97 95 8 43 5 49 76 58 93 75 73 39 74 83 8

Multivariate methods Kvantifiera det som beskriver figurerna! Figure Lines Corners Circular Fill Red Yellow Blue 4 4 4 4 9 8 3 4 4 8 6 4 4 4 4 7 4 6 5 4 4 6 8 6 4 4 5 7 4 4 4 8 8 4 4 3 6 4 9 4 4 4 6 4 4 8 5 5 9 8 3 5 8 6 4 4 5 7 4 6 Multivariate methods Resultat från en multivariat analys 879 39 788 777 766 755 744 733 7 7.5 Circularity AX.5 769 9688677 666 655 644 633 6 6 Blue Yellow Fylled Red -.5 6 45958 99 5 83938 57 8988 74948 379998 87 5647 6 36 97 86 46 96 555 35 85 45 95 544 34 84 44 94 533 33 83 43 93 5 3 8 4 9 5 3 8 4 9 Lines Corers - - -.5.5.5 AX

3 5 3 7 4 Sortera dessa provytor! Multivariate methods 6 Multivariate methods Kvantifiera det som beskriver provytorna Species Site Site Site 3 Site 4 Site 5 Site 6 Site 7 Blueberries 5 Lingon berries Sheep's fescue Moss Moss Moss 3 Moss 4

Multivariate methods Resultat från en multivariat analys Ordinatio on axis.5.5 -.5 - -.5 -.5-7 5 4 6 3 -.5.5.5 Ordination axis 4 4 klasser av metoder. För att beskriva strukturen i ett enstaka dataset. För att förklara strukturer i ett dataset med hjälp av ett annat dataset 3. För att beskriva strukturen i ett enstaka dataset, efter att tagit bort variationen orsakad av ett annat dataset (co-faktorer) 4. För att förklara strukturer i ett dataset med ett annat dataset, efter att ta bort variationen orsakad av ett tredje dataset

Multivariata metoder Multivariat dataanalys omfattar i allmänhet samtidig analys av flera variabler än bara några få. Grundtanken är att ju fler variabler vi har med desto bättre kan vi beskriva den situation vi vill studera. Världen är multivariat! Utmaningen är att hantera de korrelationer och samspelseffekter som ofta finns mellan variablerna. Vi har två metodgrupper Beskrivande analys (BA) Relationsanalys (RA) Beskrivande analys (BA) Översikt, sortering och klassificering Beskrivande analys syftar till att visa strukturen i våra data, både inom observationerna och variablerna, men också dem emellan (Bara X-variabler) Utan kända klasser PCA Principalkomponentanalys CA Korrespondensanalys (+ kanonisk CA) KA - Klusteranalys Med kända klasser KNN K närmaste grannar ANOVA - Variansanalys SIMCA (anv PCA), PLS-DA Fridén Infotech AB

BA PCA, principalkomponentanalys Arbetshästen vid multivariatt dataanalys Finner dominanta strukturerr i data Separerar struktur från brus Avvikare syns lätt Klarar bortfall i data (dock inte alla algoritmer) Lämplig för översikt, sortering och klassificering Fridén Infotech AB Exempel PCA - Arbetslöshet Data: Arbetslöshet i % inom olika sektorer för länder i Europa (3 grupper: EEC, ickeeecväst, ickeeecöst). AGR MIN MAN PS CON SER FIN SPS TC Group Belgium 3.3.9 7.6.9 8. 9. Denmark 9...8.6 8.3 4.6 3 France.8.8 7.5.9 8.9 6.8 4 W_Germany 6.7.3 35.8.9 7.3 4.4 5 Ireland 3...7.3 7.5 6.8 6 Italy 5.9.6 7.6.5. 8. 7 Luxembourg 7.7 3. 3.8.8 9. 8.5 8 Netherlands 6.3..5. 9.9 8. 9 UK.7.4 3..4 6.9 6.9 Austria.7. 3..4 9. 6.8 Finland 3..4 5.9.3 7.4 4.7 Greece 4.4.6 7.6.6 8..5 3 Norway 9..5.4.8 8.6 6.9 4 Portugal 7.8.3 4.5.6 8.4 3.3 5 Spain.9.8 8.5.7.5 9.7 6 Sweden 6..4 5.9.8 7. 4.4 7 Switzerland 7.7. 37.8.8 9.5 7.5 8 Turkey 66.8.7 7.9..8 5. 9 Bulgaria 3.6.9 3.3.6 7.9 8. Czechoslovakia 6.5.9 35.5. 8.7 9. E_Germany 4..9 4..3 7.6. Hungary.7 3. 9.6.9 8. 9.4 3 Poland 3..5 5.7.9 8.4 7.5 4 Romania 34.7. 3..6 8.7 5.9 5 USSR 3.7.4 5.8.6 9. 6. 6 Yugoslavia 48.7.5 6.8. 4.9 6.4 6. 6.6 7. 6.5 3. 7. 6..6 5.7 5..3 6..8.8 6..6. 5.7 4.6 9. 6. 6.8 8.5 6.8 5.7 8.3 6.4 4.9 6.8 7. 5.5 4.3 7.6.4. 6.7 4.7 7.6 9.4.7 6.7 5.7 8.5.8 5.5 6. 3.4 6.8 5.3 5.4 5.7..9 3..7 8. 6.7 3.9 7.9 7. 3.. 8.4 3.9 7. 8. 3.9 6. 6.9 3.3.7 5. 3.5 3.6 9.3 3.3 5.3 4. 3

Exempel PCA - Arbetslöshet Med komponenter förklaras 6% av variationen i data Unemploy.M (PCA-X), Overview Series (Settings for Group) t[comp. ]/t[comp. ] Missing Colored according to values in variable Unemploy(Group) 3 Unemploy.M (PCA-X), Overview p[comp. ]/p[comp. ] Colored according to model terms t[] 4 3 - - E_Germany Hungary Czechoslov Poland Bulgaria Romania USSR Luxembourg Austria W_Germany UK Ireland Greece Sw Finland itzerlan Italy Spain Portugal Belgium Norw ay France Sw eden Netherland Denmark Yugoslavia Turkey p[].5.4.3.. -. -. -. -3-4 -5-4 -3 - - 3 4 5 6 t[] RX[] =.38746 RX[] =.36686 Ellipse: Hotelling T (.95) SIMCA-P+.5 - -6-4 4:6:39.6 MAN TC CON SPS PS MIN AGR -.3 -.4 -.5 SER FIN -.4 -.3 -. -. -....3.4.5 p[] RX[] =.38746 RX[] =.36686 SIMCA-P+.5 - -6-4 4:7:9 Exempel PCA - Arbetslöshet Man kan också se på observationer och variabler i samma bild Unemploy.M (PCA-X), Overview p(corr)[comp p. ]/p(corr)[comp. ] p(corr)[] (X) t(corr)[]..8 MIN.6.4. -. -. -.4 -.6 MAN PS TC CON SPS SER Hungary E_Germany Czechoslov Poland Bulgaria Romania USSR Luxembourg Austria W_Germany UK Ireland Greece Sw Finland itzerlan Italy Spain Portugal Belgium NorwFrance ay Sw eden Netherland Denmark FIN Yugoslavia AGR Turkey -.8 -. -. -.8 -.6 -.4 -. -...4.6.8. p( (corr)[], t(corr)[] SIMCA-P+.5 - -6-4 4:34:4

Exempel PCA - Arbetslöshet Resultaten kan också visas i 3D: Unemploy.htm Exempel PCA - Arbetslöshet Även den omodellerade variationen (residualen) kan visualiseras Unemploy.M (PCA-X), Overview DModX[Comp. ](Normalized).8.6 D-Crit(.5).4 DModX[](Norm)...8.6.4.. Belgium Denmark France W_Germany Ireland Italy Luxembourg Netherland UK Austria Finland Greece Norway Portugal Spain Sweden Switzerlan Turkey Bulgaria Czechoslov E_Germany Hungary Poland Romania USSR Yugoslavia Obs ID (Primary) M-D-Crit[] =.79 - RX(cum)[] =.3759 SIMCA-P+.5 - -6-4 6:3:

BA Korrespondensanalys (CA) Kusin till PCA Användningsområden pa arallella med PCA Används då beskrivningsvariablerna har en klockformad fördelning (d.v.s. djur och växter) PCA baseras på linjär fördelning (t.ex. vattenkemi) PCA Exempel - Korrespondensanalys Används för att studera växt och djursamhällen. Kan råka ut för en matematisk artefakt; avhjälps med Detrended correspondencee analysis, DCA Finns som hypotestestande variant Canonical correspondece analysis, CCA. Ett förklaringsdataset inkluderas i analyserna. Provytor Växter Miljöfaktorer

BA - Klusteranalys Grupperar observationerna enligt likhet Ingen unik primär lösning pga många uppdelningsmetoder och många likhetskriterier Resultatet presenteras ofta i ett dendrogram (träddiagram) Exempel Klusteranalys (okända klasser) Data: Arbetslöshet i Europa

BA klassificering - SIMCA Bygger på separate PCA-modeller för varje klass Nya observationer klassas till den klass som den passar Metoden upptäcker observationer som inte passar till någon klass! Beskrivande analys Sammanfattning PCA är den rekommenderade metoden: Den är robust och väl lämpad för att Visualisera data Finna grupperingar Upptäcka avvikare Klassificera nya observationer Bra grafisk diagnostik och presentation CA (correspondence analysis) är att rekommendera vid Klockformad respons hos beskrivningsvariablerna Klusteranalys: För att objektivt dela in ett material i grupper.

Relationsanalys (RA) Samband och prediktioner (X- och Y- variabler) relationsanalys syftar till att beskriva relationen mellan två grupper av variabler. Ofta kallar vi den ena gruppen för förklaringsvariabler och den andra för beroendevariabler. Vi vill vet hur förklaringsvariab blerna kan användas för att beskriva och prediktera beroendevariablerna Med ursprungsvariabler MLR, SMLR Med latenta variabler / underrumsmetoder PLS, MANOVA? (ANN) RA MLR och SMLR (ursprungsvariabler) MLR - multipel linjär regression Den mest felanvända metoden Fungerar dåligt med korrelerade variabler Hanterar inte bortfall Klarar bara en Y-variabel per modell Antar att X är exakt och % relevant SMLR stegvis MLR Väljer en delmängd av X-variablerna beroende på deras modelleringsförmåga Stor risk för övermodellering Urvalet och resultaten är mycket data- och brusberoende det finns väldigt många sätt att välja X-variabler i stora dataset

RA PLS (latenta variabler) Maximerar kovariansen mellan Y och Y Korrelerade variabler ger stabilare modell Finner samband i närvaro av både brus och bortfall Klarar flera Y i samma modell Intern validering reducerar risken för övermodellering Grafisk presentation för diagnostik och prediktion Upptäcker avvikare inför prediktioner för nya observationer Olinjäritet mellan X och Y fångas med transformationer och/eller tillägg av högre ordningens termer av X (ex: x 3, X *x 5, X *x 7 ) Kan också användas för identifiering av tidsseriemodeller typ AR, MA och ARMA med tillägg av tidsförsk kjutna X- och/eller Y-variabler på X- sidan Exempel PLS - Krondroppsdata Data: X tid, plats, nederbörd, Y analyser av olika föroreningar i krondropp M3.DS M3 Variable(SO4-Sex) Colored according to Obs ID (Blåbärskullen ÖF) AK BF BK TK M3.M (PLS), Time Nederb Site as X RVY[4](cum) QVY[4](cum) AK9/93.9 AK9/9.8 9.7 8 AK93/94 AK9/9.6 SO4-Sex 7 6 5 4 3 AK95/96 AK97/98 AK98/99 AK/AK96/97 BF/ BF98/99 BF6/7 BF5/6 BF99/ BF97/98 BF96/97 AK5/6 AK/3 AK/ BF4/5 BF3/4 BF/ BF/3 AK4/5 AK3/4 AK99/ BF7/8 AK6/7 AK7/8 AK94/95 BF7/8 BF6/7 BF5/6 BF4/5 BF3/4 BF/3 BF/ BF/ BF99/ BF98/99 BF97/98 BF96/97 AK7/8 AK6/7 AK5/6 AK4/5 AK3/4 AK/3 AK/ AK/ AK99/ AK98/99 AK97/98 AK96/97 AK95/96 AK94/95 AK93/94 AK9/93 AK9/9 AK9/9 BK7/8 BK6/7 BK5/6 BK4/5 BK3/4 BK/3 BK/ BK/ BK99/ BK98/99 BK97/98 BK96/97 TK7/8 TK6/7 TK5/6 TK4/5 TK3/4 TK/3 TK/ TK/ TK99/ TK98/99 TK97/98 TK96/97 Obs ID (Primary) BK5/6 BK/ BK99/ BK98/99 BK96/97 BK/3 BK/BK97/98 BK4/5 BK3/4 BK7/8 BK6/7 TK5/6 TK/ TK98/99 TK96/97 TK6/7 TK4/5 TK/3 TK/ TK97/98 TK99/ TK7/8 TK3/4 SIMCA-P+.5 - -4-6 6:46:.5.4.3... H+ SO4-S SO4-Sex Cl- NO3-N NH4-N Ca+ Mg+ Na+ K+ Mn+ oorgn Var ID (Primary) SIMCA-P+.5 - -4-6 8:54: M3.M (PLS), Time Nederb Site as X CoeffCS[Last comp.](so4-s) 4 M3.M (PLS), Time Nederb Site as X YPred[Last comp.](so4-s)/yvar(so4-s) Colored according to Obs ID (Primary) AK9/93 AK9/9 AK BF BK TK CoeffCS[4](S SO4-S).6.4. -. -. -.4 -.6 Site(AK) Site(BF) Site(BK) Site(TK) Yr Nedb Var ID (Primary) SIMCA-P+.5 - -6-4 6:5:35 Yr*Yr Y V a r ( S O 4 - S ) 8 6 4 AK98/99 AK97/98 AK95/96 AK96/97 AK/ BF98/99 BK/ BF/ AK/ BK5/6 BK99/ BF6/7 BF99/ AK5/6 BF97/98 AK99/ BF5/6 AK3/4 AK4/5 AK/3 AK6/7 BF3/4 BF4/5 BF/3 BF/ BK98/99 BK96/97 BF96/97 BK4/5 BK/3 BK/ BK97/98 BK3/4 BK6/7 BK7/8 BF7/8 TK5/6 AK7/8 TK/ TK98/99 TK96/97 TK4/5 TK/3 TK/ TK6/7 TK99/ TK97/98 TK3/4 TK7/8 AK93/94 AK94/95 AK9/9 3 4 5 6 7 8 9 3 4 YPred[4](SO4-S) RMSEE =.8475 SIMCA-P+.5 - -4-6 8:5:34

Relationsanalys - sammanfattning PLS passar i de flesta fallen PLS är överlägset MLR, och SMLR när det finns många och korrelerade X-variabler PLS har bättre grafiska diagnostiska möjligheter än de andra metoderna Stegvis regression är inte alls rekommendabelt