Vad är faktoranalys? Faktoranalys. Vad är dimensioner? Vad är dimensioner?

Transkript

1 Vad är faktoranalys? Faktoranalys Thomas Ågren Faktoranalys är ett samlingsnamn för dimensionsreducerande statistiska metoder syftande till att åskådliggöra underliggande strukturer i data Vad är dimensioner? Vad är dimensioner? Vi kan beskriva varje punkt i rummet omkring oss med hjälp av tre koordinater: en i x-led, en i y-led och en i z-led y z Datamatris Namn Längd (cm) Vikt (kg) Ålder (år) Pelle Ulla Voldemort Paul Peter Mary Snowden x Antalet dimensioner i en datamatris är samma som antalet variabler vi mäter Vad är dimensionsreduktion? Analogi: Ett fotografi är plant och har bara 2 dimensioner, men det avbildar det 3- dimensionella rummet. I ett foto har vi reducerat 3 dimensioner till 2. Vad menas med dimensioner i dimensionsreduktion av en datamatris? Antalet dimensioner är samma som antalet variabler vi mäter. Om vi ska återge data precist behöver vi en axel per item/variabel. Vi kan reducera antalet dimensioner genom att vikta ihop variablerna så att vi får nya variabler som tar olika mycket hänsyn till de gamla. 1

2 Vikt och längd Vikt och längd Längd r 2 = 0.82 BMI = Body Mass Index Vikt / Längd 2 Längd r 2 = Vikt Vikt Gör ny variabel som består både av vikt och längd. Gör ny variabel som består både av vikt och längd. Faktorer = nya sammanslagna variabler Ett enklare sätt att se på data. Enklare med en variabel än två. Kan vara något verkligt, kanske inte. Är BMI mer existerande än längd eller vikt? Om vi klumpar ihop variabler som inte har något med varandra att göra får vi godtyckliga, meningslösa faktorer. Faktorer Längd Längd Längd Vikt Vikt Vikt Vikt beror av längd Längd beror av vikt A och B beror på C BMI OBS! Vi kan inte säga nåt om kausala samband. Faktorer är inte automatiskt orsaker. BMI? En faktor till många mätvariabler Intelligenstest 1 Intelligenstest 6 Intelligenstest 2 G-faktorn Intelligenstest 5 Intelligenstest 3 Intelligenstest Vad faktoranalys gör I faktoranalys försöker vi slå ihop variabler till faktorer som beskriver data så bra som möjligt. (Obs! Vi reducerar antalet variabler/dimensioner genom att slå ihop flera av våra variabler i dessa faktorer.) Om faktorerna är lätta att tolka har vi lyckats göra data mer överskådligt. (Klassiskt exempel: Big five!) 2

3 Exempel på överskådlighet: djurarters särdrag Ordna observationer i en datamatris Hair Feathers Eggs Milk Airborne Aquatic Predator Toothed Backbone Breathes Venomous Fins Legs Tail Domestic Catsize Hair Feather s Egg Milk Airborn Etc Antelope Bass Bear Vilka underliggande variabler kan vi hitta? PC cavy hamster vampire fruitbat calf goat pony reindeer elephant deer giraffe buffalo antelope vole hare oryx gorilla pussycat girl bear aardvark squirrel wallabymole opossum wolf mongoose boar lynx leopard lion cheetah polecat puma raccoon mink sealion seal platypus dolphin porpoise honeybee moth housefly wasp bass catfish chub piranha herring tuna dogfish pike stingray PC 1 carp gnat ladybird termite flea dove parakeet chicken wren sparrow pheasant lark scorpionflamingo crow hawk vultureworm slug duck ostrich tortoise swan kiwi skimmer skua gull rhea octopus crayfish lobster tuatara toad clam starfish penguin crab frog frog slowworm newt pitviper seasnake sole seahorse haddock seawasp PC 2 Vi kan se olika kluster Däggdjur Sjölevande däggdjur Kräldjur Fiskar Insekter Fåglar Molusker PC 1 Resultat - Visualisering av data Vi hade 16 variabler vilka var för många för att vi skulle kunna åskådliggöra dem. Med hjälp av faktoranalys fick vi fram 2 faktorer och då blev det möjligt att åskådliggöra data grafiskt. Sedan kunde vi notera olika kluster i dessa. Vi har gjort data mer överskådligt. Vilka variabler var viktigast för våra faktorer? Catsize Domestic Tail Legs Fins Venomous Breathes Backbone Toothed Predator Aquatic Airborne Weights in projection vector 1 Milk Eggs Feathers 2 Hair

4 Vilka variabler var viktigast för våra faktorer? Catsize Domestic Tail Legs Fins Venomous Breathes Backbone Weights in projection vector 2 Resultat viktiga komponenter i faktorerna Vi tittade på vikterna i våra 2 faktorer och såg att olika variabler fick olika vikter. I bästa fall innebär det att vi kan sätta en etikett på de faktorerna. Faktor 1 skulle kunna heta Grad av däggdjur möjligen. Toothed 8 Predator Aquatic 6 Airborne Milk Eggs Feathers 2 Hair Hur bra är faktorerna? Faktor = Latent variabel = Komponent Samma sak, olika ord. I vårt exempel med djur-datat ovan så tittade vi på 2 faktorer som vi fick ut av faktoranalysen. Dessa var bra på att göra vårt material överskådligt. Ur ett hänseende kan vi säga att det var dom bästa vi kunde få. Nämligen Faktoranalys väljer ut de faktorer som förklarar mest av variansen i vårt datamaterial. Begreppet förklarad varians Begreppet förklarad varians faktor Vikt faktor Längd Tänk dig att du har två variabler. Hur mycket av den totala spridningen täcker vardera variabel in? Tänk dig att du roterar koordinatsystemet. Du ser snart att du kan rotera så att det mesta av datat ligger kring EN axel.

5 Begreppet förklarad varians Faktoranalys(PCA) faktor 2 faktor 1 Nu ser du att faktor 1 täcker in kanske 90% av den totala spridningen. Kanske kan vi nöja oss med en faktor för att beskriva det här datamaterialet. Det är just det som faktoranalys gör. I en faktoranalyslösning kommer den första faktorn att förklara mest varians, den andra faktorn näst mest osv. Till varje faktor hör ett egenvärde som är ett direkt mått på hur mycket av den totala variansen som den faktorn förklarar. Den vanligast formen av faktoranalys kallas principalkomponentanalys (PCA) och är den som vi kommer att använda. Egenvärde = förklarad varians i data av en faktor Hur gör vi faktoranalys? Egenvärde: > 2.7 > 1.8 > Varians i första faktorn Varians i andra faktorn Varians i tredje faktorn Osv Vi börjar med att konstruera en korrelationsmatris eller en kovariansmatris Total varians = sammanlagda spridningen i alla variabler Korrelationsmatrisen avgör vilka variabler som hör ihop V1 V2 V3 V V5 V6 V1 V2 V3 V V5 V6 1,023 -,22(**) -,001 -,005 -,001, ,979(**),01,003 -,029 -,22(**) -,979(**) 1 -,039 -,002,029 -,001,01 -, ,220(**) -,875(**) -,005,003 -,002 -,220(**) 1,665(**) -,001 -,029,029 -,875(**),665(**) 1 Total varians Den totala variansen i ett material får man om man adderar variansen för varje variabel för sig. Dessa hittar vi på diagonalen av kovariansmatrisen eller korrelationsmatrisen. Vi kommer bara att använda korrelationsmatrisen. För korrelationsmatriser blir detta = antal variabler. (Exempel variabler ger total varians. Första faktorn har egenvärde=1 -> 1/ = täcker in 25% av variansen) 5

6 Korrelationsmatrisen avgör vilka variabler som hör ihop Vi får ut 2 faktorer (components) V1 V2 V3 V V5 V6 V1 V2 V3 V V5 V6 1,023 -,22(**) -,001 -,005 -,001, ,979(**),01,003 -,029 -,22(**) -,979(**) 1 -,039 -,002,029 -,001,01 -, ,220(**) -,875(**) -,005,003 -,002 -,220(**) 1,665(**) -,001 -,029,029 -,875(**),665(**) 1 V1 -,058,238 V2 -,267,938 V3,271 -,962 V -,829 -,182 V5,673,206 V6,969,22 Värdena i tabellen kallas för faktorladdningar och talar om för oss hur mycket varje variabel korrelerar med just den faktorn. På så sätt kan man se i vilken mån vilka variabler som slagits ihop till de olika faktorerna. (Jämför vikterna i djurexemplet) Vi plottar våra 2 faktorer Faktorlösning - tolkning V1 -,058,238 V2 -,267,938 V3,271 -,962 V -,829 -,182 V5,673,206 V6,969,22 Component 2 Component Plot v2 v1 v Component 1 v3 v5 v6 Nu måste vi tolka vår faktorlösning. Hur vill vi att det ska se ut? Vi vill få en enkel och klar bild av data Vi vill gärna lätt kunna dela in variablerna i de olika faktorerna så att vi lätt kan namnge våra faktorer Vi vill helst att alla variablers varians ska finnas representerade i lösningen. Om en variabel inte viktas ihop i någon faktor så tappar vi ju informationen i den variabeln. Det vore perfekt om det såg ut så här V1 0 1 V2 0 1 V3 0 1 V 1 0 V5 1 0 V6 1 0 Varför vill vi att det ser ut så? Tänk er att det vore ett personlighetstest! Jag trivs bäst i sociala sammanhang Om det överhuvud finns chans att prata med nån så gör jag det. Jag måste ha social interaktion, NU!! Faktor 1 Faktor Jag oroar mig för ditten och datten 1 0 Jag tittar ofta upp så att jag inte ska få ett kassaskåp i huvudet Idag kanske blir dagen då jag inte klarar av mitt liv

7 men det gör det inte Varför vill vi att det ser ut så? V1 -,058,238 V2 -,267,938 V3,271 -,962 Component Plot v2 v1 v v5 v6 Tänk er att det vore ett personlighetstest! Faktor 1 Faktor 2 Gummibåtar är det bästa jag vet -58 0,238 Jag trivs bäst i sociala sammanhang -0,267 0,938 Jag trivs bäst i en isoleringscell 0,271-0,962 V -,829 -,182 V5,673,206 V6,969,22 Component Component 1 v3 Jag oroar mig nästan aldrig för nåt -0,829-0,182 Jag tittar ofta upp så att jag inte ska få ett kassaskåp i huvudet Idag kanske blir dagen då jag inte klarar av mitt liv. 0,673 0,206 0,969 0,22 Rotering - analogi Vi hade dessa data. Kan vi hitta en bättre vinkel att titta på data ifrån? Jämför med fotografen som tar en gruppbild: vinkeln vi fotograferar ifrån är viktig för att beskriva gruppen så bra som möjligt eftersom 3 dimensioner ska beskrivas med 2. V1 -,058,238 V2 -,267,938 Component Plot v2 v1 v5 v6 V3,271 -,962 v V -,829 -,182 V5,673,206 V6,969,22 Component Component 1 v3 Vi roterar koordinatsystemet så att varje variabel så mycket som möjligt laddar på endast EN faktor! V1,005,2 V2 -,018,975 V3,017 -,999 V -,88,035 V5,703,028 V6,999 -,013 Component Component Plot in Rotated Space v - Component 1 v1 v3 v5 v6 Rotering vad gör den? Efter roteringen kommer vi att ha omdistribuerat den förklarade variansen hos faktorerna. Faktor 1 kommer förmodligen inte att förklara lika mycket varians som innan. Alltså, faktorladdningarna ändras Istället har vi, om vi har tur, fått en mer lättolkad faktorlösning. En för oss mer teoretiskt meningsfull. 7

8 Rotering flera olika metoder Men det finns ett problem kvar. Täcker vår lösning verkligen in tillräckligt av V1:s varians. Ortogonal (Varimax) Oblik (Ortotran) V1,005,2 V2 -,018,975 V3,017 -,999 V -,88,035 V5,703,028 V6,999 -,013 Component 2 Component Plot in Rotated Space v1 v v5 v6 - v Component 1 Hur stor ska en faktorladdning vara för att vi ska bry oss om den? Vad gör vi då med vår V1? Faktorladdning Samplestorlek som behövs V1,005,2 V2 -,018,975 V3,017 -,999 V -,88,035 V5,703,028 V6,999 -,013 Antingen lägger vi till ännu en faktor. Uppenbarligen ligger V1:s varians utmed någon annan axel som vi inte har med. Eller så tar vi helt enkelt bort den variablen ur vår analys. Kanske mätte den inte vad vi ville mäta? Är frågan vars varians vi inte täcker in relevant? Tänk er att det vore ett personlighetstest! Faktor 1 Faktor 2 Gummibåtar är det bästa jag vet -58 0,238 Jag trivs bäst i sociala sammanhang -0,267 0,938 Jag trivs bäst i en isoleringscell 0,271-0,962 Jag oroar mig nästan aldrig för nåt -0,829-0,182 Jag tittar ofta upp så att jag inte ska få ett kassaskåp i huvudet Idag kanske blir dagen då jag inte klarar av mitt liv. 0,673 0,206 0,969 0,22 Communalities Beskriver hur mycket av variansen i en variabel som förklaras av de faktorer vi tog med i lösningen. Om en variabels varians inte täcks in av lösningen och vi inte vill addera fler faktorer kan vi välja att ta bort variabeln. Två vanliga kriterier är: 1) ta bort variabeln om den inte har en enda signifikant faktorladdning 2) ta bort variabeln om vår lösning förklarar mindre än 50% av variansen. 8

9 Communalities-exempel Variable Råd 31 Info 36 Utlopp 13 Hålla känsl 29 Communalities (Data2.sta) Extraction: Principal components Rotation: Unrotated From 1 From 2 Multiple Factor Factors R-Square 0, , , ,2720 0, , , , , , , , Variansmått Egenvärde: Hur mycket varians i data som beskrivs av en komponent Communalities: Hur mycket varians i en variabel som beskrivs av alla extraherade komponenter Communality för en variabel i EN faktor = faktorladdningen 2. tips: tänk på korrelationer, r och r 2 Hur många faktorer ska vi ha? Scree plot samma data A priori: t ex. Det ska vara fem underliggande variabler. Big five! Data: 2 sätt: 1. egenvärden över 1 2. armbågen i scree ploten Eigenvalue Scree Plot 2 2, Component Number Scree plot. Annat exempel Tolkning av faktorer 5,0,0 3 3,0 Plot of Eigenvalues Kan delas upp i 2 problem: 1. Vilken variabel hör till vilken faktor 2. Namnge faktorn Value 2 2,0 1 0 Number of Eigenvalues 9

10 Vilken variabel hör till vilken faktor? Faktorladdningar räknas som höga om de minst är mellan Använd tabell eller bestäm egen cut-off och redovisa den! Titta på faktorladdningarna för varje variabel i den oroterade lösningen. Laddar samma variabel högt på flera faktorer så titta på den roterade lösningen. Laddar en variabel lågt på alla faktorer så titta på communalities, går den överhuvud att förklara med de extraherade komponenterna? Vad har variabler som hör till samma faktor gemensamt? Här finns frihet för tolkning, tänk bara på att andra skall kunna hålla med. Du måste kunna argumentera för din tolkning. Exempel: Tolkning av faktorer Man har frågat 200 personer hur mycket de gillar/ogillar följande musikstilar: Oroterad faktorlösning Man finner en faktorlösning med endast två faktorer som har egenvärden över 1 Jazz, Blues, Klassisk musik, Rap, Heavy metal. Man vill veta om det finns underliggande strukturer i de uppmätta variablerna Vi ser att den första faktorn täcker upp ganska mycket av den totala variansen. Eftersom vi utgår från en korrelationsmatris med 5 variabler är den totala variansen = 5. Första faktorn täcker då in 2/5 = 0.77% Ganska mycket. Men hur kan vi tolka och namnge våra faktorer? Tolkning av faktorer Kan delas upp i 2 problem: 1. Vilken variabel hör till vilken faktor 2. Namnge faktorn Oroterad faktorlösning Man finner en faktorlösning med endast två faktorer som har egenvärden över 1 Vilken variabel hör till vilken faktor? Det ser ju ut som om alla variabler skulle höra till faktor 1. Vi ser dock att rap och heavy metal har höga laddningar på Både faktor 1 och faktor 2. De är dubbelladdningar. Då roterar vi och ser vad Som händer. 10

11 Roterad faktorlösning Notera att i den roterade faktorlösningen nedan så har den förklarade variansen omfördelats mellan faktorerna. Nu förklarar faktor 1 endast 1.75/5 = 35% av den totala variansen. Vi har omfördelat 5% av faktor 1:s varians till faktor 2 för att göra lösningen mer lättolkad. Communalities Låt oss för säkerhets skull kolla communalities också för att se om vår faktorlösning täcker in alla våra variablers varians. Nu är det lätt att se till vilken faktor som varje variabel tillhör. Till faktor 1 hör blues, klassisk musik och jazz. Till faktor 2 hör rap och heavy metal. Då kan vi fundera på att namnge våra faktorer. Vi ser att klassisk musik s varians täcks in endast till 6.6%. Kanske är vi nöjda med det. Kanske tycker vi att det är för lite och tar med en till faktor. Uppenbarligen finns det fans av klassisk musik som inte är fans av någon av de andra mätta musikstilarna. PCA vs Common factor analysis Variansen hos varje variabel kan delas upp i: Delad varians, den varians som variabeln delar med de andra variablerna Specifik varians, den varians som är unik för variabeln Felvarians, den varians i variabeln som kommer av mätfel, processfel osv PCA vs Common factor analysis Common factor analysis menar att man blottlägger den underliggande strukturen i data bäst om man bara använder variablernas delade varians. Blåser upp korrelationer mellan variabler Ingen unik lösning finns Problem med estimering av communalities. (Heywood cases) Kanske bäst om man vill åt ev underliggande struktur bland variablerna. PCA vs Common factor analysis Principal component analysis använder all varians. Menar att de första stora faktorerna ändå kommer att innehålla väldigt lite felvarians och unik varians Teoretiskt enklast Fokuserar på att med så få faktorer som möjligt beskriva så mycket som möjligt av den totala variansen i materialet. Krav på data Tillräckligt många observationer. Faktoranalys bygger på att vi har reliabla skattningar av korrelationerna mellan variablerna. Tumregel: Minst 5 per variabel, helst 10 eller fler. Kravet på att variablerna skall vara normalfördelade är svagt. Det är egentligen mest intressant om vi vill använda oss av statistiska tester, vilket vi kanske inte alltid är intresserade av. 11

12 Krav på data Data har många dimensioner som vi vill reducera för att se strukturer i data Det är viktigt att vi har en teoretisk grund och tror att det finns underliggande variabler som kan förklara våra mätningar. Vi kan inte bara välja godtyckliga variabler: Glassförsäljning i jun, Brösarp bandys benbrottsfrekvens 198, antal ompalompier siktade i Gränby centrum Vad betyder resultatet? Korrelationsmatrisen eller kovariansmatrisen? 1 V1 00 V2,023 V3 -,22 V -,001 V5 -,005 V6 -,001 Eigenvalue Scree Plot 2 Component Number Skillnad mellan kovarians och korrelation Kovarians Cov xy =[Σ(x-x m )(y-y m )] /N-1 Korrelation r = Cov xy /s x s y Sammanfattning: Hur gör vi faktoranalys? Vi bestämmer om vi ska använda kovariansmatrisen eller korrelationsmatrisen (default) och ser till att vi har tillräckligt med deltagare/observationer Antalet latenta variabler bestäms a priori, eller utifrån egenvärdena genom att antingen sätta ett tröskelvärde på 1 eller att leta rätt på armbågen i scree-ploten Vi ser efter att våra variabler laddar högt på endast en faktor. Vi kanske får titta på den roterade lösningen, kanske på den oblika. Kanske får vi radera några variabler som har liten delad varians med övriga Vi namnger våra komponenter Några viktiga användningsområden Konstruktion av frågeformulär Reduktion av data till ett litet antal tolkningsbara komponenter som sedan används i fortsatt analys t ex regression Ur många variabler välja ut ett fåtal målvariabler som sedan kan användas som beroendevariabler (särdragsextraktion) Konstruktion av frågeformulär Vi har från början en teoretisk idé om vilka subskalor vårt nya frågeformulär ska innehålla. Vi låter lämplig population fylla i formuläret och ser om vi hittar tillbaks till dessa subskalor. Har vissa items dubbelladdningar plockar vi bort dem. 12

13 Reduktion av data för ytterligare analys Har vi mångdimensionella data kan det vara olämpligt att använda regression direkt. Vi kan ha stor kolinearitet i data som gör tolkningen av en regression svår. Vi reducerar ner data till en eller ett par latenta variabler och kör regression med dem. Kom ihåg att här blir kraven på att data ska vara normalfördelade hårdare! Q-faktoranalys Urskiljer strukturer bland deltagare. Man kan säga en form av klusteranalys som utnyttjar hur deltagarna korrelerar med varandra. Kan finna teoretiskt intressanta subpopulationer i datamängden som man sedan kan jämföra med andra statistiska test. Kritik mot faktoranalys Används ibland då inferensstatistik kanske inte gav några resultat men man ändå ville publicera något. En slaskmetod. Man kan få vilka resultat man vill, det är bara att rotera variablerna med olika metoder. Sammanfattning Faktoranalys är en metod för att hitta underliggande strukturer i data genom att reducera antalet dimensioner. Några viktiga begrepp inom faktoranalys är egenvärde, communalities, komponent/faktor och faktorladdning. Några viktiga användningsområden är att hitta subskalor i frågeformulär, att reducera data för ytterligare analys samt särdragsextraktion. 13