Vad är faktoranalys? Faktoranalys. Vad är dimensioner? Vad är dimensioner?

Relevanta dokument
Faktoranalys - Som en god cigarr

Multivariata metoder

Faktoranalys, Cronbach s Alpha, Risk Ratio, & Odds Ratio

Resultat. Principalkomponentanalys för alla icke-kategoriska variabler

STATISTISK ANALYS AV KOMPLEXA DATA

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Differentiell psykologi

Regressions- och Tidsserieanalys - F4

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Granskning av en medarbetarenkät. - En explorativ och konfirmativ faktoranalys

InStat Exempel 4 Korrelation och Regression

chi 2 : A B A: B: p-värde: A B K M K M phi A B Ja Ja Nej Nej (2 tentor av 8)

Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Införandet av nätjournal

Matematisk modellering fortsättningskurs Visuell variation

Statistik B Regressions- och tidsserieanalys Föreläsning 1

10.1 Enkel linjär regression

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

Datorlaboration 2. Läs igenom avsnitt 4.1 så att du får strukturen på kapitlet klar för dig.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Inferensstatistik. Hypostesprövning - Signifikanstest

Sammanfattning av dugga 2

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Linjär regressionsanalys. Wieland Wermke

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Några vanliga fördelningar från ett GUM-perspektiv

Differentiell psykologi

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

Föreläsning G60 Statistiska metoder

Ordlista Enkätmetodik

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Multivariata metoder

Två kulturer på Internet Resultat av faktor- och klusteranalys

Statistik 1 för biologer, logopeder och psykologer

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Examinationsuppgifter del 2

OBS! Vi har nya rutiner.

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Finansiell statistik. Multipel regression. 4 maj 2011

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Föreläsning 12: Regression

13.1 Matematisk statistik

Höftledsdysplasi hos dansk-svensk gårdshund

Analys av data från FIFA med hjälp av korrespondensanalys (Analysis of data from FIFA through correspondence analysis)

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Laboration 2: Styrkefunktion samt Regression

Stokastiska vektorer och multivariat normalfördelning

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

7.5 Experiment with a single factor having more than two levels

Grundläggande matematisk statistik

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Föreläsning G60 Statistiska metoder

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Differentiell psykologi

TMS136. Föreläsning 7

Bildmosaik. Bilddatabaser, TNM025. Anna Flisberg Linne a Mellblom. linme882. Linko pings Universitet

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Ny indikator för svensk arbetsmarknad. - En faktoranalys som sammanfattar 14 variablers variation. A new indicator for the Swedish labour market

1 Produktivitet kontra kvalitet vid tillverkning av bilar

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

ARIMA del 2. Patrik Zetterberg. 19 december 2012

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Föreläsning 7: Punktskattningar

Stokastiska signaler. Mediesignaler

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

3.6 Generella statistiska samband och en modell med för sockerskörden begränsande variabler

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Statistik , Stansens PC-klass ASA-huset. Schema: mån ti ons to fre

Bilaga 1, Exempel på dålig uppdatering

1 Förberedelseuppgifter

F9 SAMPLINGFÖRDELNINGAR (NCT

Kandidatuppsats. Nr 2015:1. Utbildning och inkomst viktigare än vänster-höger. Statistiska institutionen. Vladimir Calderón

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Läs noggrant informationen nedan innan du börjar skriva tentamen

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Examinationsuppgift 2014

Multivariat databehandling och dataanalys

Transkript:

Vad är faktoranalys? Faktoranalys Thomas Ågren Faktoranalys är ett samlingsnamn för dimensionsreducerande statistiska metoder syftande till att åskådliggöra underliggande strukturer i data Vad är dimensioner? Vad är dimensioner? Vi kan beskriva varje punkt i rummet omkring oss med hjälp av tre koordinater: en i x-led, en i y-led och en i z-led y z Datamatris Namn Längd (cm) Vikt (kg) Ålder (år) Pelle 15 65 16 Ulla 166 61 32 Voldemort 189 62 212 Paul 170 55 Peter 160 55 3 Mary 150 55 2 Snowden 10 55 56 x Antalet dimensioner i en datamatris är samma som antalet variabler vi mäter Vad är dimensionsreduktion? Analogi: Ett fotografi är plant och har bara 2 dimensioner, men det avbildar det 3- dimensionella rummet. I ett foto har vi reducerat 3 dimensioner till 2. Vad menas med dimensioner i dimensionsreduktion av en datamatris? Antalet dimensioner är samma som antalet variabler vi mäter. Om vi ska återge data precist behöver vi en axel per item/variabel. Vi kan reducera antalet dimensioner genom att vikta ihop variablerna så att vi får nya variabler som tar olika mycket hänsyn till de gamla. 1

Vikt och längd Vikt och längd Längd 210 200 190 180 170 r 2 = 0.82 BMI = Body Mass Index Vikt / Längd 2 Längd 210 200 190 180 170 r 2 = 0.82 160 160 150 150 10 0 50 60 70 80 90 100 110 Vikt 10 0 50 60 70 80 90 100 110 Vikt Gör ny variabel som består både av vikt och längd. Gör ny variabel som består både av vikt och längd. Faktorer = nya sammanslagna variabler Ett enklare sätt att se på data. Enklare med en variabel än två. Kan vara något verkligt, kanske inte. Är BMI mer existerande än längd eller vikt? Om vi klumpar ihop variabler som inte har något med varandra att göra får vi godtyckliga, meningslösa faktorer. Faktorer Längd Längd Längd Vikt Vikt Vikt Vikt beror av längd Längd beror av vikt A och B beror på C BMI OBS! Vi kan inte säga nåt om kausala samband. Faktorer är inte automatiskt orsaker. BMI? En faktor till många mätvariabler Intelligenstest 1 Intelligenstest 6 Intelligenstest 2 G-faktorn Intelligenstest 5 Intelligenstest 3 Intelligenstest Vad faktoranalys gör I faktoranalys försöker vi slå ihop variabler till faktorer som beskriver data så bra som möjligt. (Obs! Vi reducerar antalet variabler/dimensioner genom att slå ihop flera av våra variabler i dessa faktorer.) Om faktorerna är lätta att tolka har vi lyckats göra data mer överskådligt. (Klassiskt exempel: Big five!) 2

Exempel på överskådlighet: djurarters särdrag Ordna observationer i en datamatris Hair Feathers Eggs Milk Airborne Aquatic Predator Toothed Backbone Breathes Venomous Fins Legs Tail Domestic Catsize Hair Feather s Egg Milk Airborn Etc Antelope 1 0 0 1 0 Bass 0 0 1 0 0 Bear 1 0 0 1 0 Vilka underliggande variabler kan vi hitta? PC 2 3 2 1 0-1 -2-3 cavy hamster vampire fruitbat calf goat pony reindeer elephant deer giraffe buffalo antelope vole hare oryx gorilla pussycat girl bear aardvark squirrel wallabymole opossum wolf mongoose boar lynx leopard lion cheetah polecat puma raccoon mink sealion seal platypus dolphin porpoise honeybee moth housefly wasp bass catfish chub piranha herring tuna dogfish pike stingray - - -3-2 -1 0 3 PC 1 carp gnat ladybird termite flea dove parakeet chicken wren sparrow pheasant lark scorpionflamingo crow hawk vultureworm slug duck ostrich tortoise swan kiwi skimmer skua gull rhea octopus crayfish lobster tuatara toad clam starfish penguin crab frog frog slowworm newt pitviper seasnake sole seahorse haddock seawasp PC 2 Vi kan se olika kluster 3 2 1 0-1 -2-3 Däggdjur Sjölevande däggdjur Kräldjur Fiskar Insekter Fåglar Molusker - - -3-2 -1 0 3 PC 1 Resultat - Visualisering av data Vi hade 16 variabler vilka var för många för att vi skulle kunna åskådliggöra dem. Med hjälp av faktoranalys fick vi fram 2 faktorer och då blev det möjligt att åskådliggöra data grafiskt. Sedan kunde vi notera olika kluster i dessa. Vi har gjort data mer överskådligt. Vilka variabler var viktigast för våra faktorer? Catsize Domestic Tail Legs Fins Venomous Breathes Backbone Toothed Predator Aquatic Airborne 16 1 12 10 8 6 Weights in projection vector 1 Milk Eggs Feathers 2 Hair 0-0.5-0. -0.3-0.2-0.1 0 0.1 0.2 0.3 0. 0.5 3

Vilka variabler var viktigast för våra faktorer? Catsize Domestic Tail Legs Fins Venomous Breathes Backbone 16 1 12 10 Weights in projection vector 2 Resultat viktiga komponenter i faktorerna Vi tittade på vikterna i våra 2 faktorer och såg att olika variabler fick olika vikter. I bästa fall innebär det att vi kan sätta en etikett på de faktorerna. Faktor 1 skulle kunna heta Grad av däggdjur möjligen. Toothed 8 Predator Aquatic 6 Airborne Milk Eggs Feathers 2 Hair 0-0.5-0. -0.3-0.2-0.1 0 0.1 0.2 0.3 0. Hur bra är faktorerna? Faktor = Latent variabel = Komponent Samma sak, olika ord. I vårt exempel med djur-datat ovan så tittade vi på 2 faktorer som vi fick ut av faktoranalysen. Dessa var bra på att göra vårt material överskådligt. Ur ett hänseende kan vi säga att det var dom bästa vi kunde få. Nämligen Faktoranalys väljer ut de faktorer som förklarar mest av variansen i vårt datamaterial. Begreppet förklarad varians Begreppet förklarad varians 210 200 190 faktor 2 180 Vikt 170 160 faktor 1 150 10 0 50 60 70 80 90 100 110 Längd Tänk dig att du har två variabler. Hur mycket av den totala spridningen täcker vardera variabel in? Tänk dig att du roterar koordinatsystemet. Du ser snart att du kan rotera så att det mesta av datat ligger kring EN axel.

Begreppet förklarad varians Faktoranalys(PCA) faktor 2 faktor 1 Nu ser du att faktor 1 täcker in kanske 90% av den totala spridningen. Kanske kan vi nöja oss med en faktor för att beskriva det här datamaterialet. Det är just det som faktoranalys gör. I en faktoranalyslösning kommer den första faktorn att förklara mest varians, den andra faktorn näst mest osv. Till varje faktor hör ett egenvärde som är ett direkt mått på hur mycket av den totala variansen som den faktorn förklarar. Den vanligast formen av faktoranalys kallas principalkomponentanalys (PCA) och är den som vi kommer att använda. Egenvärde = förklarad varians i data av en faktor Hur gör vi faktoranalys? Egenvärde: > 2.7 > 1.8 > Varians i första faktorn Varians i andra faktorn Varians i tredje faktorn Osv Vi börjar med att konstruera en korrelationsmatris eller en kovariansmatris Total varians = sammanlagda spridningen i alla variabler Korrelationsmatrisen avgör vilka variabler som hör ihop V1 V2 V3 V V5 V6 V1 V2 V3 V V5 V6 1,023 -,22(**) -,001 -,005 -,001,023 1 -,979(**),01,003 -,029 -,22(**) -,979(**) 1 -,039 -,002,029 -,001,01 -,039 1 -,220(**) -,875(**) -,005,003 -,002 -,220(**) 1,665(**) -,001 -,029,029 -,875(**),665(**) 1 Total varians Den totala variansen i ett material får man om man adderar variansen för varje variabel för sig. Dessa hittar vi på diagonalen av kovariansmatrisen eller korrelationsmatrisen. Vi kommer bara att använda korrelationsmatrisen. För korrelationsmatriser blir detta = antal variabler. (Exempel variabler ger total varians. Första faktorn har egenvärde=1 -> 1/ = täcker in 25% av variansen) 5

Korrelationsmatrisen avgör vilka variabler som hör ihop Vi får ut 2 faktorer (components) V1 V2 V3 V V5 V6 V1 V2 V3 V V5 V6 1,023 -,22(**) -,001 -,005 -,001,023 1 -,979(**),01,003 -,029 -,22(**) -,979(**) 1 -,039 -,002,029 -,001,01 -,039 1 -,220(**) -,875(**) -,005,003 -,002 -,220(**) 1,665(**) -,001 -,029,029 -,875(**),665(**) 1 V1 -,058,238 V2 -,267,938 V3,271 -,962 V -,829 -,182 V5,673,206 V6,969,22 Värdena i tabellen kallas för faktorladdningar och talar om för oss hur mycket varje variabel korrelerar med just den faktorn. På så sätt kan man se i vilken mån vilka variabler som slagits ihop till de olika faktorerna. (Jämför vikterna i djurexemplet) Vi plottar våra 2 faktorer Faktorlösning - tolkning V1 -,058,238 V2 -,267,938 V3,271 -,962 V -,829 -,182 V5,673,206 V6,969,22 Component 2 Component Plot v2 v1 v - - - - Component 1 v3 v5 v6 Nu måste vi tolka vår faktorlösning. Hur vill vi att det ska se ut? Vi vill få en enkel och klar bild av data Vi vill gärna lätt kunna dela in variablerna i de olika faktorerna så att vi lätt kan namnge våra faktorer Vi vill helst att alla variablers varians ska finnas representerade i lösningen. Om en variabel inte viktas ihop i någon faktor så tappar vi ju informationen i den variabeln. Det vore perfekt om det såg ut så här V1 0 1 V2 0 1 V3 0 1 V 1 0 V5 1 0 V6 1 0 Varför vill vi att det ser ut så? Tänk er att det vore ett personlighetstest! Jag trivs bäst i sociala sammanhang Om det överhuvud finns chans att prata med nån så gör jag det. Jag måste ha social interaktion, NU!! Faktor 1 Faktor 2 0 1 0 1 0 1 Jag oroar mig för ditten och datten 1 0 Jag tittar ofta upp så att jag inte ska få ett kassaskåp i huvudet Idag kanske blir dagen då jag inte klarar av mitt liv. 1 0 1 0 6

men det gör det inte Varför vill vi att det ser ut så? V1 -,058,238 V2 -,267,938 V3,271 -,962 Component Plot v2 v1 v v5 v6 Tänk er att det vore ett personlighetstest! Faktor 1 Faktor 2 Gummibåtar är det bästa jag vet -58 0,238 Jag trivs bäst i sociala sammanhang -0,267 0,938 Jag trivs bäst i en isoleringscell 0,271-0,962 V -,829 -,182 V5,673,206 V6,969,22 Component 2 - - - - Component 1 v3 Jag oroar mig nästan aldrig för nåt -0,829-0,182 Jag tittar ofta upp så att jag inte ska få ett kassaskåp i huvudet Idag kanske blir dagen då jag inte klarar av mitt liv. 0,673 0,206 0,969 0,22 Rotering - analogi Vi hade dessa data. Kan vi hitta en bättre vinkel att titta på data ifrån? Jämför med fotografen som tar en gruppbild: vinkeln vi fotograferar ifrån är viktig för att beskriva gruppen så bra som möjligt eftersom 3 dimensioner ska beskrivas med 2. V1 -,058,238 V2 -,267,938 Component Plot v2 v1 v5 v6 V3,271 -,962 v V -,829 -,182 V5,673,206 V6,969,22 Component 2 - - - - Component 1 v3 Vi roterar koordinatsystemet så att varje variabel så mycket som möjligt laddar på endast EN faktor! V1,005,2 V2 -,018,975 V3,017 -,999 V -,88,035 V5,703,028 V6,999 -,013 Component 2 - - - Component Plot in Rotated Space v - Component 1 v1 v3 v5 v6 Rotering vad gör den? Efter roteringen kommer vi att ha omdistribuerat den förklarade variansen hos faktorerna. Faktor 1 kommer förmodligen inte att förklara lika mycket varians som innan. Alltså, faktorladdningarna ändras Istället har vi, om vi har tur, fått en mer lättolkad faktorlösning. En för oss mer teoretiskt meningsfull. 7

Rotering flera olika metoder Men det finns ett problem kvar. Täcker vår lösning verkligen in tillräckligt av V1:s varians. Ortogonal (Varimax) Oblik (Ortotran) V1,005,2 V2 -,018,975 V3,017 -,999 V -,88,035 V5,703,028 V6,999 -,013 Component 2 Component Plot in Rotated Space v1 v v5 v6 - v3 - - - Component 1 Hur stor ska en faktorladdning vara för att vi ska bry oss om den? Vad gör vi då med vår V1? Faktorladdning Samplestorlek som behövs.30 350.35 250.0 200.5 150.50 120.55 100.60 85.65 70.70 60.75 50 V1,005,2 V2 -,018,975 V3,017 -,999 V -,88,035 V5,703,028 V6,999 -,013 Antingen lägger vi till ännu en faktor. Uppenbarligen ligger V1:s varians utmed någon annan axel som vi inte har med. Eller så tar vi helt enkelt bort den variablen ur vår analys. Kanske mätte den inte vad vi ville mäta? Är frågan vars varians vi inte täcker in relevant? Tänk er att det vore ett personlighetstest! Faktor 1 Faktor 2 Gummibåtar är det bästa jag vet -58 0,238 Jag trivs bäst i sociala sammanhang -0,267 0,938 Jag trivs bäst i en isoleringscell 0,271-0,962 Jag oroar mig nästan aldrig för nåt -0,829-0,182 Jag tittar ofta upp så att jag inte ska få ett kassaskåp i huvudet Idag kanske blir dagen då jag inte klarar av mitt liv. 0,673 0,206 0,969 0,22 Communalities Beskriver hur mycket av variansen i en variabel som förklaras av de faktorer vi tog med i lösningen. Om en variabels varians inte täcks in av lösningen och vi inte vill addera fler faktorer kan vi välja att ta bort variabeln. Två vanliga kriterier är: 1) ta bort variabeln om den inte har en enda signifikant faktorladdning 2) ta bort variabeln om vår lösning förklarar mindre än 50% av variansen. 8

Communalities-exempel Variable Råd 31 Info 36 Utlopp 13 Hålla känsl 29 Communalities (Data2.sta) Extraction: Principal components Rotation: Unrotated From 1 From 2 Multiple Factor Factors R-Square 0,21213 0,713598 0,16162 0,2720 0,690921 0,16722 0,79935 0,700072 0,181899 0,38906 0,701700 0,166726 Variansmått Egenvärde: Hur mycket varians i data som beskrivs av en komponent Communalities: Hur mycket varians i en variabel som beskrivs av alla extraherade komponenter Communality för en variabel i EN faktor = faktorladdningen 2. tips: tänk på korrelationer, r och r 2 Hur många faktorer ska vi ha? Scree plot samma data A priori: t ex. Det ska vara fem underliggande variabler. Big five! Data: 2 sätt: 1. egenvärden över 1 2. armbågen i scree ploten Eigenvalue Scree Plot 2 2,0 1 3 5 6 Component Number Scree plot. Annat exempel Tolkning av faktorer 5,0,0 3 3,0 Plot of Eigenvalues Kan delas upp i 2 problem: 1. Vilken variabel hör till vilken faktor 2. Namnge faktorn Value 2 2,0 1 0 Number of Eigenvalues 9

Vilken variabel hör till vilken faktor? Faktorladdningar räknas som höga om de minst är mellan 0.3-0.5. Använd tabell eller bestäm egen cut-off och redovisa den! Titta på faktorladdningarna för varje variabel i den oroterade lösningen. Laddar samma variabel högt på flera faktorer så titta på den roterade lösningen. Laddar en variabel lågt på alla faktorer så titta på communalities, går den överhuvud att förklara med de extraherade komponenterna? Vad har variabler som hör till samma faktor gemensamt? Här finns frihet för tolkning, tänk bara på att andra skall kunna hålla med. Du måste kunna argumentera för din tolkning. Exempel: Tolkning av faktorer Man har frågat 200 personer hur mycket de gillar/ogillar följande musikstilar: Oroterad faktorlösning Man finner en faktorlösning med endast två faktorer som har egenvärden över 1 Jazz, Blues, Klassisk musik, Rap, Heavy metal. Man vill veta om det finns underliggande strukturer i de uppmätta variablerna Vi ser att den första faktorn täcker upp ganska mycket av den totala variansen. Eftersom vi utgår från en korrelationsmatris med 5 variabler är den totala variansen = 5. Första faktorn täcker då in 2/5 = 0.77% Ganska mycket. Men hur kan vi tolka och namnge våra faktorer? Tolkning av faktorer Kan delas upp i 2 problem: 1. Vilken variabel hör till vilken faktor 2. Namnge faktorn Oroterad faktorlösning Man finner en faktorlösning med endast två faktorer som har egenvärden över 1 Vilken variabel hör till vilken faktor? Det ser ju ut som om alla variabler skulle höra till faktor 1. Vi ser dock att rap och heavy metal har höga laddningar på Både faktor 1 och faktor 2. De är dubbelladdningar. Då roterar vi och ser vad Som händer. 10

Roterad faktorlösning Notera att i den roterade faktorlösningen nedan så har den förklarade variansen omfördelats mellan faktorerna. Nu förklarar faktor 1 endast 1.75/5 = 35% av den totala variansen. Vi har omfördelat 5% av faktor 1:s varians till faktor 2 för att göra lösningen mer lättolkad. Communalities Låt oss för säkerhets skull kolla communalities också för att se om vår faktorlösning täcker in alla våra variablers varians. Nu är det lätt att se till vilken faktor som varje variabel tillhör. Till faktor 1 hör blues, klassisk musik och jazz. Till faktor 2 hör rap och heavy metal. Då kan vi fundera på att namnge våra faktorer. Vi ser att klassisk musik s varians täcks in endast till 6.6%. Kanske är vi nöjda med det. Kanske tycker vi att det är för lite och tar med en till faktor. Uppenbarligen finns det fans av klassisk musik som inte är fans av någon av de andra mätta musikstilarna. PCA vs Common factor analysis Variansen hos varje variabel kan delas upp i: Delad varians, den varians som variabeln delar med de andra variablerna Specifik varians, den varians som är unik för variabeln Felvarians, den varians i variabeln som kommer av mätfel, processfel osv PCA vs Common factor analysis Common factor analysis menar att man blottlägger den underliggande strukturen i data bäst om man bara använder variablernas delade varians. Blåser upp korrelationer mellan variabler Ingen unik lösning finns Problem med estimering av communalities. (Heywood cases) Kanske bäst om man vill åt ev underliggande struktur bland variablerna. PCA vs Common factor analysis Principal component analysis använder all varians. Menar att de första stora faktorerna ändå kommer att innehålla väldigt lite felvarians och unik varians Teoretiskt enklast Fokuserar på att med så få faktorer som möjligt beskriva så mycket som möjligt av den totala variansen i materialet. Krav på data Tillräckligt många observationer. Faktoranalys bygger på att vi har reliabla skattningar av korrelationerna mellan variablerna. Tumregel: Minst 5 per variabel, helst 10 eller fler. Kravet på att variablerna skall vara normalfördelade är svagt. Det är egentligen mest intressant om vi vill använda oss av statistiska tester, vilket vi kanske inte alltid är intresserade av. 11

Krav på data Data har många dimensioner som vi vill reducera för att se strukturer i data Det är viktigt att vi har en teoretisk grund och tror att det finns underliggande variabler som kan förklara våra mätningar. Vi kan inte bara välja godtyckliga variabler: Glassförsäljning i jun, Brösarp bandys benbrottsfrekvens 198, antal ompalompier siktade i Gränby centrum Vad betyder resultatet? Korrelationsmatrisen eller kovariansmatrisen? 1 V1 00 V2,023 V3 -,22 V -,001 V5 -,005 V6 -,001 Eigenvalue 12000 10000 8000 6000 000 2000 0 1 Scree Plot 2 Component Number 3 5 6 Skillnad mellan kovarians och korrelation Kovarians Cov xy =[Σ(x-x m )(y-y m )] /N-1 Korrelation r = Cov xy /s x s y Sammanfattning: Hur gör vi faktoranalys? Vi bestämmer om vi ska använda kovariansmatrisen eller korrelationsmatrisen (default) och ser till att vi har tillräckligt med deltagare/observationer Antalet latenta variabler bestäms a priori, eller utifrån egenvärdena genom att antingen sätta ett tröskelvärde på 1 eller att leta rätt på armbågen i scree-ploten Vi ser efter att våra variabler laddar högt på endast en faktor. Vi kanske får titta på den roterade lösningen, kanske på den oblika. Kanske får vi radera några variabler som har liten delad varians med övriga Vi namnger våra komponenter Några viktiga användningsområden Konstruktion av frågeformulär Reduktion av data till ett litet antal tolkningsbara komponenter som sedan används i fortsatt analys t ex regression Ur många variabler välja ut ett fåtal målvariabler som sedan kan användas som beroendevariabler (särdragsextraktion) Konstruktion av frågeformulär Vi har från början en teoretisk idé om vilka subskalor vårt nya frågeformulär ska innehålla. Vi låter lämplig population fylla i formuläret och ser om vi hittar tillbaks till dessa subskalor. Har vissa items dubbelladdningar plockar vi bort dem. 12

Reduktion av data för ytterligare analys Har vi mångdimensionella data kan det vara olämpligt att använda regression direkt. Vi kan ha stor kolinearitet i data som gör tolkningen av en regression svår. Vi reducerar ner data till en eller ett par latenta variabler och kör regression med dem. Kom ihåg att här blir kraven på att data ska vara normalfördelade hårdare! Q-faktoranalys Urskiljer strukturer bland deltagare. Man kan säga en form av klusteranalys som utnyttjar hur deltagarna korrelerar med varandra. Kan finna teoretiskt intressanta subpopulationer i datamängden som man sedan kan jämföra med andra statistiska test. Kritik mot faktoranalys Används ibland då inferensstatistik kanske inte gav några resultat men man ändå ville publicera något. En slaskmetod. Man kan få vilka resultat man vill, det är bara att rotera variablerna med olika metoder. Sammanfattning Faktoranalys är en metod för att hitta underliggande strukturer i data genom att reducera antalet dimensioner. Några viktiga begrepp inom faktoranalys är egenvärde, communalities, komponent/faktor och faktorladdning. Några viktiga användningsområden är att hitta subskalor i frågeformulär, att reducera data för ytterligare analys samt särdragsextraktion. 13