Faktoranalys - Som en god cigarr

Transkript

1 Innehåll Faktoranalys - Som en god cigarr Faktoranalys. Användningsområde. Krav/rekommen. 3. Olika typer av FA 4. Faktorladdningar 5. Eigenvalue 6. Rotation 7. Laddningar & Korr. 8. Jämförelse av metoder 9. Välja antalet faktorer. Faktorpoäng. Namngivning. Konfirmatorisk FA Övrigt 3. Homogenitet 4. Risk Ratio 5. Odds Ratio. Primär användning: Gruppera ett antal item till ett mindre antal faktorer Grupperingen sker utifrån korrelationer. Item som anses mäta samma sak bör korrelera högre med varandra än med item som mäter andra saker. Fysisk storlek Liberalism Sensation Seeking Längd Skonummer Vikt Inställning till homosexualitet Inställning till invandring Inställning till yttrandefrihet Vilja att hoppa fallskärm Vilja att sitta hemma Vilja att hoppa bungyjump. Krav/Rekommendationer Minst intervalldata (eller åtminstone nästan). Samband bör vara linjära. Inga singulariteter. Data från fler personer än vad man har item. N > 5 x antal item; ; 3 KMO (medel) >,6; KMO (item) >,6 (,5) Outliers är inte bra (kanske speciellt multivariata sådana) och bör kanske strykas (Mahalanobis distans). Fundera redan från början vad du vill mäta och konstruera frågor utifrån detta. Annars blir det lätt pannkaka av det hela (GIGO-principen).. Krav/Rekommendationer Testar om populationens korrelationsmatris kan antas vara en identitetsmatris (med endast nollor utanför diagonalen). Partialkorrelationer (när man kontrollerar för alla andra item) * - Σr Σr Σpr r = korrelation pr = partiell korrelation Bör vara >,6 3. Olika typer av FA Principal Components Analysis (PCA): - Skapar okorrelerade komponenter. - Försöker förklara så mycket av den totala variansen som möjligt (både unik och gemensam). - Första komponenten förklarar mest varians. - Används för datareduktion. - Egentligen inte faktoranalys. Principal Axis Factoring: - Försöker hitta latenta variabler som förklarar den gemensamma variansen för ett antal item (ignorerar unik varians).

2 3. Olika typer av FA Unweighted Least-Squares Method: - Försöker minimera skillnaden mellan observerade och återskapade korrelationer. Weighted Least-Squares Method: - Samma a som ovan, men ger mindre vikt åt item som korrelerar lågt med andra item. Alpha: - Maximerar faktorernas homogenitet (alpha) Maximum-Likelihood Method: Image Factoring: 4. Faktorladdningar Analysen beräknar korrelationer mellan observerade item och latenta faktorer (komponenter). Hur höga laddningar bör man minst ha? Tja,,4 är en tumregel (,3;,35). Laddningar kan vara positiva och negativa. Om man summerar de kvadrerade faktorladdningarna för ett visst item över alla faktorer så får man ett värde på hur pass mycket av variansen i detta item som kan förklaras med hjälp av faktorerna. Detta kallas för communality och kan ses som ett tecken på items reliabilitet. En kommunalitet > är ett tecken på vajsing. 4. Faktorladdningar Summan av kvadrerade faktorladdningar = Kommunalitet =, Eigenvalue Eigenvalue = Hur stor andel av den totala standardiserade variansen som en faktor kan förklara (procenttalet får man fram genom att dividera eigenvalue med antalet item) = summan av de kvadrerade d faktorladdningarna över alla item. En faktor med eigenvalue < förklarar alltså mindre av den totala variansen än vad enskilda item gör. 5. Eigenvalue 6. Rotation, För att underlättar tolkningen av faktorer brukar laddningsmatrisen utsättas för rotation. Summan av kvadrerade laddningar = Eigenvalue = 3,5

3 6. Rotation Faktor Faktor Fråga 3 -,664 -,44 Fråga 6 -,636,55 Fråga 7,674,555 Fråga 8 -,56,68 Fråga,559,69 Fråga,63 -,553 cos Ψ sin Ψ -sin Ψ cos Ψ = Rotations vinkeln är alltså 4,8 grader. F8 F F3 F F7 -,664*, ,44*, F -.8 Faktor Faktor Fråga 3 -,786,8 Fråga 6 -,94,835 Fråga 7,87 -,5 Fråga 8,55,85 Fråga,84,68 Fråga,74 -,8 6. Rotation Oroterad Faktor Faktor h Fråga 3 -,664 -, Fråga 6 -,636,55.77 Fråga 7,674, Fråga 8 -,56,68.65 Fråga,559, Fråga,63 -, Eigenv Roterad Faktor Faktor h Fråga 3 -,786,8.634 Fråga 6 -,94, Fråga 7,87 -,5.76 Fråga 8,55,85.65 Fråga,84, Fråga,74 -,8.68 Eigenv Rotation, underlättar tolkningen av faktorer F F4 Faktor F F6 Faktor F5 F8 F7 F3 Ortogonal rotation Faktorerna är okorrelerade med varandra (axlarna behåller ett förhållande på 9 ) F F4 Faktor F F6 Faktor F5 F8 F7 F3 Oblik rotation Faktorerna tillåts korrelera med varandra + närmare anpassning - mer svårtolkade faktorer 6. Rotation, olika metoder Varimax: Maximerar variansen för laddningar inom faktorerna över alla item, vilket underlättar tolkningen av faktorerna. Rotationen är ortogonal, vilket ger okorrelerade faktorer. Direkt oblimin: Faktorerna tillåts korrelera med varandra (oblik rotation). Tenderar att ge faktorer med högre egenvärden men som är svårare att tolka. Quartimax: Maximerar variansen för laddningar inom item över alla faktorer. Equamax: Kombination av Varimax och Quartimax. Promax: En snabb oblik rotations-algoritm. 6. Rotation: Varimax & Quartimax 6. Rotation: Oblimin Motsvarar standardiserade regressionskoeffic ienter. Anger sambandet mellan en faktor och ett item kontrollerat för de andra faktorerna. Motsvarar enkla korrelationer mellan item och faktorer. 3

4 7. Faktorladdningar & Korrelationer 7. Faktorladdningar & Korrelationer Faktor Faktor Faktor 3 Faktor 4 Faktor 5 Faktor 6 Fråga 3 -,664 -,44,56,56 -,3, Fråga 6 -,636,55,4 -,5,48 -, Fråga 7,674,555, -,87 -,,467 Fråga 8 -,56,68 -,35,483 -,3,8 Fråga,559,69,49,6 -,57 -,33 Fråga,63 -,553,53,46,36,45 Faktor -,664 -,636,674 -,56,559,63,559,674 + Faktor -,44,55,555,68,69 -,553,69,555 + Faktor 3,56,4, -,35,49,53,49, + Faktor 4,56 -,5 -,87,483,6,46,6 -,87 + Faktor 5 -,3,48 -, -,3 -,57,36 -,57 -, + Faktor 6, -,,467,8 -,33,45 -,33,467 = Fråga 3,,9 -,553,5 -,437 -,3 Fråga 6,9, -,3,54 -, -,554 Fråga 7 -,553 -,3, -,3,6,89 Fråga 8,5,54 -,3,,48 -,488 Fråga -,437 -,,6,48,,38 Fråga -,3 -,554,89 -,488,38, Faktor Faktor Fråga 3 -,664 -,44 Fråga 6 -,636,55 Fråga 7,674,555 Fråga 8 -,56,68 Fråga,559,69 Fråga,63 -, Faktorladdningar & Korrelationer Faktor -,664 -,636,674 -,56,559,63 Faktor -,44,55,555,68,69 -,553 = Fråga 3,634,8 -,69,6 -,639 -,64 Fråga 6,8,77 -,4,667 -, -,694 Fråga 7 -,69 -,4,76,7,75,6 Fråga 8,6,667,7,65, -,658 Fråga -,639 -,,75,,684,6 Fråga -,64 -,694,6 -,658,6,68 Fråga 3,,9 -,553,5 -,437 -,3 Fråga 6,9, -,3,54 -, -,554 Fråga 7 -,553 -,3, -,3,6,89 Fråga 8,5,54 -,3,,48 -,488 Fråga -,437 -,,6,48,,38 Fråga -,3 -,554,89 -,488,38, 7. Faktor-laddningar & Korrelationer Observerad Reproducerad Residualer Stora residualer (>.) indikerar att man kanske borde öka antalet faktorer Fråga 3,,9 -,553,5 -,437 -,3 Fråga 6,9, -,3,54 -, -,554 Fråga 7 -,553 -,3, -,3,6,89 Fråga 8,5,54 -,3,,48 -,488 Fråga -,437 -,,6,48,,38 Fråga -,3 -,554,89 -,488,38, Minus Fråga 3,634,8 -,69,6 -,639 -,64 Fråga 6,8,77 -,4,667 -, -,694 Fråga 7 -,69 -,4,76,7,75,6 Fråga 8,6,667,7,65, -,658 Fråga -,639 -,,75,,684,6 Fråga -,64 -,694,6 -,658,6,68 = Fråga 3,9,38 -,35,,4 Fråga 6,9, -,63,9,4 Fråga 7,38, -,37 -,4 -,7 Fråga 8 -,35 -,63 -,37 -,5,7 Fråga,,9 -,4 -,5,3 Fråga,4,4 -,7,7,3 7. Faktor-laddningar & Korrelationer 8. Jämförelse av metoder Målet med faktoranalysen är att få fram en faktorstruktur (hur item laddar på faktorer) som ger en reproducerad korrelationsmatris som är så lik den observerade korrelationsmatrisen som möjligt, alltså att minimera residualer. Dock tar man även hänsyn till antalet faktorer. En modell med få faktorer är att föredra framför en modell med flera faktorer även om den förra skulle leda till något större residualer. 4

5 9. Välja antal faktorer Antalet faktorer med Eigenvalue > (börja här, Kaiser criterion). Om en faktor har mindre än två (tre) högladdare : Minska antalet faktorer. Är någon faktor svårbegriplig: Minska antalet faktorer. Scree-plot: Antalet faktorer ovanför knät. Faktor tenderar att lägga beslag på många item och ibland kan det vara vettigt att bryta upp den i mindre faktorer (utifrån formuleringen av item och en selekterad faktoranalys). 9. Välja antal faktorer Scree-plot. Faktorpoäng Programmet kan räkna fram poäng för varje person på varje faktor utifrån faktorpoäng. Detta ger faktorer som är okorrelerade med varandra. Det vanligaste är dock att man för varje person räknar fram medelvärdet (eller summan) för de item som ingår i en faktor. Innan detta görs måste man eventuellt spegelvända vissa item. Har item olika skalor så bör de standardiseras först.. Faktorpoäng Regressionsmetoden: På faktor (komponent) skulle varje person få ett värde =,4 x personens standardiserade värde på fråga +,34 x standardiserat värde på fråga +,3 x standardiserat värde på fråga 3 Enkel metod: På faktor (komponent) skulle varje person få ett värde = medelvärdet för personens svar på frågorna, 6 (reversed), 8 (reversed), och. Faktorpoäng Jämförelse av regressions- och enkel metod. Namngivning Utifrån de item som ingår i en faktor ger man den ett namn som reflekterar vad den mäter (= vad ett högt värde på faktorn står för). Risk för subjektivitet. Ett item som laddar högt på en faktor men som innehållsmässigt inte passar ihop med övriga item bör strykas (åtminstone tycker Kimmo det). 5

6 . Namngivning Fråga : Lena betedde sig omoraliskt när hon attackerade Johan. Fråga 6: Det var förståeligt att Lena attackerade Johan. Fråga 8: Lenas beteende mot Johan var acceptabelt. Fråga : Det var fruktansvärt av Lena att attackera Johan.. Namngivning Fråga : Om Johan dog eller blev allvarligt skadad så skulle det vara en katastrof för samhället. Fråga 5: Personer som Johan är väldigt nyttiga för samhället. Fråga 9: Johans betydelse för samhället var, på det stora hela, nog rätt så obetydlig. Fråga : Johan var en värdefull medlem av samhället.. Konfirmatorisk FA Man testar hur pass väl data stämmer överens med en förutbestämd faktormodell. Den faktiska kovariansmatrisen (mellan ingående item) jämförs med den ur modellen härledda kovariansmatrisen. Ju bättre överensstämmelse desto bättre modell. 3. Homogenitet = Hur pass väl ett antal item hänger ihop (bygger på korrelationer). Ett statistiskt test av om ett antal item kan antas mäta samma sak. 3. Homogenitet Cronbach s alpha N i ( ) N X N antal item i varians på item i varians på den totala testpoängen Anger hur mycket av variansen i en skala/index som kan attribueras till en gemensam källa. Alpha kan variera mellan - och,. Gränsen för en godtagbar homogenitet sätts ibland till,6 (,65;,7). Item som behöver spegelvändas spegelvänds innan alpha beräknas. X 4. Risk & Odds Risk = Antal med utfall dividerat med totalt antal (kan variera mellan och ) Odds = Antal med utfall dividerat med antal utan utfall (kan variera mellan och ) ) Kvinnor Män Risk(kvinna) Odds(kvinna) /(+8)=, /8=,5 5/(5+5)=,5 5/5= 8/(8+)=,8 8/=4 6

7 4. Risk Ratio Ej starr Risk för demens om man har starr jämfört med inte starr: RR = ( / 73) / (43 / ) =,75 /,558 =,63 6% riskökning för demens om man har starr jämfört med om man inte har starr. Risk för starr om man har demens jämfört med inte demens: RR = ( / 65) / (5 / ) =,739 /,6 =,3 3% riskökning för starr om man har demens jämfört med om man inte har demens. 4. Risk Ratio Ej starr 34 Estimering av populationens RR för demens om man har starr jämfört med om man inte har starr. SEln( RR ) 95% CI RR p N p e p N p ln( RR).96SEln( RR ) e Formeln ger medelfel för ln(rr); p = andel med utfall (demens) i exponerad grupp (starr); N = antal exponerade p = andel med utfall (demens) i icke-exponerad grupp (ej starr); N = antal icke-exponerade Med 95% säkerhet ligger populationens RR någonstans mellan. och Risk Ratio Ej starr 34 Estimering av populationens RR för starr om man har demens jämfört med om man inte har demens. SEln( RR ) 95% CI RR p N p e p N p ln( RR).96SEln( RR ) e Formeln ger medelfel för ln(rr); p = andel med utfall (starr) i exponerad grupp (demens); N = antal exponerade p = andel med utfall (starr) i icke-exponerad grupp (ej demens); N = antal icke-exponerade Med 95% säkerhet ligger populationens RR någonstans mellan.3 och Odds Ratio Ej starr 34 OR p ( p) q /( q) p = risk för utfall i grupp q = risk för utfall i grupp 43 5 Odds för demens om man har starr jämfört med inte starr: OR = ( / 5) / (43 / 34) =,39 /,65 =,89 Oddsen att ha demens är,9 gånger så hög om man har starr jämfört med om man inte har starr. Odds för starr om man har demens jämfört med ej demens: OR = ( / 43) / (5 / 34) =,837 /,5 =,89 Oddsen att ha starr är,9 gånger så hög om man har demens jämfört med om man inte har demens Odds Ratio Ej starr 34 (n) Estimering av populationens OR för starr om man har demens jämfört med om man inte har demens = OR för demens om man har starr jämfört med om man inte har starr. 43 (n) 5 (n) (n) Odds Ratio SEln( OR ) n n n n Formeln ger medelfel för ln(or) OR skiljer sig signifikant från. 95% CI e ln( OR).96SEln( OR ) e Med 95% säkerhet ligger populationens OR någonstans mellan.84 och

8 Innehåll Faktoranalys. Användningsområde. Krav/rekommen. 3. Olika typer av FA 4. Faktorladdningar 5. Eigenvalue 6. Rotation 7. Laddningar & Korr. 8. Jämförelse av metoder 9. Välja antalet faktorer.faktorpoäng.namngivning. Konfirmatorisk FA Övrigt 3. Homogenitet 4. Risk Ratio 5. Odds Ratio 8