Faktoranalys - Som en god cigarr

Relevanta dokument
Faktoranalys, Cronbach s Alpha, Risk Ratio, & Odds Ratio

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Differentiell psykologi

Multivariata metoder

Differentiell psykologi

STATISTISK ANALYS AV KOMPLEXA DATA

Differentiell psykologi

Granskning av en medarbetarenkät. - En explorativ och konfirmativ faktoranalys

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Innehåll. Data. Skillnad SEM & Regression. Exogena & Endogena variabler. Latenta & Manifesta variabler

Ny indikator för svensk arbetsmarknad. - En faktoranalys som sammanfattar 14 variablers variation. A new indicator for the Swedish labour market

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Structural Equation Modeling (SEM) Ingenting är omöjligt

Ny indikator för svensk arbetsmarknad. - En faktoranalys som sammanfattar 14 variablers variation. A new indicator for the Swedish labour market

Vad är faktoranalys? Faktoranalys. Vad är dimensioner? Vad är dimensioner?

Differentiell psykologi

Införandet av nätjournal

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Ordlista Enkätmetodik

Multivariat databehandling och dataanalys

Resultat. Principalkomponentanalys för alla icke-kategoriska variabler

Multivariata metoder

Två kulturer på Internet Resultat av faktor- och klusteranalys

Sammanfattning av dugga 2

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Differentiell psykologi

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Grundläggande matematisk statistik

Utvärdering av SOM-institutets personlighetsinstrument

Regressions- och Tidsserieanalys - F4

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

7.5 Experiment with a single factor having more than two levels

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

chi 2 : A B A: B: p-värde: A B K M K M phi A B Ja Ja Nej Nej (2 tentor av 8)

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

Bildmosaik. Bilddatabaser, TNM025. Anna Flisberg Linne a Mellblom. linme882. Linko pings Universitet

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Sensory processing sensitivity

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Differentiell psykologi: Moment I: Lärandemål, instuderingsuppgift och instuderingsfrågor

Linjär regressionsanalys. Wieland Wermke

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Regressions- och Tidsserieanalys - F1

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Regressions- och Tidsserieanalys - F1

Korrelation och autokorrelation

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Skrivning i ekonometri torsdagen den 8 februari 2007

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Kriterier och riktlinjer för evidensbaserad bedömning av mätinstrument

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

En jämförelse mellan några multivariata data-analysmetoder

Finansiering. Föreläsning 6 Risk och avkastning BMA: Kap. 7. Jonas Råsbrant

Statistiska samband: regression och korrelation

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Regression med Genetiska Algoritmer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skrivning i ekonometri lördagen den 29 mars 2008

Dekomponering av löneskillnader

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Prognosmodell för medlemstal i Svenska kyrkan. Av Thomas Holgersson

Instruktioner till Examinationen Kursen Introduktion till Multivariat Dataanalys Karolinska Institutet

Vilka grupper av faktorer predicerar bäst elevers skolkande?

Tentamen Tillämpad statistik A5 (15hp)

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

5B Portföljteori och riskvärdering

Föreläsning 12: Regression

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Föreläsning 4. Kap 5,1-5,3

Har invandrare som arbetar inom äldreomsorgen en besvärligare arbetssituation än sina svensk födda kollegor?

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Running head: ATT MÄTA SPECIESISM OCH RÄTTFÄRDIGANDE AV EXPLOATERING AV DJUR 1. Att mäta speciesism och rättfärdigande av exploatering av djur

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Lektionsanteckningar 11-12: Normalfördelningen

SF1901: Medelfel, felfortplantning

Utvärdering av ett screeningformulär med syfte att kartlägga problemområden hos barn och ungdomar med neuropsykiatriska funktionsnedsättningar

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

10.1 Enkel linjär regression

Repetitionsföreläsning

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Lärmål Sannolikhet, statistik och risk 2015

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Transkript:

Innehåll Faktoranalys - Som en god cigarr Faktoranalys. Användningsområde. Krav/rekommen. 3. Olika typer av FA 4. Faktorladdningar 5. Eigenvalue 6. Rotation 7. Laddningar & Korr. 8. Jämförelse av metoder 9. Välja antalet faktorer. Faktorpoäng. Namngivning. Konfirmatorisk FA Övrigt 3. Homogenitet 4. Risk Ratio 5. Odds Ratio. Primär användning: Gruppera ett antal item till ett mindre antal faktorer Grupperingen sker utifrån korrelationer. Item som anses mäta samma sak bör korrelera högre med varandra än med item som mäter andra saker. Fysisk storlek Liberalism Sensation Seeking Längd Skonummer Vikt Inställning till homosexualitet Inställning till invandring Inställning till yttrandefrihet Vilja att hoppa fallskärm Vilja att sitta hemma Vilja att hoppa bungyjump. Krav/Rekommendationer Minst intervalldata (eller åtminstone nästan). Samband bör vara linjära. Inga singulariteter. Data från fler personer än vad man har item. N > 5 x antal item; ; 3 KMO (medel) >,6; KMO (item) >,6 (,5) Outliers är inte bra (kanske speciellt multivariata sådana) och bör kanske strykas (Mahalanobis distans). Fundera redan från början vad du vill mäta och konstruera frågor utifrån detta. Annars blir det lätt pannkaka av det hela (GIGO-principen).. Krav/Rekommendationer Testar om populationens korrelationsmatris kan antas vara en identitetsmatris (med endast nollor utanför diagonalen). Partialkorrelationer (när man kontrollerar för alla andra item) * - Σr Σr Σpr r = korrelation pr = partiell korrelation Bör vara >,6 3. Olika typer av FA Principal Components Analysis (PCA): - Skapar okorrelerade komponenter. - Försöker förklara så mycket av den totala variansen som möjligt (både unik och gemensam). - Första komponenten förklarar mest varians. - Används för datareduktion. - Egentligen inte faktoranalys. Principal Axis Factoring: - Försöker hitta latenta variabler som förklarar den gemensamma variansen för ett antal item (ignorerar unik varians).

3. Olika typer av FA Unweighted Least-Squares Method: - Försöker minimera skillnaden mellan observerade och återskapade korrelationer. Weighted Least-Squares Method: - Samma a som ovan, men ger mindre vikt åt item som korrelerar lågt med andra item. Alpha: - Maximerar faktorernas homogenitet (alpha) Maximum-Likelihood Method: Image Factoring: 4. Faktorladdningar Analysen beräknar korrelationer mellan observerade item och latenta faktorer (komponenter). Hur höga laddningar bör man minst ha? Tja,,4 är en tumregel (,3;,35). Laddningar kan vara positiva och negativa. Om man summerar de kvadrerade faktorladdningarna för ett visst item över alla faktorer så får man ett värde på hur pass mycket av variansen i detta item som kan förklaras med hjälp av faktorerna. Detta kallas för communality och kan ses som ett tecken på items reliabilitet. En kommunalitet > är ett tecken på vajsing. 4. Faktorladdningar Summan av kvadrerade faktorladdningar = Kommunalitet =,386 5. Eigenvalue Eigenvalue = Hur stor andel av den totala standardiserade variansen som en faktor kan förklara (procenttalet får man fram genom att dividera eigenvalue med antalet item) = summan av de kvadrerade d faktorladdningarna över alla item. En faktor med eigenvalue < förklarar alltså mindre av den totala variansen än vad enskilda item gör. 5. Eigenvalue 6. Rotation, För att underlättar tolkningen av faktorer brukar laddningsmatrisen utsättas för rotation. Summan av kvadrerade laddningar = Eigenvalue = 3,5

6. Rotation Faktor Faktor Fråga 3 -,664 -,44 Fråga 6 -,636,55 Fråga 7,674,555 Fråga 8 -,56,68 Fråga,559,69 Fråga,63 -,553 cos Ψ sin Ψ -sin Ψ cos Ψ = Rotations vinkeln är alltså 4,8 grader. F8 F6.8.6.4. -.8 -.6 -.4 -...4.6.8 -. -.4 F3 F F7 -,664*,734 + -,44*,679 -.6 F -.8 Faktor Faktor Fråga 3 -,786,8 Fråga 6 -,94,835 Fråga 7,87 -,5 Fråga 8,55,85 Fråga,84,68 Fråga,74 -,8 6. Rotation Oroterad Faktor Faktor h Fråga 3 -,664 -,44.634 Fråga 6 -,636,55.77 Fråga 7,674,555.76 Fråga 8 -,56,68.65 Fråga,559,69.684 Fråga,63 -,553.68 Eigenv..44.875 4.9 Roterad Faktor Faktor h Fråga 3 -,786,8.634 Fråga 6 -,94,835.77 Fråga 7,87 -,5.76 Fråga 8,55,85.65 Fråga,84,68.684 Fråga,74 -,8.68 Eigenv..74.45 4.9 6. Rotation, underlättar tolkningen av faktorer F F4 Faktor F F6 Faktor F5 F8 F7 F3 Ortogonal rotation Faktorerna är okorrelerade med varandra (axlarna behåller ett förhållande på 9 ) F F4 Faktor F F6 Faktor F5 F8 F7 F3 Oblik rotation Faktorerna tillåts korrelera med varandra + närmare anpassning - mer svårtolkade faktorer 6. Rotation, olika metoder Varimax: Maximerar variansen för laddningar inom faktorerna över alla item, vilket underlättar tolkningen av faktorerna. Rotationen är ortogonal, vilket ger okorrelerade faktorer. Direkt oblimin: Faktorerna tillåts korrelera med varandra (oblik rotation). Tenderar att ge faktorer med högre egenvärden men som är svårare att tolka. Quartimax: Maximerar variansen för laddningar inom item över alla faktorer. Equamax: Kombination av Varimax och Quartimax. Promax: En snabb oblik rotations-algoritm. 6. Rotation: Varimax & Quartimax 6. Rotation: Oblimin Motsvarar standardiserade regressionskoeffic ienter. Anger sambandet mellan en faktor och ett item kontrollerat för de andra faktorerna. Motsvarar enkla korrelationer mellan item och faktorer. 3

7. Faktorladdningar & Korrelationer 7. Faktorladdningar & Korrelationer Faktor Faktor Faktor 3 Faktor 4 Faktor 5 Faktor 6 Fråga 3 -,664 -,44,56,56 -,3, Fråga 6 -,636,55,4 -,5,48 -, Fråga 7,674,555, -,87 -,,467 Fråga 8 -,56,68 -,35,483 -,3,8 Fråga,559,69,49,6 -,57 -,33 Fråga,63 -,553,53,46,36,45 Faktor -,664 -,636,674 -,56,559,63,559,674 + Faktor -,44,55,555,68,69 -,553,69,555 + Faktor 3,56,4, -,35,49,53,49, + Faktor 4,56 -,5 -,87,483,6,46,6 -,87 + Faktor 5 -,3,48 -, -,3 -,57,36 -,57 -, + Faktor 6, -,,467,8 -,33,45 -,33,467 = Fråga 3,,9 -,553,5 -,437 -,3 Fråga 6,9, -,3,54 -, -,554 Fråga 7 -,553 -,3, -,3,6,89 Fråga 8,5,54 -,3,,48 -,488 Fråga -,437 -,,6,48,,38 Fråga -,3 -,554,89 -,488,38, Faktor Faktor Fråga 3 -,664 -,44 Fråga 6 -,636,55 Fråga 7,674,555 Fråga 8 -,56,68 Fråga,559,69 Fråga,63 -,553 7. Faktorladdningar & Korrelationer Faktor -,664 -,636,674 -,56,559,63 Faktor -,44,55,555,68,69 -,553 = Fråga 3,634,8 -,69,6 -,639 -,64 Fråga 6,8,77 -,4,667 -, -,694 Fråga 7 -,69 -,4,76,7,75,6 Fråga 8,6,667,7,65, -,658 Fråga -,639 -,,75,,684,6 Fråga -,64 -,694,6 -,658,6,68 Fråga 3,,9 -,553,5 -,437 -,3 Fråga 6,9, -,3,54 -, -,554 Fråga 7 -,553 -,3, -,3,6,89 Fråga 8,5,54 -,3,,48 -,488 Fråga -,437 -,,6,48,,38 Fråga -,3 -,554,89 -,488,38, 7. Faktor-laddningar & Korrelationer Observerad Reproducerad Residualer Stora residualer (>.) indikerar att man kanske borde öka antalet faktorer Fråga 3,,9 -,553,5 -,437 -,3 Fråga 6,9, -,3,54 -, -,554 Fråga 7 -,553 -,3, -,3,6,89 Fråga 8,5,54 -,3,,48 -,488 Fråga -,437 -,,6,48,,38 Fråga -,3 -,554,89 -,488,38, Minus Fråga 3,634,8 -,69,6 -,639 -,64 Fråga 6,8,77 -,4,667 -, -,694 Fråga 7 -,69 -,4,76,7,75,6 Fråga 8,6,667,7,65, -,658 Fråga -,639 -,,75,,684,6 Fråga -,64 -,694,6 -,658,6,68 = Fråga 3,9,38 -,35,,4 Fråga 6,9, -,63,9,4 Fråga 7,38, -,37 -,4 -,7 Fråga 8 -,35 -,63 -,37 -,5,7 Fråga,,9 -,4 -,5,3 Fråga,4,4 -,7,7,3 7. Faktor-laddningar & Korrelationer 8. Jämförelse av metoder Målet med faktoranalysen är att få fram en faktorstruktur (hur item laddar på faktorer) som ger en reproducerad korrelationsmatris som är så lik den observerade korrelationsmatrisen som möjligt, alltså att minimera residualer. Dock tar man även hänsyn till antalet faktorer. En modell med få faktorer är att föredra framför en modell med flera faktorer även om den förra skulle leda till något större residualer. 4

9. Välja antal faktorer Antalet faktorer med Eigenvalue > (börja här, Kaiser criterion). Om en faktor har mindre än två (tre) högladdare : Minska antalet faktorer. Är någon faktor svårbegriplig: Minska antalet faktorer. Scree-plot: Antalet faktorer ovanför knät. Faktor tenderar att lägga beslag på många item och ibland kan det vara vettigt att bryta upp den i mindre faktorer (utifrån formuleringen av item och en selekterad faktoranalys). 9. Välja antal faktorer Scree-plot. Faktorpoäng Programmet kan räkna fram poäng för varje person på varje faktor utifrån faktorpoäng. Detta ger faktorer som är okorrelerade med varandra. Det vanligaste är dock att man för varje person räknar fram medelvärdet (eller summan) för de item som ingår i en faktor. Innan detta görs måste man eventuellt spegelvända vissa item. Har item olika skalor så bör de standardiseras först.. Faktorpoäng Regressionsmetoden: På faktor (komponent) skulle varje person få ett värde =,4 x personens standardiserade värde på fråga +,34 x standardiserat värde på fråga +,3 x standardiserat värde på fråga 3 Enkel metod: På faktor (komponent) skulle varje person få ett värde = medelvärdet för personens svar på frågorna, 6 (reversed), 8 (reversed), och. Faktorpoäng Jämförelse av regressions- och enkel metod. Namngivning Utifrån de item som ingår i en faktor ger man den ett namn som reflekterar vad den mäter (= vad ett högt värde på faktorn står för). Risk för subjektivitet. Ett item som laddar högt på en faktor men som innehållsmässigt inte passar ihop med övriga item bör strykas (åtminstone tycker Kimmo det). 5

. Namngivning Fråga : Lena betedde sig omoraliskt när hon attackerade Johan. Fråga 6: Det var förståeligt att Lena attackerade Johan. Fråga 8: Lenas beteende mot Johan var acceptabelt. Fråga : Det var fruktansvärt av Lena att attackera Johan.. Namngivning Fråga : Om Johan dog eller blev allvarligt skadad så skulle det vara en katastrof för samhället. Fråga 5: Personer som Johan är väldigt nyttiga för samhället. Fråga 9: Johans betydelse för samhället var, på det stora hela, nog rätt så obetydlig. Fråga : Johan var en värdefull medlem av samhället.. Konfirmatorisk FA Man testar hur pass väl data stämmer överens med en förutbestämd faktormodell. Den faktiska kovariansmatrisen (mellan ingående item) jämförs med den ur modellen härledda kovariansmatrisen. Ju bättre överensstämmelse desto bättre modell. 3. Homogenitet = Hur pass väl ett antal item hänger ihop (bygger på korrelationer). Ett statistiskt test av om ett antal item kan antas mäta samma sak. 3. Homogenitet Cronbach s alpha N i ( ) N X N antal item i varians på item i varians på den totala testpoängen Anger hur mycket av variansen i en skala/index som kan attribueras till en gemensam källa. Alpha kan variera mellan - och,. Gränsen för en godtagbar homogenitet sätts ibland till,6 (,65;,7). Item som behöver spegelvändas spegelvänds innan alpha beräknas. X 4. Risk & Odds Risk = Antal med utfall dividerat med totalt antal (kan variera mellan och ) Odds = Antal med utfall dividerat med antal utan utfall (kan variera mellan och ) ) Kvinnor Män Risk(kvinna) Odds(kvinna) 8 5 5 8 /(+8)=, /8=,5 5/(5+5)=,5 5/5= 8/(8+)=,8 8/=4 6

4. Risk Ratio Ej starr 34 43 5 65 73 Risk för demens om man har starr jämfört med inte starr: RR = ( / 73) / (43 / ) =,75 /,558 =,63 6% riskökning för demens om man har starr jämfört med om man inte har starr. Risk för starr om man har demens jämfört med inte demens: RR = ( / 65) / (5 / ) =,739 /,6 =,3 3% riskökning för starr om man har demens jämfört med om man inte har demens. 4. Risk Ratio Ej starr 34 Estimering av populationens RR för demens om man har starr jämfört med om man inte har starr. SEln( RR ) 95% CI RR p N p e p N p ln( RR).96SEln( RR ) e 43 5 65 73.75.558.3 73.75.558 Formeln ger medelfel för ln(rr); p = andel med utfall (demens) i exponerad grupp (starr); N = antal exponerade p = andel med utfall (demens) i icke-exponerad grupp (ej starr); N = antal icke-exponerade.33.96.3..575 Med 95% säkerhet ligger populationens RR någonstans mellan. och.575 4. Risk Ratio Ej starr 34 Estimering av populationens RR för starr om man har demens jämfört med om man inte har demens. SEln( RR ) 95% CI RR p N p e p N p ln( RR).96SEln( RR ) e 43 5 65 73.739.6. 65.739.6 Formeln ger medelfel för ln(rr); p = andel med utfall (starr) i exponerad grupp (demens); N = antal exponerade p = andel med utfall (starr) i icke-exponerad grupp (ej demens); N = antal icke-exponerade.9.96..3.499 Med 95% säkerhet ligger populationens RR någonstans mellan.3 och.499 5. Odds Ratio Ej starr 34 OR p ( p) q /( q) p = risk för utfall i grupp q = risk för utfall i grupp 43 5 Odds för demens om man har starr jämfört med inte starr: OR = ( / 5) / (43 / 34) =,39 /,65 =,89 Oddsen att ha demens är,9 gånger så hög om man har starr jämfört med om man inte har starr. Odds för starr om man har demens jämfört med ej demens: OR = ( / 43) / (5 / 34) =,837 /,5 =,89 Oddsen att ha starr är,9 gånger så hög om man har demens jämfört med om man inte har demens. 65 73 5. Odds Ratio Ej starr 34 (n) Estimering av populationens OR för starr om man har demens jämfört med om man inte har demens = OR för demens om man har starr jämfört med om man inte har starr. 43 (n) 5 (n) (n) 65 73 5. Odds Ratio SEln( OR ) n n n n Formeln ger medelfel för ln(or)..84 34 43 5 OR skiljer sig signifikant från. 95% CI e ln( OR).96SEln( OR ) e.637.96.84.84 3.99 Med 95% säkerhet ligger populationens OR någonstans mellan.84 och 3.99 7

Innehåll Faktoranalys. Användningsområde. Krav/rekommen. 3. Olika typer av FA 4. Faktorladdningar 5. Eigenvalue 6. Rotation 7. Laddningar & Korr. 8. Jämförelse av metoder 9. Välja antalet faktorer.faktorpoäng.namngivning. Konfirmatorisk FA Övrigt 3. Homogenitet 4. Risk Ratio 5. Odds Ratio 8