Multivariata metoder

Relevanta dokument
Multivariata metoder

Faktoranalys - Som en god cigarr

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Skrivning i multivariata metoder lördagen den 30 augusti 2003

STATISTISK ANALYS AV KOMPLEXA DATA

Skrivning i multivariata metoder lördagen den 27 augusti 2005

Resultat. Principalkomponentanalys för alla icke-kategoriska variabler

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA

Regressions- och Tidsserieanalys - F4

STATISTISK ANALYS AV KOMPLEXA DATA

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

STATISTISK ANALYS AV KOMPLEXA DATA

Datorlaboration 2. Läs igenom avsnitt 4.1 så att du får strukturen på kapitlet klar för dig.

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Vad är faktoranalys? Faktoranalys. Vad är dimensioner? Vad är dimensioner?

STATISTISK ANALYS AV KOMPLEXA DATA

1 Find the area of the triangle with vertices A = (0,0,1), B = (1,1,0) and C = (2,2,2). (6p)

Regressions- och Tidsserieanalys - F1

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Faktoranalys, Cronbach s Alpha, Risk Ratio, & Odds Ratio

Regressions- och Tidsserieanalys - F1

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Matematisk modellering fortsättningskurs Visuell variation

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Skrivning i ekonometri lördagen den 25 augusti 2007

En analys av förväntad medellivslängd i världens länder

Regressions- och Tidsserieanalys - F5

Tentamen i matematisk statistik

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

10.1 Enkel linjär regression

Granskning av en medarbetarenkät. - En explorativ och konfirmativ faktoranalys

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Statistik , Stansens PC-klass ASA-huset. Schema: mån ti ons to fre

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Bilaga 1, Exempel på dålig uppdatering

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

and Mathematical Statistics Gerold Jäger 9:00-15:00 T Compute the following matrix

Statistik för teknologer, 5 poäng Skrivtid:

Regressions- och Tidsserieanalys - F3

7.5 Experiment with a single factor having more than two levels

and u = och x + y z 2w = 3 (a) Finn alla lösningar till ekvationssystemet

Multivariat databehandling och dataanalys

Tentamen i matematisk statistik

Multipel Regressionsmodellen

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Exempel 1 på multipelregression

TENTAMEN I STATISTIK B,

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Lösningsförslag obs. preliminärt, reservation för fel

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

2.1 Minitab-introduktion

Två kulturer på Internet Resultat av faktor- och klusteranalys

Examinationsuppgifter del 2

Farid Bonawiede 2 februari 2006

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Regressions- och Tidsserieanalys - F3

6. a) Visa att följande vektorer är egenvektorer till matrisen A = , och ange motsvarande

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tidsserier. Data. Vi har tittat på två typer av data

Kurskod: TAMS24 / Provkod: TEN (8:00-12:00) English Version

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Tentamen i matematisk statistik

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Lösningar till SPSS-övning: Analytisk statistik

För ingenjörs- och distansstudenter Linjär Algebra ma014a ATM-Matematik Mikael Forsberg

Regressions- och Tidsserieanalys - F3

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Linjär algebra och geometri I

Föreläsning 4. Kap 5,1-5,3

MVE022 Urval av bevis (på svenska)

TENTAMEN I MATEMATISK STATISTIK

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Nöjd Medarbetar Index 2012

Differentiell psykologi

En jämförelse mellan några multivariata data-analysmetoder

Läsanvisningar och övningsuppgifter i MAA150, period vt Erik Darpö

Stokastiska vektorer och multivariat normalfördelning

Linjär algebra och geometri 1

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

Regressions- och Tidsserieanalys - F8

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Inference in multiplicative pricing

Skrivning i ekonometri lördagen den 29 mars 2008

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Stockholms Univ., Statistiska Inst. Finansiell Statistik, GN, 7,5 hp, HT2008 Numeriska svar till övningar

Metod och teori. Statistik för naturvetare Umeå universitet

Transkript:

Multivariata metoder F3 Linda Wänström Linköpings universitet 17 september Wänström (Linköpings universitet) Multivariata metoder 17 september 1 / 21

Principalkomponentanalys Syfte med principalkomponentanalys Bilda linjärkombinationer (index) Z 1, Z 2,..., Z p från p variabler X 1, X 2,..., X p Z 1, Z 2,..., Z p är okorrellerade med varandra Var(Z 1 ) Var(Z 2 ),..., Var(Z p ). Wänström (Linköpings universitet) Multivariata metoder 17 september 2 / 21

Principalkomponentanalys Antag n observationer på p variabler. Den första PCn är den linjärkombination av variablerna X 1, X 2,..., X p med högst varians, givet att Z 1 = a 11 X 1 + a 12 X 2 +... + a 1p X p Den andra PCn a 2 11 + a 2 12 +... + a 2 1p = 1. Z 2 = a 21 X 1 + a 22 X 2 +... + a 2p X p väljs så att Var(Z 2 ) är så stor som möjligt givet att a 2 21 + a 2 22 +... + a 2 2p = 1 samt Corr(Z 1 Z 2 ) = 0. De övriga PC väljs på motsvarande sätt. Om det finns p variabler kan det bildas högst p PCs. Wänström (Linköpings universitet) Multivariata metoder 17 september 3 / 21

Stegen i principalkomponentanalys 1 Standardisera variablerna 2 Beräkna kovariansmatrisen C 3 Ta fram egenvärdena λ 1, λ 2,..., λ p samt egenvektorerna d 1, d 2,..., d p. Koeffi cienterna för den i:te principalkomponenten är elementen i d i och λ i är dess varians. 4 Spara de komponenter med egenvärden större än 1 / som förklarar tillräckligt mycket variation i data (exempelvis 90%). 5 Beräkna PC-"scores" Wänström (Linköpings universitet) Multivariata metoder 17 september 4 / 21

Exempel Digit Span (ds), Piat Math (pm), Piat Reading Recognition (prr), Piat Reading Comprehension (prc), PPVT Pearson Correlation Coefficients, N = 377 Prob > r under H0: Rho=0 ds pm prr prc ppvt ds 1.00000 0.41452 0.48927 0.45682 0.34314 pm 0.41452 1.00000 0.54882 0.59637 0.55422 prr 0.48927 0.54882 1.00000 0.67741 0.58623 prc 0.45682 0.59637 0.67741 1.00000 0.65581 ppvt 0.34314 0.55422 0.58623 0.65581 1.00000 Wänström (Linköpings universitet) Multivariata metoder 17 september 5 / 21

Principalkomponentanalys i SAS data one (type=corr); input _type_ $ _name_ $ x1 x5; datalines; corr x1 1.... corr x2 0.41452 1... corr x3 0.48927 0.54882 1.. corr x4 0.45682 0.59637 0.67741 1. corr x5 0.34314 0.55422 0.58623 0.65581 1 ; proc princomp; var x1 x5; run; Wänström (Linköpings universitet) Multivariata metoder 17 september 6 / 21

Utskrift från SAS Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.15084357 2.45639095 0.6302 0.6302 2 0.69445262 0.22400303 0.1389 0.7691 3 0.47044959 0.08899834 0.0941 0.8631 4 0.38145125 0.07864828 0.0763 0.9394 5 0.30280297 0.0606 1.0000 Eigenvectors Prin1 Prin2 Prin3 Prin4 Prin5 x1 0.369074 0.878062 0.001771 0.304453 0.009840 x2 0.443777.142410 0.870140.135089 0.085965 x3 0.474006 0.018931.384150.641976 0.463956 x4 0.488336.156160.210816.113739.824477 x5 0.451323.428931.225475 0.681168 0.312244 Wänström (Linköpings universitet) Multivariata metoder 17 september 7 / 21

Explorativ faktoranalys Syfte med explorativ faktoranalys Undersöka faktorstrukturen i ett datamaterial Antal bakomliggande faktorer? Vilka variabler laddar på vilka faktorer? Antagande: korrelationer mellan variabler beror på bakomliggande (latenta) faktorer. Spearman s g-faktor C F E Ma P Mu C 1.83.78.70.66.63 F 1.67.67.65.57 E 1.64.54.51 Ma 1.45.51 P 1.40 Mu 1 Wänström (Linköpings universitet) Multivariata metoder 17 september 8 / 21

Stegen i EFA 1 Standardisera variablerna 2 Beräkna kovariansmatrisen C 3 Välj antal faktorer 1 Tex med tumregeln: antal faktorer=antal egenvärden större än 1 4 Skatta laddningarna 1 Principalkomponentmetod 2 Iterativ principalfaktormetod 3 Least Squares 5 Rotera faktorerna för enklare tolkningar 6 Beräkna faktor-"scores" Wänström (Linköpings universitet) Multivariata metoder 17 september 9 / 21

Exempel i SAS: 13 mentala tester Data EFA (type=corr); input _type_ $ _name_ $ I S A V C DS PC CS PA BD OA SS M; cards; N. 400 400 400 400 400 400 400 400 400 400 400 400 400 corr I 1............ corr S.66 1........... corr A.57.55 1.......... corr V.70.69.54 1......... corr C.56.59.47.64 1........ corr DS.34.34.43.35.29 1....... corr PC.47.45.39.45.38.25 1...... corr CS.21.20.27.26.25.23.18 1..... corr PA.40.39.35.40.35.20.37.28 1.... corr BD.48.49.52.46.40.32.52.27.41 1... corr OA.41.42.39.41.34.26.49.24.37.61 1.. corr SS.35.35.41.35.34.28.33.53.36.45.38 1. corr M.18.18.22.17.17.14.24.15.23.31.29.24 1 ; proc factor method=prinit rotate=v maxiter=50 scree preplot plot; var I S A V C DS PC CS PA BD OA SS M; run; Wänström (Linköpings universitet) Multivariata metoder 17 september 10 / 21

The SAS System The FACTOR Procedure Initial Factor Method: Iterated Principal Factor Analysis Prior Communality Estimates: ONE Preliminary Eigenvalues: Total = 13 Average = 1 Eigenvalue Difference Proportion Cumulative 1 5.62785673 4.37791753 0.4329 0.4329 2 1.24993919 0.21234181 0.0961 0.5291 3 1.03759739 0.20262751 0.0798 0.6089 4 0.83496988 0.07705003 0.0642 0.6731 5 0.75791985 0.11733680 0.0583 0.7314 6 0.64058305 0.10411974 0.0493 0.7807 7 0.53646331 0.03612325 0.0413 0.8219 8 0.50034006 0.06546933 0.0385 0.8604 9 0.43487073 0.01835547 0.0335 0.8939 10 0.41651525 0.06082124 0.0320 0.9259 11 0.35569402 0.02305940 0.0274 0.9533 12 0.33263462 0.05801869 0.0256 0.9789 13 0.27461592 0.0211 1.0000 Wänström (Linköpings universitet) Multivariata metoder 17 september 11 / 21

Scree Plot of Eigenvalues 6 ˆ 1 5 ˆ 4 ˆ E i g e n v 3 ˆ a l u e s 2 ˆ 2 1 ˆ 3 4 5 3 factors will be retained by the MINEIGEN criterion. 6 7 8 9 0 1 2 3 0 ˆ Šˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Wänström (Linköpings universitet) Multivariata Number metoder 17 september 12 / 21

Factor Pattern Factor1 Factor2 Factor3 I 0.76519 0.27481 0.06246 S 0.76313 0.28046 0.05656 A 0.69918 0.04431 0.05096 V 0.78575 0.30529 0.16038 C 0.67259 0.20215 0.15698 DS 0.45491 0.01746 0.07719 PC 0.62010 0.01512 0.24073 CS 0.42351 0.49115 0.38439 PA 0.54529 0.10095 0.03218 BD 0.72885 0.17896 0.31479 OA 0.63588 0.17718 0.33843 SS 0.58962 0.42438 0.18293 M 0.32470 0.17691 0.16170 Wänström (Linköpings universitet) Multivariata metoder 17 september 13 / 21

Variance Explained by Each Factor Factor1 Factor2 Factor3 5.1833376 0.8169758 0.5460021 Final Communality Estimates: Total = 6.546315 I S A V C DS PC CS PA BD OA SS M 0.66492 866 0.66422 372 0.49341 995 0.73633 485 0.51788 931 0.21320 197 0.44270 802 0.56834 519 0.30856 900 0.66233 639 0.55027 236 0.56121 378 0.16287 221 Wänström (Linköpings universitet) Multivariata metoder 17 september 14 / 21

Plot of Factor Pattern for Factor1 and Factor2 Plot of Factor Pattern for Factor1 and Factor3 Factor1 1.9 D.8 A J C.7 E K.G L I.5 F.4 H.3 M.2 F.1 a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 2.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Factor1 1.9.8 D J A.7C K E G.6 L I.5 F.4 H M.3.2 F.1 a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 3.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Wänström (Linköpings universitet) Multivariata metoder 17 september 15 / 21

Plot of Factor Pattern for Factor2 and Factor3 Factor2 1.9.8.7.6.5 H.4 L.3 KJ M.2 F I1 a c 1.9.8.7.6.5.4.3G.2.1 0 F1.2.3.4.5.6.7.8.9 1.0t C o.1 r 3.2 E A.3B D.4.5.6.7.8.9 1 I=A S=B A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Wänström (Linköpings universitet) Multivariata metoder 17 september 16 / 21

The FACTOR Procedure Rotation Method: Varimax Orthogonal Transformation Matrix 1 2 3 1 0.74267 0.56938 0.35249 2 0.60530 0.34561 0.71705 3 0.28645 0.74590 0.60132 Wänström (Linköpings universitet) Multivariata metoder 17 september 17 / 21

Rotated Factor Pattern Factor1 Factor2 Factor3 I 0.75251 0.29411 0.11023 S 0.75272 0.29539 0.10191 A 0.56068 0.34477 0.24533 V 0.81429 0.22225 0.15450 C 0.66684 0.19600 0.18653 DS 0.34939 0.20747 0.21929 PC 0.38243 0.53786 0.08467 CS 0.12734 0.12416 0.73261 PA 0.33465 0.36937 0.24524 BD 0.34279 0.71164 0.19595 OA 0.26806 0.67573 0.14769 SS 0.23341 0.34594 0.62214 M 0.08775 0.36663 0.14408 Wänström (Linköpings universitet) Multivariata metoder 17 september 18 / 21

Variance Explained by Each Factor Factor1 Factor2 Factor3 3.2030418 2.0817480 1.2615256 Final Communality Estimates: Total = 6.546315 I S A V C DS PC CS PA BD OA SS M 0.66492 866 0.66422 372 0.49341 995 0.73633 485 0.51788 931 0.21320 197 0.44270 802 0.56834 519 0.30856 900 0.66233 639 0.55027 236 0.56121 378 0.16287 221 Wänström (Linköpings universitet) Multivariata metoder 17 september 19 / 21

Plot of Factor Pattern for Factor1 and Factor2 Plot of Factor Pattern for Factor1 and Factor3 Factor1 1.9.8 D A.7 E.6 C.5.4 G F I J.3 L K.2 H F.1 M a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 2.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Factor1 1.9.8 D A.7 E.6 C.5.4 G JFI.3 K L.2 H F.1 M a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 3.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Wänström (Linköpings universitet) Multivariata metoder 17 september 20 / 21

Plot of Factor Pattern for Factor2 and Factor3 Factor2 1.9.8.7 KJ.6.5 G.4.3 A M C L.2 DEF F.1 H a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 3.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=C BD=J OA=K SS=L M=M Wänström (Linköpings universitet) Multivariata metoder 17 september 21 / 21