Multivariata metoder F3 Linda Wänström Linköpings universitet 17 september Wänström (Linköpings universitet) Multivariata metoder 17 september 1 / 21
Principalkomponentanalys Syfte med principalkomponentanalys Bilda linjärkombinationer (index) Z 1, Z 2,..., Z p från p variabler X 1, X 2,..., X p Z 1, Z 2,..., Z p är okorrellerade med varandra Var(Z 1 ) Var(Z 2 ),..., Var(Z p ). Wänström (Linköpings universitet) Multivariata metoder 17 september 2 / 21
Principalkomponentanalys Antag n observationer på p variabler. Den första PCn är den linjärkombination av variablerna X 1, X 2,..., X p med högst varians, givet att Z 1 = a 11 X 1 + a 12 X 2 +... + a 1p X p Den andra PCn a 2 11 + a 2 12 +... + a 2 1p = 1. Z 2 = a 21 X 1 + a 22 X 2 +... + a 2p X p väljs så att Var(Z 2 ) är så stor som möjligt givet att a 2 21 + a 2 22 +... + a 2 2p = 1 samt Corr(Z 1 Z 2 ) = 0. De övriga PC väljs på motsvarande sätt. Om det finns p variabler kan det bildas högst p PCs. Wänström (Linköpings universitet) Multivariata metoder 17 september 3 / 21
Stegen i principalkomponentanalys 1 Standardisera variablerna 2 Beräkna kovariansmatrisen C 3 Ta fram egenvärdena λ 1, λ 2,..., λ p samt egenvektorerna d 1, d 2,..., d p. Koeffi cienterna för den i:te principalkomponenten är elementen i d i och λ i är dess varians. 4 Spara de komponenter med egenvärden större än 1 / som förklarar tillräckligt mycket variation i data (exempelvis 90%). 5 Beräkna PC-"scores" Wänström (Linköpings universitet) Multivariata metoder 17 september 4 / 21
Exempel Digit Span (ds), Piat Math (pm), Piat Reading Recognition (prr), Piat Reading Comprehension (prc), PPVT Pearson Correlation Coefficients, N = 377 Prob > r under H0: Rho=0 ds pm prr prc ppvt ds 1.00000 0.41452 0.48927 0.45682 0.34314 pm 0.41452 1.00000 0.54882 0.59637 0.55422 prr 0.48927 0.54882 1.00000 0.67741 0.58623 prc 0.45682 0.59637 0.67741 1.00000 0.65581 ppvt 0.34314 0.55422 0.58623 0.65581 1.00000 Wänström (Linköpings universitet) Multivariata metoder 17 september 5 / 21
Principalkomponentanalys i SAS data one (type=corr); input _type_ $ _name_ $ x1 x5; datalines; corr x1 1.... corr x2 0.41452 1... corr x3 0.48927 0.54882 1.. corr x4 0.45682 0.59637 0.67741 1. corr x5 0.34314 0.55422 0.58623 0.65581 1 ; proc princomp; var x1 x5; run; Wänström (Linköpings universitet) Multivariata metoder 17 september 6 / 21
Utskrift från SAS Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 3.15084357 2.45639095 0.6302 0.6302 2 0.69445262 0.22400303 0.1389 0.7691 3 0.47044959 0.08899834 0.0941 0.8631 4 0.38145125 0.07864828 0.0763 0.9394 5 0.30280297 0.0606 1.0000 Eigenvectors Prin1 Prin2 Prin3 Prin4 Prin5 x1 0.369074 0.878062 0.001771 0.304453 0.009840 x2 0.443777.142410 0.870140.135089 0.085965 x3 0.474006 0.018931.384150.641976 0.463956 x4 0.488336.156160.210816.113739.824477 x5 0.451323.428931.225475 0.681168 0.312244 Wänström (Linköpings universitet) Multivariata metoder 17 september 7 / 21
Explorativ faktoranalys Syfte med explorativ faktoranalys Undersöka faktorstrukturen i ett datamaterial Antal bakomliggande faktorer? Vilka variabler laddar på vilka faktorer? Antagande: korrelationer mellan variabler beror på bakomliggande (latenta) faktorer. Spearman s g-faktor C F E Ma P Mu C 1.83.78.70.66.63 F 1.67.67.65.57 E 1.64.54.51 Ma 1.45.51 P 1.40 Mu 1 Wänström (Linköpings universitet) Multivariata metoder 17 september 8 / 21
Stegen i EFA 1 Standardisera variablerna 2 Beräkna kovariansmatrisen C 3 Välj antal faktorer 1 Tex med tumregeln: antal faktorer=antal egenvärden större än 1 4 Skatta laddningarna 1 Principalkomponentmetod 2 Iterativ principalfaktormetod 3 Least Squares 5 Rotera faktorerna för enklare tolkningar 6 Beräkna faktor-"scores" Wänström (Linköpings universitet) Multivariata metoder 17 september 9 / 21
Exempel i SAS: 13 mentala tester Data EFA (type=corr); input _type_ $ _name_ $ I S A V C DS PC CS PA BD OA SS M; cards; N. 400 400 400 400 400 400 400 400 400 400 400 400 400 corr I 1............ corr S.66 1........... corr A.57.55 1.......... corr V.70.69.54 1......... corr C.56.59.47.64 1........ corr DS.34.34.43.35.29 1....... corr PC.47.45.39.45.38.25 1...... corr CS.21.20.27.26.25.23.18 1..... corr PA.40.39.35.40.35.20.37.28 1.... corr BD.48.49.52.46.40.32.52.27.41 1... corr OA.41.42.39.41.34.26.49.24.37.61 1.. corr SS.35.35.41.35.34.28.33.53.36.45.38 1. corr M.18.18.22.17.17.14.24.15.23.31.29.24 1 ; proc factor method=prinit rotate=v maxiter=50 scree preplot plot; var I S A V C DS PC CS PA BD OA SS M; run; Wänström (Linköpings universitet) Multivariata metoder 17 september 10 / 21
The SAS System The FACTOR Procedure Initial Factor Method: Iterated Principal Factor Analysis Prior Communality Estimates: ONE Preliminary Eigenvalues: Total = 13 Average = 1 Eigenvalue Difference Proportion Cumulative 1 5.62785673 4.37791753 0.4329 0.4329 2 1.24993919 0.21234181 0.0961 0.5291 3 1.03759739 0.20262751 0.0798 0.6089 4 0.83496988 0.07705003 0.0642 0.6731 5 0.75791985 0.11733680 0.0583 0.7314 6 0.64058305 0.10411974 0.0493 0.7807 7 0.53646331 0.03612325 0.0413 0.8219 8 0.50034006 0.06546933 0.0385 0.8604 9 0.43487073 0.01835547 0.0335 0.8939 10 0.41651525 0.06082124 0.0320 0.9259 11 0.35569402 0.02305940 0.0274 0.9533 12 0.33263462 0.05801869 0.0256 0.9789 13 0.27461592 0.0211 1.0000 Wänström (Linköpings universitet) Multivariata metoder 17 september 11 / 21
Scree Plot of Eigenvalues 6 ˆ 1 5 ˆ 4 ˆ E i g e n v 3 ˆ a l u e s 2 ˆ 2 1 ˆ 3 4 5 3 factors will be retained by the MINEIGEN criterion. 6 7 8 9 0 1 2 3 0 ˆ Šˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒƒƒƒƒƒˆƒ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 Wänström (Linköpings universitet) Multivariata Number metoder 17 september 12 / 21
Factor Pattern Factor1 Factor2 Factor3 I 0.76519 0.27481 0.06246 S 0.76313 0.28046 0.05656 A 0.69918 0.04431 0.05096 V 0.78575 0.30529 0.16038 C 0.67259 0.20215 0.15698 DS 0.45491 0.01746 0.07719 PC 0.62010 0.01512 0.24073 CS 0.42351 0.49115 0.38439 PA 0.54529 0.10095 0.03218 BD 0.72885 0.17896 0.31479 OA 0.63588 0.17718 0.33843 SS 0.58962 0.42438 0.18293 M 0.32470 0.17691 0.16170 Wänström (Linköpings universitet) Multivariata metoder 17 september 13 / 21
Variance Explained by Each Factor Factor1 Factor2 Factor3 5.1833376 0.8169758 0.5460021 Final Communality Estimates: Total = 6.546315 I S A V C DS PC CS PA BD OA SS M 0.66492 866 0.66422 372 0.49341 995 0.73633 485 0.51788 931 0.21320 197 0.44270 802 0.56834 519 0.30856 900 0.66233 639 0.55027 236 0.56121 378 0.16287 221 Wänström (Linköpings universitet) Multivariata metoder 17 september 14 / 21
Plot of Factor Pattern for Factor1 and Factor2 Plot of Factor Pattern for Factor1 and Factor3 Factor1 1.9 D.8 A J C.7 E K.G L I.5 F.4 H.3 M.2 F.1 a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 2.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Factor1 1.9.8 D J A.7C K E G.6 L I.5 F.4 H M.3.2 F.1 a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 3.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Wänström (Linköpings universitet) Multivariata metoder 17 september 15 / 21
Plot of Factor Pattern for Factor2 and Factor3 Factor2 1.9.8.7.6.5 H.4 L.3 KJ M.2 F I1 a c 1.9.8.7.6.5.4.3G.2.1 0 F1.2.3.4.5.6.7.8.9 1.0t C o.1 r 3.2 E A.3B D.4.5.6.7.8.9 1 I=A S=B A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Wänström (Linköpings universitet) Multivariata metoder 17 september 16 / 21
The FACTOR Procedure Rotation Method: Varimax Orthogonal Transformation Matrix 1 2 3 1 0.74267 0.56938 0.35249 2 0.60530 0.34561 0.71705 3 0.28645 0.74590 0.60132 Wänström (Linköpings universitet) Multivariata metoder 17 september 17 / 21
Rotated Factor Pattern Factor1 Factor2 Factor3 I 0.75251 0.29411 0.11023 S 0.75272 0.29539 0.10191 A 0.56068 0.34477 0.24533 V 0.81429 0.22225 0.15450 C 0.66684 0.19600 0.18653 DS 0.34939 0.20747 0.21929 PC 0.38243 0.53786 0.08467 CS 0.12734 0.12416 0.73261 PA 0.33465 0.36937 0.24524 BD 0.34279 0.71164 0.19595 OA 0.26806 0.67573 0.14769 SS 0.23341 0.34594 0.62214 M 0.08775 0.36663 0.14408 Wänström (Linköpings universitet) Multivariata metoder 17 september 18 / 21
Variance Explained by Each Factor Factor1 Factor2 Factor3 3.2030418 2.0817480 1.2615256 Final Communality Estimates: Total = 6.546315 I S A V C DS PC CS PA BD OA SS M 0.66492 866 0.66422 372 0.49341 995 0.73633 485 0.51788 931 0.21320 197 0.44270 802 0.56834 519 0.30856 900 0.66233 639 0.55027 236 0.56121 378 0.16287 221 Wänström (Linköpings universitet) Multivariata metoder 17 september 19 / 21
Plot of Factor Pattern for Factor1 and Factor2 Plot of Factor Pattern for Factor1 and Factor3 Factor1 1.9.8 D A.7 E.6 C.5.4 G F I J.3 L K.2 H F.1 M a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 2.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Factor1 1.9.8 D A.7 E.6 C.5.4 G JFI.3 K L.2 H F.1 M a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 3.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=I BD=J OA=K SS=L M=M Wänström (Linköpings universitet) Multivariata metoder 17 september 20 / 21
Plot of Factor Pattern for Factor2 and Factor3 Factor2 1.9.8.7 KJ.6.5 G.4.3 A M C L.2 DEF F.1 H a c 1.9.8.7.6.5.4.3.2.1 0.1.2.3.4.5.6.7.8.9 1.0t o.1 r 3.2.3.4.5.6.7.8.9 1 I=A S=A A=C V=D C=E DS=F PC=G CS=H PA=C BD=J OA=K SS=L M=M Wänström (Linköpings universitet) Multivariata metoder 17 september 21 / 21