Föreläsning 11. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik för STS vt 2014
Old Faithful Old Faithful Eruption times 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 50 60 70 80 90 Waiting times
Dagens föreläsning Överblick: Korrelationskoefficient ρ Multivariat normalfördelning Inferens kring ρ Fishers z-transform Spearmans test
Korrelationskoefficient Korrelationskoefficient för slumpvariabler X och Y : ρ XY = C[X, Y ] V[X ] V[Y ] Pga Cauchy-Schwartz olikhet gäller 1 ρ 1. Ett uttryck för graden av linjärt beroende. Korrelationskoefficient för stickprov x 1,..., x n och y 1,..., y n : r = S xy Sxx S yy där S xx = (x i x) 2, S xy = (x i x)(y i ȳ), S yy = (y i ȳ) 2.
Typ av samband Betrakta följande observationer (x, y): (0, 0), (2, 16), (3, 81), (6, 1296). Skattad korrelationskoefficient: r = 0.84, förhållandevis högt värde. Det verkar dock här finnas ett tydligt funktionssamband mellan x och y (i själva verket: y = x 4 ). 1400 1200 1000 800 600 400 200 0 0 1 2 3 4 5 6
Population mean vector, covariance matrix Consider a random vector X = (X 1,..., X p ). Population mean vector: where E[X] = µ µ = µ 1 µ 2. µ p Covariance matrix: Σ = E(X µ)(x µ) σ 11 σ 12 σ 1p σ 12 σ 22 σ 2p =...... σ 1p σ 2p σ pp and µ j = E[X j ].
Population correlation matrix Population correlation coefficient ρ ik = σ ik σii σkk Population correlation matrix 1 ρ 12 ρ 1p ρ 12 1 ρ 2p ρ =...... ρ 1p ρ 2p 1
Standard deviation matrix Standard deviation matrix σ11 0 0 V 1/2 0 σ22 0 =...... 0 0 σpp Some relations: Σ = V 1/2 ρ V 1/2 ρ = (V 1/2 ) 1 Σ (V 1/2 ) 1
Standardized variables IMPORTANT FACT: The sample covariance matrix of the standardized variables is the correlation matrix of the original variables.
Multivariate Normal Distribution Mathematical tractability Multivariate central limit theorem Suitable for modelling of naturally occuring phenomena We write X N p (µ, Σ). Density: f (x) = 1 (2π) p/2 (det(σ)) 1/2 exp { (x µ) Σ 1 (x µ)/2 }, x R p
Illustration, Multivariate Normal Example: µ = [ 3 2 ] [, Σ = 1 1.5 1.5 4 ].
Properties Linear combinations of the components are normally distributed All subsets of X are normally distributed. Zero correlation is equivalent to statistical independence Conditional distributions are normally distributed
Geometrical Interpretation Contours of constant density for the p dimensional normal distribution are ellipsoids defined by x such that (x µ) Σ 1 (x µ) = c 2 These ellipsoids are centered at µ and have axes ±c λ i e i, where Σe i = λ i e i, i = 1,..., p
Ellipsoids and Probabilities The solid ellipsoid of x values satifying has probability 1 α. (x µ) Σ 1 (x µ) χ 2 p(α) 4 3 2 1 0 1 2 3 4 4 4 2 2 0 0 2 2 4 4
Korrelationskoefficient för ett stickprov Korrelationskoefficient: r = S xy Sxx S yy där S xx = (x i x) 2, S xy = (x i x)(y i ȳ), S yy = (y i ȳ) 2. Man kan visa att approximativt gäller Fördelning. Då ρ = 0 gäller att E[r] = ρ, V[r] = (1 ρ2 ) 2 r n 2 t(n 2) 1 r 2 n
Fördelning för ρ Density function, n=10 Density function, n=100 function(x) dpearson(x, N = 10, rho = 0) (x) 0.0 0.2 0.4 0.6 0.8 1.0 function(x) dpearson(x, N = 100, rho = 0) (x) 0 1 2 3 4 1.0 0.5 0.0 0.5 1.0 x 1.0 0.5 0.0 0.5 1.0 x Density function, n=10 Density function, n=1000 function(x) dpearson(x, N = 10, rho = 0.7) (x) 0.0 0.5 1.0 1.5 2.0 2.5 function(x) dpearson(x, N = 10, rho = 0.7) (x) 0.0 0.5 1.0 1.5 2.0 2.5 1.0 0.5 0.0 0.5 1.0 x 1.0 0.5 0.0 0.5 1.0 x
Fishers z-transform Betrakta Z = 1 ( ) 1 + r 2 ln. 1 r Det gäller approximativt att Z N(0, 1). Gauss approximationsformler 1 : E[Z] 1 ( ) 1 + ρ 2 ln, V[Z] 1 1 ρ n 3 Approximativa konfidensintervall kan konstrueras. 1 Presenteras i kursen Statistisk riskanalys 1MS027
Exempel Kronbladen hos svärdsliljan studeras. Tillgängligt: Observationer av längd (x) och bredd (y) hos 50 kronblad hos svärdslilja (Iris setosa canadensis). Antag att mätningarna kommer från en tvådimensionell normalfördelning. Bestäm ett 95% konfidensintervall för korrelationen ρ. [Tavlan]
Samband: Korrelationskoefficient och förklaringsgrad Betrakta korrelationkoefficienten r xy = c xy s x s y där och s 2 x = 1 n 1 c xy = 1 n 1 n i=1 n (x i x)(y i ȳ) i=1 (x i x) 2, s 2 y = 1 n 1 n (y i ȳ) 2 i=1 Man kan visa (Stokastik, Sats 9.1) att r 2 xy = R 2. [Tavlan]
Statistiska test Hypotesen ρ = 0 kan testas genom att utnyttja att r n 2 t(n 2) 1 r 2 I en modell för enkel linjär regression y = α + βx kan man testa hypotesen β = 0 genom att utnyttja att Släktskap finns. β s/ S xx t(n 2)
Typ av samband (igen) Betrakta följande observationer (x, y): (0, 0), (2, 16), (3, 81), (6, 1296). Skattad korrelationskoefficient: r = 0.84, förhållandevis högt värde. Det verkar dock här finnas ett tydligt funktionssamband mellan x och y (i själva verket: y = x 4 ). 1400 1200 1000 800 600 400 200 0 0 1 2 3 4 5 6
Spearmans rangkorrelationskoefficient Givet: n observationspar (x 1, y 1 ),..., (x n, y n ). Rangordna och tilldela i vardera följden ordningstalen 1 till n. Låt d j vara differensen mellan rangerna i det j:te talparet. Spearmans rangkorrelationskoefficient: där S = n j=1 d 2 j. Hypotes: r s = 1 6S n 3 n H 0 : X och Y är oberoende Test: Förkasta H 0 om r s a. Om n stort (n 10) gäller att u = n 1r s är en obs från N(0, 1) (osv.)
Exempel Man undersökte förändring i puls hos 10 personer som höll andan så länge de kunde. Försöket genomfördes vid normal rumstemperatur och personerna höll huvudet i vatten, dels med temperaturen 10 C, dels med temperaturen 30 C. Mätresultat anges för varje individ som minskning av antalet slag per minut. [Tavlan]
En omnibus-rutin för test av korrelationskoefficient med R Som alternativ kan väljas Pearson Spearman Kendall cor.test
Partiell korrelation NE: Den korrelation mellan två variabler som kvarstår efter det att den del i de bägge variablerna som kan predikteras (linjärt) från en tredje variabel har eliminerats. Betrakta slumpvariablerna X 1, X 2 och X 3 med korrelationskoefficienterna ρ 12, ρ 13 och ρ 23. Motsvarande stickprovskorrelationskoefficienter: r 12, r 13 och r 23. Partiell korrelationskoefficient (engelska: partial correlation coefficient): r 12 r 13 r 23 r 12 3 = (1 r13 2 )(1 r 23 2 ) (Källa: G.W. Snedecor, W.G. Cochran: Statistical Methods (6th ed) R-rutin: pcor.test
Test kan utföras; denna korrelation är inte signifikant (skild från noll). Det kan inte uteslutas att för flera åldrar är B och C okorrelerade. Exempel Slumpmässigt stickprov om 142 äldre kvinnor från Iowa (IA) och Nebraska (NE). Variabler: Från data: A: Ålder, B: Blodtryck, C: Kolesterolhalt r AB = 0.3332, r AC = 0.5029, r BC = 0.2495. Det anses känt att B och C ökar med ökande ålder. Kan B och C anses vara korrelerade pga. deras gemensamma förhållande till ålder? Vi beräknar r BC A = 0.2495 0.3332 0.5029 (1 0.3332 2 )(1 0.5029 2 ). = 0.1005.
Kursen är slut! Lycka till med statistiska analyser i fortsatta studier och arbetsliv! Välkommen att läsa ytterligare fortsättningskurser! :-)