Föreläsning 8. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik för STS vt 2014
Exempel: Pris och boyta Samband mellan två eller flera variabler? Spridningsdiagram kan indikera samband Matematisk/stokastisk modell?
Enkel linjär regression Observationer y 1,..., y n av variablerna Y 1,..., Y n, antas oberoende med gemensam varians σ 2. Väntevärdet µ i = E[Y i ] beror på givna storheter. Enkel linjär regression: µ i = α + β x i, i = 1,..., n Linjär syftar på uttryckets linjäritet i parametrarna (α, β). Även t.ex. µ i = α + β 1 x i + β 2 x 2 i + β 3 sin x i innebär (multipel) linjär regression.
Modell Låt x 1,..., x n vara givna (icke slumpmässiga) storheter. Antag vidare att Y 1,..., Y n är oberoende slumpvariabler med gemensam varians σ 2 och att µ i = α + βx i. Vi har då en enkel linjär regressionsmodell. Storheten x kallas regressor eller förklarande variabel eller oberoende variabel. Slumpvariabeln Y (eller dess observerade värde y) kallas för responsvariabel eller beroende variabel. Linjen för väntevärdet y = α + βx kallas för den teoretiska regressionslinjen, α benämnes intercept och β lutningskoefficient.
Enkel linjär regression Minstakvadratmetoden används för att finna punktskattningar. Sök de parametrar som minimerar Q = n (y i α βx i ) 2. i=1 Man finner punktskattningarna β = n i=1 y ix i n xȳ n i=1 x 2 i n x 2, α = ȳ β x, där ȳ = n 1 y i och x = n 1 x i. Skattad modell: med residualer y i = α + β x i e i = y i y i
Idé: Minimera kvadratsumma
Historisk kommentar: MK-metoden The method of least squares is the automobile of modern statistical analysis: despite its limitations, occasional accidents, and incidental pollution, it and its numerous variations, extensions, and related conveyances carry the bulk of statistical analyses, and are known and valued by nearly all. But there has been some dispute, historically, as who was the Henry Ford of statistics. SM Stigler (1981)
En vetenskaplig dispyt Adrien-Marie Legendre (1752-1833) Carl Friedrich Gauss (1777-1855) Publikation om metoden 1805. Publikation om metoden 1809.
J.D. Forbes experiment Estimate altitude above sea level from measurements of boiling point of water. Motivation: Difficulties in transportation of fragile barometers. 32 30 Barometric pressure (inches Hg) 28 26 24 22 20 195 200 205 210 Boiling point (F)
Residuals (Forbes data) 0.8 0.6 Residual value 0.4 0.2 0 0.2 0.4 0 2 4 6 8 10 12 14 16 Residual number
Residuals (Forbes data) 5 Normal probability plot 4 3 Quantile 2 1 0 1 2 0.4 0.2 0 0.2 0.4 0.6 0.8 Data
Varning: Orsak/verkan Beakta variablers inverkan! Datas karaktär: tvärsnittsdata (insamlat vid en given tidpunkt) eller longitudinella (insamlade över tid). Datainsamling? Experiment, enkäter; samhällsvetenskap/naturvetenskap.
Förklaringsgrad: Enkel linjär regression Förklaringsgrad: R 2 = 1 n i=1 e2 i n i=1 (y i ȳ) 2 Det gäller alltid 0 R 2 1. Ju närmare R 2 = 1, desto bättre anpassning För enkel linjär regression gäller R 2 = r 2 där r 2 är den kvadrerade skattade korrelationskoefficienten.
Enkel linjär regression: prediktion av väntevärde Givet x = x 0, prediktera värdet av beroende variabeln y genom att använda linjen: y 0 = α + β x 0 Man finner E[Y0 ] = α + βx 0 [ 1 V[Y0 ] = σ 2 n + (x 0 x) 2 ] n i=1 (x i x) 2
Enkel linjär regression: prediktionsintervall En framtida observation y 0 svarande till x 0 ; vi är intresserade av differensen y 0 y 0. E[Y 0 Y 0 ] = 0 V[Y 0 Y0 ] = V[Y 0 ] + V[Y0 ] [ = σ 2 1 + 1 n + (x 0 x) 2 ] n i=1 (x i x) 2
Forbes data 32 Barometric pressure (inches Hg) 30 28 26 24 22 20 18 190 195 200 205 210 215 Boiling point (F)
Regression med fel i bägge variablerna * EIV-modell (Error In Variables). Givet: observationspar (x 1, y 1 ),..., (x n, y n ). x i = ξ i + δ i y i = β 0 + β 1 ξ i + ɛ i där ξ i är okända värden och δ i samt ɛ i är oberoende fel med varianser σ 2 δ resp. σ2 ɛ. MK- och ML-skattningar kan härledas.
Multipel regression Beroende variabel (responsvariabel): y Oberoende variabler (förklarande variabler, regressorvariabler, carriers): x 1, x 2,..., x k Matematiskt samband: y = f (x 1, x 2,..., x k ) där f () är en funktion. Linjär modell Exempel, p = 2: y = β 0 + β 1 x 1 + β 2 x 2 + ɛ OBS! Linjäriteten avser parametrarna β i. Även y = β 0 + β 1 x 1 + β 2 x 2 + β 11 x 2 1 + β 22 x 2 2 + β 12 x 1 x 2 + ɛ är att betrakta som en linjär modell.
Responsytor, exempel 1 y = 35.5 + 10.5x 1 + 5.5x 2 + 0.5x 1 x 2
Responsytor, exempel 2 y = 35.5 + 10.5x 1 + 5.5x 2 + 8x 1 x 2
Multipel regression: matrisnotation Matrisnotation: där och y = y 1 y 2. y n y = Xβ + ɛ 1 x 11 x 12... x ik, X = 1 x 21 x 22... x 2k...... 1 x n1 x n2... x nk β = β 0 β 1. β k ɛ 1, ɛ = ɛ 2. ɛ n
Enkel linjär regression: matrisnotation Matrisnotation: där och y = β = y 1 y 2. y n y = Xβ + ɛ 1 x 1 1 x 2, X =.. 1 x n [ β0 β 1 ɛ 1 ] ɛ 2, ɛ =. ɛ n
MK-metoden för estimering av parametrar Miniminera L(β) = (y Xβ) T (y Xβ) vilket leder till normalekvationerna X T X β = X T y och MK-skattningen β = (X T X) 1 X T y Anmärkning. Vid numerisk behandling används ofta en QR-faktorisering av matrisen X.
Anpassade värden och hattmatris Anpassade värden ŷ ges av ŷ = X ˆβ = Hy där H = X(X T X) 1 X T ofta kallas hattmatrisen. Residualer: e = y ŷ
Mer om skattningar Egenskaper hos skattningen ˆβ Väntevärdesriktig skattning med Cov(ˆβ) = σ 2 (X T X) 1 Skattning av σ 2 Inför residualkvadratsumman Q 0 = SS E = e T e = n (y i ŷ i ) 2 i=1 En väntevärdesriktig skattning ges av ˆσ 2 = Q 0 n k 1 och vidare gäller 1 σ 2 Q 0 χ 2 (n k 1) (följer av räkneregler för linjärkomb. av stok. vektor)
Spjälkning av kvadratsummor Man kan visa att n (y i ȳ) 2 = i=1 n n (ŷ i ȳ) 2 + (y i ŷ i ) 2 i=1 i=1 Tolkning: Total variation = Förklarad variation + Oförklarad variation Vanlig engelsk beteckning: SS T = SS R + SS E Kompendium: Q TOT = Q REGR + Q RES
Förklaringsgrad Förklaringsgrad (coefficient of multiple determination): R 2 = SS R SS T = 1 SS E SS T Ju fler förklarande variabler, desto högre värde på R 2. Emellanåt används dessutom en besläktad storhet. Justerad förklaringsgrad (adjusted R 2 statistic): R 2 adj = 1 SS E /(n k 1) SS R /(n 1) = 1 ( ) n 1 (1 R 2 ) n k 1
Statistisk analys: Test av regression Antag att ɛ i N(0, σ 2 ). Hypoteser: Teststorhet: H 0 : β 1 = β 2 = = β k = 0 H 1 : F 0 = β j 0 för minst ett j SS R /k SS E /(n k 1) Förkasta H 0 om F 0 > F α (n k 1). SS E = y T y ˆβ T X T y SS R = ˆβ T X T y ( n i=1 y i) 2 n
Test av enskilda parametrar Hypoteser: H 0 : β j = 0 mot H 1 : β j 0 Beteckna i matrisen (X T X) 1 elementen med c ij. Då gäller β j N(β j, σ 2 c jj ). Teststorhet: t 0 = ˆβ j 0 ˆσ 2 c jj Förkasta H 0 om t 0 > t α/2 (n k 1).
Konfidensintervall Ett 100(1 α) % konfidensintervall för β j, j = 0, 1,..., k, ges av ( ) ˆβ j t α/2 (n k 1) ˆσ 2 c jj, ˆβ j + t α/2 (n k 1) ˆσ 2 c jj Konfidensintervall för väntevärde vid x 0 : ( ) x T ˆβ 0 ± t α/2 (n k 1) ˆσ 2 x T0 (XT X) 1 x 0 Prediktionsintervall vid vid x 0 : ( ) x T ˆβ 0 ± t α/2 (n p) 1 + ˆσ 2 x T0 (XT X) 1 x 0
Exempel med R: Miljögifter och fiskar Studier av DDT-halten hos fiskarter utefter en flod i Alabama. En kemisk industri finns belägen längs floden. Totalt gjordes mätningar på 144 fiskar. De fem första observationerna: River Mile Species Length Weight DDT 1 FCM 5 CCATFISH 42.50 732 10.00 2 FCM 5 CCATFISH 44.00 795 16.00 3 FCM 5 CCATFISH 41.50 547 23.00 4 FCM 5 CCATFISH 39.00 465 21.00 5 FCM 5 CCATFISH 50.50 1252 50.00
Exempel med R: Miljögifter och fiskar Antag att vi vill skatta parametrar i modellen y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + ɛ Responsvariabel: y =DDT Förklarande variabler: x 1 =Mile, x 2 =Length, x 3 =Weight Call: lm(formula = DDT Mile + Length + Weight, data = fishes) Estimate Std. Error t value Pr(> t ) (Intercept) -108.0677 62.7004-1.72 0.0870 Mile 0.0851 0.0822 1.03 0.3025 Length 3.7709 1.6189 2.33 0.0213 Weight -0.0494 0.0293-1.69 0.0935 Residual standard error: 97.48 on 140 degrees of freedom Multiple R-squared: 0.03887, Adjusted R-squared: 0.01827 F-statistic: 1.887 on 3 and 140 DF, p-value: 0.1345
Miljögifter och fiskar (a) Ange en skattning av standardavvikelsen σ för ɛ. Från R-utskriften finner vi direkt σ = 97.48. (b) Ger data tillräckligt belägg för att dra slutsatsen att DDT-halten ökar med ökande längd (signifikansnivå 0.05)? Hypotestest: H 0 : β 2 = 0 H 1 : β 2 > 0 Från R-utskriften finner vi värde på teststorheten för t-test: t = 2.33. Under antagande om normalfördelade residualer förkastas H 0 om t > t 0.05 (142). = 1.66, dvs. vi förkastar här H 0. Alternativt, studera motsvarande p-värde för aktuell variabel (ges i utskriften): p = 0.0213/2 = 0.01065. Slutsats: Förkasta H 0 på nivån 0.05.
Miljögifter och fiskar (c) Beräkna ett 95% konfidensintervall för β 3. Tolka intervallet. Ett intervall ges av I β3 = [β 3 ± t 0.025 (142)d[β 3] ] R-utskriften: β3. = 0.0494 och medelfelet d[β3 ] =. 0.0293. Tabell eller dator ger t 0.025 (142) =. 1.98. Intervallet ges av [ 0.11, 0.0085]. Tolkning: För varje grams ökning av fiskens vikt kan vi med 95% säkerhet slå fast att ökningen i DDT-halt ligger i intervallet [ 0.11, 0.0085], om övriga variabler i modellen, Mile och Length, hålls konstanta.
Miljögifter och fiskar (d) Testa regressionsmodellen på signifikansnivån 0.05. Hypotestest: H 0 : β 1 = β 2 = β 3 = 0 H 1 : Minst ett β i 0 Detta kan testas med ett F-test, värdet på teststorheten kan utläsas: F = 1.89. H 0 förkastas om F > F 0.05 (3, 140) = 2.67, dvs. i detta fall förkastas inte H 0. Motsvarande p-värde kan utläsas: p = 0.1345; förkasta inte H 0 på någon av de vanligast förekommande nivåerna. De förklarande variablerna förklarar inte tillräckligt bra responsvariabeln.