Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression Anna Lindgren 28+29 november, 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 1/22
Linjär regression Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (0, σ). Parameterskattningarna Skattningarna av α, β och (σ 2 ) är α = ȳ β x, β = (σ 2 ) = s 2 = Q 0 n 2 Q 0 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 = S xy S xx, (y i α β x i ) 2 = S yy S2 xy S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 2/22
Skattningarnas fördelning: α 1 N α, σ n + x2, S xx ( ) β σ N β, Sxx Men de är inte oberoende av varandra. Konfidens-, prediktions- och kalibreringsintervall (f = n 2): I β = β s ± t a/2 (n 2), I α = α 1 ± t a/2 (f) s Sxx n + x2, S xx I μ0 = α + β 1 x 0 ± t a/2 (f) s n + (x 0 x) 2, S xx I Y(x0 ) = α + β x 0 ± t a/2 (f) s 1 + 1 n + (x 0 x) 2, S xx I x0 = x0 ± t s a/2(f) β 1 + 1 n + (y 0 ȳ) 2 (β ) 2. S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 3/22
Antal transistorer 10 9 10 8 10 7 10 6 10 5 10 4 10 3 8080 4004 8008 Antal transistorer hos Intelprocessorer 8086 Intel386 TM 286 Intel Itanium 2 Intel Itanium Intel Pentium 4 Intel Pentium III Intel Pentium II Intel Pentium Intel486 TM 10 2 1970 1980 1990 2000 2010 2020 Lanseringsår Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 4/22
Linjärisering av exponentiella samband För att få ett linjärt samband y i = α + βx i + ε i kan vissa exponent- och potenssamband logaritmeras. z i = a e βx i ε i z i = a t β i ε i ln ln ln z i }{{} y i ln z i }{{} y i = ln a }{{} α = ln a }{{} α +β x i + ln ε i }{{} ε i +β ln t }{{} i x i + ln ε i }{{} ε i Om de multiplikativa felen, ε i, är lognormalfördelade blir ln ε i N och vi kan använda linjär regression för att skatta ln α och β. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 5/22
5 x Skattat samband: y = 5.13 10 301 e 0.35 x 108 4.5 4 3.5 Antal transistorer 3 2.5 2 1.5 1 0.5 0 1970 1980 1990 2000 2010 2020 Lanseringsår Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 6/22
Samband vikt och hjärnstorlek 12 10 8 Elefant (Afr) Elefant (Ind) log(hjärnvikt) [g] 6 4 2 0 Mullvad Råtta Hamster Människa Giraff Chimpans Häst Åsna GorillaKo Rhesus apa Får Gris Jaguar Varg Potar apa Get Känguru Katt Kanin Ekorrbäver Marsvin Brachiosaurus ( ) Triceratops ( ) ( ) Diplodocus Mus 2 4 2 0 2 4 6 8 10 12 log(kroppsvikt) [kg] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 7/22
Multipel linjär regression Modellen kan utökas med flera x-variabler: y i = β 0 + β 1 x i1 +... + β k x ik + ε i, i = 1,..., n, ε i N (0, σ) kan skrivas på matrisform som y = Xβ + ε där y och ε är n 1-vektorer, β en 1 (k + 1)-vektor och X en n (k + 1)-matris y 1 1 x 11 x 1k β 0 y 2 y =., X = 1 x 21 x 2k......, β = β 1.,ε = y n 1 x n1 x nk β k ε 1. ε n Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 8/22
Exempel Julklappar (Tenta 12/12-2000): En liten flicka vill undersöka om det lönar sig att vara snäll. Hon har därför noterat värdet (i kr) på de julklappar hon fick från olika släktningar i år, när hon varit snäll, och i fjor då hon var stygg. Hon har insett att värdet på julklapparna också till stor del beror på givarens ekonomi och allmänna generositet. Hon räknar därför också ut ett lämpligt mått på givmildhet: värde ln(värde) Släkting i fjor i år i fjor i år givmildhet Storebror 24:50 49:50 3.2 3.9 3.3 Lillebror 18: 27: 2.9 3.3 2.8 Mormor och morfar 2981: 3641: 8.0 8.2 7.9 Farmor och farfar 30: 40: 3.4 3.7 3.4 Mamma och pappa 148: 329:50 5.0 5.8 5.4 Moster 24:50 44:50 3.2 3.8 3.3 Kusin? 62:? 4.1 3.6 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 9/22
4000 3000 x 1i = 0: stygg x 1i = 1: snäll z i = julklapparnas värde (kr) 2000 1000 0 2 3 4 5 6 7 8 x 2i : givmildhet 9 8 7 6 5 4 3 x 1i = 0: stygg x 1i = 1: snäll y i = ln(z i ) = ln(julklapparnas värde) 2 2 3 4 5 6 7 8 x 2i : givmildhet Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 10/22
Lämplig regressionsmodell: ln z i = y i = α + β 1 x 1i + β 2 x 2i + ε i, i = 1,..., 13, z i = värdet (kr) av julklapp i, y i = ln z i = logaritmerat värde på julklapp i, { 0 för alla fjorårets julklappar (då hon varit stygg), x 1i =, 1 för alla årets julklappar (då hon varit snäll), x 2i = givmildheten hos givaren av julklapp i, ε i N (0, σ) ober., e β 1 = relativa ökningen i julklapparnas värde när flickan är snäll 1. Testa, på nivån 5 %, om det lönar sig att vara snäll, dvs om β 1 är signifikant större än 0. 2. Gör ett tvåsidigt 95 % prediktionsintervall för värdet på Kusinens julklapp i fjor, d.v.s. då den lilla flickan varit stygg. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 11/22
Modell med matriser: Y = Xβ + ε där 3.2 1 0 3.3 3.9 1 1 3.3 2.9 1 0 2.8 3.3 1 1 2.8 8.0 1 0 7.9 ε 1 ε 2 8.2 1 1 7.9 β 0 Y = 3.4, X = 1 0 3.4, β = β 1 ε 3, ε = 3.7 1 1 3.4 β 2. 5.0 1 0 5.4 ε 12 5.8 1 1 5.4 ε 13 3.2 1 0 3.3 3.8 1 1 3.3 4.1 1 1 3.6 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 12/22
Skattning av parametrarna Skattning av β ML- och MK-skattningar av β 0,..., β k (elementen i β) blir β = (X T X) 1 X T y En väntevärdesriktig skattning av σ 2 ges av (korrigerad ML) s 2 = Q 0 n (k + 1) där Q 0 = (y Xβ ) T (y Xβ ) Q 0 är alltså residualkvadratsumman och k + 1 är antalet skattade parametrar i Q 0. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 13/22
Skattningar: 13 7 55.8 58.5 X T X = 7 7 29.7, X T y = 32.8, 55.8 29.7 278.46 289.09 0.6530 0.1786 0.1118 (X T X) 1 = 0.1786 0.3098 0.0028, 0.1118 0.0028 0.0257 β β = (X T X) 1 X T 0 0.0208 y = β1 = 0.5074, β2 0.9799 Q 0 = (y Xβ ) T (y Xβ ) = 0.2347, f = n (k + 1) = 13 3 = 10, σ = s = Q0 f = 0.1532 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 14/22
5000 4000 x 1i = 0: stygg x 1i = 1: snäll z i = julklapparnas värde (kr) 3000 2000 1000 0 2 3 4 5 6 7 8 x 2i : givmildhet 10 8 x 1i = 0: stygg x 1i = 1: snäll y i = ln(z i ) = ln(julklapparnas värde) 6 4 2 0 2 3 4 5 6 7 8 x 2i : givmildhet Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 15/22
Skattningarnas fördelning Skattningarna av β är linjära funktioner av Y och är därmed normalfördelade β i N (β i, D(β i )), D(βi ) ges av roten ur diagonalelementen i kovariansmatrisen V(β0 ) C(β 0, β 1 ) C(β 0, β k ) V(β ) = σ 2 (X T X) 1 C(β1 =, β 0 ) V(β 1 ) C(β 1, β k )....... C(βk, β 0 ) C(β k, β 1 ) V(β k ) För residualkvadratsumman gäller Q 0 σ 2 χ2 (n (k + 1)) Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 16/22
Konfidensintervall och hypotestest för β i Konfidensintervall för β i blir alltså I βi = βi ± t a/2 (f) d(βi ) = [(X = βi ± t a/2 (n (k + 1)) s T X) 1] i,i där [(X T X) 1 ] i,i är diagonalelement nr i. Obs! det första elementet har nummer i = 0. Intervallet kan användas för att testa hypotesen H 0 : β i = 0 H 1 : β i 0 Alternativt kan man naturligtvis använda T = β i 0 d(β i ) förkasta H 0 om T > t a/2 (n (k + 1)). Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 17/22
1. Vi vill testa H 0 : β 1 = 0 mot H 1 : β 1 > 0 på signifikansnivån a = 0.05. Medelfelet blir d(β 1 ) = s [(X T X) 1 ] 1,1 = 0.1532 0.3098 = 0.0853 Eftersom T = β 1 0 d(β ) = 0.5074 0.0853 = 5.9496 > t a(f) = t 0.05 (10) = 1.81 kan H 0 förkastas. Ja, det lönar sig att vara snäll. Hur mycket lönar det sig? Ett tvåsidigt konfidensintervall för β 1 blir I β1 = β1 ± t a/2(f) d(β1 ) = 0.5074 ± } t 0.025(10) 0.0853 {{} 2.23 = (0.3174, 0.6974), I e β 1 = (e 0.3174, e 0.6974 ) = (1.37, 2.01) Att vara snäll ökar värdet på julklapparna med i genomsnitt 37 100 %! Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 18/22
Skattning av punkt på planet Y-s väntevärde i en punkt x 0 = [ ] 1 x 01 x 02 x 0k ges nu av k μ (x 0 ) = β0 + βi x 0i = x 0 β i=1 V(μ (x 0 )) = x 0 V(β )x T 0 = σ2 x 0 (X T X) 1 x T 0. Ett konfidensintervall för μ (x 0 ) blir således (med f = n (k + 1)) I μ (x 0 ) = x 0 β ± t a/2 (f) s x 0 (X T X) 1 x T 0 För prediktionsintervallet får man, som tidigare, lägga till en etta under kvadratroten I Y(x0 ) = x 0 β ± t a/2 (f) s 1 + x 0 (X T X) 1 x T 0 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 19/22
2. Prediktionsintervall för Kusinens julklapp: Vi har x 0 = [ 1 0 3.6 ] och skattningen μ (x 0 ) = x 0 β = 1 β 0 + 0 β 1 + 3.6 β 2 = 3.5484, e μ (x 0 ) = e 3.5484 = 35.76 kr, x 0 (X T X) 1 x T 0 = 0.1811, I Y(x0 ) = 3.5484 ± 2.23 0.1532 1 + 0.1811 = (3.21, 3.89) Omräknat till kronor blir det I e Y(x 0 ) = (e 3.21, e 3.89 ) = (25.69, 48.94) kr Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 20/22
Modellvalidering Precis som för enkel regression bör man undersöka residualerna e = y Xβ, och förvisssa sig om att de verkar vara oberoende och N (0, σ)-fördelade. Plotta residualerna 1. Som de kommer, dvs mot 1, 2,..., n. Ev. ett histogram 2. Mot var och en av x i -dataserierna 3. I en normalfördelningsplot För var och en av β 1,..., β k (obs i regel ej β 0 ) bör man kunna förkasta H 0 i testet H 0 : β i = 0 H 1 : β i 0 eftersom β i anger hur mycket y ändrar sig när vi ändrar x i. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 21/22
Kolinjäritet (ex. två variabler, motsv. för fler) Man bör om möjligt välja sina (x 1i, x 2i )-värden så att de blir utspridda i (x 1, x 2 )-planet och inte klumpar ihop sig längs en linje. Detta ger en mer stabil grund åt regressionsplanet. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 22/22