Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Relevanta dokument
Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Linjär regression

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

Föreläsning 13: Multipel Regression

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Enkel och multipel linjär regression

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Matematisk statistik, Föreläsning 5

Föreläsning 12: Regression

Matematisk statistik för D, I, Π och Fysiker

F13 Regression och problemlösning

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

MVE051/MSG Föreläsning 14

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Finansiell statistik. Multipel regression. 4 maj 2011

Matematisk statistik för B, K, N, BME och Kemister

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM VT Matematikcentrum Matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 17, Matematisk statistik Π + E

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Grundläggande matematisk statistik

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 11: Mer om jämförelser och inferens

Tenta i Statistisk analys, 15 december 2004

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Regressionsanalys av lägenhetspriser i Spånga

Lycka till!

Tentamen för kursen. Linjära statistiska modeller. 13 januari

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM HT Matematikcentrum Matematisk statistik

Föreläsning 9: Linjär regression del II

Tentamen för kursen. Linjära statistiska modeller. 22 februari

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Repetition 2, inför tentamen

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Avd. Matematisk statistik

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Tentamen MVE302 Sannolikhet och statistik

Laboration 2: Styrkefunktion samt Regression

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

F11. Kvantitativa prognostekniker

TAMS65 - Seminarium 4 Regressionsanalys

Tentamen för kursen. Linjära statistiska modeller. 17 februari

1 Förberedelseuppgifter

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

AMatematiska institutionen avd matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

oberoende av varandra så observationerna är

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Statistisk försöksplanering

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Matematisk statistik 9 hp, HT-16 Föreläsning 16: Markovkedjor

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

1 Förberedelseuppgifter

SF1901 Sannolikhetsteori och statistik I

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Bayesiansk statistik, 732g43, 7.5 hp

Matematisk statistik för B, K, N, BME och Kemister

Lufttorkat trä Ugnstorkat trä

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 5: Regressionsanalys

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Avd. Matematisk statistik

10.1 Enkel linjär regression

Föreläsning 15: Försöksplanering och repetition

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen MVE301 Sannolikhet, statistik och risk

Regressions- och Tidsserieanalys - F1

Examinationsuppgifter del 2

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Statistisk försöksplanering

Matematisk statistik för D, I, Π och Fysiker

Transkript:

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression Anna Lindgren 28+29 november, 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 1/22

Linjär regression Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (0, σ). Parameterskattningarna Skattningarna av α, β och (σ 2 ) är α = ȳ β x, β = (σ 2 ) = s 2 = Q 0 n 2 Q 0 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 = S xy S xx, (y i α β x i ) 2 = S yy S2 xy S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 2/22

Skattningarnas fördelning: α 1 N α, σ n + x2, S xx ( ) β σ N β, Sxx Men de är inte oberoende av varandra. Konfidens-, prediktions- och kalibreringsintervall (f = n 2): I β = β s ± t a/2 (n 2), I α = α 1 ± t a/2 (f) s Sxx n + x2, S xx I μ0 = α + β 1 x 0 ± t a/2 (f) s n + (x 0 x) 2, S xx I Y(x0 ) = α + β x 0 ± t a/2 (f) s 1 + 1 n + (x 0 x) 2, S xx I x0 = x0 ± t s a/2(f) β 1 + 1 n + (y 0 ȳ) 2 (β ) 2. S xx Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 3/22

Antal transistorer 10 9 10 8 10 7 10 6 10 5 10 4 10 3 8080 4004 8008 Antal transistorer hos Intelprocessorer 8086 Intel386 TM 286 Intel Itanium 2 Intel Itanium Intel Pentium 4 Intel Pentium III Intel Pentium II Intel Pentium Intel486 TM 10 2 1970 1980 1990 2000 2010 2020 Lanseringsår Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 4/22

Linjärisering av exponentiella samband För att få ett linjärt samband y i = α + βx i + ε i kan vissa exponent- och potenssamband logaritmeras. z i = a e βx i ε i z i = a t β i ε i ln ln ln z i }{{} y i ln z i }{{} y i = ln a }{{} α = ln a }{{} α +β x i + ln ε i }{{} ε i +β ln t }{{} i x i + ln ε i }{{} ε i Om de multiplikativa felen, ε i, är lognormalfördelade blir ln ε i N och vi kan använda linjär regression för att skatta ln α och β. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 5/22

5 x Skattat samband: y = 5.13 10 301 e 0.35 x 108 4.5 4 3.5 Antal transistorer 3 2.5 2 1.5 1 0.5 0 1970 1980 1990 2000 2010 2020 Lanseringsår Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 6/22

Samband vikt och hjärnstorlek 12 10 8 Elefant (Afr) Elefant (Ind) log(hjärnvikt) [g] 6 4 2 0 Mullvad Råtta Hamster Människa Giraff Chimpans Häst Åsna GorillaKo Rhesus apa Får Gris Jaguar Varg Potar apa Get Känguru Katt Kanin Ekorrbäver Marsvin Brachiosaurus ( ) Triceratops ( ) ( ) Diplodocus Mus 2 4 2 0 2 4 6 8 10 12 log(kroppsvikt) [kg] Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 7/22

Multipel linjär regression Modellen kan utökas med flera x-variabler: y i = β 0 + β 1 x i1 +... + β k x ik + ε i, i = 1,..., n, ε i N (0, σ) kan skrivas på matrisform som y = Xβ + ε där y och ε är n 1-vektorer, β en 1 (k + 1)-vektor och X en n (k + 1)-matris y 1 1 x 11 x 1k β 0 y 2 y =., X = 1 x 21 x 2k......, β = β 1.,ε = y n 1 x n1 x nk β k ε 1. ε n Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 8/22

Exempel Julklappar (Tenta 12/12-2000): En liten flicka vill undersöka om det lönar sig att vara snäll. Hon har därför noterat värdet (i kr) på de julklappar hon fick från olika släktningar i år, när hon varit snäll, och i fjor då hon var stygg. Hon har insett att värdet på julklapparna också till stor del beror på givarens ekonomi och allmänna generositet. Hon räknar därför också ut ett lämpligt mått på givmildhet: värde ln(värde) Släkting i fjor i år i fjor i år givmildhet Storebror 24:50 49:50 3.2 3.9 3.3 Lillebror 18: 27: 2.9 3.3 2.8 Mormor och morfar 2981: 3641: 8.0 8.2 7.9 Farmor och farfar 30: 40: 3.4 3.7 3.4 Mamma och pappa 148: 329:50 5.0 5.8 5.4 Moster 24:50 44:50 3.2 3.8 3.3 Kusin? 62:? 4.1 3.6 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 9/22

4000 3000 x 1i = 0: stygg x 1i = 1: snäll z i = julklapparnas värde (kr) 2000 1000 0 2 3 4 5 6 7 8 x 2i : givmildhet 9 8 7 6 5 4 3 x 1i = 0: stygg x 1i = 1: snäll y i = ln(z i ) = ln(julklapparnas värde) 2 2 3 4 5 6 7 8 x 2i : givmildhet Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 10/22

Lämplig regressionsmodell: ln z i = y i = α + β 1 x 1i + β 2 x 2i + ε i, i = 1,..., 13, z i = värdet (kr) av julklapp i, y i = ln z i = logaritmerat värde på julklapp i, { 0 för alla fjorårets julklappar (då hon varit stygg), x 1i =, 1 för alla årets julklappar (då hon varit snäll), x 2i = givmildheten hos givaren av julklapp i, ε i N (0, σ) ober., e β 1 = relativa ökningen i julklapparnas värde när flickan är snäll 1. Testa, på nivån 5 %, om det lönar sig att vara snäll, dvs om β 1 är signifikant större än 0. 2. Gör ett tvåsidigt 95 % prediktionsintervall för värdet på Kusinens julklapp i fjor, d.v.s. då den lilla flickan varit stygg. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 11/22

Modell med matriser: Y = Xβ + ε där 3.2 1 0 3.3 3.9 1 1 3.3 2.9 1 0 2.8 3.3 1 1 2.8 8.0 1 0 7.9 ε 1 ε 2 8.2 1 1 7.9 β 0 Y = 3.4, X = 1 0 3.4, β = β 1 ε 3, ε = 3.7 1 1 3.4 β 2. 5.0 1 0 5.4 ε 12 5.8 1 1 5.4 ε 13 3.2 1 0 3.3 3.8 1 1 3.3 4.1 1 1 3.6 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 12/22

Skattning av parametrarna Skattning av β ML- och MK-skattningar av β 0,..., β k (elementen i β) blir β = (X T X) 1 X T y En väntevärdesriktig skattning av σ 2 ges av (korrigerad ML) s 2 = Q 0 n (k + 1) där Q 0 = (y Xβ ) T (y Xβ ) Q 0 är alltså residualkvadratsumman och k + 1 är antalet skattade parametrar i Q 0. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 13/22

Skattningar: 13 7 55.8 58.5 X T X = 7 7 29.7, X T y = 32.8, 55.8 29.7 278.46 289.09 0.6530 0.1786 0.1118 (X T X) 1 = 0.1786 0.3098 0.0028, 0.1118 0.0028 0.0257 β β = (X T X) 1 X T 0 0.0208 y = β1 = 0.5074, β2 0.9799 Q 0 = (y Xβ ) T (y Xβ ) = 0.2347, f = n (k + 1) = 13 3 = 10, σ = s = Q0 f = 0.1532 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 14/22

5000 4000 x 1i = 0: stygg x 1i = 1: snäll z i = julklapparnas värde (kr) 3000 2000 1000 0 2 3 4 5 6 7 8 x 2i : givmildhet 10 8 x 1i = 0: stygg x 1i = 1: snäll y i = ln(z i ) = ln(julklapparnas värde) 6 4 2 0 2 3 4 5 6 7 8 x 2i : givmildhet Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 15/22

Skattningarnas fördelning Skattningarna av β är linjära funktioner av Y och är därmed normalfördelade β i N (β i, D(β i )), D(βi ) ges av roten ur diagonalelementen i kovariansmatrisen V(β0 ) C(β 0, β 1 ) C(β 0, β k ) V(β ) = σ 2 (X T X) 1 C(β1 =, β 0 ) V(β 1 ) C(β 1, β k )....... C(βk, β 0 ) C(β k, β 1 ) V(β k ) För residualkvadratsumman gäller Q 0 σ 2 χ2 (n (k + 1)) Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 16/22

Konfidensintervall och hypotestest för β i Konfidensintervall för β i blir alltså I βi = βi ± t a/2 (f) d(βi ) = [(X = βi ± t a/2 (n (k + 1)) s T X) 1] i,i där [(X T X) 1 ] i,i är diagonalelement nr i. Obs! det första elementet har nummer i = 0. Intervallet kan användas för att testa hypotesen H 0 : β i = 0 H 1 : β i 0 Alternativt kan man naturligtvis använda T = β i 0 d(β i ) förkasta H 0 om T > t a/2 (n (k + 1)). Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 17/22

1. Vi vill testa H 0 : β 1 = 0 mot H 1 : β 1 > 0 på signifikansnivån a = 0.05. Medelfelet blir d(β 1 ) = s [(X T X) 1 ] 1,1 = 0.1532 0.3098 = 0.0853 Eftersom T = β 1 0 d(β ) = 0.5074 0.0853 = 5.9496 > t a(f) = t 0.05 (10) = 1.81 kan H 0 förkastas. Ja, det lönar sig att vara snäll. Hur mycket lönar det sig? Ett tvåsidigt konfidensintervall för β 1 blir I β1 = β1 ± t a/2(f) d(β1 ) = 0.5074 ± } t 0.025(10) 0.0853 {{} 2.23 = (0.3174, 0.6974), I e β 1 = (e 0.3174, e 0.6974 ) = (1.37, 2.01) Att vara snäll ökar värdet på julklapparna med i genomsnitt 37 100 %! Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 18/22

Skattning av punkt på planet Y-s väntevärde i en punkt x 0 = [ ] 1 x 01 x 02 x 0k ges nu av k μ (x 0 ) = β0 + βi x 0i = x 0 β i=1 V(μ (x 0 )) = x 0 V(β )x T 0 = σ2 x 0 (X T X) 1 x T 0. Ett konfidensintervall för μ (x 0 ) blir således (med f = n (k + 1)) I μ (x 0 ) = x 0 β ± t a/2 (f) s x 0 (X T X) 1 x T 0 För prediktionsintervallet får man, som tidigare, lägga till en etta under kvadratroten I Y(x0 ) = x 0 β ± t a/2 (f) s 1 + x 0 (X T X) 1 x T 0 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 19/22

2. Prediktionsintervall för Kusinens julklapp: Vi har x 0 = [ 1 0 3.6 ] och skattningen μ (x 0 ) = x 0 β = 1 β 0 + 0 β 1 + 3.6 β 2 = 3.5484, e μ (x 0 ) = e 3.5484 = 35.76 kr, x 0 (X T X) 1 x T 0 = 0.1811, I Y(x0 ) = 3.5484 ± 2.23 0.1532 1 + 0.1811 = (3.21, 3.89) Omräknat till kronor blir det I e Y(x 0 ) = (e 3.21, e 3.89 ) = (25.69, 48.94) kr Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 20/22

Modellvalidering Precis som för enkel regression bör man undersöka residualerna e = y Xβ, och förvisssa sig om att de verkar vara oberoende och N (0, σ)-fördelade. Plotta residualerna 1. Som de kommer, dvs mot 1, 2,..., n. Ev. ett histogram 2. Mot var och en av x i -dataserierna 3. I en normalfördelningsplot För var och en av β 1,..., β k (obs i regel ej β 0 ) bör man kunna förkasta H 0 i testet H 0 : β i = 0 H 1 : β i 0 eftersom β i anger hur mycket y ändrar sig när vi ändrar x i. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 21/22

Kolinjäritet (ex. två variabler, motsv. för fler) Man bör om möjligt välja sina (x 1i, x 2i )-värden så att de blir utspridda i (x 1, x 2 )-planet och inte klumpar ihop sig längs en linje. Detta ger en mer stabil grund åt regressionsplanet. Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 22/22