Föreläsning 15, FMSF45 Multipel linjär regression

Relevanta dokument
Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Linjär regression

Matematisk statistik för B, K, N, BME och Kemister

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Matematisk statistik för B, K, N, BME och Kemister

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

Föreläsning 13: Multipel Regression

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Enkel och multipel linjär regression

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 12: Regression

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik, Föreläsning 5

F13 Regression och problemlösning

Matematisk statistik för B, K, N, BME och Kemister

MVE051/MSG Föreläsning 14

Föreläsning 12, FMSF45 Hypotesprövning

Finansiell statistik. Multipel regression. 4 maj 2011

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Föreläsning 11, FMSF45 Konfidensintervall

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Föreläsning 17, Matematisk statistik Π + E

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM VT Matematikcentrum Matematisk statistik

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Regressionsanalys av lägenhetspriser i Spånga

Grundläggande matematisk statistik

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Föreläsning 9: Linjär regression del II

Tenta i Statistisk analys, 15 december 2004

Repetition 2, inför tentamen

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Laboration 2: Styrkefunktion samt Regression

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Lycka till!

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

oberoende av varandra så observationerna är

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM HT Matematikcentrum Matematisk statistik

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

1 Förberedelseuppgifter

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Matematisk statistik för B, K, N, BME och Kemister

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

SF1901 Sannolikhetsteori och statistik I

1 Förberedelseuppgifter

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

F11. Kvantitativa prognostekniker

AMatematiska institutionen avd matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

TAMS65 - Seminarium 4 Regressionsanalys

Tentamen MVE302 Sannolikhet och statistik

Avd. Matematisk statistik

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Lufttorkat trä Ugnstorkat trä

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Avd. Matematisk statistik

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Thomas Önskog 28/

Föreläsning 6, FMSF45 Linjärkombinationer

10.1 Enkel linjär regression

Laboration 5: Regressionsanalys

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Statistisk försöksplanering

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Bayesiansk statistik, 732g43, 7.5 hp

REGRESSIONSANALYS. Martin Singull

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 11, Matematisk statistik Π + E

Examinationsuppgifter del 2

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Regressionsanalys av bostäder i Ekerö kommun

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 15: Försöksplanering och repetition

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Transkript:

Föreläsning 15, FMSF45 Multipel linjär regression Stas Volkov 2017-11-28 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 1/23

Linjär regression Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = α + βx i + ε i där ε i är oberoende av varandra, och ε i N (0, σ). Parameterskattningarna Skattningarna av α, β och (σ 2 ) är α = ȳ β x, β = (σ 2 ) = s 2 = Q 0 n 2 Q 0 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 = S xy S xx, (y i α β x i ) 2 = S yy S2 xy S xx Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 2/23

Skattningarnas fördelning: α 1 N α, σ n + x2, S xx ( ) β σ N β, Sxx Men de är inte oberoende av varandra. Konfidens-, prediktions- och kalibrerings-intervall (f = n 2): I α = α 1 ± t a/2 (f) s n + x2, S xx I β = β ± t a/2 (f) s Sxx, I μ(x0 ) = α + β x 0 ± t a/2 (f) s 0+ 1 n + (x 0 x) 2, S xx I Y(x0 ) = α + β x 0 ± t a/2 (f) s 1 + 1 n + (x 0 x) 2, S xx I x0 = x0 s ± t a/2 (f) β 1 + 1 n + (y 0 ȳ) 2 (β ) 2. S xx Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 3/23

Linjärisering av exponentiella samband (vid behov) För att få ett linjärt samband y i = α + βx i + ε i kan vissa exponent- och potenssamband logaritmeras. z i = a e βx i ε i z i = a t β i ε i ln ln ln z i y i ln z i y i = ln a α = ln a α +β x i + ln ε i ε i +β ln t i x i + ln ε i ε i Om de multiplikativa felen, ε i, är lognormalfördelade blir då ln ε i N och vi kan använda linjär regression för att skatta ln α och β. Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 4/23

Antal transistorer 10 9 10 8 10 7 10 6 10 5 10 4 10 3 8080 4004 8008 Antal transistorer hos Intelprocessorer 8086 Intel386 TM 286 Intel Itanium 2 Intel Itanium Intel Pentium 4 Intel Pentium III Intel Pentium II Intel Pentium Intel486 TM 10 2 1970 1980 1990 2000 2010 2020 Lanseringsår Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 5/23

5 x Skattat samband: y = 5.13 10 301 e 0.35 x 108 4.5 4 3.5 Antal transistorer 3 2.5 2 1.5 1 0.5 0 1970 1980 1990 2000 2010 2020 Lanseringsår Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 6/23

Samband vikt och hjärnstorlek 12 10 8 Elefant (Afr) Elefant (Ind) log(hjärnvikt) [g] 6 4 2 0 Mullvad Råtta Hamster Människa Giraff Chimpans Häst Åsna GorillaKo Rhesus apa Får Gris Jaguar Varg Potar apa Get Känguru Katt Kanin Ekorrbäver Marsvin Brachiosaurus ( ) Triceratops ( ) ( ) Diplodocus Mus 2 4 2 0 2 4 6 8 10 12 log(kroppsvikt) [kg] Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 7/23

Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 8/23

Multipel linjär regression Modellen kan utökas med flera x-variabler: y i = β 0 + β 1 x i1 +... + β k x ik + ε i, i = 1,..., n, ε i N (0, σ) som kan skrivas på matrisform som y = Xβ + ε där y och ε är n 1-vektorer, β en (k + 1) 1-vektor och X en n (k + 1)-matris, dvs. y 1 1 x 11 x 1k β 0 y 2 y =., X = 1 x 21 x 2k......, β = β 1.,ε = y n 1 x n1 x nk β k ε 1. ε n Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 9/23

Exempel Julklappar: En liten flicka vill undersöka om det lönar sig att vara snäll. Hon har därför noterat värdet på de julklappar hon fick från olika släktningar i år, när hon varit snäll, och i fjol då hon var stygg. Hon har insett att värdet på julklapparna också till stor del beror på givarens ekonomi och allmänna generositet. Hon räknar därför också ut ett lämpligt mått på givmildhet. värde (kr.) ln(värde) Släkting i fjol i år i fjol i år givmildhet Storebror 24.5 49.5 3.2 3.9 3.3 Lillebror 18. 27. 2.9 3.3 2.8 Mormor och morfar 2981. 3641. 8.0 8.2 7.9 Farmor och farfar 30. 40. 3.4 3.7 3.4 Mamma och pappa 148. 329.50 5.0 5.8 5.4 Moster 24.5 44.5 3.2 3.8 3.3 Kusin? 62.? 4.1 3.6 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 10/23

4000 3000 x 1i = 0: stygg x 1i = 1: snäll z i = julklapparnas värde (kr) 2000 1000 0 2 3 4 5 6 7 8 x 2i : givmildhet 9 8 7 6 5 4 3 x 1i = 0: stygg x 1i = 1: snäll y i = ln(z i ) = ln(julklapparnas värde) 2 2 3 4 5 6 7 8 x 2i : givmildhet Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 11/23

Lämplig regressionsmodell: ln z i = y i = α + β 1 x 1i + β 2 x 2i + ε i, i = 1,..., 13 där e β 1 = relativa ökningen i värde när flickan är snäll. Responsvariabeln: z i = värdet (i kronor) av julklapp i, = y i = ln z i = logaritmerat värde på julklapp i Förklarande variablerna: { 0 för alla fjolårets julklappar (då hon varit stygg) x 1i =, 1 för alla årets julklappar (då hon varit snäll) x 2i = givmildheten hos givaren av julklapp i ; ε i N (0, σ) oberoende Testa på nivån 5%, om det lönar sig att vara snäll, dvs om β 1 är signifikant större än 0. Gör ett tvåsidigt 95% prediktionsintervall för värdet på Kusinens julklapp i fjol, dvs. då den lilla flickan varit stygg. Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 12/23

Modell med matriser: Y = Xβ + ε där n = 13 samt k = 2 och 3.2 1 0 3.3 3.9 1 1 3.3 2.9 1 0 2.8 3.3 1 1 2.8 8.0 1 0 7.9 ε 1 ε 2 8.2 1 1 7.9 β 0 Y = 3.4 X = 1 0 3.4 β = β 1 ε 3 ε = 3.7 1 1 3.4 β 2. 5.0 1 0 5.4 ε 12 5.8 1 1 5.4 ε 13 3.2 1 0 3.3 3.8 1 1 3.3 4.1 1 1 3.6 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 13/23

Skattning av parametrarna Skattning av β ML- och MK-skattningar av β 0,..., β k (elementen i β) blir β = (X T X) 1 (k+1) x (k+1) X T (k+1) x n y n x 1 En väntevärdesriktig skattning av σ 2 ges av (korrigerad ML) s 2 = Q 0 n (k + 1) där Q 0 = (y Xβ ) T (y Xβ ) Q 0 är alltså residualkvadratsumman och k + 1 är antalet skattade parametrar i Q 0 (obs. tumregeln!). Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 14/23

Skattningar: 13 7 55.8 58.5 X T X = 7 7 29.7 X T y = 32.8 55.8 29.7 278.5 289.09 0.6530 0.1786 0.1118 (X T X) 1 = 0.1786 0.3098 0.0028 0.1118 0.0028 0.0257 så β β = (X T X) 1 X T 0 0.0208 y = β1 = 0.5074 β2 0.9799 Q 0 = (y Xβ ) T (y Xβ ) = 0.2347 Q0 σ = s = = 0.1532 f samt f = n (k + 1) = 13 3 = 10 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 15/23

5000 4000 x 1i = 0: stygg x 1i = 1: snäll z i = julklapparnas värde (kr) 3000 2000 1000 0 2 3 4 5 6 7 8 x 2i : givmildhet 10 8 x 1i = 0: stygg x 1i = 1: snäll y i = ln(z i ) = ln(julklapparnas värde) 6 4 2 0 2 3 4 5 6 7 8 x 2i : givmildhet Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 16/23

Skattningarnas fördelning Skattningarna av β är linjära funktioner av Y och är därmed normalfördelade β i N (β i, D(β i )), där D(βi ) ges av roten ur diagonalelementen i kovariansmatrisen V(β0 ) C(β 0, β 1 ) C(β 0, β k ) V(β ) = σ 2 (X T X) 1 C(β1 =, β 0 ) V(β 1 ) C(β 1, β k )....... C(βk, β 0 ) C(β k, β 1 ) V(β k ) (k+1) (k+1) matris För residualkvadratsumman gäller Q 0 σ 2 χ2 (n (k + 1)) Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 17/23

Konfidensintervall och hypotestest för β i Konfidensintervall för β i blir alltså [(X I βi = βi ± t a/2 (f) d(βi ) = β i ± t a/2 (f) s T X) 1] i,i där [(X T X) 1 ] i,i är diagonalelement nr i, f = n k 1. Obs! det första elementet har nummer i = 0. Intervallet kan användas för att testa hypotesen H 0 : β i = 0 kontra H 1 : β i 0 Alternativt kan man naturligtvis använda T = β i 0 d(β i ) och förkasta H 0 om T > t a/2 (n (k + 1)). Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 18/23

(1) Vi vill testa H 0 : β 1 = 0 mot H 1 : β 1 > 0 på signifikansnivån a = 0.05. Medelfelet blir d(β 1 ) = s [(X T X) 1 ] 1,1 = 0.1532 0.3098 = 0.0853 således (obs! ensidig...) T = β 1 0 d(β ) = 0.5074 0.0853 = 5.9496 > t a(f) = t 0.05 (10) = 1.81 (dvs. för mycket ) kan H 0 förkastas. Ja, det lönar sig att vara snäll. Hur mycket lönar det sig? Ett tvåsidigt konfidensintervall för β 1 blir I β1 = β1 ± t a/2(f) d(β1 ) = 0.5074 ± } t 0.025(10) 0.0853 {{} 2.23 = (0.3174, 0.6974) I e β 1 = (e 0.3174, e 0.6974 ) = (1.37, 2.01) Att vara snäll ökar värdet på julklapparna med i genomsnitt 37-101%! Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 19/23

Skattning av punkt på planet Y-s väntevärde i en punkt x 0 = [ ] 1 x 01 x 02 x 0k ges nu av k μ (x 0 ) = β0 + βi x 0i = x 0 β i=1 med V(μ (x 0 )) = x 0 V(β )x T 0 = σ2 x 0 1 x k I μ (x 0 ) = x 0 1 x k k x 1 ( ) 1 X T X } {{ } k x k x T 0 k x 1 Ett konfidensintervall för μ (x 0 ) blir således (med f = n (k + 1)) β ±t a/2 (f) s x 0 (X T X) 1 x T 0 I μ (x 0 ) = x 0 β ± t a/2 (f) s x 0 (X T X) 1 x T 0 För prediktionsintervallet får man, som tidigare, lägga till en etta under kvadratroten I Y(x0 ) = x 0 β ± t a/2 (f) s 1 + x 0 (X T X) 1 x T 0 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 20/23

(2) Prediktionsintervall för Kusinens julklapp: Vi har x 0 = [ 1 0 3.6 ] och skattningen μ (x 0 ) = x 0 β = 1 β 0 + 0 β 1 + 3.6 β 2 = 3.5484, e μ (x 0 ) = e 3.5484 = 35.76 kr, x 0 (X T X) 1 x T 0 = 0.18, därför I Y(x0 ) = 3.5484 ± 2.23 0.1532 1 + 0.18 = (3.21, 3.89) Omräknat till kronor blir det I e Y(x 0 ) = (e 3.21, e 3.89 ) = (25.69, 48.94) kr Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 21/23

Modellvalidering Precis som för enkel regression bör man undersöka residualerna e = y Xβ, och förvisssa sig om att de verkar vara oberoende och N (0, σ)-fördelade. Plotta residualerna Som de kommer, dvs mot 1, 2,..., n. Ev. ett histogram Mot var och en av x i -dataserierna I en normalfördelningsplot För var och en av β 1,..., β k (obs! i regel ej β 0 ) bör man kunna förkasta H 0 i testet H 0 : β i = 0 H 1 : β i 0 eftersom β i anger hur mycket y ändrar sig när vi ändrar x i. Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 22/23

Kolinjäritet (ex. två variabler, motsv. för fler) Man bör om möjligt välja sina (x 1i, x 2i )-värden så att de blir utspridda i (x 1, x 2 )-planet och inte klumpar ihop sig längs en linje. Detta ger en mer stabil grund åt regressionsplanet. Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 23/23