Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Relevanta dokument
Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Föreläsning 12: Linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik, Föreläsning 5

Föreläsning 12: Regression

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning 13: Multipel Regression

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM HT Matematikcentrum Matematisk statistik

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

F13 Regression och problemlösning

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

MVE051/MSG Föreläsning 14

Laboration 2: Styrkefunktion samt Regression

Enkel och multipel linjär regression

Finansiell statistik. Multipel regression. 4 maj 2011

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik för D, I, Π och Fysiker

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM VT Matematikcentrum Matematisk statistik

1 Förberedelseuppgifter

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 9: Linjär regression del II

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Tentamen MVE302 Sannolikhet och statistik

Tenta i Statistisk analys, 15 december 2004

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Grundläggande matematisk statistik

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Repetition 2, inför tentamen

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Avd. Matematisk statistik

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Lineär regression

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsning 11: Mer om jämförelser och inferens

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen MVE301 Sannolikhet, statistik och risk

Avd. Matematisk statistik

Statistisk försöksplanering

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

1 Förberedelseuppgifter

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Regressionsanalys av lägenhetspriser i Spånga

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Några extra övningsuppgifter i Statistisk teori

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Resultatet läggs in i ladok senast 13 juni 2014.

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Lycka till!

Industriell matematik och statistik, LMA /14

oberoende av varandra så observationerna är

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

F11. Kvantitativa prognostekniker

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi


Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

Avd. Matematisk statistik

Avd. Matematisk statistik

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Enkel linjär regression

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Avd. Matematisk statistik

Höftledsdysplasi hos dansk-svensk gårdshund

Avd. Matematisk statistik

Föreläsning 12, FMSF45 Hypotesprövning

SF1901 Sannolikhetsteori och statistik I

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

TAMS65 DATORÖVNING 2

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Transkript:

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression Anna Lindgren 14 december, 2015 Anna Lindgren anna@maths.lth.se FMSF20 F13 1/22

Linjär regression Vi har n st par av mätvärden (x i, y i ), i = 1,..., n där y i är observationer av Y i = a + bx i + e i där e i är oberoende av varandra, och e i N (0, s). Parameterskattningarna Skattningarna av a, b och (s 2 ) är a = ȳ b x, b = (s 2 ) = s 2 = Q 0 n 2 Q 0 = n i=1 (x i x)(y i ȳ) n i=1 (x i x) 2 n i=1 = S xy S xx, (y i a b x i ) 2 = S yy S2 xy S xx Anna Lindgren anna@maths.lth.se FMSF20 F13 2/22

Skattningarnas fördelning: a 1 N a, s n + x2, S xx ( ) b s N b, Sxx Men de är inte oberoende av varandra. Konfidens-, prediktions- och kalibreringsintervall (f = n 2): I b = b s ± t a/2 (n 2), I a = a 1 ± t a/2 (f) s Sxx n + x2, S xx I m0 = a + b 1 x 0 ± t a/2 (f) s n + (x 0 x) 2, S xx I Y(x0 ) = a + b x 0 ± t a/2 (f) s 1 + 1 n + (x 0 x) 2, S xx I x0 = x0 ± t s a/2(f) b 1 + 1 n + (y 0 ȳ) 2 (b ) 2. S xx Anna Lindgren anna@maths.lth.se FMSF20 F13 3/22

Linjärisering av exponentiella samband För att få ett linjärt samband y i = a + bx i + e i kan vissa exponent- och potenssamband logaritmeras. z i = a e bx i e i z i = a t b i e i ln ln ln z i }{{} y i ln z i }{{} y i = ln a }{{} a = ln a }{{} a +b x i + ln e i }{{} e i +b ln t }{{} i x i + ln e i }{{} e i Om de multiplikativa felen, e i, är lognormalfördelade blir ln e i N och vi kan använda linjär regression för att skatta ln a och b. Anna Lindgren anna@maths.lth.se FMSF20 F13 4/22

Antal transistorer 10 9 10 8 10 7 10 6 10 5 10 4 10 3 8080 4004 8008 Antal transistorer hos Intelprocessorer 8086 Intel386 TM 286 Intel Itanium 2 Intel Itanium Intel Pentium 4 Intel Pentium III Intel Pentium II Intel Pentium Intel486 TM 10 2 1970 1980 1990 2000 2010 2020 Lanseringsår Anna Lindgren anna@maths.lth.se FMSF20 F13 5/22

5 x Skattat samband: y = 5.13 10 301 e 0.35 x 108 4.5 4 3.5 Antal transistorer 3 2.5 2 1.5 1 0.5 0 1970 1980 1990 2000 2010 2020 Lanseringsår Anna Lindgren anna@maths.lth.se FMSF20 F13 6/22

Samband vikt och hjärnstorlek 12 10 8 Elefant (Afr) Elefant (Ind) log(hjärnvikt) [g] 6 4 2 0 Mullvad Råtta Hamster Människa Giraff Chimpans Häst Åsna GorillaKo Rhesus apa Får Gris Jaguar Varg Potar apa Get Känguru Katt Kanin Ekorrbäver Marsvin Brachiosaurus ( ) Triceratops ( ) ( ) Diplodocus Mus 2 4 2 0 2 4 6 8 10 12 log(kroppsvikt) [kg] Anna Lindgren anna@maths.lth.se FMSF20 F13 7/22

Multipel linjär regression Modellen kan utökas med flera x-variabler: y i = b 0 + b 1 x i1 +... + b k x ik + e i, i = 1,..., n, e i N (0, s) kan skrivas på matrisform som y = Xb + e där y och e är n 1-vektorer, b en 1 (k + 1)-vektor och X en n (k + 1)-matris y 1 1 x 11 x 1k b 0 y 2 y =., X = 1 x 21 x 2k......, b = b 1.,e = y n 1 x n1 x nk b k e 1. e n Anna Lindgren anna@maths.lth.se FMSF20 F13 8/22

Exempel Julklappar (Tenta 12/12-2000): En liten flicka vill undersöka om det lönar sig att vara snäll. Hon har därför noterat värdet (i kr) på de julklappar hon fick från olika släktningar i år, när hon varit snäll, och i fjor då hon var stygg. Hon har insett att värdet på julklapparna också till stor del beror på givarens ekonomi och allmänna generositet. Hon räknar därför också ut ett lämpligt mått på givmildhet: värde ln(värde) Släkting i fjor i år i fjor i år givmildhet Storebror 24:50 49:50 3.2 3.9 3.3 Lillebror 18: 27: 2.9 3.3 2.8 Mormor och morfar 2981: 3641: 8.0 8.2 7.9 Farmor och farfar 30: 40: 3.4 3.7 3.4 Mamma och pappa 148: 329:50 5.0 5.8 5.4 Moster 24:50 44:50 3.2 3.8 3.3 Kusin? 62:? 4.1 3.6 Anna Lindgren anna@maths.lth.se FMSF20 F13 9/22

4000 3000 x 1i = 0: stygg x 1i = 1: snäll z i = julklapparnas värde (kr) 2000 1000 0 2 3 4 5 6 7 8 x 2i : givmildhet 9 8 7 6 5 4 3 x 1i = 0: stygg x 1i = 1: snäll y i = ln(z i ) = ln(julklapparnas värde) 2 2 3 4 5 6 7 8 x 2i : givmildhet Anna Lindgren anna@maths.lth.se FMSF20 F13 10/22

Lämplig regressionsmodell: ln z i = y i = a + b 1 x 1i + b 2 x 2i + e i, i = 1,..., 13, z i = värdet (kr) av julklapp i, y i = ln z i = logaritmerat värde på julklapp i, { 0 för alla fjorårets julklappar (då hon varit stygg), x 1i =, 1 för alla årets julklappar (då hon varit snäll), x 2i = givmildheten hos givaren av julklapp i, e i N (0, s) ober., e b 1 = relativa ökningen i julklapparnas värde när flickan är snäll 1. Testa, på nivån 5 %, om det lönar sig att vara snäll, dvs om b 1 är signifikant större än 0. 2. Gör ett tvåsidigt 95 % prediktionsintervall för värdet på Kusinens julklapp i fjor, d.v.s. då den lilla flickan varit stygg. Anna Lindgren anna@maths.lth.se FMSF20 F13 11/22

Modell med matriser: Y = Xb + e där 3.2 1 0 3.3 3.9 1 1 3.3 2.9 1 0 2.8 3.3 1 1 2.8 8.0 1 0 7.9 e 1 e 2 8.2 1 1 7.9 b 0 Y = 3.4, X = 1 0 3.4, b = b 1 e 3, e = 3.7 1 1 3.4 b 2. 5.0 1 0 5.4 e 12 5.8 1 1 5.4 e 13 3.2 1 0 3.3 3.8 1 1 3.3 4.1 1 1 3.6 Anna Lindgren anna@maths.lth.se FMSF20 F13 12/22

Skattning av parametrarna Skattning av b ML- och MK-skattningar av b 0,..., b k (elementen i b) blir b = (X T X) 1 X T y En väntevärdesriktig skattning av s 2 ges av (korrigerad ML) s 2 = Q 0 n (k + 1) där Q 0 = (y Xb ) T (y Xb ) Q 0 är alltså residualkvadratsumman och k + 1 är antalet skattade parametrar i Q 0. Anna Lindgren anna@maths.lth.se FMSF20 F13 13/22

Skattningar: 13 7 55.8 58.5 X T X = 7 7 29.7, X T y = 32.8, 55.8 29.7 278.46 289.09 0.6530 0.1786 0.1118 (X T X) 1 = 0.1786 0.3098 0.0028, 0.1118 0.0028 0.0257 b b = (X T X) 1 X T 0 0.0208 y = b1 = 0.5074, b2 0.9799 Q 0 = (y Xb ) T (y Xb ) = 0.2347, f = n (k + 1) = 13 3 = 10, s = s = Q0 f = 0.1532 Anna Lindgren anna@maths.lth.se FMSF20 F13 14/22

5000 4000 x 1i = 0: stygg x 1i = 1: snäll z i = julklapparnas värde (kr) 3000 2000 1000 0 2 3 4 5 6 7 8 x 2i : givmildhet 10 8 x 1i = 0: stygg x 1i = 1: snäll y i = ln(z i ) = ln(julklapparnas värde) 6 4 2 0 2 3 4 5 6 7 8 x 2i : givmildhet Anna Lindgren anna@maths.lth.se FMSF20 F13 15/22

Skattningarnas fördelning Skattningarna av b är linjära funktioner av Y och är därmed normalfördelade b i N (b i, D(b i )), D(bi ) ges av roten ur diagonalelementen i kovariansmatrisen V(b0 ) C(b 0, b 1 ) C(b 0, b k ) V(b ) = s 2 (X T X) 1 C(b1 =, b 0 ) V(b 1 ) C(b 1, b k )....... C(bk, b 0 ) C(b k, b 1 ) V(b k ) För residualkvadratsumman gäller Q 0 s 2 q2 (n (k + 1)) Anna Lindgren anna@maths.lth.se FMSF20 F13 16/22

Konfidensintervall och hypotestest för b i Konfidensintervall för b i blir alltså I bi = bi ± t a/2 (f) d(bi ) = [(X = bi ± t a/2 (n (k + 1)) s T X) 1] i,i där [(X T X) 1 ] i,i är diagonalelement nr i. Obs! det första elementet har nummer i = 0. Intervallet kan användas för att testa hypotesen H 0 : b i = 0 H 1 : b i = 0 Alternativt kan man naturligtvis använda T = b i 0 d(b i ) förkasta H 0 om T > t a/2 (n (k + 1)). Anna Lindgren anna@maths.lth.se FMSF20 F13 17/22

1. Vi vill testa H 0 : b 1 = 0 mot H 1 : b 1 > 0 på signifikansnivån a = 0.05. Medelfelet blir d(b 1 ) = s [(X T X) 1 ] 1,1 = 0.1532 0.3098 = 0.0853 Eftersom T = b 1 0 d(b ) = 0.5074 0.0853 = 5.9496 > t a(f) = t 0.05 (10) = 1.81 kan H 0 förkastas. Ja, det lönar sig att vara snäll. Hur mycket lönar det sig? Ett tvåsidigt konfidensintervall för b 1 blir I b1 = b1 ± t a/2(f) d(b1 ) = 0.5074 ± } t 0.025(10) 0.0853 {{} 2.23 = (0.3174, 0.6974), I e b 1 = (e 0.3174, e 0.6974 ) = (1.37, 2.01) Att vara snäll ökar värdet på julklapparna med i genomsnitt 37 100 %! Anna Lindgren anna@maths.lth.se FMSF20 F13 18/22

Skattning av punkt på planet Y-s väntevärde i en punkt x 0 = [ ] 1 x 01 x 02 x 0k ges nu av k m (x 0 ) = b0 + bi x 0i = x 0 b i=1 V(m (x 0 )) = x 0 V(b )x T 0 = s2 x 0 (X T X) 1 x T 0. Ett konfidensintervall för m (x 0 ) blir således (med f = n (k + 1)) I m (x 0 ) = x 0 b ± t a/2 (f) s x 0 (X T X) 1 x T 0 För prediktionsintervallet får man, som tidigare, lägga till en etta under kvadratroten I Y(x0 ) = x 0 b ± t a/2 (f) s 1 + x 0 (X T X) 1 x T 0 Anna Lindgren anna@maths.lth.se FMSF20 F13 19/22

2. Prediktionsintervall för Kusinens julklapp: Vi har x 0 = [ 1 0 3.6 ] och skattningen m (x 0 ) = x 0 b = 1 b 0 + 0 b 1 + 3.6 b 2 = 3.5484, e m (x 0 ) = e 3.5484 = 35.76 kr, x 0 (X T X) 1 x T 0 = 0.1811, I Y(x0 ) = 3.5484 ± 2.23 0.1532 1 + 0.1811 = (3.21, 3.89) Omräknat till kronor blir det I e Y(x 0 ) = (e 3.21, e 3.89 ) = (25.69, 48.94) kr Anna Lindgren anna@maths.lth.se FMSF20 F13 20/22

Modellvalidering Precis som för enkel regression bör man undersöka residualerna e = y Xb, och förvisssa sig om att de verkar vara oberoende och N (0, s)-fördelade. Plotta residualerna 1. Som de kommer, dvs mot 1, 2,..., n. Ev. ett histogram 2. Mot var och en av x i -dataserierna 3. I en normalfördelningsplot För var och en av b 1,..., b k (obs i regel ej b 0 ) bör man kunna förkasta H 0 i testet H 0 : b i = 0 H 1 : b i = 0 eftersom b i anger hur mycket y ändrar sig när vi ändrar x i. Anna Lindgren anna@maths.lth.se FMSF20 F13 21/22

Kolinjäritet (ex. två variabler, motsv. för fler) Man bör om möjligt välja sina (x 1i, x 2i )-värden så att de blir utspridda i (x 1, x 2 )-planet och inte klumpar ihop sig längs en linje. Detta ger en mer stabil grund åt regressionsplanet. Anna Lindgren anna@maths.lth.se FMSF20 F13 22/22