Enkel och multipel linjär regression

Relevanta dokument
Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Linjär regression

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Stokastiska vektorer

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Föreläsning 7: Stokastiska vektorer

F13 Regression och problemlösning

Matematisk statistik KTH. Formelsamling i matematisk statistik

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11

Stokastiska vektorer och multivariat normalfördelning

Föreläsning 8: Linjär regression del I

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

9. Konfidensintervall vid normalfördelning

Föreläsning 15, FMSF45 Multipel linjär regression

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Finansiell statistik. Multipel regression. 4 maj 2011

Matematisk statistik för B, K, N, BME och Kemister

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

MVE051/MSG Föreläsning 14

Grundläggande matematisk statistik

Föreläsning 11: Mer om jämförelser och inferens

Kovarians och kriging

Föreläsning 13: Multipel Regression

Föreläsning 12: Regression

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

10. Konfidensintervall vid två oberoende stickprov

TAMS79 / TAMS65 - vt TAMS79 / TAMS65 - vt Formel- och tabellsamling i matematisk statistik. TAMS79 / TAMS65 - vt 2013.

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901 Sannolikhetsteori och statistik I

Tentamen för kursen. Linjära statistiska modeller. 13 januari

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Matematisk statistik för B, K, N, BME och Kemister

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Thomas Önskog 28/

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Lycka till!

Härledning av Black-Littermans formel mha allmänna linjära modellen

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Tenta i Statistisk analys, 15 december 2004

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik, Föreläsning 5

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

REGRESSIONSANALYS. Martin Singull

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

14. Minsta kvadratmetoden

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Föreläsning 9: Linjär regression del II

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Avd. Matematisk statistik

Föreläsning 3: Konfidensintervall

Tentamentsskrivning: Matematisk Statistik TMA321 1

AMatematiska institutionen avd matematisk statistik

10.1 Enkel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Minsta kvadratmetoden

Väntevärde och varians

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

8 Minsta kvadratmetoden

Föreläsning 6, Matematisk statistik Π + E

SF1901 Sannolikhetsteori och statistik I

5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Tentamen MVE302 Sannolikhet och statistik

Laboration 4: Lineär regression

Tentamen i Matematisk Statistik, 7.5 hp

Avd. Matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

Formel- och tabellsamling i matematisk statistik

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Matematisk statistik för B, K, N, BME och Kemister

TMS136. Föreläsning 10

TAMS65 - Seminarium 4 Regressionsanalys

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Matematisk statistik för D, I, Π och Fysiker

Föreläsningsanteckningar till kapitel 8, del 2

Föreläsning 11, FMSF45 Konfidensintervall

Formler och tabeller till kursen MSG830

Tentamen MVE301 Sannolikhet, statistik och risk

Minstakvadratmetoden

Föreläsning 15: Försöksplanering och repetition

oberoende av varandra så observationerna är

Repetitionsföreläsning

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Exempel på tentamensuppgifter

Matematisk statistik för B, K, N, BME och Kemister

Statistisk försöksplanering

Transkript:

TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0 7.0 0.0 2.0 4.0 7.0 20.0 y 2.3 3.4 4.2 5.5 6. 7.7 8.4 Frågor som dyker upp är t.ex.:. Hur hittar vi den räta linje som passar till värdena? 2. Skulle en ny försöksserie ge ungefär samma linje? 3. Hur beskriver vi avvikelserna från linjen? Svaret på första frågan är att vi väljer den linje som minimerar avståndet som är summan av kvadraterna på avstånden i y-led från punkterna till den räta linjen. Denna metod kallas för minstakvadratmetoden. För punkterna ovan ger metoden linjen y 0.268x+2.54. y x

Vi kommer som tidigare att låta x n x j vara medevärdet hos observationerna x, x 2,..., x n. Vi passar också på och påminner om ett viktigt resultat som vi kommer att använda flitigt framöver och det är att (x j x) x j x n x n x 0. (3.) Betrakta nu värdeparen (x j, y j ), j,..., n, där x j :na är givna tal och y j :na är observationer av s.v. Y J där Y j uppfyller följande modell: Modell : Y j α + β(x j x) + ε j (3.2) där ε j är oberoende normalfördelade s.v. med E(ε j ) 0 och V (ε j ) σ 2. Eftersom den s.v. Y j är en linjär funktion i ε j N(0, σ), så är. Y j N(µ j, σ) (3.3) 2. µ j E(Y j ) E(α + β(x j x) + ε j ) α + β(x j x) + E(ε j ) α + β(x j x). 3. V (Y j ) V (α + β(x j x) + ε j ) V (ε j ) σ 2. Modellen i (3.2) kan skrivas på matrisform y y 2 y är observationer av. y n Y Y 2. Y n eller kortare y är observationer av Y Xβ + ε. x x x 2 x.. x n x Metoden att ta fram skattningar ˆα och ˆβ av α och β genom att minimera Q(α, β) (y j µ j ) 2 ( α β ) + ε ε 2. ε n (y j α β(x j x)) 2 (3.4) kallas för minstakvadrat-metoden (MK-metoden). Funktionen Q i (3.4) är summan av kvadraterna i y-led från punkterna y j till den räta linjen µ j α + β(x j x). 2

3.2. Punktskattning Vi minimerar Q(α, β) (y j α β(x j x)) 2 i (3.4). Det följer att Q α 2 Q β 2 (y j α β(x j x)) 0 (x j x)(y j α β(x j x)) 0 (3.5) Första ekvationen i (3.5) ger då vi använder (3.) att 0 y j α β (x j x) nȳ nα, α ȳ (3.6) Andra ekvationen i (3.5) ger då vi använder (3.) att 0 (x j x)y j α (x j x) β (x j x) 2 som ger att 0 (x j x)y j β β (x j x) 2 (x j x)y j (x j x) 2. (3.7) Om vi utnyttjar resultatet i (3.) där former eller β (y j ȳ) 0 så kan vi uttrycka β även på följande Vi har därmed härlett följande skattningar. (x j x)(y j ȳ) (x j x) 2 (3.8) β x jy j n xȳ. (3.9) n x2 x2 j 3

Sats 3.. Skattningen av. α ges av 2. β ges av ˆβ ˆα Ȳ. (3.0) (x j x)y j (x j x) 2 (3.) 3. variansen σ 2 ges av ˆσ 2 S 2, där S 2 n 2 (Y j Ŷj) 2. (3.2) Anmärkning 3.2. Skattningen av variansen i (3.2) kan oavsett modell skrivas s 2 (y j ŷ j ) 2 ( (y j ȳ) 2 n 2 n 2 ˆβ 2 (x j x) ). 2 (3.3) Detta kan visas genom (n 2)s 2 (y j ŷ j ) (y j ˆα ˆβ(x j x)) 2 (y j ȳ ˆβ(x j x)) 2 (y j ȳ) 2 + ˆβ 2 (x j x) 2 2 ˆβ (y j ȳ)(x j x) (y j ȳ) 2 + ˆβ 2 (x j x) 2 2 ˆβ 2 (x j x) 2 (y j ȳ j ) 2 ˆβ 2 (x j x) 2. Med beteckningarna s 2 y n (x j x) 2 följer av sambandet i (3.3) följande resultat. (y j ȳ) 2 och s 2 x n Sats 3.3. Skattningen av variansen ges av s 2 n n 2 (s2 y β 2 s 2 x) 4

Sats 3.4. Skattningarna i (3.0) och (3.). är väntevärdesriktiga, E(ˆα) α resp. E( ˆβ) β. 2. har variansen V (ˆα) σ2 n resp. V ( ˆβ) σ 2 (x j x) 2. 3. är normalfördelade; ˆα N(α, σ/ n) resp. ˆβ N ( σ β, n ). (x j x) 2 4. är oberoende, ˆα och ˆβ är oberoende. För skattningen i (3.2) gäller att. den är väntevärdesriktig, E(ˆσ 2 ) σ 2. 2. Bevis: a. (n 2)S 2 σ 2 χ 2 (n 2). E(ˆα) E(Ȳ ) n E(Y j ) n µ j n (α + β(x j x)) α. b. E( ˆβ) (x j x)e(y j ) n (x j x) 2 (x j x)µ j (x j x) 2 (x j x)(α + β(x j x)) (x j x) 2 α (x j x) n (x j x) 2 + β (x j x) 2 (x j x) 2 β. 2a. Eftersom Y j är normalfördelade och oberoende, så är C(Y i, Y j ) 0 för i j. Därmed får vi ( V (ˆα) V (Ȳ ) V ) n Y j n 2 V (Y j ) + n 2 i C(Y i, Y j ) n 2 nσ2 σ n. 2b. ( V ( ˆβ) V (x ) j x)y j (x j x) 2 ( ) 2 V n (x j x) 2 ( (x j x)y j ), V ( ˆβ) ( ) 2 V ((x x)y + + (x 2 x)y n ) n (x j x) 2 5

( ) 2 ((x x) 2 V (Y ) + + (x 2 x) 2 V (Y n ) n (x j x) 2 ( ) 2 n (x j x) 2 (x j x) 2 σ 2 σ 2 (x j x) 2 3a. Eftersom ˆα Ȳ är en linjärkombination i s.v. Y j N(µ j, σ) enligt (3.3), så är ˆα också normalfördelat. Väntevärde och varians följer av a och 2a ovan. 3b. Eftersom ˆβ k n Y j (x k x) i (x i x) 2 Y k är en linjärkombination i s.v. Y j N(µ j, σ) enligt (3.3), så är ˆβ också normalfördelat. Väntevärde och varians följer av b och 2b ovan. 4. Enligt Sats 2.6 i FÖ 2 så är två normalfördelade s.v. X och Y oberoende om och endast om C(X, Y ) 0. Detta ska vi använda på ˆα och ˆβ. Vi har att C(ˆα, ˆβ) k (x k x) n n i (x i x) 2 C(Y j, Y k ) Eftersom Y j är oberoende så är C(Y j, Y k ) 0 för j k och C(Y k, Y k ) V (Y k ). Vi får ty C(ˆα, ˆβ) k (x k x) i (x i x) 2 V (Y k) σ 2 i (x i x) 2 (x i x) 0, (x k x) 0 enligt (3.). Detta visar att ˆα och ˆβ är oberoende s.v. k k 6

Exempel 3.5. I följande tabell är y j observerade värden på en s.v. Y som antas satisfiera modellen med linjär regression. Motsvarande x-värden är x j. Beräkna punktskattningarna av α, β och σ. x 4.0 7.0 0.0 2.0 4.0 7.0 20.0 y 2.3 3.4 4.2 5.5 6. 7.7 8.4 Lösning: 7

8

3.3. Konfidensintervall. Enligt Sats 3.4, så är ˆα N(α, σ/ n). Bilda en ny s.v. där s beräknas enligt (3.3). Då är ˆα α s/ n t(n 2), s I α ˆα ± t p/2 n ett konfidensintervall med konfidensgraden p. ( 2. Enligt Sats 3.4 följer att ˆβ σ N β, n ). Bilda en ny s.v. (x j x) 2 ˆβ β n t(n 2). s/ (x j x) 2 Ett konfidensintervall med konfidensgraden p är I β ˆβ s ± t p/2 n. (x j x) 2 3. Ett konfidensintervall med konfidensgraden p för y vid givet x x 0 är I α+β(x0 x) ˆα + ˆβ(x 0 x) ± t p/2 s n + (x 0 x) 2 (x j x) 2, ty det skattade värdet ˆµ 0 α + β(x 0 x). är väntevärdesriktig, E(ˆµ 0 ) µ 0 : E(ˆµ 0 ) E(ˆα + ˆβ(x 0 x)) α + β(x 0 x) µ 0. ( 2. har variansen V (ˆµ 0 ) σ n + (x 0 x) 2 n ): (x j x) 2 Eftersom ( ˆµ 0 ˆα + β(x 0 x) ( (x 0 x)) ˆαˆβ ) så är Cˆµ0 ( (x 0 x))c ˆαˆβ ( (x 0 x) ) 9

Då ˆα och ˆβ är oberoende så är C ˆαˆβ σ 2 /n 0 σ 2 0 (x j x) 2 och därmed Cˆµ0 σ2 n + σ2 (x 0 x) 2 n (x j x) 2. Exempel 3.6. Bestäm ett 95 % konfidensintervall för parametrarna α och β i Exempel 3.5. Exempel 3.7. Testa hypotesen att regressionslinjen går igeom punkten (5, 6) i Exempel 3.5. 0

3.4. Multipel linjär regression Exempel 3.8. Låt y j vara observerade värden av Y j β 0 + β x j + + β k x jk + ε j j, 2,..., n (3.4) där x j,..., x j k är fixa tal, medan ε,..., ε n är oberoende normalfördelade s.v. med E(ε j ) 0 och V (ε j ) σ 2, och β 0,..., β k är okända parametrar. Modellen i (3.4) kan skrivas på matrisform enligt eller kortare Y Y 2 Y n x x k x 2 x 2k x n x nk Då gäller för den stokastiska vektorn Y att och Y Xβ + ε. E(Y ) Xβ C Y σ 2 I, β 0 β β k + där I betecknar enhetsmatrisen. MK-metoden innebär här att minimera kvadratsumman på avvikelsen, att minimera funktionen Q(β 0,..., β k ) där x j0, j, 2,..., n. (y j E(Y j )) 2 ε ε 2 ε n (y j µ j ) 2 (y j β 0 β x j... β k x jk ) 2 (y Xβ) t (y Xβ)

3.5. Punktskattning Sats 3.9. Under förutsättningarna i Exempel 3.8 och om det(x t X) 0, så är MK-skattningen av β. ˆβ (X t X) X t y Bevis: Den kvadratiska formen är alltid icke negativ, Q(β 0,..., β k ) (y Xβ) t (y Xβ) (y Xβ y Xβ) y Xβ 2 0, där beteckningarna ( ) och står för skalärprodukt resp. norm. Matrisen X i modellen är inte inverterbar och modellen är faktiskt ett överbestämt ekvationssystem, systemet y Xβ saknar lösningen. Vekktorn y är därmed inte en linjärkombination i kolonnerna i matrisen X. Däremot kan vi välja vektorn β, så att avståndet mellan y och Xβ blir så litet som möjligt genom att välja β så att (y Xβ) X (y Xβ) X 0 (y Xβ) t X 0 X t (y Xβ) 0 β (X t X) X t y. Anmärkning 3.0.. Om det(x t X) 0, så finns det minst ett linjärt samband mellan kolonnvektorerna i X-matrisen vilket betyder att minst en av förklaringsvariablerna kan tas bort. 2. MK-skattningen ˆβ är lösningen till normalekvationen X t (y X ˆβ) 0. 3. Antag att vi har observerade värden på två förklaringsvariabler x och x 2 och en responsvaribel y. Att anpassa modellen Y β 0 + β x + β 2 x 2 + ε enligt MK-metoden innebär att vi väljer det plan y ˆβ 0 + ˆβ x + ˆβ 2 x 2 + ε som passar bäst till observationspunkterna (x j, x j2, y j ), att summan av avstånden i kvadrat från observationspunkterna till planet blir så liten som möjligt. 2

Sats 3.. Låt Y j β 0 + β x j + + β k x jk + ε j j, 2,..., n, (3.5) där x j,..., x j k är fixa tal, medan ε,..., ε n är oberoende s.v. och N(0, σ). Då gäller att den stokastiska vektorn ˆβ (X t X) X t Y N(β, σ 2 (X t X) ). Bevis: ˆβ är normalfördelad eftersom den är linjärkombination av normalfördelade Y.. Väntevärdesvektorn är E(ˆβ) (X t X) X t E(Y ) (X t X) X t Xβ β.. 2. Vidare, kovariansmatrisen är C ˆβ (Xt X) X t Cy((X t X) X t ) t σ 2 (X t X) X t X((X t X) ) t σ 2 ((X t X) ) t Alltså C ˆβ σ2 ((X t X) t ) σ 2 (X t X) 3.6. Konfidensintervall Enligt Sats 3. ovan, så är ˆβ (X t X) X t Y N(β, σ 2 (X t X) ), vilket ger att ˆβ j N(β j, σ h jj ), där h jj är diagonalelementen i matrisen h 00 h 0 h 0k h 0 h h k (X t X) h k0 x k h kk Eftersom σ är okänt bildar vi en ny s.v. för kontruktion av I βj, där och ˆβ j β s h jj t(n k ) s 2 obs n k (y j µ j ) 2 µ j β 0 + β x j + + β k x jk 3