TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0 7.0 0.0 2.0 4.0 7.0 20.0 y 2.3 3.4 4.2 5.5 6. 7.7 8.4 Frågor som dyker upp är t.ex.:. Hur hittar vi den räta linje som passar till värdena? 2. Skulle en ny försöksserie ge ungefär samma linje? 3. Hur beskriver vi avvikelserna från linjen? Svaret på första frågan är att vi väljer den linje som minimerar avståndet som är summan av kvadraterna på avstånden i y-led från punkterna till den räta linjen. Denna metod kallas för minstakvadratmetoden. För punkterna ovan ger metoden linjen y 0.268x+2.54. y x
Vi kommer som tidigare att låta x n x j vara medevärdet hos observationerna x, x 2,..., x n. Vi passar också på och påminner om ett viktigt resultat som vi kommer att använda flitigt framöver och det är att (x j x) x j x n x n x 0. (3.) Betrakta nu värdeparen (x j, y j ), j,..., n, där x j :na är givna tal och y j :na är observationer av s.v. Y J där Y j uppfyller följande modell: Modell : Y j α + β(x j x) + ε j (3.2) där ε j är oberoende normalfördelade s.v. med E(ε j ) 0 och V (ε j ) σ 2. Eftersom den s.v. Y j är en linjär funktion i ε j N(0, σ), så är. Y j N(µ j, σ) (3.3) 2. µ j E(Y j ) E(α + β(x j x) + ε j ) α + β(x j x) + E(ε j ) α + β(x j x). 3. V (Y j ) V (α + β(x j x) + ε j ) V (ε j ) σ 2. Modellen i (3.2) kan skrivas på matrisform y y 2 y är observationer av. y n Y Y 2. Y n eller kortare y är observationer av Y Xβ + ε. x x x 2 x.. x n x Metoden att ta fram skattningar ˆα och ˆβ av α och β genom att minimera Q(α, β) (y j µ j ) 2 ( α β ) + ε ε 2. ε n (y j α β(x j x)) 2 (3.4) kallas för minstakvadrat-metoden (MK-metoden). Funktionen Q i (3.4) är summan av kvadraterna i y-led från punkterna y j till den räta linjen µ j α + β(x j x). 2
3.2. Punktskattning Vi minimerar Q(α, β) (y j α β(x j x)) 2 i (3.4). Det följer att Q α 2 Q β 2 (y j α β(x j x)) 0 (x j x)(y j α β(x j x)) 0 (3.5) Första ekvationen i (3.5) ger då vi använder (3.) att 0 y j α β (x j x) nȳ nα, α ȳ (3.6) Andra ekvationen i (3.5) ger då vi använder (3.) att 0 (x j x)y j α (x j x) β (x j x) 2 som ger att 0 (x j x)y j β β (x j x) 2 (x j x)y j (x j x) 2. (3.7) Om vi utnyttjar resultatet i (3.) där former eller β (y j ȳ) 0 så kan vi uttrycka β även på följande Vi har därmed härlett följande skattningar. (x j x)(y j ȳ) (x j x) 2 (3.8) β x jy j n xȳ. (3.9) n x2 x2 j 3
Sats 3.. Skattningen av. α ges av 2. β ges av ˆβ ˆα Ȳ. (3.0) (x j x)y j (x j x) 2 (3.) 3. variansen σ 2 ges av ˆσ 2 S 2, där S 2 n 2 (Y j Ŷj) 2. (3.2) Anmärkning 3.2. Skattningen av variansen i (3.2) kan oavsett modell skrivas s 2 (y j ŷ j ) 2 ( (y j ȳ) 2 n 2 n 2 ˆβ 2 (x j x) ). 2 (3.3) Detta kan visas genom (n 2)s 2 (y j ŷ j ) (y j ˆα ˆβ(x j x)) 2 (y j ȳ ˆβ(x j x)) 2 (y j ȳ) 2 + ˆβ 2 (x j x) 2 2 ˆβ (y j ȳ)(x j x) (y j ȳ) 2 + ˆβ 2 (x j x) 2 2 ˆβ 2 (x j x) 2 (y j ȳ j ) 2 ˆβ 2 (x j x) 2. Med beteckningarna s 2 y n (x j x) 2 följer av sambandet i (3.3) följande resultat. (y j ȳ) 2 och s 2 x n Sats 3.3. Skattningen av variansen ges av s 2 n n 2 (s2 y β 2 s 2 x) 4
Sats 3.4. Skattningarna i (3.0) och (3.). är väntevärdesriktiga, E(ˆα) α resp. E( ˆβ) β. 2. har variansen V (ˆα) σ2 n resp. V ( ˆβ) σ 2 (x j x) 2. 3. är normalfördelade; ˆα N(α, σ/ n) resp. ˆβ N ( σ β, n ). (x j x) 2 4. är oberoende, ˆα och ˆβ är oberoende. För skattningen i (3.2) gäller att. den är väntevärdesriktig, E(ˆσ 2 ) σ 2. 2. Bevis: a. (n 2)S 2 σ 2 χ 2 (n 2). E(ˆα) E(Ȳ ) n E(Y j ) n µ j n (α + β(x j x)) α. b. E( ˆβ) (x j x)e(y j ) n (x j x) 2 (x j x)µ j (x j x) 2 (x j x)(α + β(x j x)) (x j x) 2 α (x j x) n (x j x) 2 + β (x j x) 2 (x j x) 2 β. 2a. Eftersom Y j är normalfördelade och oberoende, så är C(Y i, Y j ) 0 för i j. Därmed får vi ( V (ˆα) V (Ȳ ) V ) n Y j n 2 V (Y j ) + n 2 i C(Y i, Y j ) n 2 nσ2 σ n. 2b. ( V ( ˆβ) V (x ) j x)y j (x j x) 2 ( ) 2 V n (x j x) 2 ( (x j x)y j ), V ( ˆβ) ( ) 2 V ((x x)y + + (x 2 x)y n ) n (x j x) 2 5
( ) 2 ((x x) 2 V (Y ) + + (x 2 x) 2 V (Y n ) n (x j x) 2 ( ) 2 n (x j x) 2 (x j x) 2 σ 2 σ 2 (x j x) 2 3a. Eftersom ˆα Ȳ är en linjärkombination i s.v. Y j N(µ j, σ) enligt (3.3), så är ˆα också normalfördelat. Väntevärde och varians följer av a och 2a ovan. 3b. Eftersom ˆβ k n Y j (x k x) i (x i x) 2 Y k är en linjärkombination i s.v. Y j N(µ j, σ) enligt (3.3), så är ˆβ också normalfördelat. Väntevärde och varians följer av b och 2b ovan. 4. Enligt Sats 2.6 i FÖ 2 så är två normalfördelade s.v. X och Y oberoende om och endast om C(X, Y ) 0. Detta ska vi använda på ˆα och ˆβ. Vi har att C(ˆα, ˆβ) k (x k x) n n i (x i x) 2 C(Y j, Y k ) Eftersom Y j är oberoende så är C(Y j, Y k ) 0 för j k och C(Y k, Y k ) V (Y k ). Vi får ty C(ˆα, ˆβ) k (x k x) i (x i x) 2 V (Y k) σ 2 i (x i x) 2 (x i x) 0, (x k x) 0 enligt (3.). Detta visar att ˆα och ˆβ är oberoende s.v. k k 6
Exempel 3.5. I följande tabell är y j observerade värden på en s.v. Y som antas satisfiera modellen med linjär regression. Motsvarande x-värden är x j. Beräkna punktskattningarna av α, β och σ. x 4.0 7.0 0.0 2.0 4.0 7.0 20.0 y 2.3 3.4 4.2 5.5 6. 7.7 8.4 Lösning: 7
8
3.3. Konfidensintervall. Enligt Sats 3.4, så är ˆα N(α, σ/ n). Bilda en ny s.v. där s beräknas enligt (3.3). Då är ˆα α s/ n t(n 2), s I α ˆα ± t p/2 n ett konfidensintervall med konfidensgraden p. ( 2. Enligt Sats 3.4 följer att ˆβ σ N β, n ). Bilda en ny s.v. (x j x) 2 ˆβ β n t(n 2). s/ (x j x) 2 Ett konfidensintervall med konfidensgraden p är I β ˆβ s ± t p/2 n. (x j x) 2 3. Ett konfidensintervall med konfidensgraden p för y vid givet x x 0 är I α+β(x0 x) ˆα + ˆβ(x 0 x) ± t p/2 s n + (x 0 x) 2 (x j x) 2, ty det skattade värdet ˆµ 0 α + β(x 0 x). är väntevärdesriktig, E(ˆµ 0 ) µ 0 : E(ˆµ 0 ) E(ˆα + ˆβ(x 0 x)) α + β(x 0 x) µ 0. ( 2. har variansen V (ˆµ 0 ) σ n + (x 0 x) 2 n ): (x j x) 2 Eftersom ( ˆµ 0 ˆα + β(x 0 x) ( (x 0 x)) ˆαˆβ ) så är Cˆµ0 ( (x 0 x))c ˆαˆβ ( (x 0 x) ) 9
Då ˆα och ˆβ är oberoende så är C ˆαˆβ σ 2 /n 0 σ 2 0 (x j x) 2 och därmed Cˆµ0 σ2 n + σ2 (x 0 x) 2 n (x j x) 2. Exempel 3.6. Bestäm ett 95 % konfidensintervall för parametrarna α och β i Exempel 3.5. Exempel 3.7. Testa hypotesen att regressionslinjen går igeom punkten (5, 6) i Exempel 3.5. 0
3.4. Multipel linjär regression Exempel 3.8. Låt y j vara observerade värden av Y j β 0 + β x j + + β k x jk + ε j j, 2,..., n (3.4) där x j,..., x j k är fixa tal, medan ε,..., ε n är oberoende normalfördelade s.v. med E(ε j ) 0 och V (ε j ) σ 2, och β 0,..., β k är okända parametrar. Modellen i (3.4) kan skrivas på matrisform enligt eller kortare Y Y 2 Y n x x k x 2 x 2k x n x nk Då gäller för den stokastiska vektorn Y att och Y Xβ + ε. E(Y ) Xβ C Y σ 2 I, β 0 β β k + där I betecknar enhetsmatrisen. MK-metoden innebär här att minimera kvadratsumman på avvikelsen, att minimera funktionen Q(β 0,..., β k ) där x j0, j, 2,..., n. (y j E(Y j )) 2 ε ε 2 ε n (y j µ j ) 2 (y j β 0 β x j... β k x jk ) 2 (y Xβ) t (y Xβ)
3.5. Punktskattning Sats 3.9. Under förutsättningarna i Exempel 3.8 och om det(x t X) 0, så är MK-skattningen av β. ˆβ (X t X) X t y Bevis: Den kvadratiska formen är alltid icke negativ, Q(β 0,..., β k ) (y Xβ) t (y Xβ) (y Xβ y Xβ) y Xβ 2 0, där beteckningarna ( ) och står för skalärprodukt resp. norm. Matrisen X i modellen är inte inverterbar och modellen är faktiskt ett överbestämt ekvationssystem, systemet y Xβ saknar lösningen. Vekktorn y är därmed inte en linjärkombination i kolonnerna i matrisen X. Däremot kan vi välja vektorn β, så att avståndet mellan y och Xβ blir så litet som möjligt genom att välja β så att (y Xβ) X (y Xβ) X 0 (y Xβ) t X 0 X t (y Xβ) 0 β (X t X) X t y. Anmärkning 3.0.. Om det(x t X) 0, så finns det minst ett linjärt samband mellan kolonnvektorerna i X-matrisen vilket betyder att minst en av förklaringsvariablerna kan tas bort. 2. MK-skattningen ˆβ är lösningen till normalekvationen X t (y X ˆβ) 0. 3. Antag att vi har observerade värden på två förklaringsvariabler x och x 2 och en responsvaribel y. Att anpassa modellen Y β 0 + β x + β 2 x 2 + ε enligt MK-metoden innebär att vi väljer det plan y ˆβ 0 + ˆβ x + ˆβ 2 x 2 + ε som passar bäst till observationspunkterna (x j, x j2, y j ), att summan av avstånden i kvadrat från observationspunkterna till planet blir så liten som möjligt. 2
Sats 3.. Låt Y j β 0 + β x j + + β k x jk + ε j j, 2,..., n, (3.5) där x j,..., x j k är fixa tal, medan ε,..., ε n är oberoende s.v. och N(0, σ). Då gäller att den stokastiska vektorn ˆβ (X t X) X t Y N(β, σ 2 (X t X) ). Bevis: ˆβ är normalfördelad eftersom den är linjärkombination av normalfördelade Y.. Väntevärdesvektorn är E(ˆβ) (X t X) X t E(Y ) (X t X) X t Xβ β.. 2. Vidare, kovariansmatrisen är C ˆβ (Xt X) X t Cy((X t X) X t ) t σ 2 (X t X) X t X((X t X) ) t σ 2 ((X t X) ) t Alltså C ˆβ σ2 ((X t X) t ) σ 2 (X t X) 3.6. Konfidensintervall Enligt Sats 3. ovan, så är ˆβ (X t X) X t Y N(β, σ 2 (X t X) ), vilket ger att ˆβ j N(β j, σ h jj ), där h jj är diagonalelementen i matrisen h 00 h 0 h 0k h 0 h h k (X t X) h k0 x k h kk Eftersom σ är okänt bildar vi en ny s.v. för kontruktion av I βj, där och ˆβ j β s h jj t(n k ) s 2 obs n k (y j µ j ) 2 µ j β 0 + β x j + + β k x jk 3