Föreläsning 8: Linjär regression del I

Relevanta dokument
Enkel och multipel linjär regression

Föreläsning 7: Stokastiska vektorer

Stokastiska vektorer och multivariat normalfördelning

Föreläsning 9: Linjär regression del II

Föreläsning 6: Hypotestester (forts.)

Föreläsning 12: Linjär regression

Stokastiska vektorer

Föreläsning 12: Regression

TAMS79: Föreläsning 10 Markovkedjor

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

. (2p) 2x + 2y + z = 4 y + 2z = 2 4x + 3y = 6

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Föreläsning 4: Konfidensintervall (forts.)

1. (Dugga 1.1) (a) Bestäm v (3v 2u) om v = . (1p) and u =

Matematisk statistik för D, I, Π och Fysiker

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

SF1624 Algebra och geometri Tentamen Onsdag, 13 januari 2016

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

LÖSNINGAR LINJÄR ALGEBRA LUNDS TEKNISKA HÖGSKOLA MATEMATIK

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

SF1624 Algebra och geometri Lösningsförsag till modelltentamen

TAMS79: Föreläsning 6. Normalfördelning

Lycka till!

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Egenvärden och egenvektorer. Linjär Algebra F15. Pelle

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

SF1624 Algebra och geometri Lösningsförslag till tentamen Fredagen den 23 oktober, 2009 DEL A

Basbyten och linjära avbildningar

Matematisk statistik, Föreläsning 5

9. Konfidensintervall vid normalfördelning

SF1624 Algebra och geometri

SF1901 Sannolikhetsteori och statistik I

Föreläsning 3: Konfidensintervall

Lösningar till utvalda uppgifter i kapitel 8

Övningar. c) Om någon vektor i R n kan skrivas som linjär kombination av v 1,..., v m på precis ett sätt så. m = n.

DEL I. Matematiska Institutionen KTH. Lösning till tentamensskrivning på kursen Linjär algebra II, SF1604, den 17 april 2010 kl

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Övningar. MATEMATISKA INSTITUTIONEN STOCKHOLMS UNIVERSITET Avd. Matematik. Linjär algebra 2. Senast korrigerad:

Betingning och LOTS/LOTV

AMatematiska institutionen avd matematisk statistik

SF1624 Algebra och geometri Tentamen Torsdag, 17 mars 2016

Grundläggande matematisk statistik

MVE022 Urval av bevis (på svenska)

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A. (1 p) (c) Bestäm avståndet mellan A och linjen l.

Föreläsning 11: Mer om jämförelser och inferens

LÖSNINGAR TILL LINJÄR ALGEBRA kl 8 13 LUNDS TEKNISKA HÖGSKOLA MATEMATIK. 1. Volymen med tecken ges av determinanten.

Föreläsningsanteckningar Linjär Algebra II Lärarlyftet

Föreläsningsanteckningar Linjär Algebra II Lärarlyftet

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Avsnitt 6, Egenvärden och egenvektorer. Redan första produktelementet avslöjar att matrisen inte är en ortogonal matris. En matris 1 0.

Egenvärden, egenvektorer

MVE051/MSG Föreläsning 14

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Vi skalla främst utnyttja omskrivning av en matris för att löas ett system av differentialekvaioner. 2? Det är komplicerat att

REGRESSIONSANALYS. Martin Singull

Lektionsanteckningar 11-12: Normalfördelningen

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

1 Linjära ekvationssystem. 2 Vektorer

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

1 De fyra fundamentala underrummen till en matris

Vektorgeometri för gymnasister

Dagens program. Linjära ekvationssystem och matriser

Preliminärt lösningsförslag

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

2.1 Mikromodul: stokastiska processer

Regressions- och Tidsserieanalys - F1

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Uppsala Universitet Matematiska Institutionen Bo Styf. Sammanfattning av föreläsningarna

Uppgift 1. f(x) = 2x om 0 x 1

Föreläsning 15, FMSF45 Multipel linjär regression

SF1624 Algebra och geometri Lösningsförslag till modelltentamen DEL A

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Matematisk statistik för B, K, N, BME och Kemister

SF1624 Algebra och geometri Tentamen Torsdag, 9 juni 2016

Övningstenta 001. Alla Linjär Algebra. TM-Matematik Sören Hector Mikael Forsberg. 1. x 2y z + v = 0 z + u + v = 3 x + 2y + 2u + 2v = 4 z + 2u + 5v = 0

Regressions- och Tidsserieanalys - F1

Moment 6.1, 6.2 Viktiga exempel Övningsuppgifter T6.1-T6.6

Determinanter, egenvectorer, egenvärden.

Diagonalisering och linjära system ODE med konstanta koe cienter.

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

DEL I 15 poäng totalt inklusive bonus poäng.

TMV166 Linjär Algebra för M. Tentamen

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

Föreläsning 15: Faktorförsök

F13 Regression och problemlösning

Lite Linjär Algebra 2017

Föreläsning 13: Multipel Regression

(d) Mängden av alla x som uppfyller x = s u + t v + (1, 0, 0), där s, t R. (e) Mängden av alla x som uppfyller x = s u där s är ickenegativ, s 0.

4x az = 0 2ax + y = 0 ax + y + z = 0

Föreläsning 7: Punktskattningar

Transkript:

Föreläsning 8: Linjär regression del I Johan Thim (johanthim@liuse) 29 september 2018 Your suffering will be legendar, even in hell Pinhead Vi återgår nu till ett exempel vi stött på redan vid ett flertal tillfällen (föregående föreläsning och föreläsning 2 för att inte tala om tidigare kurser som linjär algebra), nämligen att anpassa en rät linje = β 0 + β 1 x efter mätdata (x i, i ), i = 1, 2,, n Grafiskt illustrerat enligt nedan r 3 r 1 r 2 r 4 x Målsättningen är att givet en mätserie hitta den linje som approximerar denna serie på lämpligt sätt Det resulterar i ett par naturliga funderingar (i) Hur hittar man en approximativ linje sstematiskt? (ii) Om man upprepar försöket, får man samma linje? (iii) I vilken mening är linjen optimal? På vilket sätt mäter vi avvikelserna mellan linjen och mätserien? Vi ska försöka svara på dessa frågor och för att göra det behöver vi ställa upp en modell Enkel linjär regression Definition Vi kommer betrakta följande modell: givet (x j, j ), j = 1, 2,, n, där vi betraktar x j som fixerade och j som observationer av stokastiska variabler Y i = β 0 + β 1 x j + ɛ j, j = 1, 2,, n, där ɛ j N(0, σ 2 ) antas oberoende (och likafördelade) Den räta linjen = β 0 + β 1 x kallas regressionslinjen Vi använder beteckningen µ j = β 0 + β 1 x j = E(Y j ) 1

Är det givet att denna modell är sann? Nej, det är inte självklart utan hänger på vilka förutsättningar datan kommer från Däremot tenderar modellen att fungera bra i de flesta fall om vi har en rimlig mängd observationer Med notationen från figuren ser vi att r j = j µ j om vi tar hänsn till tecknet (positivt tecken om j ligger ovanför regressionslinjen) Ett mått på hur väl linjen approximerar mätserien ges av kvadratsumman rj 2 = ( j µ j ) 2 Vi skulle kunna minimera denna summa med avseende på (β 0, β 1 ), vilket ger MK-skattningar för β 0 och β 1 Detta var det som hände i exemplet från föreläsning 2 Istället för att upprepa argumentet går vi över till den generella modellen för linjär regression Linjär regression Definition Givet (x j1, x j2,, x jk, j ), j = 1, 2,, n, för något positivt heltal k, där vi betraktar x ji som fixerade och j som observationer av stokastiska variabler Y j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk + ɛ j, j = 1, 2,, n, där ɛ j N(0, σ 2 ) antas oberoende (och likafördelade) och β 0, β 1,, β k är okända parameterar Den räta linjen = β 0 + β 1 x 1 + β 2 x 2 + + β k x k kallas regressionslinjen Vi låter µ j = E(Y j ) = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk Dubbelindexeringen är lite jobbig att arbeta med, så låt oss gå över till matrisnotation: Y 1 β 0 β 1 x 11 β k x 1k ɛ 1 Y 2 = β 0 β 1 x 21 β k x 2k + ɛ 2 Y n β 0 β 1 x n1 β k x nk ɛ n 1 x 11 x 1k β 0 ɛ 1 1 x 21 x 2k β 1 = + ɛ 2 1 x n1 x nk β k ɛ n Vi låter Y = Y 1 Y 2 Y n, X = 1 x 11 x 1k 1 x 21 x 2k 1 x n1 x nk, β = β 0 β 1 β k, samt ɛ = ɛ 1 ɛ 2 ɛ n, 2

vilket leder till sambandet Således gäller att Y = Xβ + ɛ E(Y ) = Xβ och C Y = σ 2 I n, där I n är den n-dimensionella enhetsmatrisen Vi söker MK-skattningen β för β, vilket vi kan erhålla genom att minimera den kvadratiska formen Q(β 0,, β k ) = ( j µ j ) 2 = ( Xβ) T ( Xβ), där = ( 1 2 n ) T En variant är att sätta igång och derivera, men lite mer elegant gäller följande sats Normalekvationerna Sats Om det X T X 0 så ges MK-skattningen av β enligt β = (X T X) 1 X T Bevis Vi kan skriva vektorn Y av uppmätta värden som Y = β 0 x 0 + β 1 x 1 + + β k x k + ɛ, där x i, i = 1, 2,, k, är kolonn i + 1 i matrisen X Från linjär algebra vet vi att avståndet mellan observationen och linjärkombinationer av vektorerna x j, dvs ( β0 x 0 + β 1 x 1 + β k x k ), blir minimalt precis då X β = k β j x j är projektionen av på det linjära höljet span{x 0, x 1,, x k } Således måste X β vara vinkelrät mot x j för alla j = 0, 1,, k Detta medför att X T ( X β) = 0 X T X β = X T β = (X T X) 1 X T, vilket är precis vad vi ville visa! När det gäller β och dess komponenter kommer vi använda samma beteckningar för observationer av punktskattningen och den stokastiska variabeln Skulle vi vara konsekventa borde den stokastiska variabeln betecknas B, men av tradition görs inte så Var observant! 3

Sats Med förutsättningarna ovan gäller att β N k+1 ( β, σ 2 (X T X) 1) Bevis Det faktum att β är normalfördelad följer direkt från faktumet att elementen i β är linjärkombinationer av normalfördelade variabler Återstår att visa väntevärde och kovarians: och E( β) = (X T X) 1 X T E(Y ) = (X T X) 1 X T Xβ = β C β = (X T X) 1 X T C Y ((X T X) 1 X T ) T = (X T X) 1 X T σ 2 I n ((X T X) 1 X T ) T = (X T X) 1 X T σ 2 I n (X T ) T ((X T X) 1 ) T = σ 2 (X T X) 1 X T X((X T X) T ) 1 = σ 2 (X T X) 1 Således blir fördelningen precis som beskriven i satsen 2 Variansanals Vi låter µ j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk, j = 1, 2,, n Ibland betecknas vektorn µ som ŷ eftersom det i någon mening är en skattningen av, men det blir lite olckligt för det är inte vi skattar Vi ska nu studera hur bra den skattning vi tagit fram är Regressionsanalsens kvadratsummor Definition Vi definierar tre kvadratsummor som beskriver variationen hos -värdena: (i) Den totala variationen definieras enligt SS TOT = ( j ) 2 (ii) Variationen som förklaras av x 1, x 2,, x k, definieras enligt SS R = ( µ j ) 2 (iii) Variationen som inte förklaras av regressionsmodellen är SS E = ( j µ j ) 2 Ibland används beteckningarna Q TOT för SS TOT, Q REGR för SS R och Q RES för SS E Hur hänger dessa summor ihop? Som tur är finns ett enkelt svar Sats Den totala variationen SS TOT kan delas upp enligt SS TOT = SS R + SS E 4

Bevis Vi vill uttrcka SS TOT i termer av SS R och SS E, så SS TOT = = ( j ) 2 = ( j µ j + µ j ) 2 ( j µ j ) 2 + 2 = SS R + 2 ( j µ j )( µ j ) + ( j µ j ) µ j 2 ( µ j ) 2 ( j µ j ) + SS E Vi visar att de båda summorna i mitten summerar till noll Eftersom µ = X β gäller det att ( j µ j ) µ j = µ T ( µ) = (X β) T ( X β) = β T X T ( X β) = β T (X T X T X(X T X) 1 X T ) = β T (X T X T ) = 0 Med andra ord är µ vinkelrät mot µ Vidare vet vi att β minimerar Q(β) = ( j µ j ) 2, så 0 = Q(β) β0 = 2 β= β ( j µ j ) j = µ j, vilket var precis det vi behövde 21 SS TOT Storheten SS TOT mäter den totala variation av mätvärden jämfört med mätvärdenas medelvärde I fallet då vi använder modellen Y = β 0 + ɛ ger således SS TOT hela felet i regressionen r 1 r 2 r 3 r 7 r 8 x Vi ser att SS TOT = rj 2 = ( j ) 2 5

22 SS R och SS E Om vi istället använder modellen = β 0 +β 1 x+ɛ blir summorna SS E och SS R relevanta (SS TOT ser fortfarande ut som ovan) Låt oss först illustrera SS R = β 0 + β 1 x r 1 r 2 r 3 r 8 r 9 x Vi ser att SS R = rj 2 = ( β 0 + β 1 x j ) 2 och SS R mäter alltså hur mcket den skattade regressionslinjen (i mätpunkterna x j ) skiljer sig från medelvärdet av -värdena När det gäller SS E är det istället skillnaden mellan den skattade regressionslinjen och mätvärdena vi betraktar = β 0 + β 1 x r 3 r 1 r 2 r 4 x Kvadratsumman av dessa avvikelser blir SS E = rj 2 = ( j ( β 0 + β 1 x j )) 2 6

3 Projektionsmatriser Eftersom vi arbetar med matriser och MK-lösningen i princip är projektionen på ett underrum av R n så är följande resultat inte allt för förvånande Hatt-matrisen Definition Vi definierar H = X(X T X) 1 X T Vi definierar även J som en matris vars samtliga element är 1 Vi skriver J nm om vi vill markera dimensionen Varför kallar vi H för hatt-matrisen? Ganska enkelt: Avbildningen sätter alltså hatten på! H = X(X T X) 1 X T = X β = µ = ŷ Sats Matriserna H, I H och H 1 n J är projektionsmatriser P som uppfller P 2 = P T = P Bevis Direkt från definitionen av H blir och H 2 = (X(X T X) 1 X T )(X(X T X) 1 X T ) = X(X T X) 1 X T = H H T = (X(X T X) 1 X T ) T = X(X T X) T X T = X((X T X) T ) 1 X T = H Därav följer det att (I H) 2 = I 2 2H + H 2 = I H och att (I H) T = I T H T = I H För den sista operatorn skriver vi ( H 1 n J ) 2 = H 2 1 n HJ 1 n JH + 1 n 2 J 2 = H 1 n HJ 1 n JH + 1 n J t J 2 är matrisen med samtliga element lika med n Vidare gäller att J kommuterar med alla kvadratiska matriser, så JH = HJ Här kan vi se att H1 = 1 (där 1 är en vektor med samtliga element lika med 1) eftersom lösningen till regressionsproblemet om är konstant är just den konstanten (lösningen är exakt) Alltså blir ( H 1 n J ) 2 = H 1 n J Givetvis gäller även att ( H 1 n J ) T = H 1 n J En följdsats av detta är att vi kan skriva kvadratsummorna som kvadratiska former Sats SS TOT = T ( I 1 n J ), SS R = T ( H 1 n J ), samt SS E = T (I H) 7

4 Förklaringsgrad När vi utför regressionsanals vill vi ofta ha ett mått som preciserar hur bra modellen passar de uppmätta värdena Ett sådant mått är förklaringsgraden Definition Förklaringsgraden R 2 definieras som R 2 = SS R SS TOT = SS TOT SS E SS TOT = 1 SS E SS TOT Ibland använder man lite andra varianter av R 2 och en mcket vanlig är den så kallade justerade förkaringsgraden R 2 adj = 1 SS E/(n k 1) SS TOT /(n 1) Om inte n är förhållandevis stor i jämförelse med k (vilket är nödvändigt för att regressionen ska vara vettig) så blir den justerade graden sämre 5 Regressionsanalsens huvudsats Innan vi ger oss in på huvudsatsen visar vi en hjälpsats från linjär algebra Sats Låt x = (x 1 x 2 x n ) vara sådan att x T x = x 2 j = x T Ax + x T Bx för A, B R n n positivt semi-definita och smmetriska med rank(a) = r och rank(b) = n r för något heltal r så att 0 < r < n Då finns en ON-matris C så att med x = C gäller att x T Ax = r j 2 och x T Bx = j 2 j=r+1 Bevis Eftersom A är positivt semi-definit har A endast icke-negativa egenvärden som vi ordnar enligt λ 1 λ 2 λ n Vi vet även att rank(a) = r, så λ r+1 = = λ n = 0 Vidare är A diagonaliserbar eftersom A är smmetrisk, så det finns en ON-matris C så att λ 1 0 0 0 0 0 0 0 λ 2 0 0 0 0 0 0 0 0 0 C T AC = D = 0 0 0 λ r 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8

Med x = C gäller då att x T x = (C) T (C) = T C T C = T och Vi har även och då blir x T Ax = (C) T AC = T C T AC = T D = x T Bx = (C) T BC = T C T BC r λ j j 2 r j 2 = T = x T x = x T Ax + x T Bx = λ j j 2 + T C T BC så r T C T BC = (1 λ j )j 2 + j 2 j=r+1 Det faktum att rank(b) = n r visar att λ 1 = λ 2 = λ r = 1 och vi erhåller identiteten T C T BC = j 2 j=r Alla beteckningar är nu ur vägen och vi är framme vid huvudresultatet Sats Med förutsättningarna ovan gäller följande för SS E och SS R sedda som stokastiska variabler (i) SS E = 1 (Y σ 2 σ 2 j µ j ) 2 χ 2 (n k 1) Regressionsanalsens huvudsats (ii) Givet att β 1 = β 2 = = β k = 0 är SS R σ 2 = 1 σ 2 (iii) Både SS R och β = (X T X) 1 X T Y är oberoende av SS E ( µ j Y ) 2 χ 2 (k) Bevis Eftersom H är en projektionsmatris har H endast egenvärdena λ = 0 och λ = 1 Således gäller det finurliga att matrisens rang är lika med summan av egenvärdena, vilka kan beräknas genom att ta spåret 1 av matrisen: rank(h) = tr(h) = tr(x(x T X) 1 X T ) = tr(x T X(X T X) 1 ) = tr(i k+1 ) = k + 1, Det följer sedan att rank(i H) = n k 1 1 se sista (bonus)avsnittet för lite detaljer kring spår av matriser 9

Eftersom HX = X så gäller att Y T (I H)Y = ɛ T (I H)ɛ Detta är användbart eftersom E(ɛ) = 0 Enligt föregående hjälpsats gäller att sambandet ɛ T ɛ = ɛ T (I H)ɛ + ɛ T Hɛ medför att det finns en ON-matris C så att Z = Cɛ reducerar likheten till där ɛ T ɛ = n k 1 Z 2 j + j=n k Z 2 j ɛ T (I H)ɛ = Y T (I H)Y = SS E = n k 1 Eftersom komponenterna i ɛ är oberoende och ɛ N(0, σ 2 I) följer det att Z 2 j E(Z) = C0 = 0 och C Z = C Cɛ = σ 2 C T IC = σ 2 I så Z N ( 0, σ 2 I ) Komponenterna i Z är alltså oberoende och Z j N(0, σ 2 ) Detta medför att SS E = 1 n k 1 Z 2 σ 2 σ 2 j χ 2 (n k 1) Vi erhåller även att SS E och Hɛ är oberoende (de delar inga variabler Z j ) Detta medför att SS E och β är oberoende Det faktum att SS E och SS R är oberoende följer av att kovariansen C ((H 1n ) ) J Y, (I H)Y = (H 1n ) J C(Y, Y )(I H) T = σ (H 2 1n ) J (I H) ( = σ 2 H H 2 1 n J + 1 ) ( n JH = σ 2 1 n J + 1 ) n HJ = σ 2 ( 1 n J + 1 n J ) = 0, så dessa vektorer är okorrelerade och normalfördelade, så oberoende Det följer direkt att SS E och SS R är oberoende (som funktioner av oberoende variabler) Om vi fokuserar på fördelningen för SS R så kan vi på samma sätt som ovan utnttja att ( H 1 J) n är en projektionsmatris, så rank (H 1n ) J = tr (H 1n ) ( ) 1 J = tr (H) tr n J = k + 1 1 = k Matrisen J är snnerligen rangdefekt med rank(j) = 1 (eftersom alla kolonner är lika spänner vi bara upp ett en-dimensionellt rum) Nu stöter vi på lite problem Vi ser att (H 1n ) J Y = (I 1n ) J Xβ + (H 1n ) J ɛ 10

där den första termen inte försvinner såvida inte β 1 = β 2 = = β k = 0 Men under detta antagande har vi åter igen en situation där vi kan bta ut Y mot ɛ Föregående hjälpsats visar analogt med föregående argument att Y T ( H 1 n J ) Y = k Zj 2, där Z j är oberoende och Z j N(0, σ 2 ), vilket medför att 1 σ 2 SS R χ 2 (k), under förutsättningen att β 1 = β 2 = = β k = 0 Kommentar: utan villkoret β 1 = β 2 = = β k = 0 kan man fortfarande genomföra argumentet, men resultatet blir en icke-centrerad χ 2 (k)-fördelning (något som inte ingår i kursen) 6 Hpotestester och kofidensintervall Vi har nu samlat på oss en ordentlig verktgslåda, så det kanske är dags att se hur vi använder de olika delarna 61 Skattning av σ 2 Variansen σ 2 skattar vi med Denna skattning är väntevärdesriktig: E(S 2 ) = s 2 = σ 2 n k 1 E SS E n k 1 ( ) SSE σ 2 = σ 2 n k 1 n k 1 = 1 t 1 σ 2 SS E χ 2 (n k 1) 62 Finns det något vettigt i modellen? En rimlig fråga efter utförd regression är om modellen faktiskt säger något Vi brukar testa denna hpotes enligt följande Vi testar nollhpotesen H 0 : β 1 = β 2 = = β k = 0 mot H 1 : minst något β i 0 En naturlig testvariabel ges av v = SS R /k SS E /(n k 1) Huvudsatsen medför att V F (k, n k 1) (om H 0 är sann) och vi förkastar H 0 om v är stor Hur stor avgörs av signifikansnivån och lite slagning i F -tabeller 11

α b x Rimliga utfall om H 0 gäller C Vi hittar gränsen b ur tabell (eller med finv(1-alpha, k, n-k-1) i Matlab) så att P (V > b) = α 63 Enskilda koefficienter Eftersom β N ( β, σ 2 (X T X) 1) introducerar vi beteckningen h 00 h 01 h 0k (X T X) 1 h 10 h 11 h 1k = h k0 h k1 h kk Då är β i N(β i, σ 2 h ii ) Om vi känner σ 2 kan vi använda att Z = β i β i σ h ii N(0, 1) för att testa hpotesen H 0 : β i = 0 eller för att ställa upp konfidensintervall I βi Nu är det extremt sällan vi känner σ 2 exakt, men vi vet att β är oberoende av SS E enligt huvudsatsen, så β i är oberoende av SS E Vidare är s 2 = SS E /(n k 1) en skattning av σ 2 vi känner väl, så enligt Gossets sats ( β i β i )/(σ h ii ) ((n k 1)S2 /σ 2 )/(n k 1) = β i β i S h ii t(n k 1) 64 Hpotestest: H 0 : β i = 0 Vi kan även utföra hpotestester för en ensklid koefficient β i för att se om den förklaringsvariabeln tillför något signifikant (givetvis går det att ställa upp konfidensintervall också för mer kvantitativt innehåll) Låt H 0 : β i = 0 och H 1 : β i 0 Vi vet enligt ovan att T = β i β i S h ii t(n k 1), 12

så det kritiska området finner vi enligt C = {t R : t > c} för lämpligt tal c > 0 beroende på signifikansnivån och antalet frihetsgrader α 2 α 2 c 0 c x C 1 Rimliga utfall C 2 om H 0 gäller Gränsen hittar vi i tabell genom att leta reda på ett tal c = F 1 T (1 α/2) (sitter du med Matlab kan du använda c = -tinv(alpha/2)) 7 Exempel: enkel linjär regression Vi diskuterade enkel linjär regression tidigare i samband med MK-skattningar (föreläsning 2) Låt oss visa att vi får samma resultat med den metod vi nu tagit fram (och fördelningar för ingående storheter på ett enkelt sätt) Vi låter x 1, x 2,, x n vara fixerade tal och 1, 2,, n vara observationer från Y i = β 0 + β 1 x i + ɛ i, där ɛ i N(0, σ 2 ) är oberoende Alltså precis den modell vi använt tidigare Sntesmatrisen X ges av 1 x 1 1 x 2 X = 1 x n så ( n nx X T X = X = nx i=1 x2 i om det(x T X) 0 Således blir ( ) β0 β = = (X β T X) 1 X T 1 ( 1 n ) ( = n i=1 x2 i nx n i=1 x2 i (nx)2 nx n 1 = n i=1 x2 i (nx)2 ) ( (X T X) 1 1 n ) = n i=1 x2 i nx n i=1 x2 i (nx)2 nx n ) n n i=1 x i i ( n i=1 x2 i nx i=1 x i i n 2 x + n i=1 x i i 13 ),

vilket ger att β 1 = x j j nx x2 j nx2 = j(x j x) (x j x) 2 = ( j )(x j x) (x j x) 2 och β0 = β 1 x Det följer nu att β 0 N ( β 0, σ 2 n ) i=1 x2 i n i=1 (x i x) 2 och β1 N ( β 1, ) σ 2 n i=1 (x i x) 2 Någonstans nu inser vi vilket kraftig sntaktiskt verktg matriser och linjär algebra är Eftersom σ är okänd skattar vi σ 2 med s 2 = SS E n 2 = ( j β 0 β 1 x j ) 2 n 2 där S 2 χ 2 (n 2) Vi kan skriva om SS E genom att utnttja att så SS R = ( µ j ) 2 = β 2 1 = r 2 ( i ) 2 ( n (x j x) 2 = ( ) 2 j )(x j x) (x (x j x) 2 j x) 2 SS E = SS TOT SS R = (1 r 2 ) ( i ) 2 Vi kan här se att r = 1 ger perfekt matching så alla (x j, j ) ligger på en rät linje 8 Bonus: determinanter och spår För en kvadratisk matris A med dimension n n definierar vi som bekant det karakteristiska polnomet enligt p(λ) = det(a λi) Bekant från linjär algebra är att p(λ) kan representeras enligt p(λ) = ( 1) n (λ λ 1 )(λ λ 2 ) (λ λ n ) = ( 1) n( λ n λ n 1 (λ 1 + λ 2 + + λ n ) + + ( 1) n λ 1 λ 2 λ n ), (1) där λ i, i = 1, 2,, n, är matrisens egenvärden Spåret för A betecknar tr A och definieras som summan av diagonalelementen: tr A = a ii i=1 Spåret är linjär och uppfller alltså att tr(ca) = c tr A och tr(a + B) = tr A + tr B 14

Dessutom gäller att tr(ab) = m a ij b ji = i=1 m b ji a ij = tr(ba) i=1 om A är n m och B är m n Denna likhet leder direkt till att tr(p AP 1 ) = tr(p 1 (P A)) = tr A, vilket innebär att spåret (likt determinanten) är en invariant Vi vet även att det A = λ 1 λ 2 λ n, dvs determinanten ges av produkten av alla egenvärden Finns något liknande för spåret? Svaret är vad man kanske skulle kunna gissa, nämligen att tr A = λ 1 + λ 2 + + λ n Enklaste beviset är att uttnttja att alla matriser A kan skrivas på Jordans normalform, dvs att det finns en basbtesmatris så att J = P AP 1, där J har λ 1, λ 2,, λ n på diagonalen och är nästan en diagonalmatris Uttnttjar vi att spåret är ivariant är vi klara Kanske ligger detta argument lite utanför grundkursen i linjär algebra, så låt oss studera det karakteristiska polnomet lite närmare som alternativ Genom att utveckla efter exempelvis rad 1 kan determinanten skrivas a 22 λ a 23 a 2n a 32 a 33 λ a 3n p(λ) = (a 11 λ) + p 1 (t), a n2 a n3 a nn λ där grad p 1 (λ) n 2 eftersom vi tagit bort en λ-term Om vi utför samma operation på denna determinant ser vi att a 33 λ a 34 a 3n a 43 a 44 λ a 4n p(λ) = (a 11 λ)(a 22 λ) + p 2 (t), a n3 a n4 a nn λ där grad p 2 (λ) n 2 med något (ntt) polnom p 2 (λ) Upprepa proceduren n gånger och vi erhållet att p(λ) = (a 11 λ)(a 22 λ) (a nn λ) + p n (λ) = ( 1) n λ n + ( 1) n 1 λ n 1 (a 11 + a 22 + + a nn ) + p n+1 (λ) = ( 1) n( λ n λ n 1 tr A ) + p n+1 (λ), (2) där p n+1 (λ) är något polnom med grad högst n 2 Om vi jämför (1) med (2) ser vi att tr A = λ 1 + λ 2 + + λ n 15