Föreläsning 8: Linjär regression del I Johan Thim (johanthim@liuse) 29 september 2018 Your suffering will be legendar, even in hell Pinhead Vi återgår nu till ett exempel vi stött på redan vid ett flertal tillfällen (föregående föreläsning och föreläsning 2 för att inte tala om tidigare kurser som linjär algebra), nämligen att anpassa en rät linje = β 0 + β 1 x efter mätdata (x i, i ), i = 1, 2,, n Grafiskt illustrerat enligt nedan r 3 r 1 r 2 r 4 x Målsättningen är att givet en mätserie hitta den linje som approximerar denna serie på lämpligt sätt Det resulterar i ett par naturliga funderingar (i) Hur hittar man en approximativ linje sstematiskt? (ii) Om man upprepar försöket, får man samma linje? (iii) I vilken mening är linjen optimal? På vilket sätt mäter vi avvikelserna mellan linjen och mätserien? Vi ska försöka svara på dessa frågor och för att göra det behöver vi ställa upp en modell Enkel linjär regression Definition Vi kommer betrakta följande modell: givet (x j, j ), j = 1, 2,, n, där vi betraktar x j som fixerade och j som observationer av stokastiska variabler Y i = β 0 + β 1 x j + ɛ j, j = 1, 2,, n, där ɛ j N(0, σ 2 ) antas oberoende (och likafördelade) Den räta linjen = β 0 + β 1 x kallas regressionslinjen Vi använder beteckningen µ j = β 0 + β 1 x j = E(Y j ) 1
Är det givet att denna modell är sann? Nej, det är inte självklart utan hänger på vilka förutsättningar datan kommer från Däremot tenderar modellen att fungera bra i de flesta fall om vi har en rimlig mängd observationer Med notationen från figuren ser vi att r j = j µ j om vi tar hänsn till tecknet (positivt tecken om j ligger ovanför regressionslinjen) Ett mått på hur väl linjen approximerar mätserien ges av kvadratsumman rj 2 = ( j µ j ) 2 Vi skulle kunna minimera denna summa med avseende på (β 0, β 1 ), vilket ger MK-skattningar för β 0 och β 1 Detta var det som hände i exemplet från föreläsning 2 Istället för att upprepa argumentet går vi över till den generella modellen för linjär regression Linjär regression Definition Givet (x j1, x j2,, x jk, j ), j = 1, 2,, n, för något positivt heltal k, där vi betraktar x ji som fixerade och j som observationer av stokastiska variabler Y j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk + ɛ j, j = 1, 2,, n, där ɛ j N(0, σ 2 ) antas oberoende (och likafördelade) och β 0, β 1,, β k är okända parameterar Den räta linjen = β 0 + β 1 x 1 + β 2 x 2 + + β k x k kallas regressionslinjen Vi låter µ j = E(Y j ) = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk Dubbelindexeringen är lite jobbig att arbeta med, så låt oss gå över till matrisnotation: Y 1 β 0 β 1 x 11 β k x 1k ɛ 1 Y 2 = β 0 β 1 x 21 β k x 2k + ɛ 2 Y n β 0 β 1 x n1 β k x nk ɛ n 1 x 11 x 1k β 0 ɛ 1 1 x 21 x 2k β 1 = + ɛ 2 1 x n1 x nk β k ɛ n Vi låter Y = Y 1 Y 2 Y n, X = 1 x 11 x 1k 1 x 21 x 2k 1 x n1 x nk, β = β 0 β 1 β k, samt ɛ = ɛ 1 ɛ 2 ɛ n, 2
vilket leder till sambandet Således gäller att Y = Xβ + ɛ E(Y ) = Xβ och C Y = σ 2 I n, där I n är den n-dimensionella enhetsmatrisen Vi söker MK-skattningen β för β, vilket vi kan erhålla genom att minimera den kvadratiska formen Q(β 0,, β k ) = ( j µ j ) 2 = ( Xβ) T ( Xβ), där = ( 1 2 n ) T En variant är att sätta igång och derivera, men lite mer elegant gäller följande sats Normalekvationerna Sats Om det X T X 0 så ges MK-skattningen av β enligt β = (X T X) 1 X T Bevis Vi kan skriva vektorn Y av uppmätta värden som Y = β 0 x 0 + β 1 x 1 + + β k x k + ɛ, där x i, i = 1, 2,, k, är kolonn i + 1 i matrisen X Från linjär algebra vet vi att avståndet mellan observationen och linjärkombinationer av vektorerna x j, dvs ( β0 x 0 + β 1 x 1 + β k x k ), blir minimalt precis då X β = k β j x j är projektionen av på det linjära höljet span{x 0, x 1,, x k } Således måste X β vara vinkelrät mot x j för alla j = 0, 1,, k Detta medför att X T ( X β) = 0 X T X β = X T β = (X T X) 1 X T, vilket är precis vad vi ville visa! När det gäller β och dess komponenter kommer vi använda samma beteckningar för observationer av punktskattningen och den stokastiska variabeln Skulle vi vara konsekventa borde den stokastiska variabeln betecknas B, men av tradition görs inte så Var observant! 3
Sats Med förutsättningarna ovan gäller att β N k+1 ( β, σ 2 (X T X) 1) Bevis Det faktum att β är normalfördelad följer direkt från faktumet att elementen i β är linjärkombinationer av normalfördelade variabler Återstår att visa väntevärde och kovarians: och E( β) = (X T X) 1 X T E(Y ) = (X T X) 1 X T Xβ = β C β = (X T X) 1 X T C Y ((X T X) 1 X T ) T = (X T X) 1 X T σ 2 I n ((X T X) 1 X T ) T = (X T X) 1 X T σ 2 I n (X T ) T ((X T X) 1 ) T = σ 2 (X T X) 1 X T X((X T X) T ) 1 = σ 2 (X T X) 1 Således blir fördelningen precis som beskriven i satsen 2 Variansanals Vi låter µ j = β 0 + β 1 x j1 + β 2 x j2 + + β k x jk, j = 1, 2,, n Ibland betecknas vektorn µ som ŷ eftersom det i någon mening är en skattningen av, men det blir lite olckligt för det är inte vi skattar Vi ska nu studera hur bra den skattning vi tagit fram är Regressionsanalsens kvadratsummor Definition Vi definierar tre kvadratsummor som beskriver variationen hos -värdena: (i) Den totala variationen definieras enligt SS TOT = ( j ) 2 (ii) Variationen som förklaras av x 1, x 2,, x k, definieras enligt SS R = ( µ j ) 2 (iii) Variationen som inte förklaras av regressionsmodellen är SS E = ( j µ j ) 2 Ibland används beteckningarna Q TOT för SS TOT, Q REGR för SS R och Q RES för SS E Hur hänger dessa summor ihop? Som tur är finns ett enkelt svar Sats Den totala variationen SS TOT kan delas upp enligt SS TOT = SS R + SS E 4
Bevis Vi vill uttrcka SS TOT i termer av SS R och SS E, så SS TOT = = ( j ) 2 = ( j µ j + µ j ) 2 ( j µ j ) 2 + 2 = SS R + 2 ( j µ j )( µ j ) + ( j µ j ) µ j 2 ( µ j ) 2 ( j µ j ) + SS E Vi visar att de båda summorna i mitten summerar till noll Eftersom µ = X β gäller det att ( j µ j ) µ j = µ T ( µ) = (X β) T ( X β) = β T X T ( X β) = β T (X T X T X(X T X) 1 X T ) = β T (X T X T ) = 0 Med andra ord är µ vinkelrät mot µ Vidare vet vi att β minimerar Q(β) = ( j µ j ) 2, så 0 = Q(β) β0 = 2 β= β ( j µ j ) j = µ j, vilket var precis det vi behövde 21 SS TOT Storheten SS TOT mäter den totala variation av mätvärden jämfört med mätvärdenas medelvärde I fallet då vi använder modellen Y = β 0 + ɛ ger således SS TOT hela felet i regressionen r 1 r 2 r 3 r 7 r 8 x Vi ser att SS TOT = rj 2 = ( j ) 2 5
22 SS R och SS E Om vi istället använder modellen = β 0 +β 1 x+ɛ blir summorna SS E och SS R relevanta (SS TOT ser fortfarande ut som ovan) Låt oss först illustrera SS R = β 0 + β 1 x r 1 r 2 r 3 r 8 r 9 x Vi ser att SS R = rj 2 = ( β 0 + β 1 x j ) 2 och SS R mäter alltså hur mcket den skattade regressionslinjen (i mätpunkterna x j ) skiljer sig från medelvärdet av -värdena När det gäller SS E är det istället skillnaden mellan den skattade regressionslinjen och mätvärdena vi betraktar = β 0 + β 1 x r 3 r 1 r 2 r 4 x Kvadratsumman av dessa avvikelser blir SS E = rj 2 = ( j ( β 0 + β 1 x j )) 2 6
3 Projektionsmatriser Eftersom vi arbetar med matriser och MK-lösningen i princip är projektionen på ett underrum av R n så är följande resultat inte allt för förvånande Hatt-matrisen Definition Vi definierar H = X(X T X) 1 X T Vi definierar även J som en matris vars samtliga element är 1 Vi skriver J nm om vi vill markera dimensionen Varför kallar vi H för hatt-matrisen? Ganska enkelt: Avbildningen sätter alltså hatten på! H = X(X T X) 1 X T = X β = µ = ŷ Sats Matriserna H, I H och H 1 n J är projektionsmatriser P som uppfller P 2 = P T = P Bevis Direkt från definitionen av H blir och H 2 = (X(X T X) 1 X T )(X(X T X) 1 X T ) = X(X T X) 1 X T = H H T = (X(X T X) 1 X T ) T = X(X T X) T X T = X((X T X) T ) 1 X T = H Därav följer det att (I H) 2 = I 2 2H + H 2 = I H och att (I H) T = I T H T = I H För den sista operatorn skriver vi ( H 1 n J ) 2 = H 2 1 n HJ 1 n JH + 1 n 2 J 2 = H 1 n HJ 1 n JH + 1 n J t J 2 är matrisen med samtliga element lika med n Vidare gäller att J kommuterar med alla kvadratiska matriser, så JH = HJ Här kan vi se att H1 = 1 (där 1 är en vektor med samtliga element lika med 1) eftersom lösningen till regressionsproblemet om är konstant är just den konstanten (lösningen är exakt) Alltså blir ( H 1 n J ) 2 = H 1 n J Givetvis gäller även att ( H 1 n J ) T = H 1 n J En följdsats av detta är att vi kan skriva kvadratsummorna som kvadratiska former Sats SS TOT = T ( I 1 n J ), SS R = T ( H 1 n J ), samt SS E = T (I H) 7
4 Förklaringsgrad När vi utför regressionsanals vill vi ofta ha ett mått som preciserar hur bra modellen passar de uppmätta värdena Ett sådant mått är förklaringsgraden Definition Förklaringsgraden R 2 definieras som R 2 = SS R SS TOT = SS TOT SS E SS TOT = 1 SS E SS TOT Ibland använder man lite andra varianter av R 2 och en mcket vanlig är den så kallade justerade förkaringsgraden R 2 adj = 1 SS E/(n k 1) SS TOT /(n 1) Om inte n är förhållandevis stor i jämförelse med k (vilket är nödvändigt för att regressionen ska vara vettig) så blir den justerade graden sämre 5 Regressionsanalsens huvudsats Innan vi ger oss in på huvudsatsen visar vi en hjälpsats från linjär algebra Sats Låt x = (x 1 x 2 x n ) vara sådan att x T x = x 2 j = x T Ax + x T Bx för A, B R n n positivt semi-definita och smmetriska med rank(a) = r och rank(b) = n r för något heltal r så att 0 < r < n Då finns en ON-matris C så att med x = C gäller att x T Ax = r j 2 och x T Bx = j 2 j=r+1 Bevis Eftersom A är positivt semi-definit har A endast icke-negativa egenvärden som vi ordnar enligt λ 1 λ 2 λ n Vi vet även att rank(a) = r, så λ r+1 = = λ n = 0 Vidare är A diagonaliserbar eftersom A är smmetrisk, så det finns en ON-matris C så att λ 1 0 0 0 0 0 0 0 λ 2 0 0 0 0 0 0 0 0 0 C T AC = D = 0 0 0 λ r 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 8
Med x = C gäller då att x T x = (C) T (C) = T C T C = T och Vi har även och då blir x T Ax = (C) T AC = T C T AC = T D = x T Bx = (C) T BC = T C T BC r λ j j 2 r j 2 = T = x T x = x T Ax + x T Bx = λ j j 2 + T C T BC så r T C T BC = (1 λ j )j 2 + j 2 j=r+1 Det faktum att rank(b) = n r visar att λ 1 = λ 2 = λ r = 1 och vi erhåller identiteten T C T BC = j 2 j=r Alla beteckningar är nu ur vägen och vi är framme vid huvudresultatet Sats Med förutsättningarna ovan gäller följande för SS E och SS R sedda som stokastiska variabler (i) SS E = 1 (Y σ 2 σ 2 j µ j ) 2 χ 2 (n k 1) Regressionsanalsens huvudsats (ii) Givet att β 1 = β 2 = = β k = 0 är SS R σ 2 = 1 σ 2 (iii) Både SS R och β = (X T X) 1 X T Y är oberoende av SS E ( µ j Y ) 2 χ 2 (k) Bevis Eftersom H är en projektionsmatris har H endast egenvärdena λ = 0 och λ = 1 Således gäller det finurliga att matrisens rang är lika med summan av egenvärdena, vilka kan beräknas genom att ta spåret 1 av matrisen: rank(h) = tr(h) = tr(x(x T X) 1 X T ) = tr(x T X(X T X) 1 ) = tr(i k+1 ) = k + 1, Det följer sedan att rank(i H) = n k 1 1 se sista (bonus)avsnittet för lite detaljer kring spår av matriser 9
Eftersom HX = X så gäller att Y T (I H)Y = ɛ T (I H)ɛ Detta är användbart eftersom E(ɛ) = 0 Enligt föregående hjälpsats gäller att sambandet ɛ T ɛ = ɛ T (I H)ɛ + ɛ T Hɛ medför att det finns en ON-matris C så att Z = Cɛ reducerar likheten till där ɛ T ɛ = n k 1 Z 2 j + j=n k Z 2 j ɛ T (I H)ɛ = Y T (I H)Y = SS E = n k 1 Eftersom komponenterna i ɛ är oberoende och ɛ N(0, σ 2 I) följer det att Z 2 j E(Z) = C0 = 0 och C Z = C Cɛ = σ 2 C T IC = σ 2 I så Z N ( 0, σ 2 I ) Komponenterna i Z är alltså oberoende och Z j N(0, σ 2 ) Detta medför att SS E = 1 n k 1 Z 2 σ 2 σ 2 j χ 2 (n k 1) Vi erhåller även att SS E och Hɛ är oberoende (de delar inga variabler Z j ) Detta medför att SS E och β är oberoende Det faktum att SS E och SS R är oberoende följer av att kovariansen C ((H 1n ) ) J Y, (I H)Y = (H 1n ) J C(Y, Y )(I H) T = σ (H 2 1n ) J (I H) ( = σ 2 H H 2 1 n J + 1 ) ( n JH = σ 2 1 n J + 1 ) n HJ = σ 2 ( 1 n J + 1 n J ) = 0, så dessa vektorer är okorrelerade och normalfördelade, så oberoende Det följer direkt att SS E och SS R är oberoende (som funktioner av oberoende variabler) Om vi fokuserar på fördelningen för SS R så kan vi på samma sätt som ovan utnttja att ( H 1 J) n är en projektionsmatris, så rank (H 1n ) J = tr (H 1n ) ( ) 1 J = tr (H) tr n J = k + 1 1 = k Matrisen J är snnerligen rangdefekt med rank(j) = 1 (eftersom alla kolonner är lika spänner vi bara upp ett en-dimensionellt rum) Nu stöter vi på lite problem Vi ser att (H 1n ) J Y = (I 1n ) J Xβ + (H 1n ) J ɛ 10
där den första termen inte försvinner såvida inte β 1 = β 2 = = β k = 0 Men under detta antagande har vi åter igen en situation där vi kan bta ut Y mot ɛ Föregående hjälpsats visar analogt med föregående argument att Y T ( H 1 n J ) Y = k Zj 2, där Z j är oberoende och Z j N(0, σ 2 ), vilket medför att 1 σ 2 SS R χ 2 (k), under förutsättningen att β 1 = β 2 = = β k = 0 Kommentar: utan villkoret β 1 = β 2 = = β k = 0 kan man fortfarande genomföra argumentet, men resultatet blir en icke-centrerad χ 2 (k)-fördelning (något som inte ingår i kursen) 6 Hpotestester och kofidensintervall Vi har nu samlat på oss en ordentlig verktgslåda, så det kanske är dags att se hur vi använder de olika delarna 61 Skattning av σ 2 Variansen σ 2 skattar vi med Denna skattning är väntevärdesriktig: E(S 2 ) = s 2 = σ 2 n k 1 E SS E n k 1 ( ) SSE σ 2 = σ 2 n k 1 n k 1 = 1 t 1 σ 2 SS E χ 2 (n k 1) 62 Finns det något vettigt i modellen? En rimlig fråga efter utförd regression är om modellen faktiskt säger något Vi brukar testa denna hpotes enligt följande Vi testar nollhpotesen H 0 : β 1 = β 2 = = β k = 0 mot H 1 : minst något β i 0 En naturlig testvariabel ges av v = SS R /k SS E /(n k 1) Huvudsatsen medför att V F (k, n k 1) (om H 0 är sann) och vi förkastar H 0 om v är stor Hur stor avgörs av signifikansnivån och lite slagning i F -tabeller 11
α b x Rimliga utfall om H 0 gäller C Vi hittar gränsen b ur tabell (eller med finv(1-alpha, k, n-k-1) i Matlab) så att P (V > b) = α 63 Enskilda koefficienter Eftersom β N ( β, σ 2 (X T X) 1) introducerar vi beteckningen h 00 h 01 h 0k (X T X) 1 h 10 h 11 h 1k = h k0 h k1 h kk Då är β i N(β i, σ 2 h ii ) Om vi känner σ 2 kan vi använda att Z = β i β i σ h ii N(0, 1) för att testa hpotesen H 0 : β i = 0 eller för att ställa upp konfidensintervall I βi Nu är det extremt sällan vi känner σ 2 exakt, men vi vet att β är oberoende av SS E enligt huvudsatsen, så β i är oberoende av SS E Vidare är s 2 = SS E /(n k 1) en skattning av σ 2 vi känner väl, så enligt Gossets sats ( β i β i )/(σ h ii ) ((n k 1)S2 /σ 2 )/(n k 1) = β i β i S h ii t(n k 1) 64 Hpotestest: H 0 : β i = 0 Vi kan även utföra hpotestester för en ensklid koefficient β i för att se om den förklaringsvariabeln tillför något signifikant (givetvis går det att ställa upp konfidensintervall också för mer kvantitativt innehåll) Låt H 0 : β i = 0 och H 1 : β i 0 Vi vet enligt ovan att T = β i β i S h ii t(n k 1), 12
så det kritiska området finner vi enligt C = {t R : t > c} för lämpligt tal c > 0 beroende på signifikansnivån och antalet frihetsgrader α 2 α 2 c 0 c x C 1 Rimliga utfall C 2 om H 0 gäller Gränsen hittar vi i tabell genom att leta reda på ett tal c = F 1 T (1 α/2) (sitter du med Matlab kan du använda c = -tinv(alpha/2)) 7 Exempel: enkel linjär regression Vi diskuterade enkel linjär regression tidigare i samband med MK-skattningar (föreläsning 2) Låt oss visa att vi får samma resultat med den metod vi nu tagit fram (och fördelningar för ingående storheter på ett enkelt sätt) Vi låter x 1, x 2,, x n vara fixerade tal och 1, 2,, n vara observationer från Y i = β 0 + β 1 x i + ɛ i, där ɛ i N(0, σ 2 ) är oberoende Alltså precis den modell vi använt tidigare Sntesmatrisen X ges av 1 x 1 1 x 2 X = 1 x n så ( n nx X T X = X = nx i=1 x2 i om det(x T X) 0 Således blir ( ) β0 β = = (X β T X) 1 X T 1 ( 1 n ) ( = n i=1 x2 i nx n i=1 x2 i (nx)2 nx n 1 = n i=1 x2 i (nx)2 ) ( (X T X) 1 1 n ) = n i=1 x2 i nx n i=1 x2 i (nx)2 nx n ) n n i=1 x i i ( n i=1 x2 i nx i=1 x i i n 2 x + n i=1 x i i 13 ),
vilket ger att β 1 = x j j nx x2 j nx2 = j(x j x) (x j x) 2 = ( j )(x j x) (x j x) 2 och β0 = β 1 x Det följer nu att β 0 N ( β 0, σ 2 n ) i=1 x2 i n i=1 (x i x) 2 och β1 N ( β 1, ) σ 2 n i=1 (x i x) 2 Någonstans nu inser vi vilket kraftig sntaktiskt verktg matriser och linjär algebra är Eftersom σ är okänd skattar vi σ 2 med s 2 = SS E n 2 = ( j β 0 β 1 x j ) 2 n 2 där S 2 χ 2 (n 2) Vi kan skriva om SS E genom att utnttja att så SS R = ( µ j ) 2 = β 2 1 = r 2 ( i ) 2 ( n (x j x) 2 = ( ) 2 j )(x j x) (x (x j x) 2 j x) 2 SS E = SS TOT SS R = (1 r 2 ) ( i ) 2 Vi kan här se att r = 1 ger perfekt matching så alla (x j, j ) ligger på en rät linje 8 Bonus: determinanter och spår För en kvadratisk matris A med dimension n n definierar vi som bekant det karakteristiska polnomet enligt p(λ) = det(a λi) Bekant från linjär algebra är att p(λ) kan representeras enligt p(λ) = ( 1) n (λ λ 1 )(λ λ 2 ) (λ λ n ) = ( 1) n( λ n λ n 1 (λ 1 + λ 2 + + λ n ) + + ( 1) n λ 1 λ 2 λ n ), (1) där λ i, i = 1, 2,, n, är matrisens egenvärden Spåret för A betecknar tr A och definieras som summan av diagonalelementen: tr A = a ii i=1 Spåret är linjär och uppfller alltså att tr(ca) = c tr A och tr(a + B) = tr A + tr B 14
Dessutom gäller att tr(ab) = m a ij b ji = i=1 m b ji a ij = tr(ba) i=1 om A är n m och B är m n Denna likhet leder direkt till att tr(p AP 1 ) = tr(p 1 (P A)) = tr A, vilket innebär att spåret (likt determinanten) är en invariant Vi vet även att det A = λ 1 λ 2 λ n, dvs determinanten ges av produkten av alla egenvärden Finns något liknande för spåret? Svaret är vad man kanske skulle kunna gissa, nämligen att tr A = λ 1 + λ 2 + + λ n Enklaste beviset är att uttnttja att alla matriser A kan skrivas på Jordans normalform, dvs att det finns en basbtesmatris så att J = P AP 1, där J har λ 1, λ 2,, λ n på diagonalen och är nästan en diagonalmatris Uttnttjar vi att spåret är ivariant är vi klara Kanske ligger detta argument lite utanför grundkursen i linjär algebra, så låt oss studera det karakteristiska polnomet lite närmare som alternativ Genom att utveckla efter exempelvis rad 1 kan determinanten skrivas a 22 λ a 23 a 2n a 32 a 33 λ a 3n p(λ) = (a 11 λ) + p 1 (t), a n2 a n3 a nn λ där grad p 1 (λ) n 2 eftersom vi tagit bort en λ-term Om vi utför samma operation på denna determinant ser vi att a 33 λ a 34 a 3n a 43 a 44 λ a 4n p(λ) = (a 11 λ)(a 22 λ) + p 2 (t), a n3 a n4 a nn λ där grad p 2 (λ) n 2 med något (ntt) polnom p 2 (λ) Upprepa proceduren n gånger och vi erhållet att p(λ) = (a 11 λ)(a 22 λ) (a nn λ) + p n (λ) = ( 1) n λ n + ( 1) n 1 λ n 1 (a 11 + a 22 + + a nn ) + p n+1 (λ) = ( 1) n( λ n λ n 1 tr A ) + p n+1 (λ), (2) där p n+1 (λ) är något polnom med grad högst n 2 Om vi jämför (1) med (2) ser vi att tr A = λ 1 + λ 2 + + λ n 15