Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är en linjär funktion av x 1i,, x Ki plus ett slumpfel ε i : y i = β + β x + β x + K + β x + 14 0 4444 1 1i 4 i 4444 K 3Ki { i linjär funktion slumpfel 3) Slumpfelen ε 1, ε,, ε n är oberoende normalfördelade stokastiska variabler med väntevärde 0 och med samma standardavvikelse σ ε : ε 1, ε,, ε n är oberoende och N(0; σ ). ε ε 1
Modellen säger att om t.ex. variabeln x 1 ökar med en enhet (och övriga förklarande variabler är oförändrade) så förväntas y öka med β 1 enheter. Men i verkligheten blir det inte exakt så, på grund av slumpfelet. (Slumpfelet kan kanske ses som en sammanfattning av alla övriga saker, som påverkar y, men som inte finns med i modellen.) Punktskattning av modellparametrar Koefficienterna b 0, b 1, b,, b K (beräknade från observerade data) är väntevärdesriktiga skattningar av motsvarande modellparametrar β 0, β 1, β,, β K, ifall modellen stämmer. Vidare är den observerade residualvariansen [= MSE = SSE/(n-K-1)] en väntevärdesriktig skattning av modellens slumpfelsvarians σ. ε s e
Konfidensintervall för en enstaka modellparameter Konfidensintervall för var och en av β 0, β 1,, β K beräknas såsom b b ± t s 0 b 0 ± t s etc. 1 b 1 där s s etc. är skattade standardavvikelser b, 0 b 1 för b 0, b 1 etc. Dessa beräknas inte för hand, utan erhålls i Minitabutskriften (= SE Coef ). Konstanten t hämtar vi från tabell över t-fördelningen med n-k-1 fg, så att vi får önskad konfidensnivå. (Om fg > 30, använd z i stället för t.) 3
Hypotesprövning rörande en enstaka modellparameter Vi kan t.ex. fråga oss om variabeln x 1 bidrar till att (linjärt) förklara variationen hos y, givet att alla övriga förklarande variabler x, x 3,, x K redan finns med i modellen. Nollhypotesen är då att x 1 inte förklarar något av y-variationen, dvs. vi testar H 0 : β 1 = 0 H 1 : β 1 0 Som testvariabel används b 1 t = (= T i Minitab-utskriften) s b 1 vilken är t-fördelad med n-k-1 fg, när H 0 är sann. 4
På analogt sätt kan man för varje annan enskild x-variabel testa om just den variabeln bidrar till att förklara variationen hos y (givet att alla övriga förklarande variabler redan finns med i modellen). Vi kan alltså testa nollhypoteserna H 0 :β =0, H 0 :β 3 =0 etc. Vi kan också testa H 0 : β j = β * j H 1 : β j * * β j [eller H 1 : β j > (eller <) β j] * (där β j står för ett givet numeriskt värde) med testvariabeln t = b j s β b j * j som är t-fördelad med n-k-1 fg, när H 0 är sann. * (OBS I detta senare fall, när β j 0, beräknas testvariabelns värde inte av Minitab.) 5
Exempel på konfidensintervall och hypotesprövning Samma försäljningsdata som tidigare. Minitab ger: Regression Analysis: y versus x1; x The regression equation is y = 0,430 + 0,546 x1 + 0,50 x Predictor Coef SE Coef T P Constant 0,4301 0,3897 1,10 0,30 x1 0,5464 0,165 3,36 0,00 x 0,501 0,185,75 0,040 S = 0,49813 R-Sq = 97,% R-Sq(adj) = 96,1% a) Beräkna ett 99% konfidensintervall för β i modellen y = β 0 + β 1 x 1 + β x + ε. b) Pröva på 5% signifikansnivå om parametern β är lika med 0 eller ej i modellen ovan. 6
Hypotesprövning rörande β 1, β,, β K tillsammans En fråga av intresse är om x 1, x,, x K tillsammans kan (linjärt) förklara något av variationen hos y (eller om man lika gärna kunde strunta i allihop). Det är kanske den frågan man ställer sig allra först vid regressionsanalys. Nollhypotesen är då att x 1, x,, x K tillsammans inte förklarar någonting alls: H 0 : β 1 = β = = β K = 0 H 1 : Ej alla lika med noll (dvs. minst en är 0) Som testvariabel används MSR F = (= F i ANOVA-tablån) MSE vilken är F-fördelad med K fg i täljaren och n-k-1 fg i nämnaren, när H 0 är sann. H 0 förkastas om (och endast om) vi får ett högt observerat värde på F. 7
Ex.: Samma försäljningsdata som tidigare. The regression equation is y = 0,430 + 0,546 x1 + 0,50 x Predictor Coef SE Coef T P Constant 0,4301 0,3897 1,10 0,30 x1 0,5464 0,165 3,36 0,00 x 0,501 0,185,75 0,040 S=0,49813 R-Sq=97,% R-Sq(adj)=96,1% Analysis of Variance Source DF SS MS F P Regression 43,719 1,860 88,10 0,000 Resid. Error 5 1,41 0,48 Total 7 44,960 Pröva om x 1 och x tillsammans kan förklara variationen hos y. 8
Hypoteser: H 0 : β 1 = β = 0 H 1 : Ej båda lika med noll. Sign.-nivå: 1% Testvariabel: F = MSE/MSR ( fg i täljaren; 5 fg i nämnaren) Beslutsregel: H 0 förkastas om F obs > 13,7 Resultat: F obs = 88,10 > 13,7 Slutsats: H 0 förkastas på 1 % sign.-nivå. Starkt stöd för att x 1 och x tillsammans förklarar en del av variationen hos y. Alternativt: Se på p-värdet. Eftersom p-värdet här är < 0,01, så förkastar vi H 0 på 1% sign.- nivå. 9
Dummyvariabler Bland de förklarande variablerna i regressionsanalys kan vi också ha kategoriska (kvalitativa) variabler. Dessa kodas med nollor och ettor, varvid vi får s.k. dummyvariabler (0/1-variabler), som sedan används som vanliga x-variabler i beräkningarna. Ex.: Variabeln kön, som antar värdena man och kvinna, kan kodas om till en dummyvariabel som antar värdet 0 för man och 1 för kvinna. Hur gör man med en kategorisk variabel som antar fler än två värden? T.ex. de fyra värdena hyresrätt, bostadsrätt, egen villa och annan bostadsform? Det tar vi inte upp på den här kursen. (Men vanligt är att man låter en kategorisk variabel med c kategorier ge upphov till c-1 dummyvariabler.) 10
Ex.: Data över oljeförbrukning under en månad i tio villor. (Olika månad för olika villor.) y = oljeförbrukn. under månaden (liter) x 1 = medeltemp. under månaden ( C) x = bostadsyta (m ) x 3 = tilläggsisoler. eller ej (dummyvar.) Villa y x1 x Isolering x3 1 70 17,8 170 Nej 0 100 16,6 10 Ja 1 3 185 1, 150 Nej 0 4 300 7,1 190 Ja 1 5 310,8 110 Ja 1 6 650 0,1 50 Ja 1 7 55 -,9 140 Ja 1 8 640-3,1 155 Nej 0 9 550-0,7 180 Nej 0 10 75 4,4 130 Ja 1 Regression Analysis: y versus x1; x; x3 The regression equation is y = 46-7,9 x1 + 1,8 x - 67,7 x3 Predictor Coef SE Coef T P Constant 46,1 37,94 6,49 0,001 x1-7,875 1,167-3,89 0,000 x 1,8181 0,198 8,7 0,000 x3-67,68 17,43-3,88 0,008 S=6,591 R-Sq=99,0% R-Sq(adj)=98,5% 11
Tolkning av värdena på b 1, b och b 3 : b 1 = -7,9: När medeltemperaturen ökar en grad, så minskar oljeförbrukningen med ungefär 8 liter per månad, vid oförändrad bostadsyta och oförändrad isoleringstyp. b = 1,8: När bostadytan ökar med en m, så ökar oljeförbrukningen med ungefär 1,8 liter per månad, vid oförändrad medeltemperatur och oförändrad isoleringstyp. b 3 = -67,7: Tilläggsisolering ger en minskad oljeförbrukning med ungefär 68 liter per månad, vid oförändrad medeltemperatur och oförändrad bostadsyta. När x 3 = 0, så blir det predicerade y-värdet: y ˆ = b + b x + b 0 1 1 När x 3 = 1, så blir det predicerade y-värdet: x yˆ = ( b 1443 0 + b3 ) OBS + b x 1 1 + b x 1
Korrelationsanalys Se avsnitt 1.1 i NCT. Data: (x 1, y 1 ), (x, y ),, (x n, y n ) Antag: Stickprov från en bivariat normalfördelning med okänd korrelation, ρ, mellan x och y. Då kan vi testa ifall populationskorrelationen är skild från noll. Testvariabel: H 0 : ρ = 0 H 1 : ρ 0 (eller H 1 : ρ > 0, eller H 1 : ρ < 0) t = r n 1 r som är t-fördelad med n- frihetsgrader, ifall H 0 är sann. 13
Ex.: I ett stickprov på 30 personer har man mätt två olika variabler och fått korrelationskoefficienten r = 0,34. Testa på 5% signifikansnivå ifall korrelationen mellan variablerna i populationen, ρ, kan tänkas vara större än noll. Förutsättning: Populationen har en bivariat normalfördelning. Hypoteser: H 0 : ρ = 0 H 1 : ρ > 0 Sign.-nivå: 5% Testvariabel: t = r n 1 r Frihetsgrader: n = 30 = 8 Beslutsregel: H 0 förkastas om t obs > 1,701 Resultat: t obs = 0,34 1 8 0,34 = 1,913 > 1,701 Slutsats: H 0 förkastas på 5% signifikansnivå. Signifikant pos. korrelation. 14
Kommentarer till kursboken: 1. Avsnittet 493-494 ( Test on a Subset of Regression Coefficients ) hoppar vi över på den här kursen.. Avsnitt 13.6 ( Prediction ) gås inte igenom på föreläsningarna. Läs igenom själva. Lär er framför allt hur man gör med Minitab, och hur utskriften skall tolkas. Se exempel på Minitab-utskrift på sid 499. 3. Avsnitt 13.7 ( Transformations for Nonlinear Regression Models ) gås inte igenom på föreläsningarna. Läs igenom kursivt. 15