STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson Skriftlig hemtentamen i Fortsättningskurs i statistik, moment, Statistisk Teori, poäng. Deltentamen 2: Regressionsanalys Torsdagen den 7 mars 0. LÄS DESSA ANVISNINGAR INNAN NI BÖRJAR! Tentamenbeståravfemfrågormeddeluppgifter. Totaltkanmanfå0poäng. Föratt erhålla full utdelning krävs motiverade och fullständigt redovisade lösningar. De som har genomfört och fått godkänt på den frivilliga inlämningsuppgiften får extrapoäng, motsvarande % av maxpoängen. Detta medför att maxpoängen kan bli poäng. För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng. Alla hjälpmedel är tillåtna utom att ta hjälp av andra personer, du skall lösa uppgifterna på egen hand. Bifogat finner du en försäkran där du skall intyga att du har löst uppgifterna på egen hand och utan hjälp av andra. Denna skall undertecknas och lämnas in tillsammans med dina lösningar. Redovisa lösningarna till varje uppgift på separata A4-ark. Deluppgifter redovisas dock påsammaark. Behövsfleränettarkförenuppgifthäftasdessaihop. Häftainteihop redovisningarna till flera olika uppgifter! Skriv ditt namn överst på varje ark. SKRIV TYDLIGT OCH LÄSBART! Fyll i dina personuppgifter på det bifogade försättshäftet. Skriv under försäkran och lägg det tillsammans med dina lösningar i försättshäftet. Markera även vilka uppgifter sombehandlats. Detgårbraattläggahelabunteniettkuvert. Tentamen och försäkran skall lämnas in måndagen den 2 mars senast kl 6., hos migihus B,plan7, rum774. Lägginte lösningarnaibrevlådanmitt emothissarna! Återlämning och tentamensgenomgång äger rum onsdagen den mars kl 9.00 i rum B70. Jag är tillgänglig för frågor under fredagen den 8 mars kl 9.-. och kl 2.-6., ihusb,plan7,rum774. Detgårocksåbraattringapåtel. 08-6297,ellerskicka e-post till Michael.Carlson@stat.su.se. LYCKA TILL!
. MantrorattenbramodellförattförklaraY medhjälpavxäriformavenenkellinjär regressionsmodell enligt Y =β 0 +β X+ε Från ett stickprov av storlek n = observeras följande: i 2 3 4 6 7 8 9 x 8.3.8 6.6 6.6 7.4 6. 6.9.2 6.0. 6.0 y 4.0 8.9 8.4 8.0 6. 7.3.4 7. 6.3 2.3 8.7 I de följande deluppgifterna får du använda ett datorprogram men du måste redovisa dina beräkningar för att erhålla full poäng. (a) (4p) Konstruera en resultatutskrift liknade Minitabs med en ANOVA-tablå. Redovisadinaresultatförsigochdinaberäkningarförsig, gärnasomenbilagatill uppgiften. Kom ihåg att kontrollera att dina svar är konsistenta, dvs att du inte har fått motsägelsefulla resultat. Tablån skall innehålla samma uppgifter som i en vanlig Minitab-utskrift, förutom p-värden, dvs Predictor Coef StDev T Constant _ X _ S = R-Sq = R-Sq(adj) = Analysis of Variance Source DF SS MS F Regression Error Total (b) (2p)Konstruera9%-konfidensintervallförβ 0 ochförβ. (c) (2p) Konstruera ett 9%-konfidensintervall för korrelationskoefficienten ρ. (d) (2p) Sammanställ två diagram som kan användas för att analysera residualerna. Kan modellantagandena antas vara uppfyllda? (e) (2p)Beräknaleveragemåttet(h i )förvarochenavdeobservationerna. Beräkna sedancook savståndsmått(d i ). Analyserasedanresultaten. (f) (2p)Angeenpunktskattningförµ Y X samtberäknaett9%konfidensintervallför densamma givet att X = 9. Beräkna sedan ett 9% prediktionsintervall för Y givet att X =. Tolka resultaten kritiskt. (g) (2p) Visa med hjälp av formler ur kurslitteraturen att F-testet och t-testet är ekvivalenta test. 2
2. Variationen i bensinförbrukning(mätt som liter/mil och betecknat L/M) mellan olika bilmärken och årsmodeller kan till stor del förklaras med bilarnas olika vikt (mätt i 0kg och betecknat V ikt). Några av dina kollegor anser att regressionsmodellen skulle bli bättre om du inkluderar en kvadratisk term(betecknat V iktˆ2) medans andra tycker att du ska logaritmera repsonsvariablen(betecknat lnl/m). Du vet sedan tidigare att det kan löna sig att centrera prediktorvariablen innan man inför en kvadratisk term så duhargjortdetta(betecknatcviktrespcviktˆ2). Nuharduskattatfyraolikamodeller enligt nedan: Modell: L/M=β 0 +β Vikt+ε Modell2: L/M=β 0 +β Vikt+β 2 Viktˆ2+ε Modell3: L/M=β 0 +β cvikt+β 2 cviktˆ2+ε Modell4: lnl/m =β 0 +β Vikt+ε I bilagan finner du diverse datautskrifter och diagram avseende dessa fyra modeller. Observera att det saknas en del uppgifter i dessa utskrifter. Försök att svara kortfattat, absolut max en handskriven A4 sida per uppgift. (a) (2p) Analysera resultaten från skattningen av Modell med avseende på hur bra anpassningen är. Dvs, är relevanta statistikor signifikanta? Kan man anse att modellantagandena är uppfyllda? Skulle du rekommendera någon modifiering av modellen? (b) (2p) Analysera resultaten från skattningen av Modell 2. Är resultaten bättre jämförtmedmodell? HurjämförsigresultatenochdiagnostikenmedModell? I vilkaavseendenhardenblivitbättreochivilkahardenblivitsämre? (c) (2p) Vilken av Modell 2 och 3 skulle du rekommendera? Vilka är skillnaderna mellan dem? Vad är oförändrat? Kan du förklara detta? (d) (2p) Vilken av Modellerna -4 skulle du rekommendera? Motivera ditt svar. 3. Man har kommit på att ytterligare prediktorvariabler finns tillgängliga som skulle kunna användas för att förbättra modellen i uppgift 2 ovan. Dessa prediktorer är lnhk = motorstyrkan (logaritm av antalet hästkrafter), MaxH = maxhastighet (km/tim) samt Vol = kabinvolym(0 liter). I bilaganfinner du endatorutskrift som erhölls vid en regressionsanalys med Minitab samt en tabell med parvisa korrelationer mellan prediktorerna och repsonsvariabeln. Kommentar: När du redovisar dina svar ska i förekommande fall noll- och mothypotes samt testvariabel och dess fördelning anges. Använd genomgående signifikansnivån α=0.0. IbilaganfinnsävenenutökadtabellmedkritiskavärdenförF-fördelningen. (a) (2p)Testaommodellensomhelhetärsignifikant. Kanmansägaattdetföreligger regression mellan respons och prediktorer? (b) (2p)TestaomlnHKtillförnågottillenmodellenmedendastViktsomprediktor. (c) (2p) Testa om MaxH och Vol tillsammans tillför något till modellen, givet att ViktochlnHK redanärmed. (d) (2p)TestaomViktochVoltillsammanstillförnågottillmodellen,givetattMaxH ochlnhk redanärmed. 3
(e) (2p) Testa om Vikt tillför något till modellen, givet att lnhk, MaxH och Vol redan är med. (f) (2p)AntagattViktochlnHK ärensammaprediktorerimodellen. Beräknavariansinflationsfaktorerna(VIF) för dessa två prediktorer. 4. Utgå ifrån en enkel logistisk regressionsmodell enligt samt en observerad 2 2-tabell LogOdds(Y = X=x) = β 0 +β x Y =0 Y = X=0 a b X= c d dära,b,cochdärantaletobserveradeirespektivecell. (a) (3p) Visa att regressionskoefficienterna kan skattas med ˆβ 0 =lnb lna resp ˆβ =lna lnb lnc+lnd Utgå ifrån en multipel logistisk regressionsmodell enligt Logit(Y =) = 2x +3x 2 4x 3 (b) (p) Beräkna sannolikheterna för Y = 0 respektive för Y =, då X = /2, X 2 =2/3ochX 3 =3/4. (c) (2p)BeräknadenrelativaökningenioddsförY =dåx ökarmedenhetoch X 2 minskarmedenhet.. Din uppdragsgivare kan inte mycket om statistik och vill att du ska förklara några olika begrepp. Menhanärenotåligpersonsomharontomtidochvillhasnabbaochkonkreta förklaringar. För var och en av deluppgifterna nedan ska du alltså ge ett kortfattat svar, ingauppsatser. Begränsaertillmax0ordperuppgift(omduskrivermerslutarhan läsa och frågar någon annan). Använd gärna ordbehandlare eller skrivmaskin. Om du behöver skriva formler eller göra enkla illustrationer kan du alltid göra detta för hand. (a) (2p) Samspel och confounding. Förklara begreppen och ange hur man kan undersökaommanbehövertahänsyntilldetta. (b) (2p) Jackknife residualer. Förklara hur de definieras och vad de kan användas till. (c) (2p) En-vägs ANOVA med fixa faktorer(one-way ANOVA with fixed factors). (d) (2p)AntagattviärintresseradeavattskattaväntevärdetförY,dvsµ Y.Förklara hur man kan skatta just denna parameter med bättre precision med hjälp av en bra prediktorvariabel X och en regressionsmodell än vad man annars skulle kunna göra med endast observationer från Y. 4
Bilaga till uppgift 2. Modell : Regression Analysis: L/M versus Vikt The regression equation is L/M = - 3 + 64 Vikt Predictor Coef SE Coef T P Constant -348 3829 Vikt 64073 0264 S = 877647 R-Sq = 88,% R-Sq(adj) = 88,0% Analysis of Variance Source DF SS MS F P Regression 4,6 4,6 Error 0,608 077 Total 80,29 Unusual Observations Obs Vikt M/L Fit SE Fit St Resid,3 0,79734 0,976 2 08 2,36R 6,4,3673,72 96 94 2,27R 7,4,38362,72 96 60 2,46R 8,4,40847,72 96 34 2,7R 9 24,9,7893,4636 0,3828 3,87RX 77,9 0,69797 0,88239 94-8442 -2,2R Model : Fitted Line Plot L/M = - 348 + 6407 Vikt Model : s Versus Vikt (response is L/M),7 0,3,0 M/L,,00 0,7 0,0 - - Vikt Vikt Model : Histogram of the s (response is L/M) Model : Probability Plot of s Normal 3 99,9 99 9 90 Mean -2,097E-6 StDev 872 N 8 AD 2,37 P-Value <0 Frequency Percent 80 70 60 0 40 0 - - 0,3-0,3 - - RESI 0,3 0,4
Modell 2: Regression Analysis: L/M versus Vikt; Vikt^2 The regression equation is L/M = 0, - 33 Vikt + 0324 Vikt^2 Predictor Coef SE Coef T P VIF Constant 0,0 90 Vikt -3346 646,8 Vikt^2 032448 00428,8 S = 7340 R-Sq = 9,9% R-Sq(adj) = 9,7% Analysis of Variance Source DF SS MS F P Regression 4,78 2,39 Error 0,473 04 Total 80,29 Source DF Seq SS Vikt 4,6 Vikt^2 92 Unusual Observations Obs Vikt M/L Fit SE Fit St Resid 7,9 0,3966 0,48940 2487-297 -,89 X 6 0,39732 0,4704 6-4972 -2,08R,3 0,79734 0,8838 04 0896 2,88R 2,4,0274,2948 806-9234 -2,7R 3,4,0274,2948 806-9234 -2,7R 6,4,3673,2948 806 480 2,09R 7,4,38362,2948 806 644 2,32R 8,4,40847,2948 806 8899 2,67R 9 24,9,7893,733 9 4662 0,9 X Model 2: Fitted Line Plot L/M = 0,0-3346 Vikt + 0324 Vikt**2 Model 2: s Versus Vikt (response is L/M),7 M/L,0,,00 0,7 0,0 - - Vikt Vikt Model 2: Histogram of the s (response is L/M) Model 2: Probability Plot of s Normal 3 99,9 99 9 90 Mean -4,368E-6 StDev 7222 N 8 AD 2,70 P-Value <0 Frequency Percent 80 70 60 0 40 0 - - - - RESI2
Modell 3: Regression Analysis: L/M versus cvikt; cvikt^2 The regression equation is L/M = 0,78 + 74 cvikt + 0324 cvikt^2 Predictor Coef SE Coef T P VIF Constant 0,7808 98 cvikt 7393 0247,3 cvikt^2 032448 00428,3 S = 7340 R-Sq = 9,9% R-Sq(adj) = 9,7% Analysis of Variance Source DF SS MS F P Regression 4,78 2,39 Error 0,473 04 Total 80,29 Source DF Seq SS cvikt 4,6 cvikt^2 92 Unusual Observations Obs cvikt M/L Fit SE Fit St Resid -6, 0,3966 0,48940 2487-297 -,89 X 6-3,8 0,39732 0,4704 6-4972 -2,08R -2,7 0,79734 0,8838 04 0896 2,88R 2 6,4,0274,2948 806-9234 -2,7R 3 6,4,0274,2948 806-9234 -2,7R 6 6,4,3673,2948 806 480 2,09R 7 6,4,38362,2948 806 644 2,32R 8 6,4,40847,2948 806 8899 2,67R 9,9,7893,733 9 4662 0,9 X Model 3: Fitted Line Plot L/M = 0,78 + 739 cvikt + 0324 cvikt**2 Model 3: s Versus cvikt (response is L/M),7 M/L,0,,00 0,7 0,0 - - -,0-2, 2, cvikt,0 7, 2, -,0-2, 2, cvikt,0 7, 2, Model 3: Histogram of the s (response is L/M) Model 3: Probability Plot of s Normal 3 99,9 99 9 90 Mean -4,879E-6 StDev 7222 N 8 AD 2,70 P-Value <0 Frequency Percent 80 70 60 0 40 0 - - - - RESI3
Modell 4: Regression Analysis: lnl/m versus Vikt The regression equation is LnL/M = -,4 + 782 Vikt Predictor Coef SE Coef T P Constant -,448 424 Vikt 7826 02929 S = 978 R-Sq = 9% R-Sq(adj) = 89,9% Analysis of Variance Source DF SS MS F P Regression 6,7366 6,7366 Error 79 0,7464 094 Total 80 7,483 Unusual Observations Obs Vikt lnm/l Fit SE Fit St Resid 7,9 -,0226-0,7937 8-289 -2,4R 6-0,92-0,663-0,67-3,R 7-0,880-0,663-07 -2,R,3-26 -0,276 33 0, 3,3R 2 2, -0,690-0,4389 7-2 -2,60R 9 24,9 0,777 0,367 338 4 0,4 X Model 4: Fitted Line Plot lnl/m = -,4 + 7822 Vikt Model 4: s Versus Vikt (response is lnl/m) 0,0 0,3 lnm/l 0 - -0,0 - -0,7 -,00 - -0,3 Vikt Vikt Model 4: Histogram of the s (response is lnl/m) Model 4: Probability Plot of s Normal Frequency Percent 99,9 99 9 90 80 70 60 0 40 Mean,049229E- StDev 969 N 8 AD 3,064 P-Value <0 0-4 -2 0 2 4-0,3 - - RESI4 0,3
Bilaga till uppgift 3. Regression Analysis: lnl/m versus Vikt; lnhk; MaxH; Vol The regression equation is lnl/m = - 2,9 + 427 Vikt + 0,442 lnhk - 0222 MaxH + 00 Vol Predictor Coef SE Coef T P Constant -2,934 944-8,8 00 Vikt 427 08846 4,83 00 lnhk 0,447 06 2,93 04 MaxH -0222 08 -,23 24 Vol 0008 089 7 0,786 S = 8449 R-Sq = 92,7% R-Sq(adj) = 92,4% Analysis of Variance Source DF SS MS F P Regression Error 0,433 07 Total 80 7,483 Source DF Seq SS Vikt 6,7366 lnhk 879 MaxH 47 Vol 00 Correlations: lnl/m; Vikt; lnhk; MaxH; Vol lnl/m Vikt lnhk MaxH Vikt 0,949 00 lnhk 0,97 0,89 00 00 MaxH 0,74 0,682 0,9 00 00 00 Vol 0,337 0,386 98-38 02 00 76 0,739 Cell Contents: Pearson correlation P-Value Tabell. Kritiska gränser för F-fördelningen, α = 0.0 Frihetsgrader täljaren nämnaren 2 3 4 7 3,96847 3,864 2,7269 2,49370 2,3368 76 3,96676 3,698 2,72494 2,49 2,33492 77 3,9609 3,37 2,72334 2,4904 2,3333 78 3,96347 3,379 2,7278 2,48889 2,3374 79 3,9689 3,226 2,726 2,48737 2,32 80 3,9603 3,77 2,7878 2,4888 2,32872
STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson, 0-03-28 Lösningförslag skriftlig hemtentamen i Fortsättningskurs i statistik, moment, Statistisk Teori, poäng. Deltentamen 2: Regressionsanalys, poäng Onsdagen den 7 mars 0. därkorrelationskoefficientenrerhållsenklastsomrotenurr 2 medsammatecken somˆβ enligt Man får dvs r= 0.789 0.8883 2 ln+0.8883 0.8883 ±.96 =.438±0.69296 = (0.784, 2.677) 8 (L z, U z )=(0.784, 2.677). Enekl linjär regression (a) Den skattade regressionsmodellen blir ŷ= 8.34+2.3x och en resultatutskrift liknade Minitabs med en ANOVA-tablå: Predictor Coef StDev T Constant -8,336 3,033-2,7 X 2,332 0,4364,80 S =,9477 R-Sq = 78,9% R-Sq(adj) = 76,6% Analysis of Variance Source _DF _SS _MS _F Regression 27,8 27,8 33,70 Error 9 34,4 3,79 Total 6,9 Formler etc. se kurslitteraturen. (b) Ett9%-konfidensintervallförβ 0 gesav ˆβ 0 ±t (n 2) 0.0 Sˆβ0 = 8.336±2.262 3.033 = 8.336±6.86 = (.97,.47) ochförβ gesav ˆβ ±t (n 2) 0.0 Sˆβ = 2.332±2.262 0.4364 = 2.332±0.987 = (.46, 3.) (c) Ett 9%-konfidensintervall för korrelationskoefficienten ρ erhålls med Fisher-transformation enligt 2 ln+r r ± z 0.0 n 3 Transformering tillbaka till r ges av Insättning ger L ρ = e2lz e 2Lz + resp U ρ = e2uz e 2Uz + L ρ = e2 0.784 e 2 0.784 + =0.67429 resp U ρ= e2 2.677 e 2 2.677 + =0.970844 ochkikanskrivassom (0.67, 0.97) (d) Se kurslitteratur och föreläsningsanteckningar. Endast två diagram efterfrågades och de två första i varje redovisning bedömdes. (e) Leveragemåttet(h i )beräknas(kkmnsid2) h i = n + (x i x) 2 = (n )Sx 2 +(x i 6.888) 2.9964 Cook savståndsmått(d i )beräknas(kkmnsid232) Beräkningar ger d i = e 2 ih i (k+)se 2( h i) 2 = e 2 ih i 2 3.79 ( h i ) 2 i 2 3 4 6 h i 0.9 0.4296 0.0932993 0.0932993 0.7906 0.6807 d i 0.07293 0.69 0.0000040 0.002 0.273286 0.00066 i 7 8 9 h i 0.09242 0.664 0.242 0.23936 0.242 d i 0.0229900 0.000008 0.006806 0.28404 0.07223 Tumregelsomkananvändasärmanskaseuppom h i > 2(k+) n = 2 2 0.363636 2
och/eller om d i > ävenomdensenareärenosäkerregel. Idettamaterialharviatt och bör möjligen undersökas närmare. h 8 =0.664>0.363636 Däremotverkar det inte vara någotproblem närman studerar Cook s avstånd, inget d i ärstörreänett. Inteensomvijämför (n k ) max i (d i )=9 d 2.6 mottabellvärdet.3motsvarandeα=0.och.24motsvarandeα=0.0(se sid232ochtabella,närmevärdetyvärdenförn=saknas,närmast)ser detutattvaranågraproblem. (f) Enpunktskattningförµ Y X samtberäknaett9%konfidensintervallfördensamma givetattx=9gesav ˆβ 0 +ˆβ 9±t (n 2) 0.0 S e n + (9 x)2 (n )Sx 2 Insättning ger 8.336+2.332 9±2.262.9477 +(9 6.88)2.992 = 4.46±2.3 = (.93, 6.99) Innebär inte något störreproblem då x = 9 ligger inom det observerade området. Ett9%prediktionsintervallförY givetattx=gesav ˆβ 0 +ˆβ ±t (n 2) 0.0 S e 8.336+2.332 ±2.262.9477 = 4.33±4.94 = (.609, 9.27) + n + ( x)2 (n )S 2 x + +( 6.88)2.992 HärskamanvaraförsiktigdådetminstavärdetviharobserveratiXär..Även omdetärettgränsfallsåärdetfrågaomenextrapolering. (g) Viharatt Tobs= ˆβ 2 2 = (n )S2 x S 2ˆβ MSE ˆβ 2 S e MSE ty = = Sˆβ n Sx n Sx 3 (setex. sid4ikleinbaumetal.). Vidareär Detta ger (n )S 2 xˆβ 2 =(n )S 2 y r 2 =SST r 2 ty ˆβ =r S y S x ˆβ 2 = SST S 2ˆβ MSE r2 = SST MSE R2 = SST ( ) SSR MSE SST = SSR MSE = MSR MSE =F obs vsv(ssr = MSR i enkel linjär regression med en frihetsgrad). Alternativt använd att t-testet också kan formuleras i termeravkorrelationskoefficienten enligt vilket ger T obs = r n 2 r 2 Tobs 2 = R2 SSR (n 2) ( R 2 ) = (n 2) SST = = SSR SST SSR/ SSE/(n 2) = MSR MSE =F obs 2. Modeller för att förklara skillnader i bensinförbrukning. SSR (n 2) SST = SSR(n 2) SSE SSE SST (a) Modell.Medledningavdenumeriskaresultatenserdetutsomommodellenär enbramodell. ViharenförklaringsgradsomärR 2 =88.%vilketkanansesvara väldigtbra. EttformellttestgörsenklastmedettF-test(altt-test). Vifår F obs = MSR MSE = 4.6 0.0077 =87. och det inses direkt att detta är ett signifikant resultat. Däremot har vi uppenbara problem när vi tittar på residualerna. Det allvarligaste problemet är det uppenbara mönstret i s versus Vikt. Mönstret indikerar attdetfinnsettberoendeochattdetkanskesaknasenkvadratisktermimodellen. Antagandet om normalfördelade slumptermer ser inte heller ut att hålla vilket framgår av histogrammet och prob-plotten. Se även p-värdet för normalfördelningstestet(<0.00). Detta beror förmodligen på ett antal outliers med stora residualer. Ilistanserviattdetfinnsnågramenkomihågattvihar8observationerochatt någrabörvara stora. Däremotserattdetserutattvaraspeciellaproblemmed observation nr 9 som ger en extremt stor residual och har ett stort inflytande. Dettakanberopåattdetsaknasenkvadratisktermimodellenmenävenattdet är den observation som har störst x-värde.. 4
(b) Modell2.ResultatenblevbättrejämförtmedModellefterattmanharinförten kvadratisk term. R 2 ökar till 9.9%, en ökning med 3.8 procentenheter. Även Radj 2 ökar. Formellt kan man testa om bidraget från den kvadratiska termen är signifikant med F ( Vikt 2 Vikt ) = MSR(Vikt2 Vikt) MSE(Vikt,Vikt 2 ) = 0.92 0.004 =3.4 och det inses direkt att detta är ett signifikant resultat. diagnostiken ser bättre ut nu med avseende på mönster och homoskedasticitet men något sämre ut med avseende på normalfördelningen; vi har fått tyngre svansar nu jämfört med Modell. Fler observationer markeras som avvikande men problemet med observation nr 9 har delvis försvunnit. Nu har den bara ett sort inflytande men detta är inte oväntat då det är det största observerade x-värdet. Ett annat problem nu är multikollinjäritet med höga V IF-värden,.8(tumregel <.0). För att få en bild av hur detta påverkar skattningarna beräknar vi t-kvoter: T 0 = 0.0 0.90 =4.63 T = 0.03346 0.0646 = 2,03 T 2= 0.0032448 0.000428 =.98 Riktigt vaddetta säger ärosäkertmenvi observerar att t-kvotenför Vikt är på gränsen till icke-signifikant(p-värde = 4.6%). (c) JämförModell2och3.Viserattdetmestaäroförändrat: sammar 2,sammaFkvot, samma MSE, osv. erna är likaledes oförändrade och de slutsatser somdrogsi(b)gällerävenhär. Multikollinjäriteten försvunnit; vi har låga V IF-värden på.3. Om vi beräknar t-kvoterna får vi nu T 0 = 0.7808 0.098 =6.42 T = 0.07393 0.00247 =23.22 T 2= 0.0032448 0.000428 =.98 ochmanserattdetvåförstaärbetydligtmerstabilare. Attkoefficientenförden kvadratiska termen inte förändras inses om vi skriver Modell 2 som ochmodell3som ochattˆβ 2 =ˆγ 2. Ŷ =ˆβ 0 +ˆβ x+ˆβ 2 x 2 Ŷ = ˆγ 0 +ˆγ (x x)+ˆγ 2 (x x) 2 = ˆγ 0 +ˆγ x ˆγ x+ˆγ 2 x 2 2ˆγ 2 xx+ˆγ 2 x 2 = (ˆγ 0 ˆγ x+ˆγ 2 x 2) 2 +(ˆγ }{{} 2γ 2 x) x+ˆγ }{{} 2 x =ˆβ 0 =ˆβ Slutsats: Modell 3 är att föredra då vi får stabilare skattningar(lägre standardfel). (d) ValavModell-4.OmvikommerframtillattModell3ärattföredraivaletmellan -3,såmåstevijämföradennamedModell4. Modell4ärenenklaremodellmedendastenprediktor. Vinårnästanuppisamma förklaringsgrad,r 2 =90.0%.F-testetgerocksåettsignifikantresultat F obs = MSR MSE = 6.7366 0.0094 =73.0 MSE är större men dessa går inte riktigt att jämföra mellan modeller eftersom lnl/m ärpåenannanskalaänl/m. Däremotharmanfåttproblemmedresidualerna. Man anar en avtagande varians med ökande värden på x(ej homoskedasticitet). Detta kan bero på att det var få bilar medstor vikt i materialet. Normalfördelningsantagandet ser inte ut att vara uppfyllt här heller. Storleken på de största residualerna är något större här jämfört med tidigare modeller. Observation 9 sticker fortfarande ut som en med stort inflytande. Valavmodellärinteheltenkelt. Viharenbättremodelli3:anmensomkanske inte är enkel att förstå. Finns det stöd i teorin att sambandet ska vara kvadratiskt? Modell 4 beskriver ju ett exponentiellt samband enligt lny =β 0 +β Vikt Y =e β 0 +β Vikt =e β 0 e β Vikt =c 0 c Vikt som möjligen kan ha ett teoretiskt stöd men detta vet vi inget om. Om vi bara ska använda modellen för prediktioner inom det observerade området kan Modell 3 vara att föredra. 3. Multipel regression. (a) Overall-test: Testvariabel H 0 : β =β 2 =β 3 =β 4 =0 H : minstenavβ j 0 F = MSR MSE F(4,76) underh 0.Signifikansnivåα=0.0gerettkritisktvärde2.492ochviförkastarH 0 omf obs ärstörreändettavärde. Viobserverar F obs = 6.9398/4 0.433/76 =242.70>2.492 ViförkastaralltsåH 0 ochsägerattdetföreliggerregression. (b) Enkelt partiellt F-test: Testvariabel H 0 : β 2 =0 Vikt H : β 2 0 Vikt F(lnHK Vikt)= SSR(lnHK Vikt)/ SSE(Vikt,lnHK)/78 F(,78) 6
underh 0.Signifikansnivåα=0.0gerettkritisktvärde3.963ochviförkastarH 0 omf obs ärstörreändettavärde. Viobserverar F obs = 0.879 (0.433+0.000+0.047)/78 = 0.879 0.8/78 =26.242>3.963 ViförkastaralltsåH 0 ochsägerattlnhk gerensignifikantökninggivetvikt. (c) Multipelt partiellt F-test: Testvariabel H 0 : β 3 =β 4 =0 Vikt,lnHK H : minstenavβ 3 ochβ 4 0 Vikt,lnHK F(MaxH,Vol Vikt,lnHK)= SSR(MaxH,Vol Vikt,lnHK)/2 MSE(full) F(2,76) underh 0.Signifikansnivåα=0.0gerettkritisktvärde3.7ochviförkastarH 0 omf obs ärstörreändettavärde. Viobserverar F obs = (0.047+0.000)/2 0.007 = 0.0076 0.007 =.070<3.7 VikaninteförkastaH 0 ochkanintepåståattmaxh ochvoltillsammansgerett signifikant tillskott givet V ikt och lnhk. (d) Multipelt partiellt F-test: Testvariabel H 0 : β =β 4 =0 lnhk,maxh H : minstenavβ ochβ 4 0 lnhk,maxh F(Vikt,Vol lnhk,maxh)= SSR(Vikt,Vol lnhk,maxh)/2 MSE(full) F(2,76) Testvariabel F(Vikt lnhk,maxh,vol)= SSR(Vikt lnhk,maxh,vol)/ MSE(full) underh 0 elleralternativt(ochtillgängligtmeddengivnautskriften) ˆβ T = t(76) Sˆβ F(,76) Signifikansnivåα=0.0gerettkritisktvärdeförF-testetpå3.967ochfört-testet på.997(rotenur3.967). ViförkastarH 0 omt obs ärstörreändettavärde. Vi observerar T obs = 0.0427 0.008846 =4.83>.997 VikanförkastaH 0 ochanseratttillskottetavviktärsignifikantgivetdeövriga. (f) Variansinflationsfaktorn förden j:te prediktorn definieras VIF j = Rj 2 därr 2 j ärförklaringsgradennärdenj:teprediktornförklarasavdeövrigaprediktorerna i en linjär regressionsmodell. I detta fall är det två prediktorer, V ikt och lnhk sånärmanförklarardenenameddenandraienenkellinjärregressionsmodell måste förklaringsgraden bli korrelationen mellan dessa i kvadrat, dvs och VIF värdena beräknas till R 2 Vikt=R 2 lnhk=r 2 Vikt,lnHK=0.89 2 =0.7938 VIF Vikt =VIF lnhk = 0.7938 =4.8 under H 0. Signifikansnivå α = 0.0 ger ett kritiskt värde 3.7 och vi förkastar H 0 omf obs ärstörre ändettavärde. Vi kandessvärre inte genomföradettatest eftersom vi behöver alternativt SSR(Vikt MaxH,lnHK) SSR(Vol MaxH,lnHK) men dessa finns inte angivna i utskriften. (e) Sist-in-test: H 0 : β =0 lnhk,maxh,vol H : β 0 lnhk,maxh,vol 7 4. Enkel logistisk regressionsmodell: (a) Från modellen har man Odds(Y = X=0) = ˆP(Y = X=0) ˆP(Y =0 X=0) / eˆβ 0 = =eˆβ 0 +eˆβ 0 +eˆβ 0 Man har skattningar av de betingade sannolikheterna, givet X = 0, enligt ˆP(Y = X=0)= b a+b 8 och ˆP(Y =0 X=0)= a a+b
Använd sedan ) ( ) (ˆP(Y = X=0) b/(a+b) ˆβ 0 = ln =ln ˆP(Y =0 X=0) a/(a+b) ( ) b = ln =lnb lna a vsv. Använd sedan att Odds(Y = X=) = ˆP(Y = X=) ˆP(Y =0 X=) / eˆβ 0 +ˆβ = =eˆβ 0 +ˆβ +eˆβ 0 +ˆβ +eˆβ 0 +ˆβ och skattningarna av de betingade sannolikheterna, givet X =, enligt och vsv. ˆP(Y = X=)= d c+d och ˆP(Y =0 X=)= c c+d ) ( ) (ˆP(Y = X=) d/(c+d) ˆβ 0 +ˆβ = =ln =ln ˆP(Y =0 X=) c/(c+d) ( ) d = ln =lnd lnc c Multipel logistisk regressionsmodell: (b) Manfår ˆβ = lnd lnc ˆβ 0 = lnd lnc lnb+lna ( Logit Y = X = 2, X 2= 2 3, X 3= 3 ) 4 = 2 +3 2 4 3 2 3 4 = (c) Den relativa ökningen i odds beräknas med oddskvoten enligt OR X ökarmed,x 2 minskarmed = Odds(Y = X +,X 2,X 3,X 4 ) Odds(Y = X,X 2,X 3,X 4 ) = exp( 2(x +)+3(x 2 ) 4x 3 ) exp( 2x +3x 2 4x 3 ) = exp( )=0.006738 sådetäregentligenfråganomenminskning(or<)medca99.3%(ökningmed 99.3%). Förklara olika begrepp inom regressionsanalysen. (a)-(c) Se kurslitteraturen. (d) Enskattningavµ Y medtexettkigerenuppfattningavprecisionenavskattningen. Med endast y-observationer kan vi som bäst få ȳ ± t (n ) α/2 Sy n därs y ärstandardavvikelsenföryistickprovet. Omvianvänderenregressionsmodellförattskattaµ Y görvidettaenligt ˆµ Y X= x = ˆβ 0 +ˆβ x = ȳ ochettkienligt ȳ ± t (n 2) α/2 S e n + (x x)2 (n )Sx 2 = ȳ ± t (n 2) α/2 Se n Förutsatt att man inte tappar för mycket i antalet frihetsgrader så att t (n 2) α/2 är mycketstörreänt (n ) α/2,dvsharförfåobservationer,kommermanattfåenbättre precisiondåse 2 =SSE/(n 2)typisktärmycketmindreänS y 2 =SST/(n ). vilket ger P(Y = X)= exp( ) +exp( ) = e + e = +e 0.26894 samt P(Y =0 X)= +e = e +e 0.736 9