y Uppgift 1 (18p) I syfte för att se om antalet månader som man ägt en viss träningsutrustning påverkar träningsintensiteten har tio personer som har köpt träningsutrustningen fått ange hur många månader de ägt utrustningen samt hur många timmar de använde den föregående vecka. Följande data observerades: Person 1 3 4 5 6 7 8 9 10 Antal månader som 1 6 9 7 8 4 10 5 utrustningen ägts. Antal timmar utrustningen användes föregående vecka. 4 10 8 5 5 8 3 8 5 a) Rita ett spridningsdiagram. Utan att beräkna den, ange ett rimligt värde på korrelationskoefficienten samt tolka innebörden av måttet. (p) X = antalet månader som utrustningen ägts Y= antalet timmar som utrustningen användes föregående vecka Scatterplot of y vs x 10 9 8 7 6 5 4 3 1 4 6 x 8 10 1 Eftersom sambandet är negativt så är korrelationen någonstans mellan -1 och 0. Sambandet är ganska linjärt så jag skulle tippa på att korrelationen är mellan -0.7 och -0.9. (-0.83 är rätt svar) b) Parametrarna i modellen y= β 0 + β 1 *x+ ε har skattats med hjälp av MINITAB. Vilken metod använder MINITAB för att skatta parametrarna i modellen? Förklara idén bakom den metoden, använda gärna en bild som illustration. (p) Den metod som används för att skatta parametrarna i modellen är minsta kvadrat-metoden. Metoden går ut på att hitta den linje som gör att summan av de kvadratiska avstånden mellan den skattade linjen och observationerna blir så liten som möjligt. (Minimera SSE) Regression Analysis: y versus x The regression equation is y = 9,94-0,637 x Predictor Coef SE Coef T P
Constant 9,939 1,107 8,98 0,000 x -0,6368 0,1531-4,16 0,003 S = 1,53475 R-Sq = 68,4% R-Sq(adj) = 64,4% Analysis of Variance Source DF SS MS F P Regression 1 40,756 40,756 17,30 0,003 Residual Error 8 18,844,355 Total 9 59,600 c) Ange den skattade modellen samt tolka innebörden av de erhållna parameterskattningarna. (p) =9.94-0.637x, För varje månad som utrustningen ägts så minskar användandet med i genomsnitt 0.637 timmar/vecka. Skärningspunkten med y-axeln är 9.94. d) För att kontrollera om modellantagandena är uppfyllda så gör man en s.k residualanalys. Förklara vad en residual är samt beräkna residualen för person 3. Förklara även hur man med hjälp av residualerna verifierar de nödvändiga antagandena i c). (4p) De antaganden som man gör är att ε ska ha väntevärde 0, konstant varians, normalfördelad samt oberoende. Dessa antaganden testar man mha en residualanalys eftersom residualerna är observationer på ε. Via ett histogram eller en normalfördelningsplot verifierar man normalfördelningsantagandet. När man plottar residualerna mot fits ska det inte finns något trattmönster (icke konstant varians) eller något mönster, tex bananliknande (strider mot att väntevärdet är 0). Om residualerna ligger slumpmässigt över och under linjen i ett band så är antagandena om väntevärde 0 och konstant varians uppfyllda. Oberoende kan ni bara undersöka om datat är insamlat i någon typ av tidsordning. Om detta är fallet så kan man plotta residualerna i tidsordning för att sedan avgöra om man har positiv eller negativ autokorrelation. Ett Durbin-Watson-test kan avgöra om autokorrelation föreligger. Man bör dock vara observant på att autokorrelation bara är ett typ av beroende, det finns många fler e) Testa, under förutsättningen att modellantagandena är uppfyllda, om det finns ett negativt linjärt samband mellan tiden man ägt utrustningen och hur mycket den används på signifikansnivån 5%. (För att erhålla full poäng på denna deluppgift så krävs det att ni angett hypotes, teststatistika, teststatistikans fördelning, kritisk gräns, observation på teststatistikan samt formulerat en slutsats.) (4p) H 0 : β 1 =0 H 1 : β 1 <0 α=0.05 Teststatistika: T =b 1 /s b1 ~ t(8), om H 0 sann. Kritiskt område: Förkasta H 0 om t (=T obs ) <- t 0.05,8 = -1.86 t = (fås från SPSS-utskrift) = -4.16
Slutsats: Vi förkastar nollhypotesen eftersom -4.16 <-1.86 Vi har ett empirirskt stöd för alternativhypotesen, dvs användandet minskar med antalet månader som man ägt utrustningen. (Alt. p-värdet=0.003/=0.0015 är mindre än 0.05 alltså förkastas hypotesen.) f) Prediktera användandet av träningsutrustningen då man ägt denna i 5 månader. Vanligtvis vill man komplettera sin punktskattning med ett tillhörande osäkerhetsintervall. När man gör detta måste man skilja på konfidensintervall och prediktionsintervall. Beräkna dessa intervall samt ange, med ett exempel, hur man ska tolka dessa. (Förslagsvis kan ni göra intervallen 95%-iga.) (4p) = 9.94-0.637*5=6.7550 Ett 95%-igt konfidensintervall för E[y] då x=5 ges av : yˆ x 5 t 0.05 (8) * s 1 10 (5 ( x i x) x) Ett 95%-igt prediktionsintervall för y då x=5 ges av : yˆ x 5 t 0.05 (8) * s 1 1 10 Där, 6.5, ( x x) 100. 5 x i (5 ( x i x) x) Obs Fit SE Fit 95% CI 95% PI 1 6,755 0,537 (5,517; 7,993) (3,006; 10,505) Bland de som ägt träningsutrustningen i 5 månader så är det genomsnittliga användandet (5,517; 7,993) timmar/vecka. Kalle har ägt utrustningen i 5 månader, jag gissar att han använder sin utrustning mellan 3.006-10.505 timmar/vecka. Det är svårare att gissa en enskild individs användande än genomsnittsanvändandet, därför blir prediktionsintervallet bredare än konfidensintervallet. Uppgift (15 poäng) Ägaren av Toulon Teater vill uppskatta bruttoinkomsten per vecka som en funktion av hur mycket pengar som har spenderats på reklam. Historiska data över de senaste åtta veckorna är: Bruttoinkomst per vecka (1000-tal ) TV-reklam (1000-tal ) Dagstidningsreklam (1000-tal ) 96 5,0 1,5 90,0,0 95 4,0 1,5 9,5,5 95 3,0 3,3
94 3,5,3 94,5 4, 94 3,0,5 Regression Analysis: bruttoinkomst versus TV-reklam; Tidn-reklam The regression equation is bruttoinkomst = 83, +,9 TV-reklam + 1,30 Tidn-reklam Predictor Coef SE Coef T P Constant 83,30 1,574 5,88 0,000 TV-reklam,90 0,3041 7,53 0,001 Tidn-reklam 1,3010 0,307 4,06 0,010 S = 0,64587 Analysis of Variance Source DF SS MS F P Regression 3,435 11,718 8,38 0,00 Residual Error 5,065 0,413 Total 7 5,500 Correlations: bruttoinkomst; TV-reklam; Tidn-reklam bruttoinkomst TV-reklam TV-reklam 0,808 Tidn-reklam -0,01-0,556 a) Vilken modell ligger till grund för analysen ovan? (1p) Modell : y=β 0 + β 1 x 1 + β x + ε. Vi antar att ε är normalfördelad med konstant varians, väntevärde 0 samt oberoende. Där x 1 är pengarna som teatern spenderar på TV-reklam och x är summan pengar som teatern spenderar på tidningsreklam. b) SST, SSR och SSE är tre kvadratsummor. Beskriv i ord/bild vad dessa representerar. (3p) SST ( yi y), den totala variationen SSE y i yˆ ) ( i ˆ, den oförklarade variationen SSR ( yi y), den förklarade variationen c) Förklaringsgraden, R, är ett mått på modellanpassning. Ange vad förklaringsgraden är i detta fall samt beskriv hur man ska tolka den. (p) R =SSR/SST=3.435/5.500=0.919, 91.9% av variationen i y kan förklaras med variationen i x 1 och x. d) Ta fram den justerade förklaringsgraden, Adj R. Varför föredrar man denna framför R då man vill jämföra olika modeller? (p)
R adj= 1-MSE/(SST/n-1)=1-0.413/(5.5/7)=0.8866, 88.66%. Den justerade förklaringsgraden tar hänsyn till hur många förklaringsvariabler som man har i modellen, därför är den ett bättre mått då man vill jämföra anpassningen mellan modeller av olika storlek. e) Gör ett overalltest för att undersöka om Tv-reklam och Tidnings-reklam har en linjär relation till bruttoinkomsten. (För att erhålla full poäng på denna deluppgift så krävs det att ni angett hypotes, teststatistika, teststatistikans fördelning, kritisk gräns, observation på teststatistikan samt formulerat en slutsats.) (3p) H 0 : β 1 =β =0 H 1 : någon av β 1 och β är inte 0 För att testa ovanstående hypotes så gör man ett F-test (overalltest) T eststatistika: F=MSR/MSE ~ F (p, n-p-1) = F(, 5) om H 0 är sann och om antagandena om ε är uppfyllda. Förkasta H 0 om observationen av MSR/MSE = F obs > F 0.05 (,5) =5.79 Vi observerar F obs =8.38 vilket är större än 5.79. Vi har ett empiriskt stöd för att någon av β 1 och β inte är 0. Åtminstone en av X 1 och X ska vara med i modellen. f) Kommentera resultatet av de partiella t-testen. (p) I de partiella t-testen ser vi att både X 1 och X bör vara med i modellen eftersom både β 1 och β är signifikant skiljda från 0. g) Förklara vad som menas med begreppet multikollinjäritet. Finns det något i utskriften ovan som indikerar på att det skulle vara ett problem i det här exemplet? (p) Multikollinjäritet uppstår då x-variablerna är högt korrelerade. I detta exempel är korrelationen -0.556 vilket inte är starkt. Eftersom vi i de partiella t-testen kunde avgöra att både X 1 och X ska vara med i modellen så har vi inget problem med multikollinjäritet. Uppgift 3 (4 poäng) En regressiosstudie involverar en beroende variabel (y=tomatplantans längd ), en kvantitativ förklarande variabel (x=gödselmängd) samt en kvalitativ förklarande variabel med tre möjliga nivåer (köksfönster,balkong och växthus). a) Hur många dummy-variabler krävs det för att beskriva den kvalitativa variabeln odlingsplats? (1p) stycken b) Ange en multipel linjär regressionsmodell som beskriver hur gödselmängd och växtplats påverkar plantans längd. (3p) Y=β 0 + β 1 *x 1 + β *x +β 3 *x 3 +ε, där y=plantans längd X 1 =gödselmängd X =1 om balkong och 0 om inte balkong X 3 = 1 om växthus och 0 om inte växthus ε~n(0,σ) och oberoende
Y=β 0 + β 1 *x 1 beskriver alltså gödselmängdens påverkan för plantor som är odlade i köksfönstret (referensplats). β tolkas således som den genomsnittliga förändring på plantlängd då man byter odlingsplats från köksfönster till balkong Uppgift 4 (5 poäng) Nedan följer några frågor på Durbin-Watson-testet. a) Vad testar man med ett Durbin-Watson-test? Förklara med hjälp av bilder! (p) Man testar om man har seriell autokorrelation (lag 1). Autokorrelationen kan vara positiv (två på varandra följande residualer har en tendens att vara lika i storlek) eller negativ (residualerna alternerar från positiv till negativ). Antag att man fått följande utskrift från MINITAB: Regression Analysis: y versus tid The regression equation is y = 163-73,3 tid Predictor Coef SE Coef T P Constant 163,17 36,93 4,4 0,00 tid -73,315 5,95-1,3 0,000 S = 54,0656 R-Sq = 95,0% R-Sq(adj) = 94,4% Analysis of Variance Source DF SS MS F P Regression 1 44344 44344 151,70 0,000 Residual Error 8 3385 93 Total 9 46686 Durbin-Watson statistic = 0,4658 b) Antag att vi vill testa om det föreligger positiv autokorrelation. Vad drar ni för slutsats av Durbin-Watson-testet? Som vanligt ska samtliga steg i en hypotesprövning redovisas. (3p) H 0 : ingen autokorrelation H 1 : positiv autokorrelation. Teststatistika: d, varierar mellan 0 och 4 (nära 0 positiv autokorr, nära 4 negativ autokorr) Förkasta H 0 om d obs <d L, = 1.08 (n=10, k=1, α=0.05) OBS! Använd n=15 då inte 10 finns i tabellen i boken. Observerat värde på teststatistikan = d obs =0.4658 Slutsats: Förkasta H 0 ty 0.4658 < 1.08, dvs det finns ett empiriskt stöd för att det råder en positiv autokorrelation i residualerna.
Uppgift 5 (8 poäng) Nedanstående data visar antalet olyckor, vid en turistort i Colorado, där gipsförband fick användas. Varje år har delats in i fyra kvartal (vinter, vår, sommar och höst). År Kvartal Antal olyckor År Kvartal Antal olyckor År Kvartal Antal olyckor 1984 Vinter 94 1985 Vinter 109 1986 Vinter 13 Vår 86 Vår 101 Vår 10 Sommar 64 Sommar 77 Sommar 95 Höst 99 Höst 110 Höst 16 a) Beräkna centrerade glidande medelvärden för sommaren 1984 och hösten 1984. Vad är syftet med att göra glidande medelvärde? (p) Glidande medelvärde för sommaren 1984: (94+86+64+99)/4= 85.75 (86+64+99+109)/4= 89.5 (85.75+89.5)/=87.65 Glidande medelvärde för hösten 1984: (86+64+99+109)/4= 89.5 (64+99+109+101)/4= 93.5 (89.5+93.5)/=91.375 Syftet med att göra glidande medelvärde är för att rensa bort säsongen och slumpen ur tidsserien. b) Med en multiplikativ modellansats fås följande skattning av trend och säsongskomponent. Gör med hjälp av denna en prognos för antalet olyckor våren 1988. (t=1 för vintern 1984, t= för våren 1984 osv...) (3p) Time Series Decomposition for antal olyckor Multiplicative Model Data antal olyckor Length 1 NMissing 0 Fitted Trend Equation
Yt = 75,74 + 3,85*t Seasonal Indices Period Index 1 1,13811 1,0453 3 0,74856 4 1,06801 Våren 1988 motsvarar t=18 och säsong. En prediktion av antalet olyckor blir således: (75.74+3.85*18)*1.0453=151.613 c) Med en additiv modellansats så skattas trend och säsongskomponenten med säsongsdummymetoden. (S är en dummyvariabel som antar värdet 1 om kvartal, 0 för övriga kvartal. Motsvarande tolkningar görs för S3 och S4.) MINITAB-utskriften ges nedan. Tolka koefficienterna i regressionsmodellen samt gör en prognos för antalet olyckor våren 1988. (t=1 för vintern 1984, t= för våren 1984 osv ) (3p) Regression Analysis: antal olyckor versus t; S; S3; S4 The regression equation is antal olyckor = 89,8 + 3,78 t - 10,1 S - 37,6 S3-8,34 S4 Predictor Coef SE Coef T P Constant 89,760 1,361 65,93 0,000 t 3,781 0,1655,85 0,000 S -10,115 1,538-6,58 0,000 S3-37,56 1,564-4,01 0,000 S4-8,344 1,607-5,19 0,001 S = 1,874 R-Sq = 99,4% R-Sq(adj) = 99,0% Analysis of Variance Source DF SS MS F P Regression 4 3844,1 961,03 74,11 0,000 Residual Error 7 4,54 3,51 Total 11 3868,67 Antal olyckor = 89,8 + 3,78*t är det skattade sambandet mellan antalet olyckor och tiden under vintern. (Vintern är referens-säsongen). För varje säsong (t ökar en enhet) så ökar antalet olyckor i genomsnitt med 3.78 stycken (alla övriga variabler konstanta) Jämfört med vintern så sker det i genomsnitt 10.115 färre olyckor på våren. Jämfört med vintern så sker det i genomsnitt 37.56 färre olyckor på sommaren. Jämfört med vintern så sker det i genomsnitt 8.344 färre olyckor på hösten. En prediktion av antalet olyckor våren 1988 blir således: 89.760+3.781*18-10.115=147.7066