TENTAMEN Tentamensdatum 8-3-7 Statistik för ekonomer, Statistik A, Statistik A (Moment ) : (7.5 hp) Namn:.. Personnr:.. Tentakod: A3 Var noga med att fylla i din kod samt uppgiftsnummer på alla lösningsblad du lämnar in! Skrivtid:.-8. Hjälpmedel: Kompendiet Prognoser av Baudin Valfri bok Miniräknare För godkänt resultat krävs 5 procent av maximal poäng. Observera att utelämnade eller bristfälliga motiveringar medför poängavdrag. Börja varje ny uppgift på ett nytt papper och skriv bara på en sida av varje papper. Inga svar får lämnas inne i själva tentan (där frågorna står). Var noga med att fylla i din kod samt uppgiftsnummer på alla lösningsblad du lämnar in! Tentamensresultatet beräknar vi att anslå den 8 april. Lycka till!
Statistik för ekonomer, Statistik A, Statistik A (Moment ) : (7.5 hp) Uppgift 3 5 6 Summa Poäng Betyg:
Uppgift (3 p) En chef på ett försäkringsbolag vill undersöka relationen mellan storleken på livförsäkringar och försäkringstagarnas löner. Hon tror att personer med högre årsinkomst också ofta har en större livförsäkring. Livförsäkringsbelopp (-tals dollar) Y 5 8 9 3 3 3 5 36 5 3 9 3 5 35 7 Årsinkomst (-tals dollar) X a) Illustrera relationen mellan livförsäkringbeloppet och årsinkomsten i en lämplig figur. Rita också på fri hand in en regressionslinje. (p) b) Nedan återfinns ett utdrag ur en MINITAB-utskrift med skattningar av parametrarna i en linjär modell mellan livförsäkringsbelopp och årsinkomst. Tolka de skattade parametrarna. (p) Regression Analysis: Y versus X The regression equation is Y = 8, +,35 X Predictor Coef SE Coef T P Constant 8,,6,97,8 X,359,8,9,9 S = 76,5 R-Sq = 5,5% R-Sq(adj) = 5,5% Analysis of Variance Source DF SS MS F P Regression 935 935 8,5,9 Error 8 6385 5798 Total 9 9569 c) Jämför den skattade modellen med den på fri hand ritade regressionslinjen. (p)
Uppgift ( p) En snabbmatskedja vars meny består av hamburgare och kycklingbaguetter ska just introducera fiskbaguetter på sin meny. Diskussionerna inom ledningsgruppen går höga om den troliga efterfrågan och vad priset ska sättas till på fiskbaguetterna. En nyanställd civilekonom övertygar de övriga om att utföra ett experiment för att kunna skatta en efterfrågekurvan som visar sambandet mellan pris och efterfråga. Man väljer ut restauranger med liknande försäljningssiffror och liknande kundunderlag vad gäller sociodemografiska egenskaper hos den närligggande befolkningen. På de olika restaurangerna säljs sedan fiskbaguetter för olika priser och på varje resturang räknar man efter en vecka antalet sålda fiskbaguetter. Priset och antalet sålda fiskbaguetter används sedan för att skatta en linjär regressionsmodell och en :a ordningens polynomregressionsmodell. Nedan återfinns ett spridningsdiagram och Minitab-utskrifter för de två modellerna. a) Gör en punktprediktion för varje modell av en veckoförsäljning då priset är $.. (p) b) Vilken modell verkar bättre? Motivera ditt svar utförligt! (3p) c) Använd den bättre modellen för att göra en punktprediktion av en veckoförsäljning då priset är $3.5. Förklara också varför det egentligen ingen av modellerna lämpar sig för att göra en prediktion när priset är $3.5. (3p) d) Om snabbmatskedjan skulle komplettera sina prediktioner med en intervallskattning, vilken bör de använda? Motivera ditt svar. (Obs! Du behöver inte räkna ut en sådan intervallskattning.) (p) 375 Scatterplot of Sales vs x 35 Sales 35 3 75 5,5,75,,5 x,5,75 3,
Regression Analysis: Sales versus x The regression equation is Sales = 5-68,9 x Predictor Coef SE Coef T P Constant 53,56 5,8 9,87, x -68,9 6,68 -,3, S = 3,895 R-Sq = 85,5% R-Sq(adj) = 8,7% Analysis of Variance Source DF SS MS F P Regression 8798 8798 6,, Error 8 379 77 Total 9 977 Unusual Observations Obs x Sales Fit SE Fit St Resid,5 377, 35,9 5,7 6,8,3R R denotes an observation with a large standardized residual. Plots for Sales 99 Normal Probability Plot Versus Fits 9 Percent 5 - -3-5 5 3-5 75 3 Fitted Value 35 35 Histogram Versus Order Frequency 3 - - - - 6 8 Observation Order 6 8
Regression Analysis: Sales versus x; x^ The regression equation is Sales = 767-359 x + 6,5 x^ Predictor Coef SE Coef T P Constant 766,9 37,,5, x -359, 3,9 -,5, x^ 6,57 7,576 8,5, S = 5,9573 R-Sq = 97,3% R-Sq(adj) = 96,9% Analysis of Variance Source DF SS MS F P Regression 37 687 3,5, Error 7 63 35 Total 9 977 Source DF Seq SS x 8798 x^ 576 Unusual Observations Obs x Sales Fit SE Fit St Resid 3,7 36, 3,98, -6,98-3,7R R denotes an observation with a large standardized residual. Plots for Sales 99 Normal Probability Plot Versus Fits Percent 9 5 - - - - 7 3 33 Fitted Value 36 8 Histogram Versus Order Frequency 6 - -5 - -5 5-6 8 Observation Order 6 8
Uppgift 3 ( p) I ett starkt växande bostadsområde i utkanten av en stor amerikansk stad har försäljningspriser på hus ökat den senaste tiden. Man vad är det egentligen som avgör hur mycket kunderna är villiga att betala för ett visst hus? För att för att försöka ta reda på vilka egenskaper hos husen som spelar roll för marknadspriset har man slumpmässigt valt ut 9 nyligen sålda hus och registrerat följande variabler: husets pris (y), bostadsyta (x ), antal våningar (x ), antal sovrum (x 3 ) och antal badrum (x ). Följande modell används för att relatera priset till egenskaperna hos huset: Y = β + β x + β x + β x + β x + ε där ε är oberoende och N(, σ ) 3 3 En skattning av parametrarna i modellen gav följande resultat (standardavvikelsen för skattningarna inom parantes): Konstant -6.58 (8.88) Bostadsyta (square feet) 7.839 (.3) Antal våningar -3.39 (.5) Antal sovrum -7.99 (8.9) Antal badrum 5.93 (3.5) SSR (Sum of Squares due to Regression) och SSE (Sum of Squares due to Error) för den skattade modellen är 9359 respektive 6599. a) Tolka parameterskattningarna i ord. (p) b) Undersök om någon av förklaringsvariablerna är linjärt relaterad till priset med hjälp av en statistisk hypotesprövning där samtliga steg ska redovisas i en logisk ordning. (8p)
Uppgift (5 p) Följande uppgift är baserat på ett datamaterial som kommer från Hosmer och Lemeshow () Applied Logistic Regression: Second Edition, John Wiley and Sons Inc. Datat samlades in vid Baystate Medical Center i Springfield, Massachusetts och består av ett stickprov om patienter på en intensivvårdsavdelning. För att prediktera sannolikheten för överleva då man tagits in på en intensivvårdsavdelning skattas en logistisk regression där responsvariabel är STA (antar värdet om patienten dör och annars). Förklaringsvariablerna är AGE (patientens ålder), CAN (antar värdet om patienten har cancer och annars) TYP (antar värdet om inläggningen på avdelningen är akut och annars), SYS (systoliskt blodtryck, mm Hg, vid inläggning), HRA (puls, slag/min, vid inläggning) och PRE ( om tidigare inläggning vid intensiven de senaste 6 månaderna, annars). Nedan återfinns en Minitab-utskrift. a) Vad är sannolikheten att en patient som är 55 år, som inte har cancer, som är akutinlagd, som har systoliskt blodtryck 3, som har i puls och som inte har varit inlagt på intensiven de senaste månaderna dör vid intensivvårdsavdelningen? (p) b) Hur tolkar du den skattade oddskvoten för variabeln TYP? (3p) Binary Logistic Regression: STA versus AGE; CAN; TYP; SYS; HRA; PRE Link Function: Logit Response Information Variable Value Count STA (Event) 6 Total Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -3,8967,53 -,5, AGE,3759,88 3,7,,,,6 CAN,8335,835,,8 6,5, 3,98 TYP 3,835,896 3,6,,8 3,8,95 SYS -,6565,6756 -,37,8,99,97, HRA -,7577,7897 -,,3,99,98, PRE,396,5366,83,7,55,55,39 Log-Likelihood = -8,97 Test that all slopes are zero: G = 38,6, DF = 6, P-Value =,
Uppgift 5 ( p) Julveckan är en mycket viktig vecka för många skidorter i Alperna då en stor del av vinsten gör denna vecka. Vädret tros dock vara en viktig förklaringsvariabel när det gäller variationen i antalet sålda liftkort år från år. Data från de senaste åren har samlats in och nedan följer en Minitab-utskrift där följande modell har skattats: Y = β + β x + β x + ε o där x = totalt snöfall (mm), x = medeltemperatur ( C) och ε är oberoende och N(, σ ) Regression Analysis: Tickets versus Snö; Temp The regression equation is Tickets = 88 +,9 Snö - 8,8 Temp Predictor Coef SE Coef T P Constant 87,9 935,9 8,58, Snö,937,3,5,66 Temp -8,75 9,7 -,,66 S = 7,68 R-Sq =,% R-Sq(adj) =,7% Analysis of Variance Source DF SS MS F P Regression 6793798 3396899,6,337 Error 7 987 99836 Total 9 566 Source DF Seq SS Snö 6556 Temp 57837 Durbin-Watson statistic =,593 Plots for Tickets 99 Normal Probability Plot 3 Versus Fits 9 5 Percent 5-5 - - -3 8 85 9 95 Fitted Value,8 Histogram 3 Versus Order Frequency 3,6,, 5-5, -3 - - 3-3 6 8 Observation Order 6 8
a) Utifrån förklaringsgrad, F-test och residualplottarna, är modellen en bra beskrivning av hur snöfall och temperatur påverkar försäljningen av liftkort? Motivera! Vilka antaganden kollas i respektive residualplot? Är de uppfyllda i dessa fall? (3p) b) Testa, med signifikansnivån 5%, om det föreligger positiv :a ordningens autokorrelation. Genomför samtliga steg i en statistisk hypotesprövning i en logisk ordning. (8p) c) Vill du utifrån vad residualplottarna och Durbin-Watson-testet visar, förändra modellen på något sätt? I så fall, hur? Motivera ditt svar. (p) Uppgift 6 ( poäng) I Holmsunds hamn utanför Umeå finns ett vindkraftsanläggning som varit i drift sedan juni 998. Totala mängden energi som producerats (i kilowattimmar) beskrivs i följande figur: Produced energy in Holmsund 5 kwh 5 5 jun-98 jun-99 jun- jun- jun- jun-3 jun- jun-5 jun-6 (Källa:www.kvarkenvinden.com) Två skattade modeller baserat på data från juli 998 till december 6 för energiproduktionen på anläggningen är: Modell : (Additiv modell) Production = 33,38 -,7t -,8M - 8,5588M - 9,56M 3-5,58M - 55,679 M 5-5,9 M 6-56,978 M 7-6,9 M 8-35,9993 M 9-6,8759M + 9,5993M, där t=tid med t= för juli 998 (Produktionen startade juni 998, men var första månaden inte i full drift och därför är den månaden inte inkluderad) M = Dummyvariabel för januari, dvs M = för mätning i månaden januari och M = annars M = Dummyvariabel för februari, dvs M = för mätning i månaden februari och M = annars... osv.. M = Dummyvariabel för november
Modell : (Multiplikativ model) Production =,983 -,5t är den skattade trenddelen av model S =, Säsongsindex för januari baserat på en a multiplikativ model S =,3 Säsongsindex för februari baserat på en a multiplikativ model S3 =, Säsongsindex för mars baserat på en a multiplikativ model S =,78 Säsongsindex för april baserat på en a multiplikativ model S5 =,7 Säsongsindex för maj baserat på en a multiplikativ model S6 =,78 Säsongsindex för juni baserat på en a multiplikativ model S7 =,73 S8 =,69 S9 =,95 S =,5 S =, S =,3 Säsongsindex för juli baserat på en a multiplikativ model Säsongsindex för augusti baserat på en a multiplikativ model Säsongsindex för september baserat på en a multiplikativ model Säsongsindex för oktober baserat på en a multiplikativ model Säsongsindex för november baserat på en a multiplikativ model Säsongsindex för december baserat på en a multiplikativ model a) I vilken månad är energiproduktionen i genomsnitt högst respektive lägst enligt de två olika modellerna. Förklara hur du kommer fram till ditt svar! ( p) b) Tolka och jämför de markerade skattade värdena -,8 i modell och, i modell (p) c) Hur mycket lägre är energiproduktionen i genomsnitt i juli jämfört med januari enligt de två olika modellerna? Ledtråd: Du kan svara i kilowattimmar, procent eller procentenheter (och du behöver inte använda samma enhet för båda modellerna ) (p) d) Gör en prognos för energiproduktionen i januari 7 för de två modellerna. (Energiproduktionen i januari 7 var i själva verket,59 kilowattimmar) (p)