Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..



Relevanta dokument
Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Exempel 1 på multipelregression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Exempel 1 på multipelregression

TENTAMEN I STATISTIK B,

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Skrivning i ekonometri lördagen den 25 augusti 2007

Metod och teori. Statistik för naturvetare Umeå universitet

Statistisk undersökningsmetodik (Pol. kand.)

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Skrivning i ekonometri torsdagen den 8 februari 2007

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen i Matematisk statistik Kurskod S0001M

10.1 Enkel linjär regression

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Tentamen i Matematisk statistik Kurskod S0001M

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Läs noggrant informationen nedan innan du börjar skriva tentamen

Skrivning i ekonometri lördagen den 15 januari 2005

Regressions- och Tidsserieanalys - F1

Läs noggrant informationen nedan innan du börjar skriva tentamen

Skrivning i ekonometri lördagen den 29 mars 2008

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Regressions- och Tidsserieanalys - F3

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Uppgift 1. Deskripitiv statistik. Lön

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Tentamen i matematisk statistik

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen Tillämpad statistik A5 (15hp)

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Regressions- och Tidsserieanalys - F3

Tentamen Tillämpad statistik A5 (15hp)

Lösningar till SPSS-övning: Analytisk statistik

Regressions- och Tidsserieanalys - F3

Linjär regressionsanalys. Wieland Wermke

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Resultatet läggs in i ladok senast 13 juni 2014.

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Regressions- och Tidsserieanalys - F5

tentaplugg.nu av studenter för studenter

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

TENTAMEN I MATEMATISK STATISTIK

Tentamen Tillämpad statistik A5 (15hp)

Regressionsanalys av huspriser i Vaxholm

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Följande resultat erhålls (enhet: 1000psi):

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

8.1 General factorial experiments

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Examinationsuppgifter del 2

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Tentamen i matematisk statistik

Utflyttningsorsaker för Norrköpings kommun 2012

Tentamen i matematisk statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Multipel Regressionsmodellen

Laboration 2 multipel linjär regression

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

7.5 Experiment with a single factor having more than two levels

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i matematisk statistik

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Läs noggrant informationen nedan innan du börjar skriva tentamen

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Tentamen i Matematisk statistik Kurskod S0001M

Uppgift a b c d e f (vet ej) Poäng

Figur 1: R e g r e s s i o n A n a l y s i s : S k u l d v e r s u s t. The r e g r e s s i o n e q u a t i o n i s S k u l d = 2,94 0,861 t

Transkript:

TENTAMEN Tentamensdatum 8-3-7 Statistik för ekonomer, Statistik A, Statistik A (Moment ) : (7.5 hp) Namn:.. Personnr:.. Tentakod: A3 Var noga med att fylla i din kod samt uppgiftsnummer på alla lösningsblad du lämnar in! Skrivtid:.-8. Hjälpmedel: Kompendiet Prognoser av Baudin Valfri bok Miniräknare För godkänt resultat krävs 5 procent av maximal poäng. Observera att utelämnade eller bristfälliga motiveringar medför poängavdrag. Börja varje ny uppgift på ett nytt papper och skriv bara på en sida av varje papper. Inga svar får lämnas inne i själva tentan (där frågorna står). Var noga med att fylla i din kod samt uppgiftsnummer på alla lösningsblad du lämnar in! Tentamensresultatet beräknar vi att anslå den 8 april. Lycka till!

Statistik för ekonomer, Statistik A, Statistik A (Moment ) : (7.5 hp) Uppgift 3 5 6 Summa Poäng Betyg:

Uppgift (3 p) En chef på ett försäkringsbolag vill undersöka relationen mellan storleken på livförsäkringar och försäkringstagarnas löner. Hon tror att personer med högre årsinkomst också ofta har en större livförsäkring. Livförsäkringsbelopp (-tals dollar) Y 5 8 9 3 3 3 5 36 5 3 9 3 5 35 7 Årsinkomst (-tals dollar) X a) Illustrera relationen mellan livförsäkringbeloppet och årsinkomsten i en lämplig figur. Rita också på fri hand in en regressionslinje. (p) b) Nedan återfinns ett utdrag ur en MINITAB-utskrift med skattningar av parametrarna i en linjär modell mellan livförsäkringsbelopp och årsinkomst. Tolka de skattade parametrarna. (p) Regression Analysis: Y versus X The regression equation is Y = 8, +,35 X Predictor Coef SE Coef T P Constant 8,,6,97,8 X,359,8,9,9 S = 76,5 R-Sq = 5,5% R-Sq(adj) = 5,5% Analysis of Variance Source DF SS MS F P Regression 935 935 8,5,9 Error 8 6385 5798 Total 9 9569 c) Jämför den skattade modellen med den på fri hand ritade regressionslinjen. (p)

Uppgift ( p) En snabbmatskedja vars meny består av hamburgare och kycklingbaguetter ska just introducera fiskbaguetter på sin meny. Diskussionerna inom ledningsgruppen går höga om den troliga efterfrågan och vad priset ska sättas till på fiskbaguetterna. En nyanställd civilekonom övertygar de övriga om att utföra ett experiment för att kunna skatta en efterfrågekurvan som visar sambandet mellan pris och efterfråga. Man väljer ut restauranger med liknande försäljningssiffror och liknande kundunderlag vad gäller sociodemografiska egenskaper hos den närligggande befolkningen. På de olika restaurangerna säljs sedan fiskbaguetter för olika priser och på varje resturang räknar man efter en vecka antalet sålda fiskbaguetter. Priset och antalet sålda fiskbaguetter används sedan för att skatta en linjär regressionsmodell och en :a ordningens polynomregressionsmodell. Nedan återfinns ett spridningsdiagram och Minitab-utskrifter för de två modellerna. a) Gör en punktprediktion för varje modell av en veckoförsäljning då priset är $.. (p) b) Vilken modell verkar bättre? Motivera ditt svar utförligt! (3p) c) Använd den bättre modellen för att göra en punktprediktion av en veckoförsäljning då priset är $3.5. Förklara också varför det egentligen ingen av modellerna lämpar sig för att göra en prediktion när priset är $3.5. (3p) d) Om snabbmatskedjan skulle komplettera sina prediktioner med en intervallskattning, vilken bör de använda? Motivera ditt svar. (Obs! Du behöver inte räkna ut en sådan intervallskattning.) (p) 375 Scatterplot of Sales vs x 35 Sales 35 3 75 5,5,75,,5 x,5,75 3,

Regression Analysis: Sales versus x The regression equation is Sales = 5-68,9 x Predictor Coef SE Coef T P Constant 53,56 5,8 9,87, x -68,9 6,68 -,3, S = 3,895 R-Sq = 85,5% R-Sq(adj) = 8,7% Analysis of Variance Source DF SS MS F P Regression 8798 8798 6,, Error 8 379 77 Total 9 977 Unusual Observations Obs x Sales Fit SE Fit St Resid,5 377, 35,9 5,7 6,8,3R R denotes an observation with a large standardized residual. Plots for Sales 99 Normal Probability Plot Versus Fits 9 Percent 5 - -3-5 5 3-5 75 3 Fitted Value 35 35 Histogram Versus Order Frequency 3 - - - - 6 8 Observation Order 6 8

Regression Analysis: Sales versus x; x^ The regression equation is Sales = 767-359 x + 6,5 x^ Predictor Coef SE Coef T P Constant 766,9 37,,5, x -359, 3,9 -,5, x^ 6,57 7,576 8,5, S = 5,9573 R-Sq = 97,3% R-Sq(adj) = 96,9% Analysis of Variance Source DF SS MS F P Regression 37 687 3,5, Error 7 63 35 Total 9 977 Source DF Seq SS x 8798 x^ 576 Unusual Observations Obs x Sales Fit SE Fit St Resid 3,7 36, 3,98, -6,98-3,7R R denotes an observation with a large standardized residual. Plots for Sales 99 Normal Probability Plot Versus Fits Percent 9 5 - - - - 7 3 33 Fitted Value 36 8 Histogram Versus Order Frequency 6 - -5 - -5 5-6 8 Observation Order 6 8

Uppgift 3 ( p) I ett starkt växande bostadsområde i utkanten av en stor amerikansk stad har försäljningspriser på hus ökat den senaste tiden. Man vad är det egentligen som avgör hur mycket kunderna är villiga att betala för ett visst hus? För att för att försöka ta reda på vilka egenskaper hos husen som spelar roll för marknadspriset har man slumpmässigt valt ut 9 nyligen sålda hus och registrerat följande variabler: husets pris (y), bostadsyta (x ), antal våningar (x ), antal sovrum (x 3 ) och antal badrum (x ). Följande modell används för att relatera priset till egenskaperna hos huset: Y = β + β x + β x + β x + β x + ε där ε är oberoende och N(, σ ) 3 3 En skattning av parametrarna i modellen gav följande resultat (standardavvikelsen för skattningarna inom parantes): Konstant -6.58 (8.88) Bostadsyta (square feet) 7.839 (.3) Antal våningar -3.39 (.5) Antal sovrum -7.99 (8.9) Antal badrum 5.93 (3.5) SSR (Sum of Squares due to Regression) och SSE (Sum of Squares due to Error) för den skattade modellen är 9359 respektive 6599. a) Tolka parameterskattningarna i ord. (p) b) Undersök om någon av förklaringsvariablerna är linjärt relaterad till priset med hjälp av en statistisk hypotesprövning där samtliga steg ska redovisas i en logisk ordning. (8p)

Uppgift (5 p) Följande uppgift är baserat på ett datamaterial som kommer från Hosmer och Lemeshow () Applied Logistic Regression: Second Edition, John Wiley and Sons Inc. Datat samlades in vid Baystate Medical Center i Springfield, Massachusetts och består av ett stickprov om patienter på en intensivvårdsavdelning. För att prediktera sannolikheten för överleva då man tagits in på en intensivvårdsavdelning skattas en logistisk regression där responsvariabel är STA (antar värdet om patienten dör och annars). Förklaringsvariablerna är AGE (patientens ålder), CAN (antar värdet om patienten har cancer och annars) TYP (antar värdet om inläggningen på avdelningen är akut och annars), SYS (systoliskt blodtryck, mm Hg, vid inläggning), HRA (puls, slag/min, vid inläggning) och PRE ( om tidigare inläggning vid intensiven de senaste 6 månaderna, annars). Nedan återfinns en Minitab-utskrift. a) Vad är sannolikheten att en patient som är 55 år, som inte har cancer, som är akutinlagd, som har systoliskt blodtryck 3, som har i puls och som inte har varit inlagt på intensiven de senaste månaderna dör vid intensivvårdsavdelningen? (p) b) Hur tolkar du den skattade oddskvoten för variabeln TYP? (3p) Binary Logistic Regression: STA versus AGE; CAN; TYP; SYS; HRA; PRE Link Function: Logit Response Information Variable Value Count STA (Event) 6 Total Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -3,8967,53 -,5, AGE,3759,88 3,7,,,,6 CAN,8335,835,,8 6,5, 3,98 TYP 3,835,896 3,6,,8 3,8,95 SYS -,6565,6756 -,37,8,99,97, HRA -,7577,7897 -,,3,99,98, PRE,396,5366,83,7,55,55,39 Log-Likelihood = -8,97 Test that all slopes are zero: G = 38,6, DF = 6, P-Value =,

Uppgift 5 ( p) Julveckan är en mycket viktig vecka för många skidorter i Alperna då en stor del av vinsten gör denna vecka. Vädret tros dock vara en viktig förklaringsvariabel när det gäller variationen i antalet sålda liftkort år från år. Data från de senaste åren har samlats in och nedan följer en Minitab-utskrift där följande modell har skattats: Y = β + β x + β x + ε o där x = totalt snöfall (mm), x = medeltemperatur ( C) och ε är oberoende och N(, σ ) Regression Analysis: Tickets versus Snö; Temp The regression equation is Tickets = 88 +,9 Snö - 8,8 Temp Predictor Coef SE Coef T P Constant 87,9 935,9 8,58, Snö,937,3,5,66 Temp -8,75 9,7 -,,66 S = 7,68 R-Sq =,% R-Sq(adj) =,7% Analysis of Variance Source DF SS MS F P Regression 6793798 3396899,6,337 Error 7 987 99836 Total 9 566 Source DF Seq SS Snö 6556 Temp 57837 Durbin-Watson statistic =,593 Plots for Tickets 99 Normal Probability Plot 3 Versus Fits 9 5 Percent 5-5 - - -3 8 85 9 95 Fitted Value,8 Histogram 3 Versus Order Frequency 3,6,, 5-5, -3 - - 3-3 6 8 Observation Order 6 8

a) Utifrån förklaringsgrad, F-test och residualplottarna, är modellen en bra beskrivning av hur snöfall och temperatur påverkar försäljningen av liftkort? Motivera! Vilka antaganden kollas i respektive residualplot? Är de uppfyllda i dessa fall? (3p) b) Testa, med signifikansnivån 5%, om det föreligger positiv :a ordningens autokorrelation. Genomför samtliga steg i en statistisk hypotesprövning i en logisk ordning. (8p) c) Vill du utifrån vad residualplottarna och Durbin-Watson-testet visar, förändra modellen på något sätt? I så fall, hur? Motivera ditt svar. (p) Uppgift 6 ( poäng) I Holmsunds hamn utanför Umeå finns ett vindkraftsanläggning som varit i drift sedan juni 998. Totala mängden energi som producerats (i kilowattimmar) beskrivs i följande figur: Produced energy in Holmsund 5 kwh 5 5 jun-98 jun-99 jun- jun- jun- jun-3 jun- jun-5 jun-6 (Källa:www.kvarkenvinden.com) Två skattade modeller baserat på data från juli 998 till december 6 för energiproduktionen på anläggningen är: Modell : (Additiv modell) Production = 33,38 -,7t -,8M - 8,5588M - 9,56M 3-5,58M - 55,679 M 5-5,9 M 6-56,978 M 7-6,9 M 8-35,9993 M 9-6,8759M + 9,5993M, där t=tid med t= för juli 998 (Produktionen startade juni 998, men var första månaden inte i full drift och därför är den månaden inte inkluderad) M = Dummyvariabel för januari, dvs M = för mätning i månaden januari och M = annars M = Dummyvariabel för februari, dvs M = för mätning i månaden februari och M = annars... osv.. M = Dummyvariabel för november

Modell : (Multiplikativ model) Production =,983 -,5t är den skattade trenddelen av model S =, Säsongsindex för januari baserat på en a multiplikativ model S =,3 Säsongsindex för februari baserat på en a multiplikativ model S3 =, Säsongsindex för mars baserat på en a multiplikativ model S =,78 Säsongsindex för april baserat på en a multiplikativ model S5 =,7 Säsongsindex för maj baserat på en a multiplikativ model S6 =,78 Säsongsindex för juni baserat på en a multiplikativ model S7 =,73 S8 =,69 S9 =,95 S =,5 S =, S =,3 Säsongsindex för juli baserat på en a multiplikativ model Säsongsindex för augusti baserat på en a multiplikativ model Säsongsindex för september baserat på en a multiplikativ model Säsongsindex för oktober baserat på en a multiplikativ model Säsongsindex för november baserat på en a multiplikativ model Säsongsindex för december baserat på en a multiplikativ model a) I vilken månad är energiproduktionen i genomsnitt högst respektive lägst enligt de två olika modellerna. Förklara hur du kommer fram till ditt svar! ( p) b) Tolka och jämför de markerade skattade värdena -,8 i modell och, i modell (p) c) Hur mycket lägre är energiproduktionen i genomsnitt i juli jämfört med januari enligt de två olika modellerna? Ledtråd: Du kan svara i kilowattimmar, procent eller procentenheter (och du behöver inte använda samma enhet för båda modellerna ) (p) d) Gör en prognos för energiproduktionen i januari 7 för de två modellerna. (Energiproduktionen i januari 7 var i själva verket,59 kilowattimmar) (p)