Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Relevanta dokument
Övningshäfte till kursen Regressionsanalys och tidsserieanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Tidsserier. Data. Vi har tittat på två typer av data

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

F11. Kvantitativa prognostekniker

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Multipel Regressionsmodellen

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F4

10.1 Enkel linjär regression

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Regressions- och Tidsserieanalys - F3

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Del A: Schema för ifyllande av svar nns på sista sidan

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

TENTAMEN I STATISTIK B,

Regressions- och Tidsserieanalys - F5

Höftledsdysplasi hos dansk-svensk gårdshund

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Regressions- och Tidsserieanalys - F3

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Laboration 2 multipel linjär regression

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Vad Betyder måtten MAPE, MAD och MSD?

Statistik 1 för biologer, logopeder och psykologer

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: )

Provmoment: Forskningsmetod, Salstentamen nr 1 Ladokkod:

Regressions- och Tidsserieanalys - F8

Föreläsning 13: Multipel Regression

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Medicinsk statistik II

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Sänkningen av parasitnivåerna i blodet

Tentamen Tillämpad statistik A5 (15hp)

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Facit till Extra övningsuppgifter

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

Tidsserier, forts från F16 F17. Tidsserier Säsongrensning

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen Tillämpad statistik A5 (15hp)

Obligatorisk uppgift, del 1

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: )

Preliminär elmarknadsstatistik per månad för Sverige 2014

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen Tillämpad statistik A5 (15hp)

Uppgift 1. Deskripitiv statistik. Lön

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Tentamen Tillämpad statistik A5 (15hp)

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Finansiell statistik. Multipel regression. 4 maj 2011

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Linjär regression

Uppgift a b c d e f (vet ej) Poäng

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

TENTAMEN I MATEMATISK STATISTIK

Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Laboration 2: Styrkefunktion samt Regression

Laboration 4 R-versionen

STOCKHOLMS UNIVERSITET HT 2010 Statistiska institutionen Linda Wänström (moment 1 och 2) Jörgen Säve-Söderbergh (moment 3 och 4)

Uppgift a b c d e f (vet ej) Poäng

Skrivning i ekonometri lördagen den 25 augusti 2007

InStat Exempel 4 Korrelation och Regression

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Räkneövning 4. Om uppgifterna. 1 Uppgift 1. Statistiska institutionen Uppsala universitet. 14 december 2016

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Transkript:

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström April 8, 2011 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande statistiska modell kan användas för att beskriva sambandet mellan veckoförsäljning och arbetstimmar per vecka: Y = 0 + 1 X + E: För en varuhuskedja har man samlat in data om försäljning och arbetstimmar per vecka och fått uppgifterna nedan. 1. Vilka variabler motsvarar, troligtvis, variablerna Y och X i modellen ovan? Motivera. 2. Rita ett spridningsdiagram mellan veckoförsäljning och arbetstimmar per vecka. Kommentera ett eventuellt samband. Varuhus nr Veckoförsäljning (1000 tals kr) Arbetstimmar per vecka 1 180 170 2 210 190 3 165 170 4 300 200 5 120 160 6 240 220 1

3. Skatta 0 och 1 i modellen ovan. Tolka skattningarna. 4. Rita in den skattade linjen i spridningsdiagrammet. 5. Testa, på 5% signi kansnivå, om det nns ett samband mellan veckoförsäljning och arbetstimmar per vecka, d.v.s. testa H 0 : 1 = 0: Tolka resultatet. 6. Diskutera skillnaden mellan korrelation och kausalitet. Kan du anta att X påverkar Y i det här fallet? Diskutera kritiskt. 7. Skatta veckoförsäljningen för ett varuhus med 180 arbetstimmar per vecka. 8. Beräkna ett 95%-igt prediktionsintervall runt din skattning i 7. ovan. Tolka intervallet. 9. Diskutera skillnaden mellan ett kon densintervall och ett prediktionsintervall. 2 Korrelationskoe cienten (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) forts. från uppgift 1 ovan 1. Beräkna stickprovskorrelationskoe cienten r mellan veckoförsäljning och arbetstimmar per vecka för materialet i uppgift 1 ovan. 2. Testa H 0 : = 0 på 5% signi kansnivå. Tolka resultatet och jämför med uppgift 1.5 ovan. 3 Multipel regressionsanalys Vi är intresserade av att undersöka relationen mellan konsumtion av lösgodis och pris för ett visst märke. Från 20 st områden samlar vi in uppgifter om konsumtion (mätt i mängden sålt lösgodis under en speci k vecka) samt pris. Vi har dessutom samlat in uppgifter om storleken på befolkningen i respektive område samt huruvida det nns någon a är i närheten som säljer lösgodis av ett annat märke. Vi antar följande modell: Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + 2

Beroendevariabel: y Antal lästa observationer 20 Antal använda observationer 20 Variansanalys Summa av Medel Källa DF kvadrater kvadrat F värde Modell 695.2577 Fel Korrigerad total 1268.55 E där Y motsvarar konsumtion (i kg), X 1 motsvarar hektopris (i kr.), X 2 motsvarar folkmängd (i 1000-tal) och X 3 är kodad 1 om det nns en a är inom en radie av 500 meter som säljer lösgodis och 0 annars. SAS-utskrifter från en regressionsanalys nns ovan. 1. Fyll i de uppgifter som saknas i SAS-utskriften (ANOVA-tablån). 2. Hur stor variation i Y kan förklaras med hjälp av X 1 ; X 2 och X 3? (tips: beräkna R 2 ) 3. Vilka statistiska antaganden bygger modellen ovan på? 4 Hypotestest forts. från uppgift 3 ovan. 1. Testa om modellen i uppgift 3 ovan som helhet är signi kant. Använd = 0:05: (tips: testa H 0 : 1 = 2 = 3 = 0) 2. Testa, på 5% signi kansnivå, om hektopriset behövs i modellen, d.v.s. testa om X 1 bidrar till att skatta Y givet att X 2 och X 3 nns med i modellen. (tips: genomför ett t-test). Använd SAS-utskriften på nästa sida till hjälp. 3. Beräkna ett 95%-igt kon densintervall för den sanna parametern 1. Tolka intervallet. 3

Parameterskattningar Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 60.1473 3.56479 x1 1 4.2189 0.71566 x2 1 7.59239 1.70160 x3 1 10.580 3.54449 5 Hypotestest En mäklare vill planera försäljningen av villor. Hon är främst intresserad av sambandet mellan försäljning och annonsvolym. Hon samlar in uppgifter om försäljning, Y (milj. kr), folkmängd, X 1 (100 000 pers.) och annonsvolym, X 2 (10 000 kr) i 11 distrikt. Hon funderar på två möjliga modeller: Modell 1: Y = 0 + 1 X 1 + 2 X 2 + E Modell 2: Y = 0 + 1 X 1 + E På nästa sida nns en SAS-utskrift från analys av modell 1. 1. Fyll i det som saknas i utskriften. 2. Testa, på 5% signi kansnivå, om modell 1 som helhet är signi kant. 3. Testa, på 5% signi kansnivå, om annonsvolym bidrar till att förklara variation i försäljning, utöver bidraget från befolkning. 4

Modell 1 Beroendevariabel: y Antal lästa observationer 11 Antal använda observationer 11 Variansanalys Modell??? 28.04 0.0002 Fel?? 1.060039 Korrigerad total? 67.92727 Rot MSE? R kvadrat? Beroende medel 5.74545 Koeff.var. 17.91927 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1? 0.78426 0.86 0.4137 x1 1 0.68849? 2.23 0.0561 x2 1 0.34150 0.36737? 0.3798 6 Korrelationer (baserad på exempel 3.2 i Andersson, Jorner, Ågren (2009)) På nästa sida nns uppgifter om oljeförbrukning (Y ), medeltemperatur (X 1 ) och bostadsyta (X 2 ) för ett stickprov av villaägare under 10 månader. Där visas även en korrelationsmatris för variablerna. 1. Kommentera korrelationerna i korrelationsmatrisen. 2. Rita ett spridningsdiagram mellan oljeförbrukning och medeltemperatur. Kommentera diagrammet. 3. Beräkna, för hand, stickprovskorrelationen mellan oljeförbrukning och medeltemperatur och veri era att den stämmer med korrelationsmatrisen pånästa sida. 4. Testa, på 5% signi kansnivå H 0 : Y 1 = 0: Jämför ditt resultat med motsvarande p-värde i korrelationsmatrisen. 5

Månad Oljeförbrukning (liter) Medeltemperatur (Celsius) Bostadsyta (kvm) Jul 70 17.8 170 Aug 100 16.6 210 Sep 185 12.2 150 Okt 300 7.1 190 Nov 310 2.8 110 Dec 650 0.1 250 Jan 525 2.9 140 Feb 640 3.1 155 Mar 550 0.7 180 Apr 275 4.4 130 Y X 1 X 2 Y 1 0.928 p = 0.000 0.178 p = 0.623 X 1 1 0.151 p = 0.677 X 2 1 6

7 Korrelationer (baserad på exempel 3.2 i Andersson, Jorner, Ågren (2009)) forts. från uppgift 6. För materialet i uppgift 6 har man efter en regressionsanalys i SAS fått följande skattade ekvation: b Y = 219:37 27:23X 1 + 1:72X 2. 1. Beräkna den multipla korrelationskoe cienten R. (tips: skapa en kolumn med b Y för varje observation i tabellen i uppgift 6 ovan) 2. Förklara vad R mäter, d.v.s. vad är det för korrelation som mäts? 3. Hur stor variation i Y kan förklaras med hjälp av X 1 och X 2? 8 Dummyvariabler 1. Ge ett exempel på en kategorisk variabel med två kategorier. 2. De niera en eller era dummyvariabler som kan användas om du vill ha med din kategoriska variabel (i 1 ovan) i en regressionsmodell. 3. Ge ett exempel på en kategorisk variabel med minst tre kategorier. 4. De niera en eller era dummyvariabler som kan användas om du vill ha med din kategoriska variabel (i 3 ovan) i en regressionsmodell. 9 Dummyvariabler Du har antagit följande modell: Y = 0 + 1 X 1 + 2 X 2 + 3 Z+ 4 X 1 Z+E där Y =pris (1000-tals kr), X 1 =yta (kvm), X 2 =avgift (1000-tals kr) och Z=ort (Hammarby Sjöstad = 1, Haninge = 0). Du har samlat in uppgifter från Hemnet.se om lägenheter och genomfört en regressionsanalys (se SAS-utskrift på nästa sida). 1. Skriv modellen som två modeller, en för Hammarby Sjöstad och en för Haninge. 2. Är modellen (totala) som helhet signi kant? Testa på 5% signi kansnivå. 7

Dependent Variable: pris Sum of Source DF Squares Mean Square F Value Pr > F Model 4 99639481.8 24909870.4 Error 44 Corrected Total 48 107843713.4 Standard Parameter Estimate Error t Value Pr > t Intercept 233.6921041 503.8277915 yta 6.6037860 9.4855847 avgift 185.0192623 126.0260655 ort 296.6078443 603.2678530 yta*ort 30.2291286 7.1213234 3. Hur många lägenheter har ingått i analysen? 4. Hur stor variation i pris förklaras av de oberoende variablerna? 5. Hur mycket förväntas priset öka per kvm i Hammarby Sjöstad om avgiften är konstant? I Haninge? 6. Skiljer sig sambandet mellan pris och yta åt i Hammarby Sjöstad och i Haninge? Genomför ett lämpligt hypotestest på 1% signi kansnivå. 7. Du tror att sambandet mellan pris och avgift ser olika ut i Hammarby Sjöstad och Haninge. Lägg till en term till modellen ovan så att det blir möjligt att testa detta. 10 Polynomregression (baserad på 4.1 i Andersson, Jorner, Ågren (2009)) Skissera, för X = 0, 1,..., 5, utseendet av följande funktioner: 1. b Y = 5 + X 0:2X 2 2. b Y = 5 2X + 0:5X 2 8

11 Polynomregression (baserad på 4.2 i Andersson, Jorner, Ågren (2009)) En butiksinnehavare i USA är intresserad av sambandet mellan antal reklamtillfällen per dag över det lokala radionätet (X) och den dagliga omsättningen, i dollar, av en viss vara (Y ). Följande observationer föreligger: X 4 5 6 7 8 9 10 Y 780 790 810 850 900 980 1100 Ett linjärt och ett kvadratiskt samband har anpassats till de givna observationerna med nedanstående resultat: i) b Y = 529:6 + 51:1X; SSY = 82342:86; SSE = 9319:71; s bx = 8:16 ii) b Y = 995:7 93:9X+10:36X 2 ; SSE = 300:00, s bx = 13:33, s bx 2 = 0:95 1. Rita ett spridningsdiagram mellan X och Y. Kommentera diagrammet. 2. Testa, på 5% signi kansnivå, om andragradsmodellen som helhet är signi kant. 3. Testa, på 5% signi kansnivå, om den kvadratiska termen behövs i modellen (ii). 4. Välj en av modellerna utifrån ditt test i 3. ovan. Beräkna förklaringsgraden för denna modell. Kommentera kritiskt. 12 Logistisk regression Antag att du vill undersöka sambandet mellan Y =betyg på sluttenta (godkänd = 1, underkänd = 0), och X 1 =GPA (Grade Point Averge = genomsnittsbetyg vid kursstart), X 2 =poäng på mitterminstenta och X 3 =inlärningsmetod (1 = ny, 0 = gammal). 1. Skriv upp en lämplig modell. 9

2. Antag att du har genomfört en analys och fått följande skattningar: by = 13:02 + 2:83X 1 + 0:0951X 2 + 2:3786X 3 : Beräkna sannolikheten att en student som använder den nya inlärningsmetoden, har GPA=3 samt 20 poäng på mitterminstenta får godkänt på sluttentan. 3. Beräkna sannolikheten att en student som inte använder den nya inlärningsmetoden, har GPA=3 samt 20 poäng på mitterminstenta får godkänt på sluttentan. 13 Tidsserieanalys Följande tabell visar försäljningen (i 1000-tal) av en viss vara första tertialet 2005 till första tertialet 2008. Ar T ertial1 T ertial2 T ertial3 2205 4 5 8 2006 5 4 10 2007 7 6 11 2008 7:5 På nästa sida visas en SAS-utskrift från en regressionsanalys med värden på försäljning som beroende (undersöknings-) variabel och tid t (t = 1; 2; 3; : : : ; 10), D1 (kodad 1 om tertial 1 och 0 annars) samt D2 (kodad 1 om terital 2 och 0 annars) som oberoende (förklarande) variabler. 1. Plotta försäljningen över tid i ett lämpligt diagram. Kommentera utvecklingen. 2. Skatta trend samt säsongkomponenter i en additiv modell där trenden kan antas följa en linjär funktion. 3. Tolka säsongkomponenterna. 4. Gör prognoser för andra och tredje tertialen 2008. 10

Beroendevariabel: försäljning Antal lästa observationer 10 Antal använda observationer 10 Variansanalys Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Modell 3 62.3778 20.79259 147.25 <.0001 Fel 6 0.84722 0.141204 Korrigerad total 9 63.2250 Rot MSE 0.37577 R kvadrat 0.9866 Beroende medel 6.55 Just. R kvadr. 0.9799 Parameterskattningar Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 6.94444 0.33140 20.95 <.0001 t 1 0.45370 0.04175 10.87 <.0001 D1 1 3.5648 0.28776 12.39 <.0001 D2 1 4.8796 0.30964 15.76 <.0001 14 Tidsserieanalys Följande tabell visar försäljningen (i 1000-tal) av en viss vara varje kvartal mellan 2008 och 2010. Ar Kvartal1 Kvartal2 Kvartal3 Kvartal4 2008 11 13 9 15 2009 12 14 8 18 2010 13 16 7 21 1. Plotta försäljningen över tid i ett lämpligt diagram. Kommentera utvecklingen. 2. Bör du använda en additiv eller multiplikativ modell för att uppskatta säsongkomponenter till materialet ovan? Motivera. 11

3. Antag att du vill använda regressionsanalys för att skatta en modell som kan användas för att göra en prognos för första kvartalet 2010. Skriv upp modellen samt de niera alla dess termer. 12