Övningshäfte till kursen Regressionsanalys och tidsserieanalys



Relevanta dokument
Övningshäfte till kursen Regressionsanalys och tidsserieanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tidsserier. Data. Vi har tittat på två typer av data

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

F11. Kvantitativa prognostekniker

Multipel Regressionsmodellen

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F3

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

10.1 Enkel linjär regression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Del A: Schema för ifyllande av svar nns på sista sidan

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Höftledsdysplasi hos dansk-svensk gårdshund

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F5

Regressions- och Tidsserieanalys - F3

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Provmoment: Forskningsmetod, Salstentamen nr 1 Ladokkod:

Laboration 2 multipel linjär regression

Regressions- och Tidsserieanalys - F7

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F19, (Multipel linjär regression forts) och F20, Chi-två test.

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Föreläsning 13: Multipel Regression

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

MSG830 Statistisk analys och experimentplanering

Medicinsk statistik II

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: )

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

TENTAMEN I STATISTIK B,

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Preliminär elmarknadsstatistik per månad för Sverige 2014

Föreläsning G60 Statistiska metoder

Sänkningen av parasitnivåerna i blodet

Uppgift 1. Deskripitiv statistik. Lön

Finansiell statistik. Multipel regression. 4 maj 2011

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Maximalt antal poäng för hela skrivningen är28 poäng. För Godkänt krävs minst 17 poäng. För Väl Godkänt krävs minst 22,5 poäng.

Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: )

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp)

InStat Exempel 4 Korrelation och Regression

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Matematisk statistik för D, I, Π och Fysiker

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Uppgift a b c d e f (vet ej) Poäng

STOCKHOLMS UNIVERSITET HT 2010 Statistiska institutionen Linda Wänström (moment 1 och 2) Jörgen Säve-Söderbergh (moment 3 och 4)

Maximalt antal poäng för hela skrivningen är 31 poäng. För Godkänt krävs minst 19 poäng. För Väl Godkänt krävs minst 25 poäng.

OBS! Vi har nya rutiner.

2016, Arbetslösa samt arbetslösa i program i GR i åldrarna år

Preliminär elmarknadsstatistik per månad för Sverige 2014

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Föreläsning 12: Linjär regression

TENTAMEN I MATEMATISK STATISTIK

Tentamen MVE301 Sannolikhet, statistik och risk

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Vad Betyder måtten MAPE, MAD och MSD?

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Skrivning i ekonometri lördagen den 25 augusti 2007

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen Tillämpad statistik A5 (15hp)

Multipel regression och Partiella korrelationer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 12: Regression

MVE051/MSG Föreläsning 14

OBS! Vi har nya rutiner.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Transkript:

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande statistiska modell kan användas för att beskriva sambandet mellan veckoförsäljning och arbetstimmar per vecka: Y = 0 + 1 X + E: För en varuhuskedja har man samlat in data om försäljning och arbetstimmar per vecka och fått uppgifterna nedan. 1. Vilka variabler motsvarar, troligtvis, variablerna Y och X i modellen ovan? Motivera. 2. Rita ett spridningsdiagram mellan veckoförsäljning och arbetstimmar per vecka. Kommentera ett eventuellt samband. Varuhus nr Veckoförsäljning (1000 tals kr) Arbetstimmar per vecka 1 180 170 2 210 190 3 165 170 4 300 200 5 120 160 6 240 220 1

3. Skatta 0 och 1 i modellen ovan. Tolka skattningarna. 4. Rita in den skattade linjen i spridningsdiagrammet. 5. Testa, på 5% signi kansnivå, om det nns ett samband mellan veckoförsäljning och arbetstimmar per vecka, d.v.s. testa H 0 : 1 = 0: Tolka resultatet. 6. Diskutera skillnaden mellan korrelation och kausalitet. Kan du anta att X påverkar Y i det här fallet? Diskutera kritiskt. 7. Skatta veckoförsäljningen för ett varuhus med 180 arbetstimmar per vecka. 8. Beräkna ett 95%-igt prediktionsintervall runt din skattning i 7. ovan. Tolka intervallet. 9. Diskutera skillnaden mellan ett kon densintervall och ett prediktionsintervall. 2 Korrelationskoe cienten (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) forts. från uppgift 1 ovan 1. Beräkna stickprovskorrelationskoe cienten r mellan veckoförsäljning och arbetstimmar per vecka för materialet i uppgift 1 ovan. 2. Testa H 0 : = 0 på 5% signi kansnivå. Tolka resultatet och jämför med uppgift 1.5 ovan. 3 Multipel regressionsanalys Vi är intresserade av att undersöka relationen mellan konsumtion av lösgodis och pris för ett visst märke. Från 20 st områden samlar vi in uppgifter om konsumtion (mätt i mängden sålt lösgodis under en speci k vecka) samt pris. Vi har dessutom samlat in uppgifter om storleken på befolkningen i respektive område samt huruvida det nns någon a är i närheten som säljer lösgodis av ett annat märke. Vi antar följande modell: Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + 2

Beroendevariabel: y Antal lästa observationer 20 Antal använda observationer 20 Variansanalys Summa av Medel Källa DF kvadrater kvadrat F värde Modell 695.2577 Fel Korrigerad total 1268.55 E där Y motsvarar konsumtion (i kg), X 1 motsvarar hektopris (i kr.), X 2 motsvarar folkmängd (i 1000-tal) och X 3 är kodad 1 om det nns en a är inom en radie av 500 meter som säljer lösgodis och 0 annars. SAS-utskrifter från en regressionsanalys nns ovan. 1. Fyll i de uppgifter som saknas i SAS-utskriften (ANOVA-tablån). 2. Hur stor variation i Y kan förklaras med hjälp av X 1 ; X 2 och X 3? (tips: beräkna R 2 ) 3. Vilka statistiska antaganden bygger modellen ovan på? 4 Hypotestest forts. från uppgift 3 ovan. 1. Testa om modellen i uppgift 3 ovan som helhet är signi kant. Använd = 0:05: (tips: testa H 0 : 1 = 2 = 3 = 0) 2. Testa, på 5% signi kansnivå, om hektopriset behövs i modellen, d.v.s. testa om X 1 bidrar till att skatta Y givet att X 2 och X 3 nns med i modellen. (tips: genomför ett t-test). Använd SAS-utskriften på nästa sida till hjälp. 3. Beräkna ett 95%-igt kon densintervall för den sanna parametern 1. Tolka intervallet. 3

Parameterskattningar Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1 60.1473 3.56479 x1 1 4.2189 0.71566 x2 1 7.59239 1.70160 x3 1 10.580 3.54449 5 Hypotestest En mäklare vill planera försäljningen av villor. Hon är främst intresserad av sambandet mellan försäljning och annonsvolym. Hon samlar in uppgifter om försäljning, Y (milj. kr), folkmängd, X 1 (100 000 pers.) och annonsvolym, X 2 (10 000 kr) i 11 distrikt. Hon funderar på två möjliga modeller: Modell 1: Y = 0 + 1 X 1 + 2 X 2 + E Modell 2: Y = 0 + 1 X 1 + E På nästa sida nns en SAS-utskrift från analys av modell 1. 1. Fyll i det som saknas i utskriften. 2. Testa, på 5% signi kansnivå, om modell 1 som helhet är signi kant. 3. Testa, på 5% signi kansnivå, om annonsvolym bidrar till att förklara variation i försäljning, utöver bidraget från befolkning. 4

Modell 1 Beroendevariabel: y Antal lästa observationer 11 Antal använda observationer 11 Variansanalys Modell??? 28.04 0.0002 Fel?? 1.060039 Korrigerad total? 67.92727 Rot MSE? R kvadrat? Beroende medel 5.74545 Koeff.var. 17.91927 Parameterskattningar Summa av Medel Källa DF kvadrater kvadrat F värde Sh. > F Parameter Standard Variabel DF skattning fel t värde Pr > t Skärning 1? 0.78426 0.86 0.4137 x1 1 0.68849? 2.23 0.0561 x2 1 0.34150 0.36737? 0.3798 6 Korrelationer (baserad på exempel 3.2 i Andersson, Jorner, Ågren (2009)) På nästa sida nns uppgifter om oljeförbrukning (Y ), medeltemperatur (X 1 ) och bostadsyta (X 2 ) för ett stickprov av villaägare under 10 månader. Där visas även en korrelationsmatris för variablerna. 1. Kommentera korrelationerna i korrelationsmatrisen. 2. Rita ett spridningsdiagram mellan oljeförbrukning och medeltemperatur. Kommentera diagrammet. 3. Beräkna, för hand, stickprovskorrelationen mellan oljeförbrukning och medeltemperatur och veri era att den stämmer med korrelationsmatrisen pånästa sida. 4. Testa, på 5% signi kansnivå H 0 : Y 1 = 0: Jämför ditt resultat med motsvarande p-värde i korrelationsmatrisen. 5

Månad Oljeförbrukning (liter) Medeltemperatur (Celsius) Bostadsyta (kvm) Jul 70 17.8 170 Aug 100 16.6 210 Sep 185 12.2 150 Okt 300 7.1 190 Nov 310 2.8 110 Dec 650 0.1 250 Jan 525 2.9 140 Feb 640 3.1 155 Mar 550 0.7 180 Apr 275 4.4 130 Y X 1 X 2 Y 1 0.928 p = 0.000 0.178 p = 0.623 X 1 1 0.151 p = 0.677 X 2 1 6

7 Korrelationer (baserad på exempel 3.2 i Andersson, Jorner, Ågren (2009)) forts. från uppgift 6. För materialet i uppgift 6 har man efter en regressionsanalys i SAS fått följande skattade ekvation: b Y = 219:37 27:23X 1 + 1:72X 2. 1. Beräkna den multipla korrelationskoe cienten R. (tips: skapa en kolumn med b Y för varje observation i tabellen i uppgift 6 ovan) 2. Förklara vad R mäter, d.v.s. vad är det för korrelation som mäts? 3. Hur stor variation i Y kan förklaras med hjälp av X 1 och X 2? 8 Dummyvariabler 1. Ge ett exempel på en kategorisk variabel med två kategorier. 2. De niera en eller era dummyvariabler som kan användas om du vill ha med din kategoriska variabel (i 1 ovan) i en regressionsmodell. 3. Ge ett exempel på en kategorisk variabel med minst tre kategorier. 4. De niera en eller era dummyvariabler som kan användas om du vill ha med din kategoriska variabel (i 3 ovan) i en regressionsmodell. 9 Dummyvariabler Du har antagit följande modell: Y = 0 + 1 X 1 + 2 X 2 + 3 Z+ 4 X 1 Z+E där Y =pris (1000-tals kr), X 1 =yta (kvm), X 2 =avgift (1000-tals kr) och Z=ort (Hammarby Sjöstad = 1, Haninge = 0). Du har samlat in uppgifter från Hemnet.se om lägenheter och genomfört en regressionsanalys (se SAS-utskrift på nästa sida). 1. Skriv modellen som två modeller, en för Hammarby Sjöstad och en för Haninge. 2. Är modellen (totala) som helhet signi kant? Testa på 5% signi kansnivå. 7

Dependent Variable: pris Sum of Source DF Squares Mean Square F Value Pr > F Model 4 99639481.8 24909870.4 Error 44 Corrected Total 48 107843713.4 Standard Parameter Estimate Error t Value Pr > t Intercept 233.6921041 503.8277915 yta 6.6037860 9.4855847 avgift 185.0192623 126.0260655 ort 296.6078443 603.2678530 yta*ort 30.2291286 7.1213234 3. Hur många lägenheter har ingått i analysen? 4. Hur stor variation i pris förklaras av de oberoende variablerna? 5. Hur mycket förväntas priset öka per kvm i Hammarby Sjöstad om avgiften är konstant? I Haninge? 6. Skiljer sig sambandet mellan pris och yta åt i Hammarby Sjöstad och i Haninge? Genomför ett lämpligt hypotestest på 1% signi kansnivå. 7. Du tror att sambandet mellan pris och avgift ser olika ut i Hammarby Sjöstad och Haninge. Lägg till en term till modellen ovan så att det blir möjligt att testa detta. 10 Polynomregression (baserad på 4.1 i Andersson, Jorner, Ågren (2009)) Skissera, för X = 0, 1,..., 5, utseendet av följande funktioner: 1. b Y = 5 + X 0:2X 2 2. b Y = 5 2X + 0:5X 2 8

11 Polynomregression (baserad på 4.2 i Andersson, Jorner, Ågren (2009)) En butiksinnehavare i USA är intresserad av sambandet mellan antal reklamtillfällen per dag över det lokala radionätet (X) och den dagliga omsättningen, i dollar, av en viss vara (Y ). Följande observationer föreligger: X 4 5 6 7 8 9 10 Y 780 790 810 850 900 980 1100 Ett linjärt och ett kvadratiskt samband har anpassats till de givna observationerna med nedanstående resultat: i) b Y = 529:6 + 51:1X; SSY = 82342:86; SSE = 9319:71; s bx = 8:16 ii) b Y = 995:7 93:9X+10:36X 2 ; SSE = 300:00, s bx = 13:33, s bx 2 = 0:95 1. Rita ett spridningsdiagram mellan X och Y. Kommentera diagrammet. 2. Testa, på 5% signi kansnivå, om andragradsmodellen som helhet är signi kant. 3. Testa, på 5% signi kansnivå, om den kvadratiska termen behövs i modellen (ii). 4. Välj en av modellerna utifrån ditt test i 3. ovan. Beräkna förklaringsgraden för denna modell. Kommentera kritiskt. 12 Logistisk regression Antag att du vill undersöka sambandet mellan Y =betyg på sluttenta (godkänd = 1, underkänd = 0), och X 1 =GPA (Grade Point Averge = genomsnittsbetyg vid kursstart), X 2 =poäng på mitterminstenta och X 3 =inlärningsmetod (1 = ny, 0 = gammal). 1. Skriv upp en lämplig modell. 9

2. Antag att du har genomfört en analys och fått följande skattningar: by = 13:02 + 2:83X 1 + 0:0951X 2 + 2:3786X 3 : Beräkna sannolikheten att en student som använder den nya inlärningsmetoden, har GPA=3 samt 20 poäng på mitterminstenta får godkänt på sluttentan. 3. Beräkna sannolikheten att en student som inte använder den nya inlärningsmetoden, har GPA=3 samt 20 poäng på mitterminstenta får godkänt på sluttentan. 10