Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs igenom kap 2 som är repetition.
Kursens upplägg Innehåll: Regressionsanalys Efterfrågemodeller index Tidsserieanalys Examination: Skriftlig tentamen och två projekt. Tentamen den 5 december Projekt : Efterfrågeanalys Projekt 2: Tidsserieanalys Lärare: Lotta Hallberg och Isak Hietala Plus några labbassistenter. Litteratur: Bowerman, O.Connel, Koehler & Brooks (2005) 4th ed. Forecasting,time series, and regression. Brooks. All information ges på kurshemsidan http://www.ida.liu.se/~732g7/ 2
Kursens upplägg Föreläsningar Teori gås igenom. Presentationer läggs ut på kurshemsidan Laborationer MINITAB. Ladda ner från studentportalen 6 st. Ej obligatoriska men mycket viktiga Bokad labbtid med assistenter finns Gör gärna labben var du vill. Lösning på labb läggs ut succesivt. Lektioner Övningsuppgifter räknas av lärare på tavlan Räkna helst uppgifterna i förväg så att du kan ställa frågor Räknestuga Ni räknar själva Ställ frågor till lärare ang uppgifter, projekt, teori osv 3
Introduktion till ämnet Regressionsanalys: Hur samspelar variabler? Samspelet kan vara dubbelriktat eller enkelriktat. Oftast är samspel enkelriktade, vi talar då om kausalitet, orsakssamband eller regression. Det är EN variabel som vi är intresserade av. Vilka andra variabler påverkar vår variabel? Denna fråga är väsentlig i regressionsanalys. Några ex på vita tavlan: Dubbelriktat samband kan vi mäta med korrelation. Enkelriktat samband kan vi mäta med regression. 4
Observationer på några lägenheter i Uppsala år 2005 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 5
8000 Regression Plot Enkel linjär regression: hyran kan delvis Hyra = 720.923 + 60.5329 Kv-meter förklaras av lägenhetsstorlek S = 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 6
Samband kan vara krökta. Kvadratisk regression Regression Plot C2 = 3038.02-4.742 C +.0385 C**2 S = 454.009 R-Sq = 96.4 % R-Sq(adj) = 96.0 % 2000 C2 7000 2000 30 40 50 60 70 C 80 90 00 0 20 7
Efterfrågeanalys: Efterfrågan förklaras av priset. Priselasticiteten kan skattas. 8
Index
Index
Fortsatt introduktion till ämnet Tidsserieanalys: Karaktäristiskt är att vi studerar EN variabel i tiden. Detta gör att vi får ett beroende mellan värdena på grund av tiden. Tidsberoendet kan förklaras med värden vid tidigare tidpunkter eller med tidstrend, säsongsvariation. Även andra förklarande variabler som ex kön kan tas med Ex på vita tavlan.
Tidserieanalys: Analysera seriens utseende och/eller gör prognos 400 390 380 370 Trade 360 350 340 330 320 30 Index 0 20 30 40 50 60 2
Varför behövs regressionsanalys? Värdet på responsvariabeln (t.ex. hyra) varierar med värdet på den förklarande variabeln (t.ex storlek på lägenheten): Vi kan använda informationen om lägenhetsstorleken för att göra en bättre skattning/prediktion av den förväntade hyran eller av hyran för en lägenhet av en speciell typ Vi kan beskriva och tolka sambandet mellan variabler. 3
Hur mycket betalar man Regression (i genomsnitt) Plot i hyra om man har en lägenhet på 50 kvadratmeter? 8000 Hyra = 720.923 + 60.5329 Kv-meter S = 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 ca 3747.6 SEK 4
För varje ytterligare kvadratmeter i lägenhetsyta får man i Regression Plot snitt betala ca 60 kronor mer i månaden. 8000 Hyra = 720.923 + 60.5329 Kv-meter S = 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 0 kvadratmeter mer = 605 SEK 5
När får en ekonom nytta av denna teori? Analytiker Controller Revisor Marknadsförare Utredare Ex : Reporäntan Aktiekurser Volatilitet Prognos och prediktion Chock händelser (krig) Efterfrågan/popularitet
Reporänta med osäkerhetsintervall Procent, kvartalsmedelvärden
Kap 3,: Enkel linjär regression: Till datamaterialet kan vi anpassa en rät linje: yˆ b0 b x som är en skattning av det verkliga sambandet (det som vi skulle kunna observera om vi visste hyran och ytan på alla lägenheter som finns): E (y ) = μ y x = 0 + x eller y = μ y x + e = 0 + x + e 8
Kap 3,2: Hur anpassar man en rät linje till ett Regression Plot datamaterial? Man Hyra väljer = 720.923 linjen + 60.5329 som Kv-meter har det minsta avståndet till allas = observationer. 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 8000 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 9
Detta görs genom Minsta-kvadrat-metoden : Summan av Regression Plot alla kvadrerade avstånd ska bli så liten som möjligt. 8000 Hyra = 720.923 + 60.5329 Kv-meter S = 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 20
2 Minsta-kvadrat-skattningen för enkel linjär regression x b y b SS SS x x y y x x b xx xy n i i n i i i 0 2 n i i n i i x n x y n y,
Tillbaka till ex med lägenheter Här är hela datamaterialet Kv-meter Hyra x i *y i x i *x i 6 4490 6*4490= 273890 372 50 32 60550 2500 32 3265 04480 024 74 4750 35500 5476 6 4063 247843 372 70 547 382870 4900 52 420 24240 2704 64 5432 347648 4096 65 5020 326300 4225 38 352 33456 444 37 2456 90872 369 37 2560 94720 369 50 379 58950 2500 7 70 83870 3689 86 709 603634 7396 50 399 59950 2500 73 4953 36569 5329 77 5623 43297 5929 52 399 203788 2704 56 3898 28288 336 92 629 57248 8464 Σ 294 93469 627637 8896 22
Alltså: Skattningen av regressionslinjen är yˆ b0 b x yˆ 720.92 60. 5329 x För varje ytterligare kvadratmeter i lägenhetsyta kommer man i genomsnitt betala 60.53 kronor mer i hyra. För en lägenhet med 0 kvadratmeter kommer man att betala 720.92 kronor i hyra (??!?) 23
Kap 3,3-3,5: Statistisk slutledning (Inference) i regressionsmodellen Signifikanstest för parametrarna 0 och. t.ex. ökar hyran verkligen med storleken på lägenheten, eller skulle man kunna sätta b =0? Konfidensintervall för parametrarna 0 och. Konfidensintervall för ett medelvärde av y (givet x). Prediktionsintervall för en individuell prognos av y (givet x). För att kunna göra signifikanstest och för att kunna beräkna konfidensintervall måste vi göra vissa antaganden. 24
Antagande i regressionsmodellen Modell: y = 0 + x + e Feltermen e har medelvärde 0 och varians s 2. (Variansen är konstant över hela datamaterialet) Feltermen e är normalfördelad. Feltermen e är statistisk oberoende. Varje värde för e är oberoende av alla andra värden av e. Hur man undersöker om feltermen verkligen uppfyller de här kraven kommer vi att se senare (residualanalys). Feltermens varians s 2 måste skattas. 25
Hur bestämmer man s 2, skattningen av σ 2, variansen av feltermen? I ett vanligt stickprov bestäms s som stickprovsvariansen: sˆ 2 s 2 n n y i y i 2 I regressionssammanhang gör vi på ett liknande sätt, men vi måste ta hänsyn till den del av variationen i datamaterialet som kan förklaras av x. sˆ 2 s 2 e n 2 n y i b0 b xi i ŷ i 2 Residual 26
Kv-meter Hyra b 0 +b *x i y i -(b 0 +b x i ) 6 4490 720.92+60.53*6= 443.25 76.75 50 32 3747.42-536.42 32 3265 2657.88 607.2 74 4750 5200.4-450.4 6 4063 443.25-350.25 70 547 4958.02 52.98 52 420 3868.48 25.52 64 5432 4594.84 837.6 65 5020 4655.37 364.63 38 352 302.06 490.94 37 2456 2960.53-504.53 37 2560 2960.53-400.53 50 379 3747.42-568.42 7 70 7802.93-692.42 86 709 5926.5 092.5 50 399 3747.42-548.42 73 4953 539.6-86.6 77 5623 538.73 24.27 52 399 3868.48 50.52 56 3898 40.6-22.6 92 629 6289.68-70.68 Residualerna 27
Signifikanstest för parametrarna 0 och Nollhypotesen: H 0 : =0 Alternativhypotesen: H : 0 t-test: Skattning Nollhypotes t b s b 0 Standardavvikelse för skattningen av b (standard error) t-fördelad med n-2 frihetsgrader 28
Hur beräknar man s b, skattningen för s b? s b s SS xx I vårt fall: s b 27662.5 8460.95 525.56 9.98342 5.732 29
Signifikanstest för b : t b 0 60.53 s b 5.7 0.6 Jämför med t-fördelningen med 9 frihetsgrader. högt signifikant Slutsats: Lutningen i regressionsmodellen är signifikant skild från noll. Ytan på en lägenhet har betydelse för hur hög hyran är. Ju större lägenhet desto högre hyra (positivt samband). Signifikanstest för interceptet se sidan 07 i boken. 30
Konfidensintervall för lutningen : Med hjälp av skattningarna vi har tagit fram, kan vi även beräkna ett konfidensintervall för. 60.53 2.0935.7 60.53 2.0935.7 48.58 b t n 2 s 2 b 72.48 Med 95% säkerhet täcker intervallet (48.58 72.48). 3
Ett datorprogram, som MINITAB, kan beräkna en regressionsanalys åt oss. Där får vi ut t.ex.: Regressionslinjen Parameterskattningar, b 0 och b Signifikanstest för 0 och Skattningen s (residualspridningen) 32
Regression Analysis: Hyra versus Kv-meter esidualspridningen The regression equation is Hyra = 72 + 60.5 Kv-meter Regressionslinjen Predictor Coef SE Coef T P Constant 720.9 370.2.95 0.066 Kv-meter 60.533 5.73 0.60 0.000 S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8% t-tester och dess p- värden Parameterskattningar och dess standardavvikelser Analysis of Variance Source DF SS MS F P Regression 3002923 3002923 2.26 0.000 Residual Error 9 5247087 27662 Total 20 3625000 Konfidensintervall för parametrarna 0 och måste man dock beräkna själv. 33
Kap 3,6: Punktskattningar och punktprognoser För ett givet värde på x (säg x 0 ) kan man skatta det genomsnittliga värdet på y (Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?) prediktera värdet på y för en ny observation (Hur mycket kommer just den här lägenheten på 60 kvadratmeter att kosta i hyra?) Både punktskattningen och punktprognosen beräknas som: yˆ b 0 b x 0 34
Punktskattningar och punktprognoser är naturligtvis osäkra. Därför ska man helst ange dem tillsammans med ett intervall: Punktskattningen med ett konfidensintervall för E[y] yˆ n 2 t s 2 Distance value och punktprognosen med ett prediktionsintervall för y yˆ n 2 t s 2 Distance value Distance value anger hur centralt x 0 -värdet är I datamaterialet. 35
Distance value n x 0 x i x 2 x 2 x För ett x 0 som ligger nära får vi ett litet distance value och därför även ett smalare konfidens- eller predikitonsintervall. 36
Hur stor är den förväntade hyran för en lägenhet på 60 kvadratmeter i genomsnitt? ˆ 0 y b0 b x 720.92 60.5360 4352.72 Distance value n x 0 x i x 2 x 2 2 60 6.69 8460.9524 2 0.0479 37
Hur stor är den förväntade hyran för en lägenhet på 60 kvadratmeter i genomsnitt? yˆ n 2 t s 2 Distance value 4352.72 2.093525.5 0.0479 4352.72 2.093525.5 42 4593.5 0.0479 Med 95% säkerhet kommer den förväntatde hyran att ligga mellan 42 och 4593.3 kronor i månaden.enligt modellen 38
Hur mycket kommer jag att betala om jag hyr just en lägenhet av denna typ, dvs 60 kvadratmeter? ˆ 0 y b0 b x 720.92 60.5360 enda skillnaden 4352.72 yˆ n 2 t 2 s Distance value 4352.72 2.093525.5 0.0479 4352.72 2.093525.5 0.0479 3226.8 5478.63 Med 95% säkerhet kommer hyran för just en lägenhet av denna typ ligga mellan 3226.8 och 5478.63 kronor i månaden enligt modellen. 39
Även punktskattningar och punktprognoser kan beräknas med hjälp av MINITAB The regression equation is Hyra = 72 + 60.5 Kv-meter Predictor Coef SE Coef T P Constant 720.9 370.2.95 0.066 Kv-meter 60.533 5.73 0.60 0.000 S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8%... Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 4353 5 ( 42, 4594) ( 3227, 5479) Values of Predictors for New Observations New Obs Kv-meter 60.0 40