Statistik B Regressions- och tidsserieanalys Föreläsning 1

Relevanta dokument
Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning G60 Statistiska metoder

Regressions- och Tidsserieanalys - F4

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

10.1 Enkel linjär regression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F7

Metod och teori. Statistik för naturvetare Umeå universitet

Exempel 1 på multipelregression

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Regressions- och Tidsserieanalys - F3

Examinationsuppgifter del 2

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

TENTAMEN I STATISTIK B,

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Multipel Regressionsmodellen

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Exempel 1 på multipelregression

Matematisk statistik för D, I, Π och Fysiker

F13 Regression och problemlösning

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Tentamen Tillämpad statistik A5 (15hp)

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

TENTAMEN I MATEMATISK STATISTIK

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning 12: Regression

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen i Matematisk statistik Kurskod S0001M

Skrivning i ekonometri torsdagen den 8 februari 2007

Matematisk statistik för B, K, N, BME och Kemister

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Läs noggrant informationen nedan innan du börjar skriva tentamen

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Skrivning i ekonometri lördagen den 29 mars 2008

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Föreläsning G60 Statistiska metoder

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen Tillämpad statistik A5 (15hp)

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Laboration 4 R-versionen

Tentamen i Matematisk statistik Kurskod S0001M

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F5

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 12: Linjär regression

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Laboration 2 multipel linjär regression

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen i matematisk statistik

Matematisk statistik, Föreläsning 5

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Linjär regressionsanalys. Wieland Wermke

tentaplugg.nu av studenter för studenter

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Tentamen i Matematisk statistik Kurskod S0001M

LABORATION 3 - Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen i Matematisk statistik Kurskod S0001M

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Räkneövning 3 Variansanalys

Tentamen i Matematisk statistik Kurskod S0001M

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Grundläggande matematisk statistik

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

F11. Kvantitativa prognostekniker

Följande resultat erhålls (enhet: 1000psi):

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

LABORATION 3 - Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs igenom kap 2 som är repetition.

Kursens upplägg Innehåll: Regressionsanalys Efterfrågemodeller index Tidsserieanalys Examination: Skriftlig tentamen och två projekt. Tentamen den 5 december Projekt : Efterfrågeanalys Projekt 2: Tidsserieanalys Lärare: Lotta Hallberg och Isak Hietala Plus några labbassistenter. Litteratur: Bowerman, O.Connel, Koehler & Brooks (2005) 4th ed. Forecasting,time series, and regression. Brooks. All information ges på kurshemsidan http://www.ida.liu.se/~732g7/ 2

Kursens upplägg Föreläsningar Teori gås igenom. Presentationer läggs ut på kurshemsidan Laborationer MINITAB. Ladda ner från studentportalen 6 st. Ej obligatoriska men mycket viktiga Bokad labbtid med assistenter finns Gör gärna labben var du vill. Lösning på labb läggs ut succesivt. Lektioner Övningsuppgifter räknas av lärare på tavlan Räkna helst uppgifterna i förväg så att du kan ställa frågor Räknestuga Ni räknar själva Ställ frågor till lärare ang uppgifter, projekt, teori osv 3

Introduktion till ämnet Regressionsanalys: Hur samspelar variabler? Samspelet kan vara dubbelriktat eller enkelriktat. Oftast är samspel enkelriktade, vi talar då om kausalitet, orsakssamband eller regression. Det är EN variabel som vi är intresserade av. Vilka andra variabler påverkar vår variabel? Denna fråga är väsentlig i regressionsanalys. Några ex på vita tavlan: Dubbelriktat samband kan vi mäta med korrelation. Enkelriktat samband kan vi mäta med regression. 4

Observationer på några lägenheter i Uppsala år 2005 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 5

8000 Regression Plot Enkel linjär regression: hyran kan delvis Hyra = 720.923 + 60.5329 Kv-meter förklaras av lägenhetsstorlek S = 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 6

Samband kan vara krökta. Kvadratisk regression Regression Plot C2 = 3038.02-4.742 C +.0385 C**2 S = 454.009 R-Sq = 96.4 % R-Sq(adj) = 96.0 % 2000 C2 7000 2000 30 40 50 60 70 C 80 90 00 0 20 7

Efterfrågeanalys: Efterfrågan förklaras av priset. Priselasticiteten kan skattas. 8

Index

Index

Fortsatt introduktion till ämnet Tidsserieanalys: Karaktäristiskt är att vi studerar EN variabel i tiden. Detta gör att vi får ett beroende mellan värdena på grund av tiden. Tidsberoendet kan förklaras med värden vid tidigare tidpunkter eller med tidstrend, säsongsvariation. Även andra förklarande variabler som ex kön kan tas med Ex på vita tavlan.

Tidserieanalys: Analysera seriens utseende och/eller gör prognos 400 390 380 370 Trade 360 350 340 330 320 30 Index 0 20 30 40 50 60 2

Varför behövs regressionsanalys? Värdet på responsvariabeln (t.ex. hyra) varierar med värdet på den förklarande variabeln (t.ex storlek på lägenheten): Vi kan använda informationen om lägenhetsstorleken för att göra en bättre skattning/prediktion av den förväntade hyran eller av hyran för en lägenhet av en speciell typ Vi kan beskriva och tolka sambandet mellan variabler. 3

Hur mycket betalar man Regression (i genomsnitt) Plot i hyra om man har en lägenhet på 50 kvadratmeter? 8000 Hyra = 720.923 + 60.5329 Kv-meter S = 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 ca 3747.6 SEK 4

För varje ytterligare kvadratmeter i lägenhetsyta får man i Regression Plot snitt betala ca 60 kronor mer i månaden. 8000 Hyra = 720.923 + 60.5329 Kv-meter S = 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 0 kvadratmeter mer = 605 SEK 5

När får en ekonom nytta av denna teori? Analytiker Controller Revisor Marknadsförare Utredare Ex : Reporäntan Aktiekurser Volatilitet Prognos och prediktion Chock händelser (krig) Efterfrågan/popularitet

Reporänta med osäkerhetsintervall Procent, kvartalsmedelvärden

Kap 3,: Enkel linjär regression: Till datamaterialet kan vi anpassa en rät linje: yˆ b0 b x som är en skattning av det verkliga sambandet (det som vi skulle kunna observera om vi visste hyran och ytan på alla lägenheter som finns): E (y ) = μ y x = 0 + x eller y = μ y x + e = 0 + x + e 8

Kap 3,2: Hur anpassar man en rät linje till ett Regression Plot datamaterial? Man Hyra väljer = 720.923 linjen + 60.5329 som Kv-meter har det minsta avståndet till allas = observationer. 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 8000 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 9

Detta görs genom Minsta-kvadrat-metoden : Summan av Regression Plot alla kvadrerade avstånd ska bli så liten som möjligt. 8000 Hyra = 720.923 + 60.5329 Kv-meter S = 525.52 R-Sq = 85.5 % R-Sq(adj) = 84.8 % 7000 6000 Hyra 5000 4000 3000 2000 30 40 50 60 70 80 Kv-meter 90 00 0 20 20

2 Minsta-kvadrat-skattningen för enkel linjär regression x b y b SS SS x x y y x x b xx xy n i i n i i i 0 2 n i i n i i x n x y n y,

Tillbaka till ex med lägenheter Här är hela datamaterialet Kv-meter Hyra x i *y i x i *x i 6 4490 6*4490= 273890 372 50 32 60550 2500 32 3265 04480 024 74 4750 35500 5476 6 4063 247843 372 70 547 382870 4900 52 420 24240 2704 64 5432 347648 4096 65 5020 326300 4225 38 352 33456 444 37 2456 90872 369 37 2560 94720 369 50 379 58950 2500 7 70 83870 3689 86 709 603634 7396 50 399 59950 2500 73 4953 36569 5329 77 5623 43297 5929 52 399 203788 2704 56 3898 28288 336 92 629 57248 8464 Σ 294 93469 627637 8896 22

Alltså: Skattningen av regressionslinjen är yˆ b0 b x yˆ 720.92 60. 5329 x För varje ytterligare kvadratmeter i lägenhetsyta kommer man i genomsnitt betala 60.53 kronor mer i hyra. För en lägenhet med 0 kvadratmeter kommer man att betala 720.92 kronor i hyra (??!?) 23

Kap 3,3-3,5: Statistisk slutledning (Inference) i regressionsmodellen Signifikanstest för parametrarna 0 och. t.ex. ökar hyran verkligen med storleken på lägenheten, eller skulle man kunna sätta b =0? Konfidensintervall för parametrarna 0 och. Konfidensintervall för ett medelvärde av y (givet x). Prediktionsintervall för en individuell prognos av y (givet x). För att kunna göra signifikanstest och för att kunna beräkna konfidensintervall måste vi göra vissa antaganden. 24

Antagande i regressionsmodellen Modell: y = 0 + x + e Feltermen e har medelvärde 0 och varians s 2. (Variansen är konstant över hela datamaterialet) Feltermen e är normalfördelad. Feltermen e är statistisk oberoende. Varje värde för e är oberoende av alla andra värden av e. Hur man undersöker om feltermen verkligen uppfyller de här kraven kommer vi att se senare (residualanalys). Feltermens varians s 2 måste skattas. 25

Hur bestämmer man s 2, skattningen av σ 2, variansen av feltermen? I ett vanligt stickprov bestäms s som stickprovsvariansen: sˆ 2 s 2 n n y i y i 2 I regressionssammanhang gör vi på ett liknande sätt, men vi måste ta hänsyn till den del av variationen i datamaterialet som kan förklaras av x. sˆ 2 s 2 e n 2 n y i b0 b xi i ŷ i 2 Residual 26

Kv-meter Hyra b 0 +b *x i y i -(b 0 +b x i ) 6 4490 720.92+60.53*6= 443.25 76.75 50 32 3747.42-536.42 32 3265 2657.88 607.2 74 4750 5200.4-450.4 6 4063 443.25-350.25 70 547 4958.02 52.98 52 420 3868.48 25.52 64 5432 4594.84 837.6 65 5020 4655.37 364.63 38 352 302.06 490.94 37 2456 2960.53-504.53 37 2560 2960.53-400.53 50 379 3747.42-568.42 7 70 7802.93-692.42 86 709 5926.5 092.5 50 399 3747.42-548.42 73 4953 539.6-86.6 77 5623 538.73 24.27 52 399 3868.48 50.52 56 3898 40.6-22.6 92 629 6289.68-70.68 Residualerna 27

Signifikanstest för parametrarna 0 och Nollhypotesen: H 0 : =0 Alternativhypotesen: H : 0 t-test: Skattning Nollhypotes t b s b 0 Standardavvikelse för skattningen av b (standard error) t-fördelad med n-2 frihetsgrader 28

Hur beräknar man s b, skattningen för s b? s b s SS xx I vårt fall: s b 27662.5 8460.95 525.56 9.98342 5.732 29

Signifikanstest för b : t b 0 60.53 s b 5.7 0.6 Jämför med t-fördelningen med 9 frihetsgrader. högt signifikant Slutsats: Lutningen i regressionsmodellen är signifikant skild från noll. Ytan på en lägenhet har betydelse för hur hög hyran är. Ju större lägenhet desto högre hyra (positivt samband). Signifikanstest för interceptet se sidan 07 i boken. 30

Konfidensintervall för lutningen : Med hjälp av skattningarna vi har tagit fram, kan vi även beräkna ett konfidensintervall för. 60.53 2.0935.7 60.53 2.0935.7 48.58 b t n 2 s 2 b 72.48 Med 95% säkerhet täcker intervallet (48.58 72.48). 3

Ett datorprogram, som MINITAB, kan beräkna en regressionsanalys åt oss. Där får vi ut t.ex.: Regressionslinjen Parameterskattningar, b 0 och b Signifikanstest för 0 och Skattningen s (residualspridningen) 32

Regression Analysis: Hyra versus Kv-meter esidualspridningen The regression equation is Hyra = 72 + 60.5 Kv-meter Regressionslinjen Predictor Coef SE Coef T P Constant 720.9 370.2.95 0.066 Kv-meter 60.533 5.73 0.60 0.000 S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8% t-tester och dess p- värden Parameterskattningar och dess standardavvikelser Analysis of Variance Source DF SS MS F P Regression 3002923 3002923 2.26 0.000 Residual Error 9 5247087 27662 Total 20 3625000 Konfidensintervall för parametrarna 0 och måste man dock beräkna själv. 33

Kap 3,6: Punktskattningar och punktprognoser För ett givet värde på x (säg x 0 ) kan man skatta det genomsnittliga värdet på y (Vad är hyran för en lägenhet på 60 kvadratmeter i genomsnitt?) prediktera värdet på y för en ny observation (Hur mycket kommer just den här lägenheten på 60 kvadratmeter att kosta i hyra?) Både punktskattningen och punktprognosen beräknas som: yˆ b 0 b x 0 34

Punktskattningar och punktprognoser är naturligtvis osäkra. Därför ska man helst ange dem tillsammans med ett intervall: Punktskattningen med ett konfidensintervall för E[y] yˆ n 2 t s 2 Distance value och punktprognosen med ett prediktionsintervall för y yˆ n 2 t s 2 Distance value Distance value anger hur centralt x 0 -värdet är I datamaterialet. 35

Distance value n x 0 x i x 2 x 2 x För ett x 0 som ligger nära får vi ett litet distance value och därför även ett smalare konfidens- eller predikitonsintervall. 36

Hur stor är den förväntade hyran för en lägenhet på 60 kvadratmeter i genomsnitt? ˆ 0 y b0 b x 720.92 60.5360 4352.72 Distance value n x 0 x i x 2 x 2 2 60 6.69 8460.9524 2 0.0479 37

Hur stor är den förväntade hyran för en lägenhet på 60 kvadratmeter i genomsnitt? yˆ n 2 t s 2 Distance value 4352.72 2.093525.5 0.0479 4352.72 2.093525.5 42 4593.5 0.0479 Med 95% säkerhet kommer den förväntatde hyran att ligga mellan 42 och 4593.3 kronor i månaden.enligt modellen 38

Hur mycket kommer jag att betala om jag hyr just en lägenhet av denna typ, dvs 60 kvadratmeter? ˆ 0 y b0 b x 720.92 60.5360 enda skillnaden 4352.72 yˆ n 2 t 2 s Distance value 4352.72 2.093525.5 0.0479 4352.72 2.093525.5 0.0479 3226.8 5478.63 Med 95% säkerhet kommer hyran för just en lägenhet av denna typ ligga mellan 3226.8 och 5478.63 kronor i månaden enligt modellen. 39

Även punktskattningar och punktprognoser kan beräknas med hjälp av MINITAB The regression equation is Hyra = 72 + 60.5 Kv-meter Predictor Coef SE Coef T P Constant 720.9 370.2.95 0.066 Kv-meter 60.533 5.73 0.60 0.000 S = 525.5 R-Sq = 85.5% R-Sq(adj) = 84.8%... Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI 4353 5 ( 42, 4594) ( 3227, 5479) Values of Predictors for New Observations New Obs Kv-meter 60.0 40