Regressions- och Tidsserieanalys - F5

Relevanta dokument
Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F5

732G71 Statistik B. Föreläsning 5. Bertil Wegmann. November 12, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Skrivning i ekonometri torsdagen den 8 februari 2007

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Skrivning i ekonometri lördagen den 15 januari 2005

Regressions- och Tidsserieanalys - F3

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F3

Något om index. 1 Enkla och sammansatta index. LINKÖPINGS UNIVERSITET Matematiska institutionen Statistik Anders Nordgaard

Föreläsning 4. Kap 5,1-5,3

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F3

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Skrivning i ekonometri lördagen den 29 mars 2008

Föreläsning G60 Statistiska metoder

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

10.1 Enkel linjär regression

Skrivning i ekonometri lördagen den 25 augusti 2007

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Regressions- och Tidsserieanalys - F1

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Exempel 1 på multipelregression

Multikolinjäritet: Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:

Regressions- och Tidsserieanalys - F1

Metod och teori. Statistik för naturvetare Umeå universitet

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

TENTAMEN I STATISTIK B,

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Statistik B Regressions- och tidsserieanalys Föreläsning 1

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Exempel 1 på multipelregression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning G60 Statistiska metoder

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen Tillämpad statistik A5 (15hp)

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

tentaplugg.nu av studenter för studenter

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

HSTA72 REGRESSIONS- OCH TIDSSERIEANALYS, 5p Ekonomprogrammet, t2, Vt 06 Tentamen

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Tentamen Tillämpad statistik A5 (15hp)

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Index. Tal procenttal som används vid jämförelser Statistiska uppgifter som visar utveckling under en viss period kan beskrivas med en indexserie

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Tentamen Tillämpad statistik A5 (15hp)

Examinationsuppgifter del 2

Tentamen i matematisk statistik

Räkneövning 3 Variansanalys

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

TENTAMEN I MATEMATISK STATISTIK

Multipel Regressionsmodellen

Tentamen i Matematisk statistik Kurskod S0001M

8.1 General factorial experiments

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Laboration 2 multipel linjär regression

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Tentamen i matematisk statistik

F7 Polynomregression och Dummyvariabler

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Transkript:

Regressions- och Tidsserieanalys - F5 Linda Wänström Linköpings universitet November 20 Wänström (Linköpings universitet) F5 November 20 1 / 24

Modellbygge - vilka oberoende variabler ska vara med i modellen? Korrelationsmatris - lägenheter från Hemnet.se - forts. från F4 Correlations: Pris; Kvm; Rum; Avgift Pris Kvm Rum Kvm 0,603 0,000 Rum 0,498 0,881 0,000 0,000 Avgift 0,615 0,901 0,813 0,000 0,000 0,000 Cell Contents: Pearson correlation P Value Wänström (Linköpings universitet) F5 November 20 2 / 24

R denotes an observation with a large standardized residual. Wänström (Linköpings universitet) F5 November 20 3 / 24 X denotes an observation whose X value gives it large leverage. Multipel regressionsanalys Regression Analysis: Pris versus Kvm; Avgift; Rum; Ort; Ort*Kvm The regression equation is Pris = 149 4,73 Kvm + 138 Avgift + 326 Rum 109 Ort + 29,1 Ort*Kvm Predictor Coef SE Coef T P VIF Constant 148,8 475,2 0,31 0,756 Kvm 4,731 9,944 0,48 0,637 12,064 Avgift 137,7 120,0 1,15 0,257 5,776 Rum 326,4 126,2 2,59 0,013 4,897 Ort 108,7 572,3 0,19 0,850 23,076 Ort*Kvm 29,051 6,717 4,33 0,000 27,259 S = 406,342 R Sq = 93,4% R Sq(adj) = 92,7% Analysis of Variance Source DF SS MS F P Regression 5 100743807 20148761 122,03 0,000 Residual Error 43 7099906 165114 Total 48 107843713 Source DF Seq SS Kvm 1 39242167 Avgift 1 2885250 Rum 1 806986 Ort 1 54720713 Ort*Kvm 1 3088691 Unusual Observations Obs Kvm Pris Fit SE Fit Residual St Resid 19 75 1950,0 2745,7 123,7 795,7 2,06R 34 91 795,0 1756,3 204,6 961,3 2,74R 48 121 2413,0 1874,4 247,5 538,6 1,67 X

Centrering av "Kvm" Multikolinjäritet uppstår ofta när man har en interaktionsterm med i modellen Vi centrerar "Kvm", dvs subtraherar medelvärdet för "Kvm" för varje värde Wänström (Linköpings universitet) F5 November 20 4 / 24

Ny regressionsanalys med centrerad Kvm Regression Analysis: Pris versus Kvm_C; Avgift; Rum; Ort; Ort*Kvm_C The regression equation is Pris = 545 4,73 Kvm_C + 138 Avgift + 326 Rum + 2325 Ort + 29,1 Ort*Kvm_C Predictor Coef SE Coef T P VIF Constant 545,0 652,0 0,84 0,408 Kvm_C 4,731 9,944 0,48 0,637 12,064 Avgift 137,7 120,0 1,15 0,257 5,776 Rum 326,4 126,2 2,59 0,013 4,897 Ort 2324,6 126,7 18,35 0,000 1,131 Ort*Kvm_C 29,051 6,717 4,33 0,000 4,077 S = 406,342 R Sq = 93,4% R Sq(adj) = 92,7% Analysis of Variance Source DF SS MS F P Regression 5 100743807 20148761 122,03 0,000 Residual Error 43 7099906 165114 Total 48 107843713 Source DF Seq SS Kvm_C 1 39242167 Avgift 1 2885250 Rum 1 806986 Ort 1 54720713 Ort*Kvm_C 1 3088691 Unusual Observations Obs Kvm_C Pris Fit SE Fit Residual St Resid 19 9,3 1950,0 2745,7 123,7 795,7 2,06R 34 6,7 795,0 1756,3 204,6 961,3 2,74R 48 37,2 2413,0 1874,4 247,5 538,6 1,67 X Wänström (LinköpingsR universitet) denotes an observation with a large F5 standardized residual. November 20 5 / 24

Vi undersöker multikolinjäriteten för centrerad "Kvm" En multipel regressionsanalys med "Kvm_C" som beroende variabel: Regression Analysis: Kvm_C versus Rum; Avgift; Ort; Ort*Kvm_C The regression equation is Kvm_C = 53,9 + 5,59 Rum + 7,41 Avgift + 0,97 Ort + 0,383 Ort*Kvm_C Predictor Coef SE Coef T P Constant 53,905 5,626 9,58 0,000 Rum 5,593 1,717 3,26 0,002 Avgift 7,406 1,436 5,16 0,000 Ort 0,974 1,915 0,51 0,614 Ort*Kvm_C 0,38290 0,08389 4,56 0,000 S = 6,16026 R Sq = 91,7% R Sq(adj) = 91,0% Analysis of Variance Source DF SS MS F P Regression 4 18474,9 4618,7 121,71 0,000 Residual Error 44 1669,7 37,9 Total 48 20144,6 Wänström (Linköpings universitet) F5 November 20 6 / 24

Prova att ta bort "Kvm_C" eller "Avgift" Vill vi gärna ha kvar kvadratmeter i modellen (vi kanske tror på en e ekt av kvm på pris) kan vi prova att ta bort avgift (kvadratmeter och avgift var högt korrelerade - se korrelationsmatrisen). Regression Analysis: Pris versus Kvm_C; Rum; Ort; Ort*Kvm_C The regression equation is Pris = 22 + 2,27 Kvm_C + 348 Rum + 2354 Ort + 27,8 Ort*Kvm_C Predictor Coef SE Coef T P VIF Constant 22,4 426,6 0,05 0,958 Kvm_C 2,274 7,879 0,29 0,774 7,520 Rum 348,4 125,2 2,78 0,008 4,783 Ort 2353,9 124,6 18,90 0,000 1,085 Ort*Kvm_C 27,792 6,650 4,18 0,000 3,968 S = 407,806 R Sq = 93,2% R Sq(adj) = 92,6% Analysis of Variance Source DF SS MS F P Regression 4 100526267 25131567 151,12 0,000 Residual Error 44 7317446 166306 Total 48 107843713 Source DF Seq SS Kvm_C 1 39242167 Rum 1 546933 Ort 1 57832950 Ort*Kvm_C 1 2904218 Wänström (Linköpings Unusual universitet) Observations F5 November 20 7 / 24

Val av modell Val av oberoende variabler som ska ingå i vår slutgiltiga modell Om syftet med regressionsanalysen är att, utifrån (ekonomisk) teori, testa något samband mellan speci ka variabler: Inkludera de variabler som enligt teorin bör vara med. Testa hypoteserna om speci ka samband / e ekter av variabler (eller grupper av variabler). Dra slutsats. Om syftet med regressionsanalysen är att kunna uppskatta y så bra som möjligt, dvs kunna göra så bra prognoser / prediktioner som möjligt av y med de oberoende variablerna: Välj de variabler som förklarar så mycket variation i y som möjligt Modellen ska samtidigt vara så "enkel" som möjligt Välj den modell med högst justerad förklaringsgrad: R 2 Välj den modell med lägst standardavvikelse s Wänström (Linköpings universitet) F5 November 20 8 / 24

Val av modell Best Subsets Regression: Pris versus Kvm_C; Rum; Avgift; Ort Response is Pris A K v v g m R i O Mallows _ u f r Vars R Sq R Sq(adj) Cp S C m t t 1 61,5 60,7 134,1 939,48 X 1 37,8 36,4 244,8 1195,0 X 2 89,2 88,7 7,5 504,10 X X 2 88,6 88,2 9,9 515,93 X X 3 90,5 89,9 3,1 476,60 X X X 3 89,7 89,0 7,1 497,52 X X X 4 90,6 89,7 5,0 481,21 X X X X Wänström (Linköpings universitet) F5 November 20 9 / 24

Stegvis regression Välj α entry och α stay (tex 0.10) dvs signi kansnivåer för att en variabel ska "komma in" i respektive "stanna" i en modell. För p oberoende variabler: 1 p st enkla regressioner skattas, och den variabel som är mest signi kant relaterad till y kommer in i modellen (givet att p-värdet < α). Om ingen är signi kant slutar proceduren. 2 De p 1 återstående variablerna läggs till en och en var för sig och den som är mest signi kant relaterad till y givet att den 1:a variabeln är i modellen läggs till (givet att p-värdet < α). Den 1:a variabeln stannar i modellen om dess p-värde fortfarande är < α. Om inte, tas den bort från modellen och proceduren börjar om på nytt. Proceduren fortsätter med att lägga till variabler en och en samtidigt som gamla variabler kontrolleras, och de som inte längre är signi kanta tas bort. Proceduren är klar när alla variabler i modellen är signi kanta och ingen variabel kan läggas till utan att vara icke-signi kant relaterad till y. Wänström (Linköpings universitet) F5 November 20 10 / 24

Stegvis regression Stepwise Regression: Pris versus Kvm_C; Rum; Avgift; Ort Alpha to Enter: 0,1 Alpha to Remove: 0,1 Response is Pris on 4 predictors, with N = 49 Step 1 2 3 Constant 1135,0526 1235,9830 0,1177 Ort 2388 2224 2317 T Value 8,67 14,97 15,96 P Value 0,000 0,000 0,000 Kvm_C 38,7 22,0 T Value 10,83 2,98 P Value 0,000 0,005 Rum 371 T Value 2,54 P Value 0,015 S 939 504 477 R Sq 61,53 89,16 90,52 R Sq(adj) 60,72 88,69 89,89 Mallows Cp 134,1 7,5 3,1 Wänström (Linköpings universitet) F5 November 20 11 / 24

Stegvis regression: Bakåteliminering Välj α stay (tex 0.10) 1 En modell med alla p oberoende variabler skattas. Den som är minst signi kant relaterad till y tas bort, givet att p-värdet >α. 2 Den nya modellen skattas. Den variabel som är minst signi kant relaterad till y tas bort, givet att p-värdet >α. Proceduren fortsätter tills alla variabler är signi kanta. Wänström (Linköpings universitet) F5 November 20 12 / 24

Index se hemsidan: kursmaterial - särskilt material om index Beskriver en eller era varors /tjänsters utveckling över tid Ett indextal kan ses som varornas /tjänsternas pris uttryckt i procent av basårets pris Wänström (Linköpings universitet) F5 November 20 13 / 24

Enkelt index Prisutvecklingen för en vara / tjänst Enkelt index vid tidpunkt t, där t 0 är bastidpunkten: Exempel I t = Variabelns värde år t Variabelns värde år t 0 100 År Apelsinskalare, pris per styck (kr) 1990 120 1991 126 1992 130 Wänström (Linköpings universitet) F5 November 20 14 / 24

Sammansatt index Beskriver den sammanlagda prisutvecklingen sett över era varor Sammansatt index vid tidpunkt t, där I i,t är index för den i:te varan vid tidpunkt t och w i är en vikt för den i:te varan: I t = I i,t w i i Wänström (Linköpings universitet) F5 November 20 15 / 24

Sammansatta index Laspeyres vikt för vara i: Paasches vikt för vara i: w i = w i = p i,t o q i,t0 p j,to q j,t0 j p i,t o q i,t p j,to q j,t j Wänström (Linköpings universitet) F5 November 20 16 / 24

Exempel forts. År Apelsinskalare Persiennborstar Pris / st (kr) Såld kvantitet Pris / st (kr) Såld kvantitet 1990 120 42351 35 67821 1991 126 44175 37 55113 1992 130 43443 38 60018 Wänström (Linköpings universitet) F5 November 20 17 / 24

De atering Försäljningsvärden uttryckta i fasta priser (dvs uttryckta i de priser som gällde vid bastidpunkten t 0 ). Exempel forts. År Försäljningsvärde De aterad Värden i 1991 (1000-tals kr) värdeserie års priser 1990 7456 1991 7605 1992 7928 1 Dividera värdeserien med indexserien för varje tidpunkt. 2 Multiplera talen med indextalet för en viss tidpunkt t 0. Wänström (Linköpings universitet) F5 November 20 18 / 24

Implicitprisindex Beskriver totala prisutvecklingen för ett företags varor/tjänster Serien i löpande priser divideras med serien i fasta priser värde för värde Alla tal multipliceras med 100 Bastidpunkten är den som de fasta priserna gäller för Exempel forts. År Implicitprisindex 1990 1991 1992 Wänström (Linköpings universitet) F5 November 20 19 / 24

Konsumentprisindex, KPI Ett implicitprisindex som fås genom att dividera värdet av (nästan) alla varor och tjänster som produceras i ett land i löpande priser med motsvarande värde i fasta priser för ett visst år Ett slags mått på in ation Wänström (Linköpings universitet) F5 November 20 20 / 24

Relativprisindex Om I R t Mäter den relativa prisutvecklingen (jämfört med den allmänna) Prisindex för den aktuella varan/tjänsten divideras tal för tal med ett prisindex med samma basår för en större jämförelsegrupp Multipliceras med 100 är relativprisindexet som ska beräknas, I v t tidpunkten t för den aktuella varan och It 0 för jämförelsegruppen, får vi är prisindexet vid är prisindexet vid tidpunkten t I R t = I t v It 0 100 Wänström (Linköpings universitet) F5 November 20 21 / 24

Exempel: KPI Inventarier och husgeråd År KPI, I och H KPI, I och H Relativprisindex (Basår 1980) (Basår 1990) 1990 188.0 1991 198.5 1992 200.7 Wänström (Linköpings universitet) F5 November 20 22 / 24

Kedjeindex Fastbasindex Jämförelser utifrån en bestämd bastidpunkt Fungerar om varusammansättningen är relativt oförändrad över tidsperioden Kedjeindex Beräknas då varusammansättningen ej är densamma under tidsperioden Försäljningskvantiteter behöver inte vara kända Representantvaror kan användas Wänström (Linköpings universitet) F5 November 20 23 / 24

Kedjeindex Årslänk mellan år t och år t 1 där Laspeyre vikt ges av L t 1,t = n p i,t w i,t 1,t i=1 p i,t 1 och Paasche vikt ges av wi,t L Värdet av försäljning av vara i år t 1 1,t = Värdet av totalförsäljning år t 1 wi,t P Värdet av försäljning av vara i år t i priser för år t 1 1,t = Värdet av totalförsäljning år t i priser för år t 1 Wänström (Linköpings universitet) F5 November 20 24 / 24