Regressions- och Tidsserieanalys - F4

Relevanta dokument
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F5

Skrivning i ekonometri torsdagen den 8 februari 2007

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Regressions- och Tidsserieanalys - F7

Skrivning i ekonometri lördagen den 29 mars 2008

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Regressions- och Tidsserieanalys - F3

Skrivning i ekonometri lördagen den 15 januari 2005

Föreläsning 4. Kap 5,1-5,3

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Regressions- och Tidsserieanalys - F3

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Exempel 1 på multipelregression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F3

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F1

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Metod och teori. Statistik för naturvetare Umeå universitet

Skrivning i ekonometri lördagen den 25 augusti 2007

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

TENTAMEN I STATISTIK B,

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Exempel 1 på multipelregression

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

TENTAMEN I MATEMATISK STATISTIK

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Laboration 2 multipel linjär regression

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Examinationsuppgifter del 2

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Linjär regressionsanalys. Wieland Wermke

Multipel Regressionsmodellen

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

tentaplugg.nu av studenter för studenter

Föreläsning G60 Statistiska metoder

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

7.5 Experiment with a single factor having more than two levels

Räkneövning 3 Variansanalys

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Följande resultat erhålls (enhet: 1000psi):

Tentamen Tillämpad statistik A5 (15hp)

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Bayesiansk statistik, 732g43, 7.5 hp

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

F7 Polynomregression och Dummyvariabler

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Multikolinjäritet: Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:

LABORATION 3 - Regressionsanalys

Tentamen i matematisk statistik

tentaplugg.nu av studenter för studenter

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Regressionsanalys av lägenhetspriser i Spånga

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Tentamen i matematisk statistik

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Kvadratisk regression, forts.

Tentamen i Matematisk statistik Kurskod S0001M

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i matematisk statistik

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Matematisk statistik, Föreläsning 5

LABORATION 3 - Regressionsanalys

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

8.1 General factorial experiments

Finansiell statistik. Multipel regression. 4 maj 2011

Transkript:

Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1 / 25

Exempel: Enkel linjär regressionsanalys med pris (y) och KVM (x) Priset är utgångspriset (1tals kr) och KVM är kvadratmeter för 49 lägenheter från Hemnet.se. 6 5 Fitted Line Plot Pris = 11 + 44,14 KVM S 128,14 R Sq 36,4% R Sq(adj) 35,% 4 Pris 3 2 1 4 5 6 7 8 9 KVM 1 11 12 13 Wänström (Linköpings universitet) F4 2 / 25

analys När en modell har skattats ska den utvärderas. Modellantagandena är att feltermerna är oberoende och normalfördelade med medelvärde noll och konstant varans (för varje x-värde). Vi kan inte undersöka feltermernas utseende direkt, utan undersöker i stället residualerna, e, eller de standardiserade (studentized) residualerna. = e = y ŷ; St. residual = y ŷ s Vi plottar residualer mot x eller mot skattade värden (ŷ) och undersöker om variansen runt noll-linjen verkar vara konstant Vi undersöker i samma plot om det ser ut som om vi har missat att funktionen kan vara icke-linjär Vi undersöker om residualerna ser normalfördelade ut i histogram/normal probability plot. Wänström (Linköpings universitet) F4 3 / 25

plottar 99 Normal Probability Plot Plots for Pris 2 Versus Fits 9 1 Percent 5 1 1 3 15 15 3 1 2 1 2 3 Fitted Value 4 Histogram Versus Order 16 2 Frequency 12 8 4 1 1 2 15 1 5 5 1 15 2 1 5 1 15 2 25 3 35 Observation Order 4 45 Wänström (Linköpings universitet) F4 4 / 25

Ökande varians? Vi kan prova att transformera y y = y 8 7 Fitted Line Plot rot(pris) = 13,85 +,4155 KVM S 12,915 R Sq 3,8% R Sq(adj) 29,3% Percent 99 9 5 Plots for rot(pris) Normal Probability Plot 2 1 1 Versus Fits rot(pris) 6 5 1 1 3 15 Histogram 15 3 2 3 4 5 Fitted Value Versus Order 6 7 4 3 2 4 5 6 7 8 9 KVM 1 11 12 13 Frequency 12 9 6 3 2 1 1 2 1 1 2 1 5 1 15 2 25 3 35 4 45 Observation Order Wänström (Linköpings universitet) F4 5 / 25

Något annat som kan vara fel? 6 5 Ort 1 4 Pris 3 2 1 4 5 6 7 8 9 KVM 1 11 12 13 Wänström (Linköpings universitet) F4 6 / 25

Korrelationsmatris En korrelationsmatris är en matris med parvisa korrelationer, r, mellan flera variabler. Vanligtvis brukar även p-värdet för hypotestestet som testar nollhypotesen att ρ = (korrelationen i populationen) ges för varje korrelation. Nedan ges korrelationsmatrisen för variablerna utgångspris (pris: 1tals kr), kvadratmeter (KVM), antal rum (rum), samt avgift (1tals kr) för 49 lägenheter från Hemnet.se. Correlations: Pris; KVM; Rum; Avgift Pris KVM Rum KVM,63, Rum,498,881,, Avgift,615,91,813,,, Cell Contents: Pearson correlation P Value Wänström (Linköpings universitet) F4 7 / 25

Multikolinjäritet Perfekt multikolinjäritet existerar om en eller flera förklaringsvarabler är en linjärkombination av en eller flera andra förklaringsvariabler. Då går det inte att skatta en regressionsmodell. I praktiken är det mer vanligt att man får problem med multikolinjäritet för att att en eller flera förklaringsvariabler kan vara högt korrelerade med en eller flera andra förklaringsvariabler. Då går det att skatta regressionsmodellen, men man får stora standardavvikelser för skattningarna, dvs stora s b1, s b2 osv. Om en eller flera korrelationer (mellan förklaringsvariablerna) är minst.9 kan man få allvarliga problem med multikolinjäritet. Wänström (Linköpings universitet) F4 8 / 25

VIF Ett sätt att mäta multikolinjäritet är att mäta Variance Inflation Factor: VIF, för varje förklaringsvariabel. VIF j för förklaringsvariabel j beräknas som VIF j = 1 1 R 2 j där Rj 2 är förklaringsgraden från en regressionsanalys med förklaringsvariabel j som responsvariabel och övriga förklaringsvariabler som förklaringsvariabler. Multikolinjäritet anses vara ett stort problem om Någon VIF > 1 Medelvärdet för alla VIF är mycket större än 1. Wänström (Linköpings universitet) F4 9 / 25

Multipel regressionsanalys Ort mäts med en dummyvariabel där (1= Hammarby Sjöstad; =Haninge) Regression Analysis: Pris versus Kvm; Avgift; Rum; Ort; Ort*Kvm The regression equation is Pris = 149 4,73 Kvm + 138 Avgift + 326 Rum 19 Ort + 29,1 Ort*Kvm Predictor Coef SE Coef T P VIF Constant 148,8 475,2,31,756 Kvm 4,731 9,944,48,637 12,64 Avgift 137,7 12, 1,15,257 5,776 Rum 326,4 126,2 2,59,13 4,897 Ort 18,7 572,3,19,85 23,76 Ort*Kvm 29,51 6,717 4,33, 27,259 S = 46,342 R Sq = 93,4% R Sq(adj) = 92,7% Analysis of Variance Source DF SS MS F P Regression 5 174387 2148761 122,3, Error 43 79996 165114 Total 48 17843713 Wänström (Linköpings universitet) F4 1 / 25

Multipel Regressionsanalys med centrerad KVM Regression Analysis: Pris versus Kvm_C; Avgift; Rum; Ort; Ort*Kvm_C The regression equation is Pris = 545 4,73 Kvm_C + 138 Avgift + 326 Rum + 2325 Ort + 29,1 Ort*Kvm_C Predictor Coef SE Coef T P VIF Constant 545, 652,,84,48 Kvm_C 4,731 9,944,48,637 12,64 Avgift 137,7 12, 1,15,257 5,776 Rum 326,4 126,2 2,59,13 4,897 Ort 2324,6 126,7 18,35, 1,131 Ort*Kvm_C 29,51 6,717 4,33, 4,77 S = 46,342 R Sq = 93,4% R Sq(adj) = 92,7% Analysis of Variance Source DF SS MS F P Regression 5 174387 2148761 122,3, Error 43 79996 165114 Total 48 17843713 Wänström (Linköpings universitet) F4 11 / 25

Vilka förklaringsvariabler ska vara med i en regressionsmodell? Mål: Vi vill ha förklaringsvariabler som tillsammans korrekt beskriver och prognosticerar resonsvariabeln. Vi kan jämföra modeller m.a.p. R 2 R 2 s P.I. Wänström (Linköpings universitet) F4 12 / 25

"Best subset regression" i Minitab med pris som responsvariabel och KVM, rum, avgift och ort Best Subsets Regression: Pris versus KVM; Rum; Avgift; Ort Response is Pris A v g K R i O Mallows V u f r Vars R Sq R Sq(adj) Cp S M m t t 1 61,5 6,7 134,1 939,48 X 1 37,8 36,4 244,8 1195, X 2 89,2 88,7 7,5 54,1 X X 2 88,6 88,2 9,9 515,93 X X 3 9,5 89,9 3,1 476,6 X X X 3 89,7 89, 7,1 497,52 X X X 4 9,6 89,7 5, 481,21 X X X X Wänström (Linköpings universitet) F4 13 / 25

Stegvis regression Välj α entry (to entry) och α stay (to remove) (tex.1) dvs signifikansnivåer för att en variabel ska "komma in" i respektive "stanna" i en modell. För p förklaringsvariabler: 1 p st enkla regressioner skattas, och den variabel som är mest signifikant relaterad till y kommer in i modellen (givet att p-värdet < α). Om ingen är signifikant slutar proceduren. 2 De p 1 återstående variablerna läggs till en och en var för sig och den som är mest signifikant relaterad till y givet att den 1:a variabeln är i modellen läggs till (givet att p-värdet < α). Den 1:a variabeln stannar i modellen om dess p-värde fortfarande är < α. Om inte, tas den bort från modellen och proceduren börjar om på nytt. Proceduren fortsätter med att lägga till variabler en och en samtidigt som gamla variabler kontrolleras, och de som inte längre är signifikanta tas bort. Proceduren är klar när alla variabler i modellen är signifikanta och ingen variabel kan läggas till utan att vara icke-signifikant relaterad till y. Wänström (Linköpings universitet) F4 14 / 25

Stegvis regression Stepwise Regression: Pris versus KVM; Rum; Avgift; Ort Alpha to Enter:,1 Alpha to Remove:,1 Response is Pris on 4 predictors, with N = 49 Step 1 2 3 Constant 1135 22 1843 Ort 2388 2224 2317 T Value 8,67 14,97 15,96 P Value,,, KVM 38,7 22, T Value 1,83 2,98 P Value,,5 Rum 371 T Value 2,54 P Value,15 S 939 54 477 R Sq 61,53 89,16 9,52 R Sq(adj) 6,72 88,69 89,89 Mallows Cp 134,1 7,5 3,1 Wänström (Linköpings universitet) F4 15 / 25

Stegvis regression: Bakåteliminering Välj α stay (tex.1) 1 En modell med alla p oberoende variabler skattas. Den som är minst signifikant relaterad till y tas bort, givet att p-värdet >α. 2 Den nya modellen skattas. Den variabel som är minst signifikant relaterad till y tas bort, givet att p-värdet >α. Proceduren fortsätter tills alla variabler är signifikanta. Wänström (Linköpings universitet) F4 16 / 25

Bakåteliminering Stepwise Regression: Pris versus KVM; Rum; Avgift; Ort Backward elimination. Alpha to Remove:,1 Response is Pris on 4 predictors, with N = 49 Step 1 2 Constant 1865 1843 KVM 19,6 22, T Value 2,3 2,98 P Value,49,5 Rum 363 371 T Value 2,44 2,54 P Value,19,15 Avgift 53 T Value,38 P Value,77 Ort 235 2317 T Value 15,37 15,96 P Value,, S 481 477 R Sq 9,55 9,52 R Sq(adj) 89,69 89,89 Mallows Cp 5, 3,1 Wänström (Linköpings universitet) F4 17 / 25

Den "bästa" modellen Regression Analysis: Pris versus KVM; Rum; Ort The regression equation is Pris = 1843 + 22, KVM + 371 Rum + 2317 Ort Predictor Coef SE Coef T P VIF Constant 1843, 31,6 6,11, KVM 22,1 7,373 2,98,5 4,821 Rum 371,5 146,1 2,54,15 4,774 Ort 2317,1 145,2 15,96, 1,8 S = 476,61 R Sq = 9,5% R Sq(adj) = 89,9% Analysis of Variance Source DF SS MS F P Regression 3 976225 3254683 143,26, Error 45 1221664 227148 Total 48 17843713 Wänström (Linköpings universitet) F4 18 / 25

Regression Analysis: Pris versus Kvm_C; Ort; Ort*Kvm_C; Rum The regression equation is Pris = 22 + 2,27 Kvm_C + 2354 Ort + 27,8 Ort*Kvm_C + 348 Rum Predictor Coef SE Coef T P VIF Constant 22,4 426,6,5,958 Kvm_C 2,274 7,879,29,774 7,52 Ort 2353,9 124,6 18,9, 1,85 Ort*Kvm_C 27,792 6,65 4,18, 3,968 Rum 348,4 125,2 2,78,8 4,783 S = 47,86 R Sq = 93,2% R Sq(adj) = 92,6% Analysis of Variance Source DF SS MS F P Regression 4 1526267 25131567 151,12, Error 44 7317446 16636 Total 48 17843713 Wänström (Linköpings universitet) F4 19 / 25

analys När vi har valt vilka förklaringsvariabler som ska vara med i modellen kan vi utvärdera den. Modellantagandena är att feltermerna är oberoende och normalfördelade med medelvärde noll och konstant varans (för varje värde på x-variablerna). Vi kan inte undersöka feltermernas utseende direkt, utan undersöker i stället residualerna, e, eller de standardiserade (studentized) residualerna. = e = y ŷ; St. residual = y ŷ s Vi plottar residualer mot skattade värden och undersöker om variansen runt noll-linjen verkar vara konstant Vi undersöker i samma plot om det ser ut som om vi har missat att funktionen kan vara icke-linjär Vi undersöker om residualerna ser normalfördelade ut i histogram/normal probability plot. Wänström (Linköpings universitet) F4 2 / 25

plottar för modellen ovan med KVM_C, Ort, Ort*KVM_C och Rum 99 9 Normal Probability Plot Plots for Pris 5 Versus Fits Percent 5 1 5 1 1 5 5 1 1 15 3 Fitted Value 45 6 Histogram Versus Order 1, 5 Frequency 7,5 5, 2,5 5, 8 4 4 1 1 5 1 15 2 25 3 35 Observation Order 4 45 Wänström (Linköpings universitet) F4 21 / 25

Förbättras VIF om vi tar bort någon variabel, tex Rum? Regression Analysis: Pris versus Kvm_C; Ort; Ort*Kvm_C The regression equation is Pris = 118 + 17,3 Kvm_C + 2267 Ort + 28,6 Ort*Kvm_C Predictor Coef SE Coef T P VIF Constant 118,2 11,6 11,62, Kvm_C 17,292 6,158 2,81,7 3,994 Ort 2267,4 129,4 17,53, 1,18 Ort*Kvm_C 28,67 7,125 4,2, 3,961 S = 437,318 R Sq = 92,% R Sq(adj) = 91,5% Analysis of Variance Source DF SS MS F P Regression 3 992376 33792 172,97, Error 45 866113 191247 Total 48 17843713 Wänström (Linköpings universitet) F4 22 / 25

plottar för modellen ovan med KVM_C, Ort och Ort*KVM_C 99 Normal Probability Plot Plots for Pris 1 Versus Fits 9 5 Percent 5 1 1 1 5 5 1 5 1 15 3 Fitted Value 45 6 1, Histogram 1 Versus Order Frequency 7,5 5, 2,5 5 5, 1 75 5 25 25 5 75 1 1 5 1 15 2 25 3 35 Observation Order 4 45 Wänström (Linköpings universitet) F4 23 / 25

Ovanliga observationer En observation som skiljer sig från resten av data kallas outlier. Den kan vara Extrem i förhållande till x : stort "leverage" (distance value) Extrem i förhållande till linjen: stor residual (inflytelserik) Om vi upptäcker en misstänkt outlier bör vi undersöka om det kan bero på felmätning/inmatning. Gör det inte det kan vi fundera över om observationen tillhör populationen vi vill dra slutsatser om. Gör den det och observationen är misstänkt inflytelserik kan vi prova att göra en ny analys utan observationen och se hur resultaten förändras. I en resultatrapport bör vi då redovisa resultaten både med och utan observationen/rna. Wänström (Linköpings universitet) F4 24 / 25

Regression Analysis: Pris versus Kvm_C; Ort; Ort*Kvm_C; Rum The regression equation is Pris = 22 + 2,27 Kvm_C + 2354 Ort + 27,8 Ort*Kvm_C + 348 Rum Predictor Coef SE Coef T P VIF Constant 22,4 426,6,5,958 Kvm_C 2,274 7,879,29,774 7,52 Ort 2353,9 124,6 18,9, 1,85 Ort*Kvm_C 27,792 6,65 4,18, 3,968 Rum 348,4 125,2 2,78,8 4,783 S = 47,86 R Sq = 93,2% R Sq(adj) = 92,6% Analysis of Variance Source DF SS MS F P Regression 4 1526267 25131567 151,12, Error 44 7317446 16636 Total 48 17843713 Source DF Seq SS Kvm_C 1 39242167 Ort 1 56912284 Ort*Kvm_C 1 383149 Rum 1 1288667 Unusual Observations Obs Kvm_C Pris Fit SE Fit St Resid 19 9,3 195, 2794,6 116,5 844,6 2,16R 34 6,7 795, 1779,8 24,3 984,8 2,79R 48 37,2 2413, 1849,2 247,4 563,8 1,74 X Obs Rum KVM Avgift Pris Ort 19 2, 74,5 3,911 195 1 34 5, 9,5 5,93 795 48 5, 121, 6,998 2413 Wänström (Linköpings universitet) F4 25 / 25