Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1 / 25
Exempel: Enkel linjär regressionsanalys med pris (y) och KVM (x) Priset är utgångspriset (1tals kr) och KVM är kvadratmeter för 49 lägenheter från Hemnet.se. 6 5 Fitted Line Plot Pris = 11 + 44,14 KVM S 128,14 R Sq 36,4% R Sq(adj) 35,% 4 Pris 3 2 1 4 5 6 7 8 9 KVM 1 11 12 13 Wänström (Linköpings universitet) F4 2 / 25
analys När en modell har skattats ska den utvärderas. Modellantagandena är att feltermerna är oberoende och normalfördelade med medelvärde noll och konstant varans (för varje x-värde). Vi kan inte undersöka feltermernas utseende direkt, utan undersöker i stället residualerna, e, eller de standardiserade (studentized) residualerna. = e = y ŷ; St. residual = y ŷ s Vi plottar residualer mot x eller mot skattade värden (ŷ) och undersöker om variansen runt noll-linjen verkar vara konstant Vi undersöker i samma plot om det ser ut som om vi har missat att funktionen kan vara icke-linjär Vi undersöker om residualerna ser normalfördelade ut i histogram/normal probability plot. Wänström (Linköpings universitet) F4 3 / 25
plottar 99 Normal Probability Plot Plots for Pris 2 Versus Fits 9 1 Percent 5 1 1 3 15 15 3 1 2 1 2 3 Fitted Value 4 Histogram Versus Order 16 2 Frequency 12 8 4 1 1 2 15 1 5 5 1 15 2 1 5 1 15 2 25 3 35 Observation Order 4 45 Wänström (Linköpings universitet) F4 4 / 25
Ökande varians? Vi kan prova att transformera y y = y 8 7 Fitted Line Plot rot(pris) = 13,85 +,4155 KVM S 12,915 R Sq 3,8% R Sq(adj) 29,3% Percent 99 9 5 Plots for rot(pris) Normal Probability Plot 2 1 1 Versus Fits rot(pris) 6 5 1 1 3 15 Histogram 15 3 2 3 4 5 Fitted Value Versus Order 6 7 4 3 2 4 5 6 7 8 9 KVM 1 11 12 13 Frequency 12 9 6 3 2 1 1 2 1 1 2 1 5 1 15 2 25 3 35 4 45 Observation Order Wänström (Linköpings universitet) F4 5 / 25
Något annat som kan vara fel? 6 5 Ort 1 4 Pris 3 2 1 4 5 6 7 8 9 KVM 1 11 12 13 Wänström (Linköpings universitet) F4 6 / 25
Korrelationsmatris En korrelationsmatris är en matris med parvisa korrelationer, r, mellan flera variabler. Vanligtvis brukar även p-värdet för hypotestestet som testar nollhypotesen att ρ = (korrelationen i populationen) ges för varje korrelation. Nedan ges korrelationsmatrisen för variablerna utgångspris (pris: 1tals kr), kvadratmeter (KVM), antal rum (rum), samt avgift (1tals kr) för 49 lägenheter från Hemnet.se. Correlations: Pris; KVM; Rum; Avgift Pris KVM Rum KVM,63, Rum,498,881,, Avgift,615,91,813,,, Cell Contents: Pearson correlation P Value Wänström (Linköpings universitet) F4 7 / 25
Multikolinjäritet Perfekt multikolinjäritet existerar om en eller flera förklaringsvarabler är en linjärkombination av en eller flera andra förklaringsvariabler. Då går det inte att skatta en regressionsmodell. I praktiken är det mer vanligt att man får problem med multikolinjäritet för att att en eller flera förklaringsvariabler kan vara högt korrelerade med en eller flera andra förklaringsvariabler. Då går det att skatta regressionsmodellen, men man får stora standardavvikelser för skattningarna, dvs stora s b1, s b2 osv. Om en eller flera korrelationer (mellan förklaringsvariablerna) är minst.9 kan man få allvarliga problem med multikolinjäritet. Wänström (Linköpings universitet) F4 8 / 25
VIF Ett sätt att mäta multikolinjäritet är att mäta Variance Inflation Factor: VIF, för varje förklaringsvariabel. VIF j för förklaringsvariabel j beräknas som VIF j = 1 1 R 2 j där Rj 2 är förklaringsgraden från en regressionsanalys med förklaringsvariabel j som responsvariabel och övriga förklaringsvariabler som förklaringsvariabler. Multikolinjäritet anses vara ett stort problem om Någon VIF > 1 Medelvärdet för alla VIF är mycket större än 1. Wänström (Linköpings universitet) F4 9 / 25
Multipel regressionsanalys Ort mäts med en dummyvariabel där (1= Hammarby Sjöstad; =Haninge) Regression Analysis: Pris versus Kvm; Avgift; Rum; Ort; Ort*Kvm The regression equation is Pris = 149 4,73 Kvm + 138 Avgift + 326 Rum 19 Ort + 29,1 Ort*Kvm Predictor Coef SE Coef T P VIF Constant 148,8 475,2,31,756 Kvm 4,731 9,944,48,637 12,64 Avgift 137,7 12, 1,15,257 5,776 Rum 326,4 126,2 2,59,13 4,897 Ort 18,7 572,3,19,85 23,76 Ort*Kvm 29,51 6,717 4,33, 27,259 S = 46,342 R Sq = 93,4% R Sq(adj) = 92,7% Analysis of Variance Source DF SS MS F P Regression 5 174387 2148761 122,3, Error 43 79996 165114 Total 48 17843713 Wänström (Linköpings universitet) F4 1 / 25
Multipel Regressionsanalys med centrerad KVM Regression Analysis: Pris versus Kvm_C; Avgift; Rum; Ort; Ort*Kvm_C The regression equation is Pris = 545 4,73 Kvm_C + 138 Avgift + 326 Rum + 2325 Ort + 29,1 Ort*Kvm_C Predictor Coef SE Coef T P VIF Constant 545, 652,,84,48 Kvm_C 4,731 9,944,48,637 12,64 Avgift 137,7 12, 1,15,257 5,776 Rum 326,4 126,2 2,59,13 4,897 Ort 2324,6 126,7 18,35, 1,131 Ort*Kvm_C 29,51 6,717 4,33, 4,77 S = 46,342 R Sq = 93,4% R Sq(adj) = 92,7% Analysis of Variance Source DF SS MS F P Regression 5 174387 2148761 122,3, Error 43 79996 165114 Total 48 17843713 Wänström (Linköpings universitet) F4 11 / 25
Vilka förklaringsvariabler ska vara med i en regressionsmodell? Mål: Vi vill ha förklaringsvariabler som tillsammans korrekt beskriver och prognosticerar resonsvariabeln. Vi kan jämföra modeller m.a.p. R 2 R 2 s P.I. Wänström (Linköpings universitet) F4 12 / 25
"Best subset regression" i Minitab med pris som responsvariabel och KVM, rum, avgift och ort Best Subsets Regression: Pris versus KVM; Rum; Avgift; Ort Response is Pris A v g K R i O Mallows V u f r Vars R Sq R Sq(adj) Cp S M m t t 1 61,5 6,7 134,1 939,48 X 1 37,8 36,4 244,8 1195, X 2 89,2 88,7 7,5 54,1 X X 2 88,6 88,2 9,9 515,93 X X 3 9,5 89,9 3,1 476,6 X X X 3 89,7 89, 7,1 497,52 X X X 4 9,6 89,7 5, 481,21 X X X X Wänström (Linköpings universitet) F4 13 / 25
Stegvis regression Välj α entry (to entry) och α stay (to remove) (tex.1) dvs signifikansnivåer för att en variabel ska "komma in" i respektive "stanna" i en modell. För p förklaringsvariabler: 1 p st enkla regressioner skattas, och den variabel som är mest signifikant relaterad till y kommer in i modellen (givet att p-värdet < α). Om ingen är signifikant slutar proceduren. 2 De p 1 återstående variablerna läggs till en och en var för sig och den som är mest signifikant relaterad till y givet att den 1:a variabeln är i modellen läggs till (givet att p-värdet < α). Den 1:a variabeln stannar i modellen om dess p-värde fortfarande är < α. Om inte, tas den bort från modellen och proceduren börjar om på nytt. Proceduren fortsätter med att lägga till variabler en och en samtidigt som gamla variabler kontrolleras, och de som inte längre är signifikanta tas bort. Proceduren är klar när alla variabler i modellen är signifikanta och ingen variabel kan läggas till utan att vara icke-signifikant relaterad till y. Wänström (Linköpings universitet) F4 14 / 25
Stegvis regression Stepwise Regression: Pris versus KVM; Rum; Avgift; Ort Alpha to Enter:,1 Alpha to Remove:,1 Response is Pris on 4 predictors, with N = 49 Step 1 2 3 Constant 1135 22 1843 Ort 2388 2224 2317 T Value 8,67 14,97 15,96 P Value,,, KVM 38,7 22, T Value 1,83 2,98 P Value,,5 Rum 371 T Value 2,54 P Value,15 S 939 54 477 R Sq 61,53 89,16 9,52 R Sq(adj) 6,72 88,69 89,89 Mallows Cp 134,1 7,5 3,1 Wänström (Linköpings universitet) F4 15 / 25
Stegvis regression: Bakåteliminering Välj α stay (tex.1) 1 En modell med alla p oberoende variabler skattas. Den som är minst signifikant relaterad till y tas bort, givet att p-värdet >α. 2 Den nya modellen skattas. Den variabel som är minst signifikant relaterad till y tas bort, givet att p-värdet >α. Proceduren fortsätter tills alla variabler är signifikanta. Wänström (Linköpings universitet) F4 16 / 25
Bakåteliminering Stepwise Regression: Pris versus KVM; Rum; Avgift; Ort Backward elimination. Alpha to Remove:,1 Response is Pris on 4 predictors, with N = 49 Step 1 2 Constant 1865 1843 KVM 19,6 22, T Value 2,3 2,98 P Value,49,5 Rum 363 371 T Value 2,44 2,54 P Value,19,15 Avgift 53 T Value,38 P Value,77 Ort 235 2317 T Value 15,37 15,96 P Value,, S 481 477 R Sq 9,55 9,52 R Sq(adj) 89,69 89,89 Mallows Cp 5, 3,1 Wänström (Linköpings universitet) F4 17 / 25
Den "bästa" modellen Regression Analysis: Pris versus KVM; Rum; Ort The regression equation is Pris = 1843 + 22, KVM + 371 Rum + 2317 Ort Predictor Coef SE Coef T P VIF Constant 1843, 31,6 6,11, KVM 22,1 7,373 2,98,5 4,821 Rum 371,5 146,1 2,54,15 4,774 Ort 2317,1 145,2 15,96, 1,8 S = 476,61 R Sq = 9,5% R Sq(adj) = 89,9% Analysis of Variance Source DF SS MS F P Regression 3 976225 3254683 143,26, Error 45 1221664 227148 Total 48 17843713 Wänström (Linköpings universitet) F4 18 / 25
Regression Analysis: Pris versus Kvm_C; Ort; Ort*Kvm_C; Rum The regression equation is Pris = 22 + 2,27 Kvm_C + 2354 Ort + 27,8 Ort*Kvm_C + 348 Rum Predictor Coef SE Coef T P VIF Constant 22,4 426,6,5,958 Kvm_C 2,274 7,879,29,774 7,52 Ort 2353,9 124,6 18,9, 1,85 Ort*Kvm_C 27,792 6,65 4,18, 3,968 Rum 348,4 125,2 2,78,8 4,783 S = 47,86 R Sq = 93,2% R Sq(adj) = 92,6% Analysis of Variance Source DF SS MS F P Regression 4 1526267 25131567 151,12, Error 44 7317446 16636 Total 48 17843713 Wänström (Linköpings universitet) F4 19 / 25
analys När vi har valt vilka förklaringsvariabler som ska vara med i modellen kan vi utvärdera den. Modellantagandena är att feltermerna är oberoende och normalfördelade med medelvärde noll och konstant varans (för varje värde på x-variablerna). Vi kan inte undersöka feltermernas utseende direkt, utan undersöker i stället residualerna, e, eller de standardiserade (studentized) residualerna. = e = y ŷ; St. residual = y ŷ s Vi plottar residualer mot skattade värden och undersöker om variansen runt noll-linjen verkar vara konstant Vi undersöker i samma plot om det ser ut som om vi har missat att funktionen kan vara icke-linjär Vi undersöker om residualerna ser normalfördelade ut i histogram/normal probability plot. Wänström (Linköpings universitet) F4 2 / 25
plottar för modellen ovan med KVM_C, Ort, Ort*KVM_C och Rum 99 9 Normal Probability Plot Plots for Pris 5 Versus Fits Percent 5 1 5 1 1 5 5 1 1 15 3 Fitted Value 45 6 Histogram Versus Order 1, 5 Frequency 7,5 5, 2,5 5, 8 4 4 1 1 5 1 15 2 25 3 35 Observation Order 4 45 Wänström (Linköpings universitet) F4 21 / 25
Förbättras VIF om vi tar bort någon variabel, tex Rum? Regression Analysis: Pris versus Kvm_C; Ort; Ort*Kvm_C The regression equation is Pris = 118 + 17,3 Kvm_C + 2267 Ort + 28,6 Ort*Kvm_C Predictor Coef SE Coef T P VIF Constant 118,2 11,6 11,62, Kvm_C 17,292 6,158 2,81,7 3,994 Ort 2267,4 129,4 17,53, 1,18 Ort*Kvm_C 28,67 7,125 4,2, 3,961 S = 437,318 R Sq = 92,% R Sq(adj) = 91,5% Analysis of Variance Source DF SS MS F P Regression 3 992376 33792 172,97, Error 45 866113 191247 Total 48 17843713 Wänström (Linköpings universitet) F4 22 / 25
plottar för modellen ovan med KVM_C, Ort och Ort*KVM_C 99 Normal Probability Plot Plots for Pris 1 Versus Fits 9 5 Percent 5 1 1 1 5 5 1 5 1 15 3 Fitted Value 45 6 1, Histogram 1 Versus Order Frequency 7,5 5, 2,5 5 5, 1 75 5 25 25 5 75 1 1 5 1 15 2 25 3 35 Observation Order 4 45 Wänström (Linköpings universitet) F4 23 / 25
Ovanliga observationer En observation som skiljer sig från resten av data kallas outlier. Den kan vara Extrem i förhållande till x : stort "leverage" (distance value) Extrem i förhållande till linjen: stor residual (inflytelserik) Om vi upptäcker en misstänkt outlier bör vi undersöka om det kan bero på felmätning/inmatning. Gör det inte det kan vi fundera över om observationen tillhör populationen vi vill dra slutsatser om. Gör den det och observationen är misstänkt inflytelserik kan vi prova att göra en ny analys utan observationen och se hur resultaten förändras. I en resultatrapport bör vi då redovisa resultaten både med och utan observationen/rna. Wänström (Linköpings universitet) F4 24 / 25
Regression Analysis: Pris versus Kvm_C; Ort; Ort*Kvm_C; Rum The regression equation is Pris = 22 + 2,27 Kvm_C + 2354 Ort + 27,8 Ort*Kvm_C + 348 Rum Predictor Coef SE Coef T P VIF Constant 22,4 426,6,5,958 Kvm_C 2,274 7,879,29,774 7,52 Ort 2353,9 124,6 18,9, 1,85 Ort*Kvm_C 27,792 6,65 4,18, 3,968 Rum 348,4 125,2 2,78,8 4,783 S = 47,86 R Sq = 93,2% R Sq(adj) = 92,6% Analysis of Variance Source DF SS MS F P Regression 4 1526267 25131567 151,12, Error 44 7317446 16636 Total 48 17843713 Source DF Seq SS Kvm_C 1 39242167 Ort 1 56912284 Ort*Kvm_C 1 383149 Rum 1 1288667 Unusual Observations Obs Kvm_C Pris Fit SE Fit St Resid 19 9,3 195, 2794,6 116,5 844,6 2,16R 34 6,7 795, 1779,8 24,3 984,8 2,79R 48 37,2 2413, 1849,2 247,4 563,8 1,74 X Obs Rum KVM Avgift Pris Ort 19 2, 74,5 3,911 195 1 34 5, 9,5 5,93 795 48 5, 121, 6,998 2413 Wänström (Linköpings universitet) F4 25 / 25