732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34
Kap. 5.1, korrelationsmatris En korrelationsmatris är en matris med parvisa korrelationer, r, mellan alla kvantitativa variabler i modellen. Minitab ger även p-värdet för alla korrelationer från ett hypotestest med den sanna korrelationen, ρ, lika med noll under nollhypotesen. I tabellen nedan ges korrelationsmatrisen för variablerna försäljningspris (pris) i tusentals kronor (tkr), antal kvadratmeter (area), antal rum (rum), bostadsavgift (avgift) i tusentals kronor (tkr) och våningsplan för 58 slumpmässigt valda lägenhetspriser i Stockholms kommun. Correlation: Pris; area; rum; avgift; våningsplan Pris area rum avgift 0,618 area 0,000 rum 0,513 0,916 0,000 0,000 avgift 0,275 0,862 0,830 0,036 0,000 0,000 våningsplan 0,129-0,027 0,020-0,095 0,334 0,840 0,883 0,476 Cell Contents: Pearson correlation P-Value Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 2 / 34
Kap. 5.1, multikolinjäritet Perfekt multikolinjäritet existerar om en eller era förklaringsvarabler är en linjärkombination av en eller era andra förklaringsvariabler, d.v.s. om det gäller för minst en förklaringsvariabel x j bland k stycken förklaringsvariabler att x j = a 1 x 1 + a 2 x 2 + + a j 1 x j 1 + a j+1 x j+1 + + a k x k för konstanterna a 1, a 2,..., a j 1, a j+1,..., a k. I ett sådant fall går det inte att skatta en regressionsmodell. I praktiken är det mer vanligt att man får problem med multikolinjäritet för att att en eller era förklaringsvariabler är högt korrelerade med en eller era andra förklaringsvariabler. Då går det att skatta regressionsmodellen men man får stor osäkerhet i skattningarna för parameterarna, d.v.s. höga värden på s b1, s b2,.... Som tumregel brukar man anse att det är allvarliga problem med multikolinjäriet om minst en korrelationskoecient r är minst 0.9. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 3 / 34
Kap. 5.1, multikolinjäritet Ett annat sätt att mäta multikolinjäritet på är att använda Variance Ination Factors (VIF). VIF för varje förklaringsvariabel x j beräknas som VIF j = 1, 1 Rj 2 där Rj 2 är förklaringsgraden från en multipel linjär regressionsmodell med x j som beroende variabel och övriga förklaringsvariabler som förklaringsvariabler. Multikolinjäritet anses vara ett stort problem om 1. Någon VIF > 10 2. Medelvärdet av alla VIF är mycket större än 1. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 4 / 34
Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; rum; avgift; innerstan; söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 5 158885872 31777174 31,56 0,000 area 1 53057737 53057737 52,70 0,000 rum 1 124807 124807 0,12 0,726 avgift 1 18192229 18192229 18,07 0,000 innerstan 1 20100393 20100393 19,96 0,000 söderort 1 3701150 3701150 3,68 0,061 Error 52 52355450 1006836 Total 57 211241322 Model Summary S R-sq R-sq(adj) R-sq(pred) 1003,41 75,22% 72,83% 55,71% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -417 603-0,69 0,492 area 100,1 13,8 7,26 0,000 7,96 rum -109 308-0,35 0,726 6,81 avgift -900 212-4,25 0,000 5,31 innerstan 2096 469 4,47 0,000 3,17 söderort 860 448 1,92 0,061 2,73 Regression Equation Pris = -417 + 100,1 area - 109 rum - 900 avgift + 2096 innerstan + 860 söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 5 / 34
Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; avgift; innerstan; söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 4 158761065 39690266 40,08 0,000 area 1 95241740 95241740 96,18 0,000 avgift 1 19878668 19878668 20,08 0,000 innerstan 1 20644987 20644987 20,85 0,000 söderort 1 4167155 4167155 4,21 0,045 Error 53 52480257 990194 Total 57 211241322 Model Summary S R-sq R-sq(adj) R-sq(pred) 995,085 75,16% 73,28% 59,78% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -433 596-0,73 0,471 area 96,71 9,86 9,81 0,000 4,14 avgift -917 205-4,48 0,000 5,04 innerstan 2113 463 4,57 0,000 3,13 söderort 893 435 2,05 0,045 2,61 Regression Equation Pris = -433 + 96,71 area - 917 avgift + 2113 innerstan + 893 söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 6 / 34
Val av den bästa modellen Målet är att hitta en modell som beskriver datamaterialet så bra som möjligt och som kan göra bra prognoser för nya observationer. Vi kan jämföra regressionsmodeller med olika uppsättningar av förklaringsvariabler med avseende på förklaringsgrad R 2 justerad förklaringsgrad R 2 den skattade standardavvikelsen för feltermen ɛ: s längd på prediktionsintervall/prognosintervall Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 7 / 34
Best subsets regression från Minitab Best Subsets Regression: Pris versus area; rum;... Response is Pris v å n i i n s n n ö a g e d v s r e a g p s r r r i l t o R-Sq R-Sq Mallows e u f a a r Vars R-Sq (adj) (pred) Cp S a m t n n t 1 38,2 37,1 25,7 73,4 1526,8 X 1 26,3 25,0 19,1 97,9 1667,3 X 2 64,2 62,9 51,7 21,8 1172,6 X X 2 63,9 62,6 47,2 22,4 1177,8 X X 3 73,2 71,7 58,2 5,3 1024,2 X X X 3 65,7 63,8 52,3 20,6 1157,6 X X X 4 75,2 73,3 59,8 3,2 995,08 X X X X 4 73,5 71,5 54,5 6,7 1028,4 X X X X 5 75,2 72,8 56,5 5,1 1003,4 X X X X X 5 75,2 72,8 55,7 5,1 1003,4 X X X X X 6 75,3 72,3 52,9 7,0 1012,4 X X X X X X Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 8 / 34
Kapitel 5.1, stegvis regression Procedur för att välja vilka förklaringsvariabler som ska ingå i regressionsmodellen. Börja med att sätta signikansnivåer på att en variabel ska läggas till i modellen, α entry, och att en variabel ska stanna kvar i modellen, α stay. Antag att alla möjliga förklaringsvariabler i modellen är k stycken: 1) k stycken enkla linjära regressionsmodeller skattas och den variabel som ger högst förklaringsgrad R 2 läggs till i modellen (givet att p värdet < α entry ). Om ingen variabel ger en signikant skattning av lutningen så slutar proceduren här. 2) Den variabel av de återstående k 1 variablerna som är mest signikant relaterad till y, givet att den 1 :a variabeln är med i modellen, läggs till i modellen (givet att p värdet < α entry ). Den 1:a variabeln stannar i modellen om p värdet < α stay gäller. Om inte tas den bort från modellen och proceduren fortsätter. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 9 / 34
Kapitel 5.1, stegvis regression Proceduren fortsätter med att lägga till variabler en och en samtidigt som gamla variabler kontrolleras, och de som inte längre är signikanta i modellen tas bort. Proceduren är klar när alla variabler i modellen är signikanta och ingen signikant variabel kan läggas till. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 10 / 34
Exempel, stegvis regression i Minitab Regression Analysis: Pris versus area; rum; avgift; våningsplan; innerstan; söderort Stepwise Selection of Terms Candidate terms: area; rum; avgift; våningsplan; innerstan; söderort ----Step 1---- ----Step 2---- ----Step 3--- ----Step 4---- Coef P Coef P Coef P Coef P Constant 1223-714 303-433 area 43,75 0,000 58,28 0,000 94,6 0,000 96,71 0,000 innerstan 2098 0,000 1428 0,000 2113 0,000 avgift -894 0,000-917 0,000 söderort 893 0,045 S 1526,78 1172,60 1024,22 995,085 R-sq 38,20% 64,20% 73,18% 75,16% R-sq(adj) 37,10% 62,90% 71,69% 73,28% R-sq(pred) 25,66% 51,70% 58,17% 59,78% Mallows Cp 73,37 21,79 5,27 3,21 α to enter = 0,05; α to remove = 0,05 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 11 / 34
Kapitel 5.2, bakåteliminering Välj signikansnivå för att en variabel ska stanna kvar i modellen, α stay. Antag att alla möjliga förklaringsvariabler i modellen är k stycken: 1) Regressionsmodellen med alla k stycken variabler skattas. Den förklaringsvariabel vars parameter har högst p v ärde, givet att p värdet > α stay, tas bort från modellen. 2) Den nya regressionsmodellen skattas. Den förklaringsvariabel vars parameter har högst p värde, givet att p värdet > α stay, tas bort från modellen. Proceduren fortsätter tills alla variabler är signikanta. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 12 / 34
Exempel, stegvis regression med bakåteliminering i Minitab Regression Analysis: Pris versus area; rum; avgift; våningsplan; innerstan; söderort Backward Elimination of Terms Candidate terms: area; rum; avgift; våningsplan; innerstan; söderort ----Step 1---- ----Step 2---- ----Step 3---- Coef P Coef P Coef P Constant -430-445 -433 area 99,8 0,000 97,01 0,000 96,71 0,000 rum -91 0,775 avgift -905 0,000-919 0,000-917 0,000 våningsplan -19,6 0,773-23,3 0,725 innerstan 2144 0,000 2167 0,000 2113 0,000 söderort 896 0,062 930 0,044 893 0,045 S 1012,37 1003,40 995,085 R-sq 75,26% 75,22% 75,16% R-sq(adj) 72,34% 72,83% 73,28% R-sq(pred) 52,93% 56,46% 59,78% Mallows Cp 7,00 5,08 3,21 α to remove = 0,05 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 13 / 34
Den bästa modellen från metoderna Regression Analysis: Pris versus area; avgift; innerstan; söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 4 158761065 39690266 40,08 0,000 area 1 95241740 95241740 96,18 0,000 avgift 1 19878668 19878668 20,08 0,000 innerstan 1 20644987 20644987 20,85 0,000 söderort 1 4167155 4167155 4,21 0,045 Error 53 52480257 990194 Total 57 211241322 Model Summary S R-sq R-sq(adj) R-sq(pred) 995,085 75,16% 73,28% 59,78% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -433 596-0,73 0,471 area 96,71 9,86 9,81 0,000 4,14 avgift -917 205-4,48 0,000 5,04 innerstan 2113 463 4,57 0,000 3,13 söderort 893 435 2,05 0,045 2,61 Regression Equation Pris = -433 + 96,71 area - 917 avgift + 2113 innerstan + 893 söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 14 / 34
Kapitel 5.2-5.3, residualanalys Efter att ha valt den bästa regressionsmodellen med förklaringsvariabler så kan vi utvärdera modellen. Kom ihåg, enligt modellantagandena för den multipla linjära regressionsmodellen ska följande egenskaper vara uppfyllda: 1. För varje kombination av värden x 1, x 2,..., x k är medelvärdet för värdena på feltermen noll. 2. Konstant varians. För varje kombination av värden x 1, x 2,..., x k har värdena på feltermen konstant varians. Denna varians kallas för σ 2. 3. Normalf ördelning. För varje kombination av värden x 1, x 2,..., x k följer värdena på feltermen en normalfördelning. 4. Oberoende. Alla värden på feltermen är statistiskt oberoende av alla andra värden på feltermen. ɛ N (0, σ) Vi kan inte undersöka feltermerna direkt, utan undersöker i stället utseendet på residualerna e (de skattade feltermerna) residual = e = y ŷ Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 15 / 34
Kapitel 5.2-5.3, residualanalys Vi plottar residualerna e mot de skattade värdena ŷ för att undersöka om variansen runt regressionslinjen verkar vara konstant (om den ser ut som en strut så tyder det på ökande/minskande varians för ökande värden på ŷ) (antagande 1. och 2.). I samma plot kan vi undersöka om det linjära antagandet i den linjära regressionsmodellen är uppfylld genom att undersöka om det nns något mönster i plotten. I ett histogram för residualerna och i diagrammet normal probability plot kan vi undersöka om residualerna ser normalfördelade ut (antagande 3.). Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 16 / 34
Exempel, enkel linjär regressionsanalys med pris och area Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 17 / 34
Exempel, residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 18 / 34
Kapitel 5.4, ovanliga observationer I föregående plottar upptäckte vi en observation som avviker väldigt mycket från de övriga observationerna i data. Allmänt gäller att en observation som skiljer sig från resten av data kallas outlier. Den kan vara extrem i förhållande till förklaringsvariablerna: stort "leverage" (distance value) extrem i förhållande till regressionslinjen: stor residual (inytelserik) I vårt exempel är observationen extrem i förhållande till regressionslinjen, eftersom den ger en väldigt stor residual. Om vi upptäcker en misstänkt outlier bör vi undersöka om det kan bero på felmätning/inmatning. Gör det inte det kan vi fundera över om observationen tillhör populationen vi vill dra slutsatser om. Gör den det och observationen är misstänkt inytelserik kan vi prova att göra en ny analys utan observationen och se hur resultaten förändras. I en resultatrapport bör vi då redovisa resultaten både med och utan observationen/rna. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 19 / 34
Exempel, borttagning av outlier På grund av att observationen är så pass extrem i förhållande till övriga observationer i datamaterialet, så prövar vi att göra om analysen utan denna observation och generaliserar våra resultat till ordinära lägenheter i Stockholms kommun. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 20 / 34
Exempel, enkel linjär regressionsanalys med pris och area Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 21 / 34
Exempel, residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 22 / 34
Ökande varians? Vi kan prova att transformera y y = y Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 23 / 34
Exempel, residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 24 / 34
Något annat som kan vara fel? Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 25 / 34
Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; innerstan; söderort; area*innerstan; area*söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 5 61172024 12234405 24,25 0,000 area 1 8268242 8268242 16,39 0,000 innerstan 1 2162821 2162821 4,29 0,043 söderort 1 2216217 2216217 4,39 0,041 area*innerstan 1 925 925 0,00 0,966 area*söderort 1 1429061 1429061 2,83 0,098 Error 51 25727700 504465 Lack-of-Fit 46 25182471 547445 5,02 0,039 Pure Error 5 545229 109046 Total 56 86899725 Model Summary S R-sq R-sq(adj) R-sq(pred) 710,257 70,39% 67,49% 59,00% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -1276 1149-1,11 0,272 area 57,9 14,3 4,05 0,000 14,97 innerstan 2503 1209 2,07 0,043 41,28 söderort 2553 1218 2,10 0,041 39,72 area*innerstan -0,7 16,1-0,04 0,966 21,69 area*söderort -25,8 15,3-1,68 0,098 37,74 Regression Equation Pris = -1276 + 57,9 area + 2503 innerstan + 2553 söderort - 0,7 area*innerstan - 25,8 area*söderort När man lägger till en interaktionsterm eller en kvadratisk term får man ofta problem med multikolinjäritet. Ett sätt att minska detta på är att centrera förklaringsvariablerna som ingår i interaktionstermen (dummyvariabeln behöver inte centreras) som x centrerad = x x. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 26 / 34
Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus CenterArea; innerstan; söderort; CenterArea*i; CenterArea*s Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 5 61172024 12234405 24,25 0,000 CenterArea 1 8268242 8268242 16,39 0,000 innerstan 1 18473372 18473372 36,62 0,000 söderort 1 3116626 3116626 6,18 0,016 CenterArea*innerstan 1 925 925 0,00 0,966 CenterArea*söderort 1 1429061 1429061 2,83 0,098 Error 51 25727700 504465 Lack-of-Fit 46 25182471 547445 5,02 0,039 Pure Error 5 545229 109046 Total 56 86899725 Model Summary S R-sq R-sq(adj) R-sq(pred) 710,257 70,39% 67,49% 59,00% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 2189 374 5,85 0,000 CenterArea 57,9 14,3 4,05 0,000 14,97 innerstan 2462 407 6,05 0,000 4,68 söderort 1011 407 2,49 0,016 4,43 CenterArea*innerstan -0,7 16,1-0,04 0,966 5,81 CenterArea*söderort -25,8 15,3-1,68 0,098 8,43 Regression Equation Pris = 2189 + 57,9 CenterArea + 2462 innerstan + 1011 söderort - 0,7 CenterArea*innerstan - 25,8 CenterArea*söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 27 / 34
Exempel, residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 28 / 34
Exempel, stegvis regression i Minitab Regression Analysis: Pris versus CenterArea; rum; avgift; våningsplan; innerstan; söderort Stepwise Selection of Terms Candidate terms: CenterArea; rum; avgift; våningsplan; innerstan; söderort ----Step 1---- ----Step 2---- ----Step 3---- ----Step 4---- Coef P Coef P Coef P Coef P Constant 3702 2964 4245 3811 CenterArea 28,07 0,000 41,44 0,000 58,30 0,000 60,92 0,000 innerstan 1502 0,000 1300 0,000 1841 0,000 avgift -365 0,038-397 0,021 söderort 701 0,032 S 1025,29 773,215 749,182 723,196 R-sq 33,47% 62,85% 65,77% 68,70% R-sq(adj) 32,26% 61,47% 63,83% 66,30% R-sq(pred) 29,60% 59,02% 60,92% 61,73% Mallows Cp 61,03 12,67 9,67 6,64 α to enter = 0,05; α to remove = 0,05 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 29 / 34
Exempel, stegvis regression i Minitab Regression Analysis: Pris versus CenterArea; avgift; innerstan; söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 4 59703071 14925768 28,54 0,000 CenterArea 1 24934328 24934328 47,67 0,000 avgift 1 2974412 2974412 5,69 0,021 innerstan 1 15469825 15469825 29,58 0,000 söderort 1 2550832 2550832 4,88 0,032 Error 52 27196654 523013 Total 56 86899725 Model Summary S R-sq R-sq(adj) R-sq(pred) 723,196 68,70% 66,30% 61,73% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 3811 630 6,05 0,000 CenterArea 60,92 8,82 6,90 0,000 5,49 avgift -397 166-2,38 0,021 6,29 innerstan 1841 339 5,44 0,000 3,12 söderort 701 317 2,21 0,032 2,60 Regression Equation Pris = 3811 + 60,92 CenterArea - 397 avgift + 1841 innerstan + 701 söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 30 / 34
Residualplott för modell utan interaktionstermer Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 31 / 34
Inkluderar den bästa modellen interaktionstermer? Ett partiellt F-test för interaktionstermerna CenterArea innerstan och CenterArea söderort ger. F = 3.7809 > F [0.05],6 4,40 = 3.23 > F [0.05],6 4,58 6 1 Alltså är minst en av interaktionstermerna från F-testet signikant, d.v.s. vi kan behålla båda interaktionstermerna i modellen. Obs! Variance Ination Factor (VIF) har dock ett väldigt högt värde för förklaringsvariabeln CenterArea. Därför kan det vara bättre att inte inkludera interaktionstermerna. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 32 / 34
Modell med interaktionstermer Regression Analysis: Pris versus CenterArea; avgift; innerstan; söderort; CenterArea*i;... Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 6 63214871 10535812 22,24 0,000 CenterArea 1 10266060 10266060 21,67 0,000 avgift 1 2042846 2042846 4,31 0,043 innerstan 1 15841251 15841251 33,44 0,000 söderort 1 3520725 3520725 7,43 0,009 CenterArea*innerstan 1 34219 34219 0,07 0,789 CenterArea*söderort 1 1441833 1441833 3,04 0,087 Error 50 23684854 473697 Total 56 86899725 Model Summary S R-sq R-sq(adj) R-sq(pred) 688,257 72,74% 69,47% 61,05% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 3298 646 5,11 0,000 CenterArea 74,7 16,0 4,66 0,000 20,05 avgift -335 161-2,08 0,043 6,52 innerstan 2316 401 5,78 0,000 4,82 söderort 1078 396 2,73 0,009 4,46 CenterArea*innerstan -4,2 15,7-0,27 0,789 5,88 CenterArea*söderort -25,9 14,8-1,74 0,087 8,43 Regression Equation Pris = 3298 + 74,7 CenterArea - 335 avgift + 2316 innerstan + 1078 söderort - 4,2 CenterArea*innerstan - 25,9 CenterArea*söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 33 / 34
Residualplott för modell med interaktionstermer Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 34 / 34