732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Relevanta dokument
Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Regressions- och Tidsserieanalys - F5

Skrivning i ekonometri lördagen den 29 mars 2008

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Föreläsning 4. Kap 5,1-5,3

10.1 Enkel linjär regression

Skrivning i ekonometri torsdagen den 8 februari 2007

Regressions- och Tidsserieanalys - F3

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Regressions- och Tidsserieanalys - F3

Skrivning i ekonometri lördagen den 15 januari 2005

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Regressions- och Tidsserieanalys - F3

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Statistik B Regressions- och tidsserieanalys Föreläsning 1

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Bayesiansk statistik, 732g43, 7.5 hp

Tentamen i matematisk statistik

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Metod och teori. Statistik för naturvetare Umeå universitet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Skrivning i ekonometri lördagen den 25 augusti 2007

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Laboration 2 multipel linjär regression

7.5 Experiment with a single factor having more than two levels

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Tentamen i Matematisk statistik Kurskod S0001M

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen Tillämpad statistik A5 (15hp)

TENTAMEN I MATEMATISK STATISTIK

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Examinationsuppgifter del 2

Exempel 1 på multipelregression

Tentamen i Matematisk statistik Kurskod S0001M

TENTAMEN I STATISTIK B,

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Tentamen i matematisk statistik

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Multipel Regressionsmodellen

8.1 General factorial experiments

Linjär regressionsanalys. Wieland Wermke

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

Finansiell statistik. Multipel regression. 4 maj 2011

Regressionsanalys av lägenhetspriser i Spånga

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Räkneövning 3 Variansanalys

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning G60 Statistiska metoder

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

LABORATION 3 - Regressionsanalys

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Tentamen i Matematisk statistik Kurskod S0001M

F7 Polynomregression och Dummyvariabler

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i Matematisk statistik Kurskod S0001M

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

LABORATION 3 - Regressionsanalys

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen i Matematisk statistik Kurskod S0001M

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

F13 Regression och problemlösning

Matematisk statistik, Föreläsning 5

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Multikolinjäritet: Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Följande resultat erhålls (enhet: 1000psi):

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Läs noggrant informationen nedan innan du börjar skriva tentamen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Tentamen i Matematisk statistik Kurskod S0001M

Standard Normal Quantiles. Vilken av följande slutsatser kan man dra från qq-plotten?

Exempel 1 på multipelregression

Uppgift a b c d e f (vet ej) Poäng

Tentamen i matematisk statistik

7.5 Experiment with a single factor having more than two levels

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

732G71 Statistik B. Föreläsning 9. Bertil Wegmann. December 1, IDA, Linköpings universitet

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Transkript:

732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34

Kap. 5.1, korrelationsmatris En korrelationsmatris är en matris med parvisa korrelationer, r, mellan alla kvantitativa variabler i modellen. Minitab ger även p-värdet för alla korrelationer från ett hypotestest med den sanna korrelationen, ρ, lika med noll under nollhypotesen. I tabellen nedan ges korrelationsmatrisen för variablerna försäljningspris (pris) i tusentals kronor (tkr), antal kvadratmeter (area), antal rum (rum), bostadsavgift (avgift) i tusentals kronor (tkr) och våningsplan för 58 slumpmässigt valda lägenhetspriser i Stockholms kommun. Correlation: Pris; area; rum; avgift; våningsplan Pris area rum avgift 0,618 area 0,000 rum 0,513 0,916 0,000 0,000 avgift 0,275 0,862 0,830 0,036 0,000 0,000 våningsplan 0,129-0,027 0,020-0,095 0,334 0,840 0,883 0,476 Cell Contents: Pearson correlation P-Value Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 2 / 34

Kap. 5.1, multikolinjäritet Perfekt multikolinjäritet existerar om en eller era förklaringsvarabler är en linjärkombination av en eller era andra förklaringsvariabler, d.v.s. om det gäller för minst en förklaringsvariabel x j bland k stycken förklaringsvariabler att x j = a 1 x 1 + a 2 x 2 + + a j 1 x j 1 + a j+1 x j+1 + + a k x k för konstanterna a 1, a 2,..., a j 1, a j+1,..., a k. I ett sådant fall går det inte att skatta en regressionsmodell. I praktiken är det mer vanligt att man får problem med multikolinjäritet för att att en eller era förklaringsvariabler är högt korrelerade med en eller era andra förklaringsvariabler. Då går det att skatta regressionsmodellen men man får stor osäkerhet i skattningarna för parameterarna, d.v.s. höga värden på s b1, s b2,.... Som tumregel brukar man anse att det är allvarliga problem med multikolinjäriet om minst en korrelationskoecient r är minst 0.9. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 3 / 34

Kap. 5.1, multikolinjäritet Ett annat sätt att mäta multikolinjäritet på är att använda Variance Ination Factors (VIF). VIF för varje förklaringsvariabel x j beräknas som VIF j = 1, 1 Rj 2 där Rj 2 är förklaringsgraden från en multipel linjär regressionsmodell med x j som beroende variabel och övriga förklaringsvariabler som förklaringsvariabler. Multikolinjäritet anses vara ett stort problem om 1. Någon VIF > 10 2. Medelvärdet av alla VIF är mycket större än 1. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 4 / 34

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; rum; avgift; innerstan; söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 5 158885872 31777174 31,56 0,000 area 1 53057737 53057737 52,70 0,000 rum 1 124807 124807 0,12 0,726 avgift 1 18192229 18192229 18,07 0,000 innerstan 1 20100393 20100393 19,96 0,000 söderort 1 3701150 3701150 3,68 0,061 Error 52 52355450 1006836 Total 57 211241322 Model Summary S R-sq R-sq(adj) R-sq(pred) 1003,41 75,22% 72,83% 55,71% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -417 603-0,69 0,492 area 100,1 13,8 7,26 0,000 7,96 rum -109 308-0,35 0,726 6,81 avgift -900 212-4,25 0,000 5,31 innerstan 2096 469 4,47 0,000 3,17 söderort 860 448 1,92 0,061 2,73 Regression Equation Pris = -417 + 100,1 area - 109 rum - 900 avgift + 2096 innerstan + 860 söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 5 / 34

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; avgift; innerstan; söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 4 158761065 39690266 40,08 0,000 area 1 95241740 95241740 96,18 0,000 avgift 1 19878668 19878668 20,08 0,000 innerstan 1 20644987 20644987 20,85 0,000 söderort 1 4167155 4167155 4,21 0,045 Error 53 52480257 990194 Total 57 211241322 Model Summary S R-sq R-sq(adj) R-sq(pred) 995,085 75,16% 73,28% 59,78% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -433 596-0,73 0,471 area 96,71 9,86 9,81 0,000 4,14 avgift -917 205-4,48 0,000 5,04 innerstan 2113 463 4,57 0,000 3,13 söderort 893 435 2,05 0,045 2,61 Regression Equation Pris = -433 + 96,71 area - 917 avgift + 2113 innerstan + 893 söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 6 / 34

Val av den bästa modellen Målet är att hitta en modell som beskriver datamaterialet så bra som möjligt och som kan göra bra prognoser för nya observationer. Vi kan jämföra regressionsmodeller med olika uppsättningar av förklaringsvariabler med avseende på förklaringsgrad R 2 justerad förklaringsgrad R 2 den skattade standardavvikelsen för feltermen ɛ: s längd på prediktionsintervall/prognosintervall Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 7 / 34

Best subsets regression från Minitab Best Subsets Regression: Pris versus area; rum;... Response is Pris v å n i i n s n n ö a g e d v s r e a g p s r r r i l t o R-Sq R-Sq Mallows e u f a a r Vars R-Sq (adj) (pred) Cp S a m t n n t 1 38,2 37,1 25,7 73,4 1526,8 X 1 26,3 25,0 19,1 97,9 1667,3 X 2 64,2 62,9 51,7 21,8 1172,6 X X 2 63,9 62,6 47,2 22,4 1177,8 X X 3 73,2 71,7 58,2 5,3 1024,2 X X X 3 65,7 63,8 52,3 20,6 1157,6 X X X 4 75,2 73,3 59,8 3,2 995,08 X X X X 4 73,5 71,5 54,5 6,7 1028,4 X X X X 5 75,2 72,8 56,5 5,1 1003,4 X X X X X 5 75,2 72,8 55,7 5,1 1003,4 X X X X X 6 75,3 72,3 52,9 7,0 1012,4 X X X X X X Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 8 / 34

Kapitel 5.1, stegvis regression Procedur för att välja vilka förklaringsvariabler som ska ingå i regressionsmodellen. Börja med att sätta signikansnivåer på att en variabel ska läggas till i modellen, α entry, och att en variabel ska stanna kvar i modellen, α stay. Antag att alla möjliga förklaringsvariabler i modellen är k stycken: 1) k stycken enkla linjära regressionsmodeller skattas och den variabel som ger högst förklaringsgrad R 2 läggs till i modellen (givet att p värdet < α entry ). Om ingen variabel ger en signikant skattning av lutningen så slutar proceduren här. 2) Den variabel av de återstående k 1 variablerna som är mest signikant relaterad till y, givet att den 1 :a variabeln är med i modellen, läggs till i modellen (givet att p värdet < α entry ). Den 1:a variabeln stannar i modellen om p värdet < α stay gäller. Om inte tas den bort från modellen och proceduren fortsätter. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 9 / 34

Kapitel 5.1, stegvis regression Proceduren fortsätter med att lägga till variabler en och en samtidigt som gamla variabler kontrolleras, och de som inte längre är signikanta i modellen tas bort. Proceduren är klar när alla variabler i modellen är signikanta och ingen signikant variabel kan läggas till. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 10 / 34

Exempel, stegvis regression i Minitab Regression Analysis: Pris versus area; rum; avgift; våningsplan; innerstan; söderort Stepwise Selection of Terms Candidate terms: area; rum; avgift; våningsplan; innerstan; söderort ----Step 1---- ----Step 2---- ----Step 3--- ----Step 4---- Coef P Coef P Coef P Coef P Constant 1223-714 303-433 area 43,75 0,000 58,28 0,000 94,6 0,000 96,71 0,000 innerstan 2098 0,000 1428 0,000 2113 0,000 avgift -894 0,000-917 0,000 söderort 893 0,045 S 1526,78 1172,60 1024,22 995,085 R-sq 38,20% 64,20% 73,18% 75,16% R-sq(adj) 37,10% 62,90% 71,69% 73,28% R-sq(pred) 25,66% 51,70% 58,17% 59,78% Mallows Cp 73,37 21,79 5,27 3,21 α to enter = 0,05; α to remove = 0,05 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 11 / 34

Kapitel 5.2, bakåteliminering Välj signikansnivå för att en variabel ska stanna kvar i modellen, α stay. Antag att alla möjliga förklaringsvariabler i modellen är k stycken: 1) Regressionsmodellen med alla k stycken variabler skattas. Den förklaringsvariabel vars parameter har högst p v ärde, givet att p värdet > α stay, tas bort från modellen. 2) Den nya regressionsmodellen skattas. Den förklaringsvariabel vars parameter har högst p värde, givet att p värdet > α stay, tas bort från modellen. Proceduren fortsätter tills alla variabler är signikanta. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 12 / 34

Exempel, stegvis regression med bakåteliminering i Minitab Regression Analysis: Pris versus area; rum; avgift; våningsplan; innerstan; söderort Backward Elimination of Terms Candidate terms: area; rum; avgift; våningsplan; innerstan; söderort ----Step 1---- ----Step 2---- ----Step 3---- Coef P Coef P Coef P Constant -430-445 -433 area 99,8 0,000 97,01 0,000 96,71 0,000 rum -91 0,775 avgift -905 0,000-919 0,000-917 0,000 våningsplan -19,6 0,773-23,3 0,725 innerstan 2144 0,000 2167 0,000 2113 0,000 söderort 896 0,062 930 0,044 893 0,045 S 1012,37 1003,40 995,085 R-sq 75,26% 75,22% 75,16% R-sq(adj) 72,34% 72,83% 73,28% R-sq(pred) 52,93% 56,46% 59,78% Mallows Cp 7,00 5,08 3,21 α to remove = 0,05 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 13 / 34

Den bästa modellen från metoderna Regression Analysis: Pris versus area; avgift; innerstan; söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 4 158761065 39690266 40,08 0,000 area 1 95241740 95241740 96,18 0,000 avgift 1 19878668 19878668 20,08 0,000 innerstan 1 20644987 20644987 20,85 0,000 söderort 1 4167155 4167155 4,21 0,045 Error 53 52480257 990194 Total 57 211241322 Model Summary S R-sq R-sq(adj) R-sq(pred) 995,085 75,16% 73,28% 59,78% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -433 596-0,73 0,471 area 96,71 9,86 9,81 0,000 4,14 avgift -917 205-4,48 0,000 5,04 innerstan 2113 463 4,57 0,000 3,13 söderort 893 435 2,05 0,045 2,61 Regression Equation Pris = -433 + 96,71 area - 917 avgift + 2113 innerstan + 893 söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 14 / 34

Kapitel 5.2-5.3, residualanalys Efter att ha valt den bästa regressionsmodellen med förklaringsvariabler så kan vi utvärdera modellen. Kom ihåg, enligt modellantagandena för den multipla linjära regressionsmodellen ska följande egenskaper vara uppfyllda: 1. För varje kombination av värden x 1, x 2,..., x k är medelvärdet för värdena på feltermen noll. 2. Konstant varians. För varje kombination av värden x 1, x 2,..., x k har värdena på feltermen konstant varians. Denna varians kallas för σ 2. 3. Normalf ördelning. För varje kombination av värden x 1, x 2,..., x k följer värdena på feltermen en normalfördelning. 4. Oberoende. Alla värden på feltermen är statistiskt oberoende av alla andra värden på feltermen. ɛ N (0, σ) Vi kan inte undersöka feltermerna direkt, utan undersöker i stället utseendet på residualerna e (de skattade feltermerna) residual = e = y ŷ Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 15 / 34

Kapitel 5.2-5.3, residualanalys Vi plottar residualerna e mot de skattade värdena ŷ för att undersöka om variansen runt regressionslinjen verkar vara konstant (om den ser ut som en strut så tyder det på ökande/minskande varians för ökande värden på ŷ) (antagande 1. och 2.). I samma plot kan vi undersöka om det linjära antagandet i den linjära regressionsmodellen är uppfylld genom att undersöka om det nns något mönster i plotten. I ett histogram för residualerna och i diagrammet normal probability plot kan vi undersöka om residualerna ser normalfördelade ut (antagande 3.). Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 16 / 34

Exempel, enkel linjär regressionsanalys med pris och area Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 17 / 34

Exempel, residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 18 / 34

Kapitel 5.4, ovanliga observationer I föregående plottar upptäckte vi en observation som avviker väldigt mycket från de övriga observationerna i data. Allmänt gäller att en observation som skiljer sig från resten av data kallas outlier. Den kan vara extrem i förhållande till förklaringsvariablerna: stort "leverage" (distance value) extrem i förhållande till regressionslinjen: stor residual (inytelserik) I vårt exempel är observationen extrem i förhållande till regressionslinjen, eftersom den ger en väldigt stor residual. Om vi upptäcker en misstänkt outlier bör vi undersöka om det kan bero på felmätning/inmatning. Gör det inte det kan vi fundera över om observationen tillhör populationen vi vill dra slutsatser om. Gör den det och observationen är misstänkt inytelserik kan vi prova att göra en ny analys utan observationen och se hur resultaten förändras. I en resultatrapport bör vi då redovisa resultaten både med och utan observationen/rna. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 19 / 34

Exempel, borttagning av outlier På grund av att observationen är så pass extrem i förhållande till övriga observationer i datamaterialet, så prövar vi att göra om analysen utan denna observation och generaliserar våra resultat till ordinära lägenheter i Stockholms kommun. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 20 / 34

Exempel, enkel linjär regressionsanalys med pris och area Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 21 / 34

Exempel, residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 22 / 34

Ökande varians? Vi kan prova att transformera y y = y Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 23 / 34

Exempel, residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 24 / 34

Något annat som kan vara fel? Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 25 / 34

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; innerstan; söderort; area*innerstan; area*söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 5 61172024 12234405 24,25 0,000 area 1 8268242 8268242 16,39 0,000 innerstan 1 2162821 2162821 4,29 0,043 söderort 1 2216217 2216217 4,39 0,041 area*innerstan 1 925 925 0,00 0,966 area*söderort 1 1429061 1429061 2,83 0,098 Error 51 25727700 504465 Lack-of-Fit 46 25182471 547445 5,02 0,039 Pure Error 5 545229 109046 Total 56 86899725 Model Summary S R-sq R-sq(adj) R-sq(pred) 710,257 70,39% 67,49% 59,00% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -1276 1149-1,11 0,272 area 57,9 14,3 4,05 0,000 14,97 innerstan 2503 1209 2,07 0,043 41,28 söderort 2553 1218 2,10 0,041 39,72 area*innerstan -0,7 16,1-0,04 0,966 21,69 area*söderort -25,8 15,3-1,68 0,098 37,74 Regression Equation Pris = -1276 + 57,9 area + 2503 innerstan + 2553 söderort - 0,7 area*innerstan - 25,8 area*söderort När man lägger till en interaktionsterm eller en kvadratisk term får man ofta problem med multikolinjäritet. Ett sätt att minska detta på är att centrera förklaringsvariablerna som ingår i interaktionstermen (dummyvariabeln behöver inte centreras) som x centrerad = x x. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 26 / 34

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus CenterArea; innerstan; söderort; CenterArea*i; CenterArea*s Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 5 61172024 12234405 24,25 0,000 CenterArea 1 8268242 8268242 16,39 0,000 innerstan 1 18473372 18473372 36,62 0,000 söderort 1 3116626 3116626 6,18 0,016 CenterArea*innerstan 1 925 925 0,00 0,966 CenterArea*söderort 1 1429061 1429061 2,83 0,098 Error 51 25727700 504465 Lack-of-Fit 46 25182471 547445 5,02 0,039 Pure Error 5 545229 109046 Total 56 86899725 Model Summary S R-sq R-sq(adj) R-sq(pred) 710,257 70,39% 67,49% 59,00% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 2189 374 5,85 0,000 CenterArea 57,9 14,3 4,05 0,000 14,97 innerstan 2462 407 6,05 0,000 4,68 söderort 1011 407 2,49 0,016 4,43 CenterArea*innerstan -0,7 16,1-0,04 0,966 5,81 CenterArea*söderort -25,8 15,3-1,68 0,098 8,43 Regression Equation Pris = 2189 + 57,9 CenterArea + 2462 innerstan + 1011 söderort - 0,7 CenterArea*innerstan - 25,8 CenterArea*söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 27 / 34

Exempel, residualplottar Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 28 / 34

Exempel, stegvis regression i Minitab Regression Analysis: Pris versus CenterArea; rum; avgift; våningsplan; innerstan; söderort Stepwise Selection of Terms Candidate terms: CenterArea; rum; avgift; våningsplan; innerstan; söderort ----Step 1---- ----Step 2---- ----Step 3---- ----Step 4---- Coef P Coef P Coef P Coef P Constant 3702 2964 4245 3811 CenterArea 28,07 0,000 41,44 0,000 58,30 0,000 60,92 0,000 innerstan 1502 0,000 1300 0,000 1841 0,000 avgift -365 0,038-397 0,021 söderort 701 0,032 S 1025,29 773,215 749,182 723,196 R-sq 33,47% 62,85% 65,77% 68,70% R-sq(adj) 32,26% 61,47% 63,83% 66,30% R-sq(pred) 29,60% 59,02% 60,92% 61,73% Mallows Cp 61,03 12,67 9,67 6,64 α to enter = 0,05; α to remove = 0,05 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 29 / 34

Exempel, stegvis regression i Minitab Regression Analysis: Pris versus CenterArea; avgift; innerstan; söderort Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 4 59703071 14925768 28,54 0,000 CenterArea 1 24934328 24934328 47,67 0,000 avgift 1 2974412 2974412 5,69 0,021 innerstan 1 15469825 15469825 29,58 0,000 söderort 1 2550832 2550832 4,88 0,032 Error 52 27196654 523013 Total 56 86899725 Model Summary S R-sq R-sq(adj) R-sq(pred) 723,196 68,70% 66,30% 61,73% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 3811 630 6,05 0,000 CenterArea 60,92 8,82 6,90 0,000 5,49 avgift -397 166-2,38 0,021 6,29 innerstan 1841 339 5,44 0,000 3,12 söderort 701 317 2,21 0,032 2,60 Regression Equation Pris = 3811 + 60,92 CenterArea - 397 avgift + 1841 innerstan + 701 söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 30 / 34

Residualplott för modell utan interaktionstermer Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 31 / 34

Inkluderar den bästa modellen interaktionstermer? Ett partiellt F-test för interaktionstermerna CenterArea innerstan och CenterArea söderort ger. F = 3.7809 > F [0.05],6 4,40 = 3.23 > F [0.05],6 4,58 6 1 Alltså är minst en av interaktionstermerna från F-testet signikant, d.v.s. vi kan behålla båda interaktionstermerna i modellen. Obs! Variance Ination Factor (VIF) har dock ett väldigt högt värde för förklaringsvariabeln CenterArea. Därför kan det vara bättre att inte inkludera interaktionstermerna. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 32 / 34

Modell med interaktionstermer Regression Analysis: Pris versus CenterArea; avgift; innerstan; söderort; CenterArea*i;... Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 6 63214871 10535812 22,24 0,000 CenterArea 1 10266060 10266060 21,67 0,000 avgift 1 2042846 2042846 4,31 0,043 innerstan 1 15841251 15841251 33,44 0,000 söderort 1 3520725 3520725 7,43 0,009 CenterArea*innerstan 1 34219 34219 0,07 0,789 CenterArea*söderort 1 1441833 1441833 3,04 0,087 Error 50 23684854 473697 Total 56 86899725 Model Summary S R-sq R-sq(adj) R-sq(pred) 688,257 72,74% 69,47% 61,05% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 3298 646 5,11 0,000 CenterArea 74,7 16,0 4,66 0,000 20,05 avgift -335 161-2,08 0,043 6,52 innerstan 2316 401 5,78 0,000 4,82 söderort 1078 396 2,73 0,009 4,46 CenterArea*innerstan -4,2 15,7-0,27 0,789 5,88 CenterArea*söderort -25,9 14,8-1,74 0,087 8,43 Regression Equation Pris = 3298 + 74,7 CenterArea - 335 avgift + 2316 innerstan + 1078 söderort - 4,2 CenterArea*innerstan - 25,9 CenterArea*söderort Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 33 / 34

Residualplott för modell med interaktionstermer Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 34 / 34