732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Relevanta dokument
Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

10.1 Enkel linjär regression

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F7

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen Tillämpad statistik A5 (15hp)

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

TENTAMEN I STATISTIK B,

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

TENTAMEN I REGRESSIONS- OCH TIDSSERIEANALYS,

Laboration 2 multipel linjär regression

Tentamen i matematisk statistik

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Föreläsning 4. Kap 5,1-5,3

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Räkneövning 3 Variansanalys

Tentamen i matematisk statistik

8.1 General factorial experiments

Exempel 1 på multipelregression

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Tentamen Tillämpad statistik A5 (15hp)

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri torsdagen den 8 februari 2007

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

1. Man tror sig veta att en viss variabel, y, i genomsnitt beror av en annan variabel, x, enligt sambandet:

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F5

Metod och teori. Statistik för naturvetare Umeå universitet

Tentamen i Matematisk statistik Kurskod S0001M

Skrivning i ekonometri lördagen den 15 januari 2005

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Exempel 1 på multipelregression

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Multipel Regressionsmodellen

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Tentamen i Matematisk statistik Kurskod S0001M

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen Tillämpad statistik A5 (15hp)

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Tentamen Tillämpad statistik A5 (15hp)

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning G60 Statistiska metoder

Kroppstemperaturen hos människa anses i regel vara 37,0 C/ 98,6 F. För att beräkna och rita grafer har programmet Minitab använts.

Examinationsuppgifter del 2

7.5 Experiment with a single factor having more than two levels

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Uppgift a b c d e f (vet ej) Poäng

Tentamen i Matematisk statistik Kurskod S0001M

Kvadratisk regression, forts.

Tentamen i Matematisk statistik Kurskod S0001M

Bayesiansk statistik, 732g43, 7.5 hp

Skrivning i ekonometri lördagen den 25 augusti 2007

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

F7 Polynomregression och Dummyvariabler

Tentamen i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Tentamen i Matematisk statistik Kurskod S0001M

Statistisk analys av komplexa data

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

tentaplugg.nu av studenter för studenter

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Tillämpad statistik A5 (15hp)

Tentamen i matematisk statistik

732G71 Statistik B. Föreläsning 9. Bertil Wegmann. December 1, IDA, Linköpings universitet

Del A: Schema för ifyllande av svar nns på sista sidan

LABORATION 3 - Regressionsanalys

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Transkript:

732G71 Statistik B Föreläsning 3 Bertil Wegmann IDA, Linköpings universitet November 4, 2015 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 1 / 22

Kap. 4.8, interaktionsvariabler Ibland ser sambandet mellan en förklaringsvariabel x 1 och en beroende variabel y olika ut beroendet på värdet av en annan förklaringsvariabel x 2. I sådant fall kan man lägga till en interaktionsvariabel som produkten av de två förklaringsvariablerna, d.v.s. x 1 x 2. Den linjära regressionsmodellen ser då ut enligt följande: y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 1 x 2 + ɛ Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 2 / 22

Kap. 4.9, dummy variabler Hittills har vi bara använt kvantitativa förklaringsvariabler. Om vi vill modellera eekten från olika nivåer på någon/några kvalitativa förklaringsvariabler, så kan vi skapa dummyvariabler. Antalet dummyvariabler som behövs i modellen är antalet niv åer 1. Följande gäller för en dummyvariabel D i för en observation i: D i = 1 om observationen har en viss egenskap D i = 0 om observationen inte har en viss egenskap Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 3 / 22

Exempel, dummy variabler Ett företags försäljningsvolym y i ett område beror både på mängden lokalt inriktade annonseringskostnader x och i vilket kvartal på året som försäljningen skedde i. För att ta hänsyn till olika försäljningsvolymer i olika kvartal, så kan man skapa en dummyvariabel för respektive kvartal utom kvartal 4. Exempelvis är D 2 dummyvariabeln för kvartal 2. Då gäller att D 1 = 0, D 2 = 1, D 3 = 0 om försäljning skedde i kvartal 2 och D 2 = 0 om försäljning inte skedde i kvartal 2. Försäljningsvolym i kvartal 4 innebär att D 1 = D 2 = D 3 = 0. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 4 / 22

Exempel, dummy variabler och interaktionsvariabler Om man dessutom misstänker att eekten från annonseringskostnad x på försäljningsvolymen y skiljer sig åt mellan kvartalen, så kan man ta hänsyn till detta genom att inkludera interaktion mellan annonseringskostnad och försäljningskvartal. Detta innebär att interaktionsvariablerna xd 1, xd 2, xd 3 inkluderas i modellen. En multipel linjär regressionsmodell med både dummy- och interaktionsvariabler kan då skapas enligt y = β 0 + β 1 D 1 + β 2 D 2 + β 3 D 3 + β 4 x + β 5 xd 1 + β 6 xd 2 + β 7 xd 3 + ɛ Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 5 / 22

Exempel Följande datamaterial innehåller uppgifter om 16 slumpmässigt valda lägenheter som nyligen sålts i Stockholmsområdet. Namn Beskrivning Variabel typ Pris Försäljningspris y kvantitativ Kvm area i kvm x 1 kvantitativ Rum antal rum x 2 kvantitativ Innerstan läge D kvalitativ Variabeln D=Innerstan är också ett exempel på en dummyvariabel, eftersom den är lika med ett om lägenheten såldes i innerstan och lika med noll annars. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 6 / 22

Spridningsdiagram (scatterplot) 7 Scatterplot of Pris vs area 6 5 Pris 4 3 2 20 30 40 50 60 area 70 80 90 100 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 7 / 22

Spridningsdiagram (scatterplot) 7 Scatterplot of Pris vs rum 6 5 Pris 4 3 2 1,0 1,5 2,0 2,5 rum 3,0 3,5 4,0 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 8 / 22

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; rum Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 20,929 10,4647 16,71 0,000 area 1 9,805 9,8054 15,66 0,002 rum 1 2,347 2,3467 3,75 0,075 Error 13 8,141 0,6262 Total 15 29,070 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,791337 72,00% 67,69% 60,31% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 1,167 0,549 2,12 0,053 area 0,0932 0,0236 3,96 0,002 6,22 rum -1,031 0,532-1,94 0,075 6,22 Regression Equation Pris = 1,167 + 0,0932 area - 1,031 rum Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 9 / 22

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 18,58 18,5827 24,81 0,000 area 1 18,58 18,5827 24,81 0,000 Error 14 10,49 0,7491 Total 15 29,07 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,865508 63,92% 61,35% 54,68% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 1,238 0,599 2,07 0,058 area 0,0514 0,0103 4,98 0,000 1,00 Regression Equation Pris = 1,238 + 0,0514 area Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 10 / 22

Spridningsdiagram (scatterplot) uppdelad på område 7 6 Scatterplot of Pris vs area innerstan 0 1 5 Pris 4 3 2 20 30 40 50 60 area 70 80 90 100 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 11 / 22

Signikanstest för dummyvariabeln D = Innerstan Det verkar som att prisnivån på lägenheter skiljer sig betydligt mellan innerstan och icke-innerstan. Det är därför lämpligt att inkludera dummyvariabeln D = Innerstan i regressionsmodellen. Vi testar därför om det nns någon signikant eekt från dummyvariabeln D i följande regressionsmodell: H 0 : β 3 = 0 H a : β 3 = 0 y = β 0 + β 1 x 1 + β 3 D + ɛ t = b 3 s, b 3 H 0 förkastas om t > t [α/2],(n 2 1) Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 12 / 22

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; innerstan Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 26,221 13,1104 59,81 0,000 area 1 23,622 23,6222 107,77 0,000 innerstan 1 7,638 7,6380 34,85 0,000 Error 13 2,849 0,2192 Total 15 29,070 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,468172 90,20% 88,69% 84,86% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -0,026 0,389-0,07 0,947 area 0,05984 0,00576 10,38 0,000 1,07 innerstan 1,437 0,243 5,90 0,000 1,07 Regression Equation Pris = -0,026 + 0,05984 area + 1,437 innerstan Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 13 / 22

Skattade regressionslinjer uppdelade på område 7 Scatterplot of Pris vs area innerstan 0 1 6 5 Pris 4 3 2 20 30 40 50 60 area 70 80 90 100 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 14 / 22

Signikanstest för interaktionsvariabeln x 1 D Det verkar som att lägenhetspriserna ökar aningen mer per kvadratmeter i innerstan jämfört med icke-innerstan. Det är därför lämpligt att inkludera interaktionsvariabeln x 1 D i regressionsmodellen och testa om det nns någon signikant eekt från interaktionsvariabeln x 1 D i följande regressionsmodell: H 0 : β 4 = 0 H a : β 4 = 0 y = β 0 + β 1 x 1 + β 3 D + β 4 x 1 D + ɛ t = b 4 s, b 4 H 0 förkastas om t > t [α/2],(n 3 1) Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 15 / 22

Exempel, skattad regressionsmodell från Minitab Regression Analysis: Pris versus area; innerstan; area*innerstan Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 3 26,4040 8,8013 39,61 0,000 area 1 8,4158 8,4158 37,88 0,000 area*innerstan 1 0,1832 0,1832 0,82 0,382 innerstan 1 0,3336 0,3336 1,50 0,244 Error 12 2,6662 0,2222 Total 15 29,0702 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,471361 90,83% 88,54% 81,95% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 0,331 0,555 0,60 0,562 area 0,05389 0,00876 6,15 0,000 2,42 area*innerstan 0,0106 0,0117 0,91 0,382 8,23 innerstan 0,849 0,693 1,23 0,244 8,51 Regression Equation Pris = 0,331 + 0,05389 area + 0,0106 area*innerstan + 0,849 innerstan Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 16 / 22

Signikanstest för en grupp förklaringsvariabler I bland vill vi testa era förklaringsvariabler på samma gång. I ett tidigare exempel hade vi tre stycken dummyvariabler för att ta hänsyn till att försäljningen skiljer sig mellan fyra olika kvartal. Då vill vi inte testa varje kvartal för sig, utan istället om försäljningen överlag skiljer sig mellan kvartalen, d.v.s. om dummyvariablerna för kvartalen påverkar försäljningen signikant som grupp. För att testa detta så behöver vi ställa upp två modeller: En komplett (som innehåller alla variabler) och en reducerad (som innehåller alla variabler förutom dom variabler vi vill testa för). Komplett modell (C): y = β 0 + β 1 x 1 + + β g x g + β g+1 x g+1 + + β k x k + ɛ Reducerad modell (R): y = β 0 + β 1 x 1 + + β g x g + ɛ Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 17 / 22

Partiellt F-test H 0 : β g+1 = β g+2 = = β k = 0 H a : åtminstone någon av β g+1, β g+2,..., β k är inte lika med noll F = (SSE R SSE C )/(k g), SSE C /(n k 1) H 0 förkastas om F > F [α],k g,n k 1, där k är antal förklaringsvariabler i den kompletta modellen och g är antal förklaringsvariabler i den reducerade modellen. Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 18 / 22

Exempel, partiellt F-test Vi återgår till det tidigare exemplet med uppgifter om 16 slumpmässigt valda lägenheter som nyligen sålts i Stockholmsområdet. Vi fann att modellen med förklaringsvariabeln x 1 = area och dummyvariabeln D = innerstan var signikanta i modellen. Vi vill testa om övriga variabler som grupp påverkar lägenhetspriset signikant. Då sätter vi upp följande modeller: Komplett modell (C): y = β 0 + β 1 x 1 + β 2 x 2 + β 3 D + β 4 x 1 D + β 5 x 2 D + ɛ Reducerad modell (R): y = β 0 + β 1 x 1 + β 3 D + ɛ Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 19 / 22

Exempel, partiellt F-test H 0 : β 2 = β 4 = β 5 = 0 H a : åtminstone någon av β 2, β 4, β 5 är inte lika med noll F = (SSE R SSE C )/(5 2), SSE C /(16 5 1) H 0 förkastas om F > F [α],5 2,16 5 1 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 20 / 22

Exempel, skattad komplett regressionsmodell från Minitab Regression Analysis: Pris versus area; rum; innerstan; area*innerstan; rum*innerstan Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 5 26,6723 5,3345 22,25 0,000 area 1 1,6433 1,6433 6,85 0,026 rum 1 0,2016 0,2016 0,84 0,381 innerstan 1 0,3116 0,3116 1,30 0,281 area*innerstan 1 0,1180 0,1180 0,49 0,499 rum*innerstan 1 0,2667 0,2667 1,11 0,316 Error 10 2,3978 0,2398 Total 15 29,0702 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,489676 91,75% 87,63% 76,32% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 0,347 0,577 0,60 0,561 area 0,0810 0,0309 2,62 0,026 28,06 rum -0,639 0,697-0,92 0,381 27,85 innerstan 0,821 0,720 1,14 0,281 8,52 area*innerstan -0,0253 0,0361-0,70 0,499 72,54 rum*innerstan 0,891 0,845 1,05 0,316 53,63 Regression Equation Pris = 0,347 + 0,0810 area - 0,639 rum + 0,821 innerstan - 0,0253 area*innerstan + 0,891 rum*innerstan Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 21 / 22

Exempel, skattad reducerad regressionsmodell från Minitab Regression Analysis: Pris versus area; innerstan Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 26,221 13,1104 59,81 0,000 area 1 23,622 23,6222 107,77 0,000 innerstan 1 7,638 7,6380 34,85 0,000 Error 13 2,849 0,2192 Total 15 29,070 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,468172 90,20% 88,69% 84,86% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant -0,026 0,389-0,07 0,947 area 0,05984 0,00576 10,38 0,000 1,07 innerstan 1,437 0,243 5,90 0,000 1,07 Regression Equation Pris = -0,026 + 0,05984 area + 1,437 innerstan Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 22 / 22