Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25
Statistik B, 8 hp Regressions- och tidsserieanalys Mål: Innehåll: Tillägna sig metodik för att analysera samt tolka statistiska modeller för samband mellan variabler och statistiska modeller för tidsseriedata. Enkel och multipel linjär regressionsanalys Index Efterfrågeanalysmodeller Modeller för tidsseriedata Analys av data med hjälp av statistisk programvara. Wänström (Linköpings universitet) F1 November 4, 2013 2 / 25
Statistik B, 8 hp Regressions- och tidsserieanalys Examination Projekt del 1: Index och efterfrågeanalys Projekt del 2: Tidsserieanalys Litteratur Lärare Inlämning senast torsdag 5/12 Tenta: 5.5 hp tisdag 10/12 Bowerman, O Connel, Koehler & Brooks (2005) 4th ed. Forecasting, time series, and regression. Brooks. Linda Wänström linda.wanstrom@liu.se; rum i B-huset, plan 2 (ovanför JAVA) Elisabet Nicolic elisabet.nikolic@liu.se Wänström (Linköpings universitet) F1 November 4, 2013 3 / 25
Exempel: IT bland individer 2013 (från SCB s hemsida) Det blir allt vanligare att hämta information från myndigheters webbplatser. Wänström (Linköpings universitet) F1 November 4, 2013 4 / 25
Exempel: Detaljhandelns försäljning, september 2013 (från SCB s hemsida) Försäljningsvolymen ökade med 1,6 procent i september jämfört med samma månad förra året. Uppgifterna är kalenderkorrigerade. Wänström (Linköpings universitet) F1 November 4, 2013 5 / 25
Exempel: Samband mellan tid man lägger ner på kurs samt betyg på tentan Wänström (Linköpings universitet) F1 November 4, 2013 6 / 25
Exempel Antag att vi vill veta om det finns något samband mellan mängden lokalt inriktad annonsering och företags försäljning hur stor försäljning vi kan förvänta oss vid en annonsering på 20 000 kr Wänström (Linköpings universitet) F1 November 4, 2013 7 / 25
Enkel linjär regressionsmodell y = beroende variabel, responsvariabel, undersökningsvariabel x = oberoende variabel, prediktorvariabel, förklaringsvariabel Modellen antar att sambandet mellan x och y kan approximeras med en rät linje Vi kan visuellt inspektera om sambandet ser linjärt ut genom att titta på ett spridningsdiagram (scatter plot) Wänström (Linköpings universitet) F1 November 4, 2013 8 / 25
Exempel: y = försäljning (milj kr), x = annonsering (10000 kr) Distrikt y i x i 1 5.4 5 2 3.8 3 3 10.6 9 4 5.2 3.5 5 4.5 5 6 2.7 2 7 2.5 1.8 8 4.5 4.7 Wänström (Linköpings universitet) F1 November 4, 2013 9 / 25
Spridningsdiagram 12 10 8 Försäljning 6 4 2 0 0 1 2 3 4 5 Annonsering 6 7 8 9 Wänström (Linköpings universitet) F1 November 4, 2013 10 / 25
Enkel linjär regressionsmodell y = β 0 + β 1 x + ɛ β 0 + β 1 x = µ u x är medelvärdet för den beroende variabeln y när värdet på den oberoende variabeln är x β 0 är linjens skärning med y axeln β 1 är linjens lutning ɛ är en felterm Wänström (Linköpings universitet) F1 November 4, 2013 11 / 25
Minskakvadratskattningar för skärning och lutning Vi tar ett stickprov på n värden på x och y för att beräkna skattningar b 0 och b 1 b 1 = SS xy SS xx = = n x i y i i=1 n (x i x) (y i y) i=1 = (x i x) 2 n i=1 ( n n xi 2 i=1 )( n ) x i y i i=1 i=1 n ( n ) 2 x i i=1 n b 0 = y b 1 x Wänström (Linköpings universitet) F1 November 4, 2013 12 / 25
Summan av de kvadrerade avvikelserna från linjen SSE = n ei 2 i=1 = n (y i ŷ i ) 2 i=1 Wänström (Linköpings universitet) F1 November 4, 2013 13 / 25
Spridningsdiagram med inritad skattad regressionslinje 12 10 8 Försäljning 6 4 2 0 0 1 2 3 4 5 Annonsering 6 7 8 9 Wänström (Linköpings universitet) F1 November 4, 2013 14 / 25
Minitab-utskrift Regression Analysis: Försäljning versus Annonsering The regression equation is Försäljning = 0,436 + 1,05 Annonsering Predictor Coef SE Coef T P Constant 0,4357 0,6425 0,68 0,523 Annonsering 1,0504 0,1349 7,79 0,000 S = 0,821147 R Sq = 91,0% R Sq(adj) = 89,5% Analysis of Variance Source DF SS MS F P Regression 1 40,914 40,914 60,68 0,000 Residual Error 6 4,046 0,674 Total 7 44,960 Wänström (Linköpings universitet) F1 November 4, 2013 15 / 25
Uppskattningar och prognoser Anpassad regressionslinje ŷ = b 0 + b 1 x ŷ är en punktskattning för medelvärdet för y när värdet på oberoende variabeln är x. ŷ är också en punktskattning för ett enskilt värde på y när värdet på oberoende variabeln är x. Wänström (Linköpings universitet) F1 November 4, 2013 16 / 25
Modellantaganden y = β 0 + β 1 x + ɛ För varje x-värde är medelvärdet för värdena på feltermen noll. Konstant varians. För varje x-värde har värdena på feltermen en konstant varians. Denna varians kallas för σ 2. Normalfördelning. För varje x-värde följer värdena på feltermen en normalfördelning. Oberoende. Alla värden på feltermen är statistisk oberoende av alla andra värden på feltermen. ɛ N(0, σ) Wänström (Linköpings universitet) F1 November 4, 2013 17 / 25
Variansskattning: Mean Square Error och Standard Error (Standardfel) Om antagandena är uppfyllda och SSE är summan av de kvadrerade avvikelserna från linjen gäller Punktskattning för σ 2 (MSE) är s 2 = SSE n 2 Punktskattning för σ (Standardfel) är s = s 2 Wänström (Linköpings universitet) F1 November 4, 2013 18 / 25
Signifikanstest för lutning och skärning Test för lutning (om antagandena håller) H 0 : β 1 = 0 H a : β 1 = 0 t = b 1 s b1, där s b1 = s SSxx Förkasta H 0 om t > t [α/2](n 2) Test för skärning (om antagandena håller) H 0 : β 0 = 0 H a : β 0 = 0 t = b 0 s b0, Förkasta H 0 om t > t [α/2](n 2) 1 där s b0 = s n + x 2 SS xx Wänström (Linköpings universitet) F1 November 4, 2013 19 / 25
Konfidensintervall för lutning Om antagandena håller är ett 100(1 α)% konfidensintervall för den sanna lutningen β 1 [ b 1 ± t [α/2](n 2) s b1 ] Wänström (Linköpings universitet) F1 November 4, 2013 20 / 25
Distance value Distancevalue = 1 n + (x 0 x) 2 SS xx Wänström (Linköpings universitet) F1 November 4, 2013 21 / 25
Konfidensintervall för medelvärdet för y vid ett specifikt x-värde ŷ = b 0 + b 1 x 0 Om antagandena är uppfyllda är ett 100(1 α)% konfidensitvervall för µ y x0 [ ŷ ± t [α/2](n 2) s ] Distancevalue Wänström (Linköpings universitet) F1 November 4, 2013 22 / 25
Prognosintervall för ett värde på y vid ett specifikt x-värde ŷ = b 0 + b 1 x 0 Om antagandena är uppfyllda är ett 100(1 α)% prognosintervall för y vid x 0 [ ŷ ± t [α/2](n 2) s ] 1 + Distancevalue Wänström (Linköpings universitet) F1 November 4, 2013 23 / 25
Förklaringsgrad: Determinationskoeffi cienten Total variation = Förklarad variation + Oförklarad variation SST = SSR + SSE n (y i y) 2 = n (ŷ i y) 2 + n (y i ŷ i ) 2 i=1 i=1 i=1 r 2 = SSR SST Wänström (Linköpings universitet) F1 November 4, 2013 24 / 25
Korrelationskoeffi cienten Ett mått på hur starkt sambandet mellan y och x är r = ± r 2 r = SS xy SSxx SS yy Wänström (Linköpings universitet) F1 November 4, 2013 25 / 25