732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20
Exempel, enkel linjär regressionsanalys Ett företag vill veta hur mängden lokalt inriktad annonsering påverkar företagets försäljning i ett område. Hur mycket förväntas försäljningen öka för varje extra tusenlapp som företaget lägger på annonseringskostnader? Hur stor försäljning kan företaget förvänta sig för en annonseringskostnad på 40 000 kr? Bertil Wegmann (IDA, LiU) 732G71, Statistik B 2 / 20
Kap. 3.1, enkel linjär regressionsmodell y = beroende variabel, responsvariabel, undersökningsvariabel (exemplet: försäljning) x = oberoende variabel, prediktorvariabel, förklaringsvariabel (exemplet: annonseringskostnad) Modellen antar att det linjära sambandet mellan x och y kan beskrivas med en rät linje. Vi kan visuellt inspektera om sambandet ser linjärt ut genom att titta på ett spridningsdiagram (scatter plot). Bertil Wegmann (IDA, LiU) 732G71, Statistik B 3 / 20
Exempel, enkel linjär regressionsanalys y = försäljning (miljontals kr), x = annonsering (tiotusentals kr) Distrikt y i x i 1 5.4 5 2 3.8 3 3 10.6 9 4 5.2 3.5 5 4.5 5 6 2.7 2 7 2.5 1.8 8 4.5 4.7 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 4 / 20
Spridningsdiagram Bertil Wegmann (IDA, LiU) 732G71, Statistik B 5 / 20
Kap. 3.1, enkel linjär regressionsmodell y = β 0 + β 1 x + ɛ µ y x = β 0 + β 1 x är medelvärdet för den beroende variabeln y då värdet på den oberoende variabeln är x. β 0 är linjens skärning med y-axeln då x = 0. β 1 är linjens lutning som anger hur mycket den beroende variabeln y förväntas förändras vid en enhets ökning av den oberoende variabeln x. ɛ är en felterm som anger hur mycket ett värde på den beroende variabeln avviker från linjen. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 6 / 20
Kap. 3.2, minstakvadratskattningar för skärning och lutning Utifrån ett stickprov om n stycken observationer på x och y kan vi beräkna skattningar för β 0 och β 1, vilka vi betecknar som b 0 och b 1. b 1 = SS xy SS xx = (x i x) (y i ȳ) (x i x) 2 b 0 = ȳ b 1 x = x iy i ( x i )( y i ) n x 2 i ( x i ) 2 n Bertil Wegmann (IDA, LiU) 732G71, Statistik B 7 / 20
Summan av de kvadrerade avvikelserna från linjen SSE = e 2 i = (y i ŷ i ) 2 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 8 / 20
Spridningsdiagram med inritad skattad regressionslinje Bertil Wegmann (IDA, LiU) 732G71, Statistik B 9 / 20
Minitab-utskrift för den skattade regressionslinjen Regression Analysis: Forsaljning versus Annonsering Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 1 40,9143 40,9143 60,68 0,000 Annonsering 1 40,9143 40,9143 60,68 0,000 Error 6 4,0457 0,6743 Lack-of-Fit 5 3,6407 0,7281 1,80 0,511 Pure Error 1 0,4050 0,4050 Total 7 44,9600 Model Summary S R-sq R-sq(adj) R-sq(pred) 0,821147 91,00% 89,50% 73,51% Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 0,436 0,642 0,68 0,523 Annonsering 1,050 0,135 7,79 0,000 1,00 Regression Equation Forsaljning = 0,436 + 1,050 Annonsering Bertil Wegmann (IDA, LiU) 732G71, Statistik B 10 / 20
Kap. 3.3, uppskattningar och prognoser Anpassad/Skattad regressionslinje: ŷ = b 0 + b 1 x, där ŷ är en punktskattning av medelvärdet för y då värdet på den oberoende variabeln är x. ŷ är också en punktskattning för ett enskilt värde på y då värdet på den oberoende variabeln är x. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 11 / 20
Kap. 3.4, modellantaganden för regressionsmodellen y = β 0 + β 1 x + ɛ 1. För varje x-värde är medelvärdet för värdena på feltermen noll. 2. Konstant varians. För varje x-värde har värdena på feltermen en konstant varians. Denna varians kallas för σ 2. 3. Normalf ördelning. För varje x-värde följer värdena på feltermen en normalfördelning. 4. Oberoende. Alla värden på feltermen är statistiskt oberoende av alla andra värden på feltermen. ɛ N (0, σ) Bertil Wegmann (IDA, LiU) 732G71, Statistik B 12 / 20
Variansskattning: MSE och standard error (standardfel) Om antagandena är uppfyllda för regressionsmodellen och SSE är summan av de kvadrerade avvikelserna från linjen så gäller följande: Punktskattning för σ 2 (MSE) är s 2 = SSE n 2 Punktskattning för σ (standardfel) är s = s 2 Bertil Wegmann (IDA, LiU) 732G71, Statistik B 13 / 20
Kap. 3.5, signikanstest för skärning och lutning Test för lutning (om antagandena håller) på signikansnivån α. H 0 : β 1 = 0 H a : β 1 = 0 t = b 1 s, där b s b1 = s 1 SSxx. H 0 förkastas om t > t [α/2],(n 2) Test för skärning (om antagandena håller) på signikansnivån α. H 0 : β 0 = 0 H a : β 0 = 0 t = b 0 1 s, där b s b0 = s 0 n + x2 SS xx. H 0 förkastas om t > t [α/2],(n 2) Bertil Wegmann (IDA, LiU) 732G71, Statistik B 14 / 20
Kap. 3.6, kondensintervall Om modellantagandena håller är ett 100(1 α)% kondensintervall för lutningen β 1 lika med [b 1 ± t [α/2],(n 2) s b1 ] Bertil Wegmann (IDA, LiU) 732G71, Statistik B 15 / 20
Distance value Distance value är ett mått på avståndet mellan ett värde x 0 på den oberoende variabeln till dess genomsnitt x: Distance value = 1 n + (x 0 x) 2 SS xx Bertil Wegmann (IDA, LiU) 732G71, Statistik B 16 / 20
Kondensintervall för medelvärdet av y för x 0 Det skattade medelvärdet för y är ŷ = b 0 + b 1 x 0 Om modellantagandena håller är ett 100(1 α)% kondensintervall för det sanna medelvärdet av y, µ y x0, lika med [ ŷ ± t [α/2],(n 2) s ] Distance value Bertil Wegmann (IDA, LiU) 732G71, Statistik B 17 / 20
Prognosintervall för ett enskilt värde på y för x 0 Det skattade medelvärdet för y är ŷ = b 0 + b 1 x 0 Om modellantagandena håller är ett 100(1 α)% prognosintervall för y vid värdet x 0 lika med [ ŷ ± t [α/2],(n 2) s ] 1 + Distance value Bertil Wegmann (IDA, LiU) 732G71, Statistik B 18 / 20
Kap. 3.7, förklaringsgrad (determinationskoecienten) Förklaringsgraden, r 2, är ett mått på hur stor andel av variationen i den beroende variabeln y som kan förklaras med hjälp av den oberoende variabeln x. Total variation = F örklarad variation + Of örklarad variation SST = SSR + SSE (y i ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 r 2 = SSR SST Bertil Wegmann (IDA, LiU) 732G71, Statistik B 19 / 20
Kap. 3.7, korrelationskoecienten Korrelationskoecienten, r, är ett mått på hur starkt det linjära sambandet är mellan y och x: r = r = ± r 2 SS xy SSxx SS yy Bertil Wegmann (IDA, LiU) 732G71, Statistik B 20 / 20