Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b x + b x + K+ b i Skattad skärning i Skattade lutningskoefficienter I kursen ska datorprogram (Minitab, SAS, Excel) användas för att skatta koefficienterna och andra resultat. i k x ki Standard Antagande i Multipel Regression Förklarande variablerna x i och feltermerna i är oberoende Feltermerna i är stokastiska variabler med medelvärde och konstant varians σ. E[ i ] = och E[ i ] = för (i =, K, n) (egenskapen konstant varians kallas för homoscedasticitet) Feltermerna, i, är inte korrelerade med varandra: E[ i j] = för alla i j
Exempel med förklarande variabler Försäljaren vill veta faktorer som kan påverka efterfrågan av paj: Beroende variabel: Y = # sålda paj (enheter) per vecka Förklarande variabler: X = Pris (i $) X = Marknadsföring ($ s) Data över 5 veckor ger följande tabell: Exempel med förklarande variabler Vecka (i) 3 4 5 6 7 8 9 3 4 5 Y i 35 46 35 43 35 38 43 47 45 49 34 3 44 45 3 X i 5.5 7.5 8. 8. 6.8 7.5 4.5 6.4 7. 5. 7. 7.9 5.9 5. 7. X i 3.3 3.3 3. 4.5 3. 4. 3. 3.7 3.5 4. 3.5 3. 4. 3.5.7 Multipel regression ekvation: Y i = b + b X i + b X i
Skattade Ekvationen Y i = 36.56-4.975(X i ) + 74.3(X i ) där Y i = # paj enheter sålda under vecka i (i =,, 5) X i = pris (i $) i vecka i X i = marknadsföring i $ s under vecka i. b = -4.975: försäljning minskar i genomsnitt med 4.975 paj (enheter) per vecka för varje $ ökning i priset, efter man har tagit hänsyn till förändringen i försäljning p.g.a. marknadsföring. b = 74.3: försäljning ökar i genomsnitt med 74.3 paj (enheter) per vecka för varje $ ökning i utgifter för marknadsföring, efter man har tagit hänsyn till förändringen i försäljning p.g.a. pris. Förklaringsgraden, R Ger andelen av total variationen i Y (försäljning) som förklarar (är relaterad till) alla förklarande variabler tillsammans. SSR R = = SST regression sum of squares total sum of squares Resten (-R ) är andelen av variationen som är oförklarad av regressionsekvationen (är relaterad till andra faktorer representerade av fel termen)
Förklaringsgraden, R Multiple R R Adjusted SquareR Square Regression Statistics Standard Error Observations.73.548.447 47.4634 5 SSR 946. R = = =.548 SST 56493.3 5.% av variationen i försäljningen av paj förklaras av variation i pris och marknadsföring. ANOVA Regression Residual Total Intercept Price Advertising df 4 Coefficients 36.569-4.9759 74.396 SS 946.7 733.36 56493.333 Standard Error 4.5389.833 5.9673 MS 473.3 5.776 t Stat.6885 -.3565.85478 F 6.5386 P-value.993.3979.449 Significance F. Lower 95% 57.58835-48.5766 7.5533 Upper 95% 555.4644 -.3739 3.7888 Testa för signifikans av individuell Regressionskoefficienter Använd t-test för de individuella koefficienter Man testar om ett specifikt förklarande variabel är viktigt givet (i närvaro av) de andra variabler Hypotes: H : j = (ingen linjär samband mellan Y & X j ) H : j (finns linjär samband mellan Y & X j )
Testa för signifikans av individuell Regressionskoefficienter H : j = (ingen linjär samband ) H : j Testvariabel: (finns linjär samband) t = b j S b j (df = n k ) Testa för signifikans av individuell Regressionskoefficienter Regression Statistics Multiple R.73 R Square.548 Adjusted R Square.447 Standard Error 47.4634 Observations 5 t-värde för pris är t = -.36, med p-värde på.398. t-värde för marknadsföring är t =.855, med p-värde.45 ANOVA df SS MS F Significance F Regression 946.7 473.3 6.5386. Residual Total 4 733.36 56493.333 5.776 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept Price 36.569-4.9759 4.5389.833.6885 -.3565.993.3979 57.58835-48.5766 555.4644 -.3739 Advertising 74.396 5.9673.85478.449 7.5533 3.7888
H : j = H : j d.f. = 5-- = α =.5 t,.5 =.788 α/=.5 Förkasta H Testa för signifikans av individuell Regressionskoefficienter Pris Marknadsföring t / Ej Förkasta H -t / -.788.788 Coefficients -4.9759 74.396 Standard Error.833 5.9673 T-value -.3565.85478 Testvariabeln för varje förklarande variabel hamnar i Rejection Region (eller p-värde <.5) α/=.5 Förkasta H Beslut: P-value.3979.449 Förkasta H för varje variabel Slutsats: Det finns bevis att både pris och marknadsföring påverkar försäljningen av paj (på α =.5) Testa för signifikans av alla Regressionskoefficienter (i helheten) Använd F-test för att testa för allmän signifikans (modellen i helheten) Testet visar om det finns linjär samband mellan Y och all förklarande variablerna (alla X) tillsammans. Hypotes: H : = = = k = (ingen linjär samband) H : åtminstone ett i (finns linjär samband mellan Y och åtminstone en förklarande variabel)
Testvariabel: MSR F = = MSE Testa för signifikans av alla Regressionskoefficienter (i helheten) där F har k frihetsgrader i täljaren och (n K-) frihetsgrader i nämnaren Beslutregel är MSR s e Förkasta H om SSR/K = SSE/(n K ) F > F k,n K, Testa för signifikans av alla Regressionskoefficienter (i helheten) Regression Statistics Multiple R.73 R Square.548 Adjusted R Square.447 Standard Error 47.4634 Observations 5 MSR 473. F = = = 6.5386 MSE 5.8 med df i täljaren och df i nämnaren. P-värde för F-testet ANOVA df SS MS F P-value Regression 946.7 473.3 6.5386. Residual Total 4 733.36 56493.333 5.776 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 36.569 4.5389.6885.993 57.58835 555.4644 Price -4.9759.833 -.3565.3979-48.5766 -.3739 Advertising 74.396 5.9673.85478.449 7.5533 3.7888
F-test för helheten (forts ) H : = = H : och inte både lika med noll α =.5 df = df = Kritiskvärde: F α = 3.885 Testvariable: MSR F = = 6.5386 MSE Beslut: Eftersom den skattade testvariabeln hamnar i Rejection Region (p-värde <.5), förkastar vi H. α =.5 Ej förkasta H Förkasta H F.5 = 3.885 F Slutsats: Det finns bevis att åtminstone en av förklarande variablerna påverkar beroende variabeln Y. Prognos (Prediction) Efter vi har skattat regressionsmodellen kan vi använda den för att göra prognos (prediction). För givet värde av förklarande variabler (x,n+, x,n+,..., x K,n+ ), ett prognos på beroende variabeln y n+ ges enligt is ˆ y n+ = b + bx,n + + bx,n+ + L+ bkxk,n+ ^
Prognos (Prediction) Gör ett prognos på paj försäljningen i en vecka där priset är $5.5 och utgifter för marknadsföring är $35: Yi = 36.56-4.975(X i ) + 74.3(X i ) = 36.56-4.975 (5.5) + 74.3(3.5) = 48.6 Predicerad försäljning är 48.6 paj. Obs: eftersom marknadsföring mäts i $ s, $35 betyder att X = 3.5. Dummy Variabler Ett dummy variabel är ett kategorisk förklarande med två möjliga värde: Ja eller Nej, On eller Off, Man eller Kvinna, o.s.v. Kodas som eller Om ett dummy variabel är signifikant i ett regressionsekvation innebär det att skärningarna är olika för de olika kategorier (värde av dummy variabeln) Lutningarna för de andra variabler är samma Om ett kategorisk variabel har n (n > ) värden kan dessa kodas till n- dummy variabler
Dummy Variabler: Exempel Låt: y = Paj försäljning x = Pris yˆ = b + b x + b x x = Helg (X = om ett helgdag inträffades under veckan) (X = det fanns ingen helgdag under veckan) Dummy Variabler: Exempel yˆ = b yˆ = b y (försäljning) b + b b + b x + b x + b () = (b + b () = Helg (x = ) + b b Olika Skärningar Ingen helg (x = ) ) + b x x (pris) + b x Samma lutning Helg ingen helg Om vi förkastar H : =, det betyder att Helg har signifikant påverkan på försäljningen