Multipel Regressionsmodellen

Relevanta dokument
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

F11. Kvantitativa prognostekniker

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Linjär regressionsanalys. Wieland Wermke

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Regressions- och Tidsserieanalys - F4

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Regressions- och Tidsserieanalys - F7

Höftledsdysplasi hos dansk-svensk gårdshund

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Metod och teori. Statistik för naturvetare Umeå universitet

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Lösningar till SPSS-övning: Analytisk statistik

Facit till Extra övningsuppgifter

Medicinsk statistik II

TENTAMEN GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

ANOVA Faktoriell (tvåvägs)

7.5 Experiment with a single factor having more than two levels

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Korrelation och autokorrelation

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

10.1 Enkel linjär regression

7.5 Experiment with a single factor having more than two levels

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Regressions- och Tidsserieanalys - F3

Laboration 2 multipel linjär regression

Skrivning i ekonometri torsdagen den 8 februari 2007

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Elementa om Variansanalys

Föreläsning G60 Statistiska metoder

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Finansiell statistik. Multipel regression. 4 maj 2011

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

LABORATION 3 - Regressionsanalys

Matematisk statistik, Föreläsning 5

Skrivning i ekonometri lördagen den 25 augusti 2007

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

Multipel regression och Partiella korrelationer

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

LABORATION 3 - Regressionsanalys

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

Regressions- och Tidsserieanalys - F3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

Skrivning i ekonometri lördagen den 29 mars 2008

F7 Polynomregression och Dummyvariabler

Samhällsvetenskaplig metod, 7,5 hp

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Finansiell statistik

Linjär Regressionsanalys. Centrum för allmänmedicin Henrik Källberg

Obligatorisk uppgift, del 1

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

SAMBANDS- MODELLER, 15HP. Lärare: Ann-Charlotte Hallberg Tommy Schyman

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

InStat Exempel 4 Korrelation och Regression

ANOVA Mellangruppsdesign

Tentamen Tillämpad statistik A5 (15hp)

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Följande resultat erhålls (enhet: 1000psi):

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Transkript:

Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b x + b x + K+ b i Skattad skärning i Skattade lutningskoefficienter I kursen ska datorprogram (Minitab, SAS, Excel) användas för att skatta koefficienterna och andra resultat. i k x ki Standard Antagande i Multipel Regression Förklarande variablerna x i och feltermerna i är oberoende Feltermerna i är stokastiska variabler med medelvärde och konstant varians σ. E[ i ] = och E[ i ] = för (i =, K, n) (egenskapen konstant varians kallas för homoscedasticitet) Feltermerna, i, är inte korrelerade med varandra: E[ i j] = för alla i j

Exempel med förklarande variabler Försäljaren vill veta faktorer som kan påverka efterfrågan av paj: Beroende variabel: Y = # sålda paj (enheter) per vecka Förklarande variabler: X = Pris (i $) X = Marknadsföring ($ s) Data över 5 veckor ger följande tabell: Exempel med förklarande variabler Vecka (i) 3 4 5 6 7 8 9 3 4 5 Y i 35 46 35 43 35 38 43 47 45 49 34 3 44 45 3 X i 5.5 7.5 8. 8. 6.8 7.5 4.5 6.4 7. 5. 7. 7.9 5.9 5. 7. X i 3.3 3.3 3. 4.5 3. 4. 3. 3.7 3.5 4. 3.5 3. 4. 3.5.7 Multipel regression ekvation: Y i = b + b X i + b X i

Skattade Ekvationen Y i = 36.56-4.975(X i ) + 74.3(X i ) där Y i = # paj enheter sålda under vecka i (i =,, 5) X i = pris (i $) i vecka i X i = marknadsföring i $ s under vecka i. b = -4.975: försäljning minskar i genomsnitt med 4.975 paj (enheter) per vecka för varje $ ökning i priset, efter man har tagit hänsyn till förändringen i försäljning p.g.a. marknadsföring. b = 74.3: försäljning ökar i genomsnitt med 74.3 paj (enheter) per vecka för varje $ ökning i utgifter för marknadsföring, efter man har tagit hänsyn till förändringen i försäljning p.g.a. pris. Förklaringsgraden, R Ger andelen av total variationen i Y (försäljning) som förklarar (är relaterad till) alla förklarande variabler tillsammans. SSR R = = SST regression sum of squares total sum of squares Resten (-R ) är andelen av variationen som är oförklarad av regressionsekvationen (är relaterad till andra faktorer representerade av fel termen)

Förklaringsgraden, R Multiple R R Adjusted SquareR Square Regression Statistics Standard Error Observations.73.548.447 47.4634 5 SSR 946. R = = =.548 SST 56493.3 5.% av variationen i försäljningen av paj förklaras av variation i pris och marknadsföring. ANOVA Regression Residual Total Intercept Price Advertising df 4 Coefficients 36.569-4.9759 74.396 SS 946.7 733.36 56493.333 Standard Error 4.5389.833 5.9673 MS 473.3 5.776 t Stat.6885 -.3565.85478 F 6.5386 P-value.993.3979.449 Significance F. Lower 95% 57.58835-48.5766 7.5533 Upper 95% 555.4644 -.3739 3.7888 Testa för signifikans av individuell Regressionskoefficienter Använd t-test för de individuella koefficienter Man testar om ett specifikt förklarande variabel är viktigt givet (i närvaro av) de andra variabler Hypotes: H : j = (ingen linjär samband mellan Y & X j ) H : j (finns linjär samband mellan Y & X j )

Testa för signifikans av individuell Regressionskoefficienter H : j = (ingen linjär samband ) H : j Testvariabel: (finns linjär samband) t = b j S b j (df = n k ) Testa för signifikans av individuell Regressionskoefficienter Regression Statistics Multiple R.73 R Square.548 Adjusted R Square.447 Standard Error 47.4634 Observations 5 t-värde för pris är t = -.36, med p-värde på.398. t-värde för marknadsföring är t =.855, med p-värde.45 ANOVA df SS MS F Significance F Regression 946.7 473.3 6.5386. Residual Total 4 733.36 56493.333 5.776 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept Price 36.569-4.9759 4.5389.833.6885 -.3565.993.3979 57.58835-48.5766 555.4644 -.3739 Advertising 74.396 5.9673.85478.449 7.5533 3.7888

H : j = H : j d.f. = 5-- = α =.5 t,.5 =.788 α/=.5 Förkasta H Testa för signifikans av individuell Regressionskoefficienter Pris Marknadsföring t / Ej Förkasta H -t / -.788.788 Coefficients -4.9759 74.396 Standard Error.833 5.9673 T-value -.3565.85478 Testvariabeln för varje förklarande variabel hamnar i Rejection Region (eller p-värde <.5) α/=.5 Förkasta H Beslut: P-value.3979.449 Förkasta H för varje variabel Slutsats: Det finns bevis att både pris och marknadsföring påverkar försäljningen av paj (på α =.5) Testa för signifikans av alla Regressionskoefficienter (i helheten) Använd F-test för att testa för allmän signifikans (modellen i helheten) Testet visar om det finns linjär samband mellan Y och all förklarande variablerna (alla X) tillsammans. Hypotes: H : = = = k = (ingen linjär samband) H : åtminstone ett i (finns linjär samband mellan Y och åtminstone en förklarande variabel)

Testvariabel: MSR F = = MSE Testa för signifikans av alla Regressionskoefficienter (i helheten) där F har k frihetsgrader i täljaren och (n K-) frihetsgrader i nämnaren Beslutregel är MSR s e Förkasta H om SSR/K = SSE/(n K ) F > F k,n K, Testa för signifikans av alla Regressionskoefficienter (i helheten) Regression Statistics Multiple R.73 R Square.548 Adjusted R Square.447 Standard Error 47.4634 Observations 5 MSR 473. F = = = 6.5386 MSE 5.8 med df i täljaren och df i nämnaren. P-värde för F-testet ANOVA df SS MS F P-value Regression 946.7 473.3 6.5386. Residual Total 4 733.36 56493.333 5.776 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 36.569 4.5389.6885.993 57.58835 555.4644 Price -4.9759.833 -.3565.3979-48.5766 -.3739 Advertising 74.396 5.9673.85478.449 7.5533 3.7888

F-test för helheten (forts ) H : = = H : och inte både lika med noll α =.5 df = df = Kritiskvärde: F α = 3.885 Testvariable: MSR F = = 6.5386 MSE Beslut: Eftersom den skattade testvariabeln hamnar i Rejection Region (p-värde <.5), förkastar vi H. α =.5 Ej förkasta H Förkasta H F.5 = 3.885 F Slutsats: Det finns bevis att åtminstone en av förklarande variablerna påverkar beroende variabeln Y. Prognos (Prediction) Efter vi har skattat regressionsmodellen kan vi använda den för att göra prognos (prediction). För givet värde av förklarande variabler (x,n+, x,n+,..., x K,n+ ), ett prognos på beroende variabeln y n+ ges enligt is ˆ y n+ = b + bx,n + + bx,n+ + L+ bkxk,n+ ^

Prognos (Prediction) Gör ett prognos på paj försäljningen i en vecka där priset är $5.5 och utgifter för marknadsföring är $35: Yi = 36.56-4.975(X i ) + 74.3(X i ) = 36.56-4.975 (5.5) + 74.3(3.5) = 48.6 Predicerad försäljning är 48.6 paj. Obs: eftersom marknadsföring mäts i $ s, $35 betyder att X = 3.5. Dummy Variabler Ett dummy variabel är ett kategorisk förklarande med två möjliga värde: Ja eller Nej, On eller Off, Man eller Kvinna, o.s.v. Kodas som eller Om ett dummy variabel är signifikant i ett regressionsekvation innebär det att skärningarna är olika för de olika kategorier (värde av dummy variabeln) Lutningarna för de andra variabler är samma Om ett kategorisk variabel har n (n > ) värden kan dessa kodas till n- dummy variabler

Dummy Variabler: Exempel Låt: y = Paj försäljning x = Pris yˆ = b + b x + b x x = Helg (X = om ett helgdag inträffades under veckan) (X = det fanns ingen helgdag under veckan) Dummy Variabler: Exempel yˆ = b yˆ = b y (försäljning) b + b b + b x + b x + b () = (b + b () = Helg (x = ) + b b Olika Skärningar Ingen helg (x = ) ) + b x x (pris) + b x Samma lutning Helg ingen helg Om vi förkastar H : =, det betyder att Helg har signifikant påverkan på försäljningen