Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen



Relevanta dokument
Multipel Regressionsmodellen

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Linjär regressionsanalys. Wieland Wermke

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Lösningar till SPSS-övning: Analytisk statistik

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Multipel regression och Partiella korrelationer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Föreläsning 14: Försöksplanering

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Regression med kvalitativa variabler. Jesper Rydén

Statistik och epidemiologi T5

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Regressions- och Tidsserieanalys - F4

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Datorlaboration 2 Konfidensintervall & hypotesprövning

Regressions- och Tidsserieanalys - F1

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Regressions- och Tidsserieanalys - F1

Uppgift 1. Deskripitiv statistik. Lön

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Finansiell statistik. Multipel regression. 4 maj 2011

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Tentamen i Matematisk statistik Kurskod S0001M

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning 7 och 8: Regressionsanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Skrivning i ekonometri torsdagen den 8 februari 2007

Tentamen i Matematisk statistik Kurskod S0001M

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Skrivning i ekonometri lördagen den 25 augusti 2007

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

KA RKUNSKAP. Vad vet samhällsvetarna om sin kår? Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc STAA31 HT14

Extrauppgifter. Uppgifter. 1. Den stokastiska variabeln Y t(10). Bestäm c så att P ( c < Y < c) = 0.95.

Avveckling Ekeby skola. Förslag till beslut Ekeby skola avvecklas 31 december 2015.

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Höftledsdysplasi hos dansk-svensk gårdshund

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

Samhällsvetenskaplig metod, 7,5 hp

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

F19, (Multipel linjär regression forts) och F20, Chi-två test.

ANOVA Mellangruppsdesign

Analys av bostadsrättspriset i Stockholms innerstad

Regressions- och Tidsserieanalys - F7

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

parametriska test Mätning Ordinalskala: Nominalskala:

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Resultatet läggs in i ladok senast 13 juni 2014.

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

ANOVA Faktoriell (tvåvägs)

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Lathund, procent med bråk, åk 8

Elementa om Variansanalys

STOCKHOLMS UNIVERSITET Sociologiska institutionen

Avd. Matematisk statistik

Medicinsk statistik II

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

1. Frekvensfunktionen nedan är given. (3p)

F11. Kvantitativa prognostekniker

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Följande resultat erhålls (enhet: 1000psi):

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

SF1625 Envariabelanalys

7.5 Experiment with a single factor having more than two levels

Föreläsning G60 Statistiska metoder

TENTAMEN I STATISTIK B,

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Repetition och ANOVA. nbib44

Figur 1: R e g r e s s i o n A n a l y s i s : S k u l d v e r s u s t. The r e g r e s s i o n e q u a t i o n i s S k u l d = 2,94 0,861 t

Tentamen i matematisk statistik

Metod och teori. Statistik för naturvetare Umeå universitet

Obligatorisk uppgift, del 1

Regressionsanalys av huspriser i Vaxholm

Föreläsning 9: Hypotesprövning

Transkript:

Finansiell Statistik (GN, 7,5 hp,, HT 8) Föreläsning 7 Multipel regression (LLL Kap 5) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS, Autumn 8) Multipel Regressionsmodellen Syfte: Undersöka linjär samband mellan beroende variabel (Y) & eller flera förklarande variabler (X i ) Multipel Regressionsmodell med k förklarande variabler: Y Y-intercept (skärning) Population slopes (lutningar) Random Error (slumpfel) = + X + X + K+ kxk + Linjärkomponent Fel komponent

Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y Skattad skärning Skattade lutningskoefficienter y ˆ = b + b x + b x + K+ b i i I kursen ska datorprogram (Minitab, SAS, Excel) användas för att skatta koefficienterna och andra resultat. i k x ki E[ Standard Antagande i Multipel Regression E[ Förklarande variablerna x i och feltermerna i är oberoende Feltermerna i är stokastiska variabler med medelvärde och konstant varians σ. ] i = och i ] = för (i =, K, n) (egenskapen konstant varians kallas för homoscedasticitet) Feltermerna, i, är inte korrelerade med varandra: E[ i j] = för alla i j

Exempel med förklarande variabler Försäljaren vill veta faktorer som kan påverka efterfrågan av paj: Beroende variabel: Y = # sålda paj (enheter) per vecka Förklarande variabler: X = Pris (i $) X = Marknadsföring ($ s) Data över 5 veckor ger följande tabell: Exempel med förklarande variabler Vecka (i) 3 4 5 6 7 8 9 3 4 5 Y i 35 46 35 43 35 38 43 47 45 49 34 3 44 45 3 X i 5.5 7.5 8. 8. 6.8 7.5 4.5 6.4 7. 5. 7. 7.9 5.9 5. 7. X i 3.3 3.3 3. 4.5 3. 4. 3. 3.7 3.5 4. 3.5 3. 4. 3.5.7 Multipel regression ekvation: Y i = b + b X i + b X i

Exempel: Skattning av koefficienterna & andra resultat Vi ska andvända Minitab för att skatta relevanta koefficienter och andra resultat: Anta att vi har sparat Y i (beroende variabeln) i första kolumnen (C) och förklarande variablerna X i och X i i andra resp. tredje kolumner (C resp c3) Då kan vi ge kommandot Regr c c c3 eller gå genom menyn stat-regression-regression och ange c som response och c-c3 som predictors. Multipel Regression - output Regression Statistics Multiple R.73 R Square.548 Adjusted R Square.447 Standard Error 47.4634 Observations 5 Y i = 36.56-4.975(Xi) + 74.3(Xi) ANOVA df SS MS F Significance F Regression Residual 946.7 733.36 473.3 5.776 6.5386. Total 4 56493.333 Coefficients Standard Error T-value P-value Intercept Price 36.569-4.9759 4.5389.833.6885 -.3565.993.3979 Advertising 74.396 5.9673.85478.449

Skattade Ekvationen Y i = 36.56-4.975(X i ) + 74.3(X i ) där Y i = # paj enheter sålda under vecka i (i =,, 5) X i = pris (i $) i vecka i X i = marknadsföring i $ s under vecka i. b = -4.975: försäljning minskar i genomsnitt med 4.975 paj (enheter) per vecka för varje $ ökning i priset, efter man har tagit hänsyn till förändringen i försäljning p.g.a. marknadsföring. b = 74.3: försäljning ökar i genomsnitt med 74.3 paj (enheter) per vecka för varje $ ökning i utgifter för marknadsföring, efter man har tagit hänsyn till förändringen i försäljning p.g.a. pris. Förklaringsgraden, R Ger andelen av total variationen i Y (försäljning) som förklarar (är relaterad till) alla förklarande variabler tillsammans. SSR R = = SST regression sum of squares total sum of squares Resten (-R ) är andelen av variationen som är oförklarad av regressionsekvationen (är relaterad till andra faktorer representerade av fel termen)

Förklaringsgraden, R Multiple R R Adjusted SquareR Square Regression Statistics Standard Error Observations.73.548.447 47.4634 5 SSR 946. R = = =.548 SST 56493.3 5.% av variationen i försäljningen av paj förklaras av variation i pris och marknadsföring. ANOVA Regression Residual Total Intercept Price Advertising df 4 Coefficients 36.569-4.9759 74.396 SS 946.7 733.36 56493.333 Standard Error 4.5389.833 5.9673 MS 473.3 5.776 t Stat.6885 -.3565.85478 F 6.5386 P-value.993.3979.449 Significance F. Lower 95% 57.58835-48.5766 7.5533 Upper 95% 555.4644 -.3739 3.7888 Testa för signifikans av individuell Regressionskoefficienter Använd t-test för de individuella koefficienter Man testar om ett specifikt förklarande variabel är viktigt givet (i närvaro av) de andra variabler Hypotes: H : j = (ingen linjär samband mellan Y & X j ) H : j (finns linjär samband mellan Y & X j )

Testa för signifikans av individuell Regressionskoefficienter H : j = (ingen linjär samband ) H : j Testvariabel: (finns linjär samband) t = b j S b j (df = n k ) Testa för signifikans av individuell Regressionskoefficienter Regression Statistics Multiple R.73 R Square.548 Adjusted R Square.447 Standard Error 47.4634 Observations 5 t-värde för pris är t = -.36, med p-värde på.398. t-värde för marknadsföring är t =.855, med p-värde.45 ANOVA df SS MS F Significance F Regression 946.7 473.3 6.5386. Residual Total 4 733.36 56493.333 5.776 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept Price 36.569-4.9759 4.5389.833.6885 -.3565.993.3979 57.58835-48.5766 555.4644 -.3739 Advertising 74.396 5.9673.85478.449 7.5533 3.7888

H : j = H : j d.f. = 5-- = α =.5 t,.5 =.788 α/=.5 Förkasta H Testa för signifikans av individuell Regressionskoefficienter Pris Marknadsföring Ej Förkasta H -t / t / -.788.788 Coefficients -4.9759 74.396 Standard Error.833 5.9673 T-value -.3565.85478 Testvariabeln för varje förklarande variabel hamnar i Rejection Region (eller p-värde <.5) α/=.5 Förkasta H Beslut: P-value.3979.449 Förkasta H för varje variabel Slutsats: Det finns bevis att både pris och marknadsföring påverkar försäljningen av paj (på α =.5) Testa för signifikans av alla Regressionskoefficienter (i helheten) Använd F-test för att testa för allmän signifikans (modellen i helheten) Testet visar om det finns linjär samband mellan Y och all förklarande variablerna (alla X) tillsammans. Hypotes: H : = = = k = (ingen linjär samband) H : åtminstone ett i (finns linjär samband mellan Y och åtminstone en förklarande variabel)

Testvariabel: MSR F = = MSE Testa för signifikans av alla Regressionskoefficienter (i helheten) där F har k frihetsgrader i täljaren och (n K-) frihetsgrader i nämnaren Beslutregel är MSR s e Förkasta H om SSR/K = SSE/(n K ) F > F k,n K, Testa för signifikans av alla Regressionskoefficienter (i helheten) Regression Statistics Multiple R.73 R Square.548 Adjusted R Square.447 Standard Error 47.4634 Observations 5 MSR 473. F = = = 6.5386 MSE 5.8 med df i täljaren och df i nämnaren. P-värde för F-testet ANOVA df SS MS F P-value Regression 946.7 473.3 6.5386. Residual Total 4 733.36 56493.333 5.776 Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Intercept 36.569 4.5389.6885.993 57.58835 555.4644 Price -4.9759.833 -.3565.3979-48.5766 -.3739 Advertising 74.396 5.9673.85478.449 7.5533 3.7888

F-test för helheten (forts ) H : = = H : och inte både lika med noll α =.5 df = df = Kritiskvärde: F α = 3.885 Testvariable: MSR F = = 6.5386 MSE Beslut: Eftersom den skattade testvariabeln hamnar i Rejection Region (p-värde <.5), förkastar vi H. α =.5 Ej förkasta H Förkasta H F.5 = 3.885 F Slutsats: Det finns bevis att åtminstone en av förklarande variablerna påverkar beroende variabeln Y. Prognos (Prediction) Efter vi har skattat regressionsmodellen kan vi använda den för att göra prognos (prediction). För givet värde av förklarande variabler (x,n+, x,n+,..., x K,n+ ), ett prognos på beroende variabeln y n+ ges enligt is ˆ y n+ = b + bx,n + + bx,n+ + L+ bkxk,n+ ^

Prognos (Prediction) Gör ett prognos på paj försäljningen i en vecka där priset är $5.5 och utgifter för marknadsföring är $35: Yi = 36.56-4.975(X i ) + 74.3(X i ) = 36.56-4.975 (5.5) + 74.3(3.5) = 48.6 Predicerad försäljning är 48.6 paj. Obs: eftersom marknadsföring mäts i $ s, $35 betyder att X = 3.5. Dummy Variabler Ett dummy variabel är ett kategorisk förklarande med två möjliga värde: Ja eller Nej, On eller Off, Man eller Kvinna, o.s.v. Kodas som eller Om ett dummy variabel är signifikant i ett regressionsekvation innebär det att skärningarna är olika för de olika kategorier (värde av dummy variabeln) Lutningarna för de andra variabler är samma Om ett kategorisk variabel har n (n > ) värden kan dessa kodas till n- dummy variabler

Dummy Variabler: Exempel Låt: y = Paj försäljning x = Pris yˆ = b + b x + b x x = Helg (X = om ett helgdag inträffades under veckan) (X = det fanns ingen helgdag under veckan) Dummy Variabler: Exempel yˆ = b yˆ = b y (försäljning) b + b b + b x + b x + b () = (b + b () = Helg (x = ) + b b Olika Skärningar Ingen helg (x = ) ) + b x x (pris) + b x Samma lutning Helg ingen helg Om vi förkastar H : =, det betyder att Helg har signifikant påverkan på försäljningen

Dummy Variabler: Exempel Example: Sales = 3-3(Price) + 5(Holiday) b = 5: I genomsnitt var försäljningen 5 paj (enheter) högre under en vecka där det inträffades en helgdag än en vecka där det inte fanns någon helgdag.