Fnansell Statstk (GN, 7,5 hp,, HT 8) Föreläsnng 6 Regresson & Korrelaton (LLL Kap 3-4) Department of Statstcs (Gebrenegus Ghlagaber, PhD, Assocate Professor) Fnancal Statstcs (Basc-level course, 7,5 ECTS, Autumn 8) Inlednng tll Regressonsanalys Regressonsanalys används: Predcera värdet av en beroende varabel baserad på värde av åtmnstone en oberoende (förklarande) varabel Förklara effekten av förändrngen en oberoende varabel på beroende varabeln Beroende varabel (Y): Varabeln v vll förklara (kallas också respons varabel, endogenous varable) Oberoende (): Varabeln som används för att förklara beroende varabeln (kalls också förklarande varabel, predctor exogenous varable)
Enkel Lnjär Regressonsmodellen Sambandet mellan och Y beskrvs med a ett lnjärfunkton (Y är ett lnjärfunkton av ) Förändrngar Y föranleds av förändrngar Ekvatonen för populatons lnjär regressonsmodell ges enlgt Y = + x + där β och β är populatons modellkoeffcenter och ε är ett slumpmässgt fel term. Enkel lnjär regressonsmodellen Populaton regressonsmodellen: Beroende Varabel Populatonsskärnng (ntercept) Y = + + Populatonslutnng (slope) Oberoende Varabel Slump. fel term Lnjär komponenten Fel komponenten
Enkel lnjär regressonsmodellen Observerade Värde av Y för Y Y = + + Predcerade Värde av Y för Fel term för denna Skärnng = Skärnng = Enkel lnjär regressonsmodellen Enkel lnjär regressonsekvatonen nedan ger en skattnng (estmat) av populatons regressonsmodellen: Estmerat (predcerat) värde på y för observaton y ˆ = b + b Estmat av skärnngen Estmat av lutnngen x e = y - yˆ ) = y -(b + b x ) ( Fel termerna e har medelvärde lka med Värde på x för observaton
Skattnng (estmaton) med Mnsta Kvadrat Metoden b och b beräknas genom att htta värden på b och b som mnmerar kvadratsumman av skllnaden mellan observerade värden y, och den predcerade värden ŷ : mn SSE = mn = mn = mn e (y yˆ ) [y (b + b x )] Dfferenterng (derverng) av SSE används för att htta värdena på b o och b som mnmerar SSE. Mnsta Kvadrat Skattnngar Lutnngen skattas enlgt n (x x)(y y) = b = = n (x x) = och skärnngen skattas enlgt b = y bx s s Y y ˆ b + Den skattade regressonslnjen = passerar alltd genom punkten (x, y). b x
Den praktska beräknngen Handberäknng av koeffcenterna b och b, enlgt formel ovan kan vara tdskrävande (specellt med stora datamateral) Därför beräknas koeffcenterna b and b och andra regressonsresultat med användnng av statstsk programvara Statstska rutner fnns nbyggda R Mntab SAS Excel o.s.v. Lnjär regressonsmodellen: Antagande Formen på den sanna sambandet är lnjär (Y är ett lnjärfunkton of, plus ett slump fel term ) Fel termerna, är oberoende av värden på den oberoende varabeln ( och är oberoende) Fel termerna är stokastska varabler (slumpvarabler) med väntevärde (medelvärde) och konstant varans, E[ ] = and E[ ] = for ( =, K,n) (egenskapen med konstant varans kallas för homoscedastctet) Fel termerna,, är nte korrelerade mot varandra (de är oberoende av varandra), så att E[ j] = for all j
Tolknng av skärnngen, b och lutnngen, b b är den skattade genomsnttlga värden på y när värdet på x är noll (om x = är nom räckvdden av de observerade x-värdena) b är den skattade förändrngen den genomsnttlga värden av y på grund av en enhets öknng x-värden. Enkel Lnjärregresson: Exempel En fastghetsmäklare vll undersöka sambandet mellan fastghetsprs och storleken (yta kvadrat feet) Ett stckprov på fastgheter samlas Beroende varabel (Y) = prs $s Oberoende varabel () = storlek (square feet)
Data från stckprovet Prs n $s (Y) Yta (Square Feet) - () 45 4 3 6 79 7 38 875 99 9 55 45 35 34 45 39 45 55 7 Exempel: Sprdnngsdagram House Prce ($s) 45 4 35 3 5 5 5 5 5 5 3 Square Feet
Exempel: Skattnng med MINITAB MTB > regr c c Regresson Analyss: Prs (tusen $) versus Yta (square feet) The regresson equaton s Prs (tusen $) = 98, +, Yta (square feet) Predctor Coef SE Coef T P Constant 98,5 58,3,69,9 Yta (square feet),977,397 3,33, S = 4,333 R-Sq = 58,% R-Sq(adj) = 5,8% Analyss of Varance Source DF SS MS F P Regresson 8935 8935,8, Resdual Error 8 3666 78 Total 9 36 Exempel: Mntab Output Regresson Statstcs R Square.58 Multple R.76 Adjusted R Square.58 Standard Error 4.333 Observatons The regresson equaton s: house prce = 98. +. (square feet) ANOVA df SS MS F Sgnfcance F Regresson 8935 8935.8. Resdual 8 3666 78 Total 9 36 Coeffcents Standard Error T-value P-value Intercept 98.5 58.3.69.9 Square Feet.977.397 3.33.
Exempel: Grafsk Presentaton Sprdnngsdagram med den skattade regressonslnjen Skärnng = 98.5 House Prce ($s) 45 4 35 3 5 5 5 5 5 5 3 Square Feet Lutnng =.977 house prce = 98.4833 +.977 (square feet) Tolknng av skärnngen, b house prce = 98.4833 +.977 (square feet) b är den skattade genomsnttlga värden på y när värdet på x är noll (om x = är nom räckvdden av x-värdena). Ingen fastghet har yta feet, så b = 98.4833 just antyder att, för fastgheter nom räckvdden av de observerade ytor, $98,48.33 är andelen av fastghetsprset som är nte relaterad tll storleken.
Tolknng av lutnngen, b house prce = 98.4833 +.977 (square feet) b är den skattade förändrngen den genomsnttlga värden av y på grund av en enhets öknng x-värden. Här, b =.977 antyder att värdet (prser) på ett fastghet ökar, genomsntt, med.977($) = $9.77, för varje square foot storleken. Att bryta ned totalvaratonen Total varatonen Y består av två delar: SST = SSR + SSE Sum of Squares Total Sum of Squares Regresson Sum of Squares Error SST = (y y) där: y SSR = (yˆ y) = medelvärde på beroende varabeln SSE = (y yˆ y = Observerade värden på beroende varabeln ŷ = Predcerad värden på beroende varabeln för ett gvet värde x på den oberoende varabeln )
Att bryta ned totalvaratonen SST = total sum of squares Mäter varatonen y värdena krng medelvärden, y. SSR = regresson sum of squares Förklarade varaton pga lnjära samband mellan x & y SSE = error sum of squares Oförklarade varaton pga faktorer som nte är med n den lnjära sambandet mellan x and y. Att bryta ned totalvaratonen y Y _ SST = (y - y) SSE = (y - y ) y y _ y _ SSR = ( y - y) _ y x
Förklarngsgraden, R Förklarngsgraden är andelen av den totala varatonen beroende varabeln som är förklarade av varatonen oberoende varabeln Den betecknas med R (R-squared): SSR regresson sum of squares R = = SST total sum of squares OBS: R Exempel på R -värden Y R = Y R = Perfekt negatv lnjär samband mellan och Y: % av varatonen Y är förklarad av varatonen. Perfekt postv lnjär samband mellan och Y: R = % av varatonen Y är förklarad av varatonen.
Exempel på R -värden Y < R < Y Svagare lnjär samband mellan och Y: En del av (men nte all) varatonen Y förklaras av varatonen Exempel på R -värden Y R = R = Inga lnjär samband mellan och Y: Värden på Y beror nte på (Ingen av varatonen Y är på grund av varatonen )
Regresson Statstcs Multple R.76 R Square.58 Adjusted R Square.58 Standard Error 4.333 Observatons ANOVA Mntab Output df SS MS F Sgnfcance F Regresson 8935 8935.8.39 Resdual 8 3666 78 Total 9 36 SSR 8935 R = = =.58 SST 36 58.% av varatonen fastghetsprs är förklarad av varatonen ytan (storleken) Coeffcents Standard Error T-value P-value Intercept 98.5 58.33.69.89 Square Feet.977.397 3.33.39 Korrelaton och R Korrelatonskoeffcenten mellan och Y är just kvadratroten av R : r xy = R
Varans av fel termerna (Error Varance) Ett skattnng på varansen av populatons modellvarans ges av ˆ = s e V dvderar med n stället av n eftersom enkel lnjär regressonsmodellen använder två skattade parametrar, b och b, stället av ett. n e = SSE = = n n s e = s e kallas estmatens standardavvkelse Mntab Output Regresson Statstcs Multple R.76 R Square.58 Adjusted R Square.58 Standard Error 4.333 Observatons s e = 4.333 ANOVA df SS MS F Sgnfcance F Regresson 895 8935.8.39 Resdual 8 3666 78 Total 9 36 Coeffcents Standard Error t Stat P-value Intercept 98.5 58.33.69.89 Square Feet.977.33 3.33.39
Jämföra standardavvkelser s e mäter varatonen observerade y-värden krng den skattade lnjär regressonslnjen Y Y lten se stor se Storleken på s e skall alltd bedömas förhållande tll storleken av y-värdena datamateralet. dvs., s e = $4.33 (tusen) är relatvt lten förhållande tll fastghetsprs nom $ - $3 (tusen). Inferens om lutnngen: t-test t-test för populatonslutnngen: Fnns det lnjär samband mellan och Y? Noll- och mothypotes H : = (ngen lnjär samband) H : (fnns lnjär samband) Testvarabel: t b = s b d.f. = n där: b = skattade lutnngen ( ) = = populatonslutnngen under H s b = skattade lutnngens standardavvkelse
Inferens om lutnngen: t-test House Prce n $s (y) Square Feet (x) 45 4 3 6 79 7 38 875 99 9 55 45 35 34 45 39 45 55 7 Skattade Regressonsekvaton: house prce = 98.5 +.98 (sq.ft.) Påverkar fastghets storlek (yta) fastghetens prs? Den skattade lutnngen är b =.98. Inferens om lutnngen: t-test H : = H : Från Mntab output: b s b Coeffcents Standard Error t -value p-value Intercept 98.5 58.33.6996.89 Square Feet.977.33 3.39.39 b t = s.977 =.397 t = b 3.39
H : = H : d.f. = - = 8 t 8,.5 =.36 α/=.5 Förkasta H Inferens om lutnngen: t-test Testvarabel: t = 3.39 Från Mntab output: Förkasta ej H Förkasta H -t n-, / t n-, / -.36.36 3.39 Coeffcents Standard Error T-value P-value Intercept 98.5 58.33.69.89 Square Feet.977.33 3.39.39 α/=.5 b Beslut: Förkasta H Slutsats: sb Det fnns tllräcklgt bevs att fastghetens yta (storlek) påverkar prset på fastgheten (på α =.5) t Prognos Den skattade regressonsekvaton kan användas för att predcera ett värde på y, för ett gvet värde på x. För ett specfcerat värde, x n+, den predcerad värde på y beräknas enlgt: ˆ y n+ = b + bxn+
Prognos: Exempel Predcera prset på ett fastghet som är (sq.ft.) stort house prce = = 98.5 +.98 (sq.ft.) 98.5 +.98() = 37.85 Predcerat prs för ett fastghet med yta på square feet är 37.85($,s) = $37,85. Relevant Dataräckvdd Använd ett regressonsmodell för att göra prognos (predcera) endast nom den relevanta räckvdden av datamateralet Relevant räckvdd House Prce ($s) 45 4 35 3 5 5 5 5 5 5 3 Chap -38 Square Feet Rskabel att försöka extrapolera långt utanför de observerade -värdena