Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

Relevanta dokument
ENKEL LINJÄR REGRESSION

Flode. I figuren har vi också lagt in en rät linje som någorlunda väl bör spegla den nedåtgående tendensen i medelhastighet för ökande flöden.

F13. Förra gången (F12) Konfidensintervall och hypotesprövning Chi-tvåtest. Stratifierat urval

Multipel Regressionsmodellen

Slumpvariabler (Stokastiska variabler)

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

a) B är oberoende av A. (1p) b) P (A B) = 1 2. (1p) c) P (A B) = 1 och P (A B) = 1 6. (1p) Lösningar: = P (A) P (A B) = 1

1. a Vad menas med medianen för en kontinuerligt fördelad stokastisk variabel?

Variansanalys ANOVA. Idé. Experiment med flera populationer. Beteckningar. Beteckningar. ANOVA - ANalysis

När vi räknade ut regressionsekvationen sa vi att denna beskriver förhållandet mellan flera variabler. Man försöker hitta det bästa möjliga sättet

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Tentamen i Dataanalys och statistik för I den 5 jan 2016

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Beräkna standardavvikelser för efterfrågevariationer

Regressions- och Tidsserieanalys - F3

Vinst (k) Sannolikhet ( )

FORMELSAMLING HT-15 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02. Sannolikhetsteori. Beskrivning av data

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Primär- och sekundärdata. Undersökningsmetodik. Olika slag av undersökningar. Beskrivande forts. Beskrivande forts

Centrala Gränsvärdessatsen:

Regressions- och Tidsserieanalys - F3

FK2002,FK2004. Föreläsning 5

Regressions- och Tidsserieanalys - F7

F11. Kvantitativa prognostekniker

10.1 Enkel linjär regression

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Modellering av antal resor och destinationsval

Regressions- och Tidsserieanalys - F4

F15 ENKEL LINJÄR REGRESSION (NCT )

Regressions- och Tidsserieanalys - F3

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Metod och teori. Statistik för naturvetare Umeå universitet

Experimentella metoder 2014, Räkneövning 5

1. Anpassningstest. Chi-Square test. Multinomial experiment. Multinomial experiment. Vad gör g r ett anpassningstest?

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Del A Begrepp och grundläggande förståelse.

Innehåll: har missbrukat jämfört med om man inte har. missbrukat. Risk 1 Odds Risk. Odds 1 Risk. Odds

7.5 Experiment with a single factor having more than two levels

FÖRDJUPNINGS-PM. Nr Kommunalt finansierad sysselsättning och arbetade timmar i privat sektor. Av Jenny von Greiff

Effekter av kön, ålder och region på sjukpenningen i Sverige

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Oljeprisets inverkan på oljerelaterade aktier

Föreläsning G60 Statistiska metoder

7.5 Experiment with a single factor having more than two levels

Test av anpassning, homogenitet och oberoende med χ 2 - metod

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Matrismodellen vs Two-part regressionsmodeller -effekter på Region Skånes resursfördelning-

Föreläsning G70 Statistik A

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

Dödlighetsundersökningar på KPA:s

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Stokastisk reservsättning med Tweedie-modeller och bootstrap-simulering

Examinationsuppgifter del 2

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Stelkroppsdynamik i tre dimensioner Ulf Torkelsson. 1 Tröghetsmoment, rörelsemängdsmoment och kinetisk energi

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Lösningsförslag till tentamen i 732G71 Statistik B,

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

F7 Polynomregression och Dummyvariabler

Tentamen i matematisk statistik

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Prissättningen av bostadsrätter: Vilka faktorer påverkar priserna, vad är riktpriset för en lägenhet?

Nyckeltal och företags prestation under recession

Klarar hedgefonder att skapa positiv avkastning oavsett börsutveckling? En empirisk studie av ett urval svenska hedgefonder

Fördelning av kvarlåtenskap vid arvsskifte

8.1 General factorial experiments

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

TENTAMEN I MATEMATISK STATISTIK

Kvadratisk regression, forts.

Elementa om Variansanalys

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Skrivning i ekonometri torsdagen den 8 februari 2007

Mätfelsbehandling. Lars Engström

Erfarenhetsbaserad uppskattning av energiprestanda ett komplement till energimodellering i kontorsbyggnader. Fredrik Schramm

Tentamen i matematisk statistik

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i matematisk statistik

Skrivning i ekonometri lördagen den 25 augusti 2007

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

Räkneövning 3 Variansanalys

Tillämpningar av dekomposition: Flervaruflödesproblemet. Flervaruflödesproblemet: Lagrangeheuristik

Exempel 1 på multipelregression

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Tentamen Tillämpad statistik A5 (15hp)

Skrivning i ekonometri lördagen den 29 mars 2008

Tentamen i MATEMATISK STATISTIK Datum: 8 Juni 07

1. Inledning s Teori bakom reversionspendeln s. 3

Beräkna standardavvikelser för efterfrågevariationer

Tentamen i matematisk statistik

Transkript:

Fnansell Statstk (GN, 7,5 hp,, HT 8) Föreläsnng 6 Regresson & Korrelaton (LLL Kap 3-4) Department of Statstcs (Gebrenegus Ghlagaber, PhD, Assocate Professor) Fnancal Statstcs (Basc-level course, 7,5 ECTS, Autumn 8) Inlednng tll Regressonsanalys Regressonsanalys används: Predcera värdet av en beroende varabel baserad på värde av åtmnstone en oberoende (förklarande) varabel Förklara effekten av förändrngen en oberoende varabel på beroende varabeln Beroende varabel (Y): Varabeln v vll förklara (kallas också respons varabel, endogenous varable) Oberoende (): Varabeln som används för att förklara beroende varabeln (kalls också förklarande varabel, predctor exogenous varable)

Enkel Lnjär Regressonsmodellen Sambandet mellan och Y beskrvs med a ett lnjärfunkton (Y är ett lnjärfunkton av ) Förändrngar Y föranleds av förändrngar Ekvatonen för populatons lnjär regressonsmodell ges enlgt Y = + x + där β och β är populatons modellkoeffcenter och ε är ett slumpmässgt fel term. Enkel lnjär regressonsmodellen Populaton regressonsmodellen: Beroende Varabel Populatonsskärnng (ntercept) Y = + + Populatonslutnng (slope) Oberoende Varabel Slump. fel term Lnjär komponenten Fel komponenten

Enkel lnjär regressonsmodellen Observerade Värde av Y för Y Y = + + Predcerade Värde av Y för Fel term för denna Skärnng = Skärnng = Enkel lnjär regressonsmodellen Enkel lnjär regressonsekvatonen nedan ger en skattnng (estmat) av populatons regressonsmodellen: Estmerat (predcerat) värde på y för observaton y ˆ = b + b Estmat av skärnngen Estmat av lutnngen x e = y - yˆ ) = y -(b + b x ) ( Fel termerna e har medelvärde lka med Värde på x för observaton

Skattnng (estmaton) med Mnsta Kvadrat Metoden b och b beräknas genom att htta värden på b och b som mnmerar kvadratsumman av skllnaden mellan observerade värden y, och den predcerade värden ŷ : mn SSE = mn = mn = mn e (y yˆ ) [y (b + b x )] Dfferenterng (derverng) av SSE används för att htta värdena på b o och b som mnmerar SSE. Mnsta Kvadrat Skattnngar Lutnngen skattas enlgt n (x x)(y y) = b = = n (x x) = och skärnngen skattas enlgt b = y bx s s Y y ˆ b + Den skattade regressonslnjen = passerar alltd genom punkten (x, y). b x

Den praktska beräknngen Handberäknng av koeffcenterna b och b, enlgt formel ovan kan vara tdskrävande (specellt med stora datamateral) Därför beräknas koeffcenterna b and b och andra regressonsresultat med användnng av statstsk programvara Statstska rutner fnns nbyggda R Mntab SAS Excel o.s.v. Lnjär regressonsmodellen: Antagande Formen på den sanna sambandet är lnjär (Y är ett lnjärfunkton of, plus ett slump fel term ) Fel termerna, är oberoende av värden på den oberoende varabeln ( och är oberoende) Fel termerna är stokastska varabler (slumpvarabler) med väntevärde (medelvärde) och konstant varans, E[ ] = and E[ ] = for ( =, K,n) (egenskapen med konstant varans kallas för homoscedastctet) Fel termerna,, är nte korrelerade mot varandra (de är oberoende av varandra), så att E[ j] = for all j

Tolknng av skärnngen, b och lutnngen, b b är den skattade genomsnttlga värden på y när värdet på x är noll (om x = är nom räckvdden av de observerade x-värdena) b är den skattade förändrngen den genomsnttlga värden av y på grund av en enhets öknng x-värden. Enkel Lnjärregresson: Exempel En fastghetsmäklare vll undersöka sambandet mellan fastghetsprs och storleken (yta kvadrat feet) Ett stckprov på fastgheter samlas Beroende varabel (Y) = prs $s Oberoende varabel () = storlek (square feet)

Data från stckprovet Prs n $s (Y) Yta (Square Feet) - () 45 4 3 6 79 7 38 875 99 9 55 45 35 34 45 39 45 55 7 Exempel: Sprdnngsdagram House Prce ($s) 45 4 35 3 5 5 5 5 5 5 3 Square Feet

Exempel: Skattnng med MINITAB MTB > regr c c Regresson Analyss: Prs (tusen $) versus Yta (square feet) The regresson equaton s Prs (tusen $) = 98, +, Yta (square feet) Predctor Coef SE Coef T P Constant 98,5 58,3,69,9 Yta (square feet),977,397 3,33, S = 4,333 R-Sq = 58,% R-Sq(adj) = 5,8% Analyss of Varance Source DF SS MS F P Regresson 8935 8935,8, Resdual Error 8 3666 78 Total 9 36 Exempel: Mntab Output Regresson Statstcs R Square.58 Multple R.76 Adjusted R Square.58 Standard Error 4.333 Observatons The regresson equaton s: house prce = 98. +. (square feet) ANOVA df SS MS F Sgnfcance F Regresson 8935 8935.8. Resdual 8 3666 78 Total 9 36 Coeffcents Standard Error T-value P-value Intercept 98.5 58.3.69.9 Square Feet.977.397 3.33.

Exempel: Grafsk Presentaton Sprdnngsdagram med den skattade regressonslnjen Skärnng = 98.5 House Prce ($s) 45 4 35 3 5 5 5 5 5 5 3 Square Feet Lutnng =.977 house prce = 98.4833 +.977 (square feet) Tolknng av skärnngen, b house prce = 98.4833 +.977 (square feet) b är den skattade genomsnttlga värden på y när värdet på x är noll (om x = är nom räckvdden av x-värdena). Ingen fastghet har yta feet, så b = 98.4833 just antyder att, för fastgheter nom räckvdden av de observerade ytor, $98,48.33 är andelen av fastghetsprset som är nte relaterad tll storleken.

Tolknng av lutnngen, b house prce = 98.4833 +.977 (square feet) b är den skattade förändrngen den genomsnttlga värden av y på grund av en enhets öknng x-värden. Här, b =.977 antyder att värdet (prser) på ett fastghet ökar, genomsntt, med.977($) = $9.77, för varje square foot storleken. Att bryta ned totalvaratonen Total varatonen Y består av två delar: SST = SSR + SSE Sum of Squares Total Sum of Squares Regresson Sum of Squares Error SST = (y y) där: y SSR = (yˆ y) = medelvärde på beroende varabeln SSE = (y yˆ y = Observerade värden på beroende varabeln ŷ = Predcerad värden på beroende varabeln för ett gvet värde x på den oberoende varabeln )

Att bryta ned totalvaratonen SST = total sum of squares Mäter varatonen y värdena krng medelvärden, y. SSR = regresson sum of squares Förklarade varaton pga lnjära samband mellan x & y SSE = error sum of squares Oförklarade varaton pga faktorer som nte är med n den lnjära sambandet mellan x and y. Att bryta ned totalvaratonen y Y _ SST = (y - y) SSE = (y - y ) y y _ y _ SSR = ( y - y) _ y x

Förklarngsgraden, R Förklarngsgraden är andelen av den totala varatonen beroende varabeln som är förklarade av varatonen oberoende varabeln Den betecknas med R (R-squared): SSR regresson sum of squares R = = SST total sum of squares OBS: R Exempel på R -värden Y R = Y R = Perfekt negatv lnjär samband mellan och Y: % av varatonen Y är förklarad av varatonen. Perfekt postv lnjär samband mellan och Y: R = % av varatonen Y är förklarad av varatonen.

Exempel på R -värden Y < R < Y Svagare lnjär samband mellan och Y: En del av (men nte all) varatonen Y förklaras av varatonen Exempel på R -värden Y R = R = Inga lnjär samband mellan och Y: Värden på Y beror nte på (Ingen av varatonen Y är på grund av varatonen )

Regresson Statstcs Multple R.76 R Square.58 Adjusted R Square.58 Standard Error 4.333 Observatons ANOVA Mntab Output df SS MS F Sgnfcance F Regresson 8935 8935.8.39 Resdual 8 3666 78 Total 9 36 SSR 8935 R = = =.58 SST 36 58.% av varatonen fastghetsprs är förklarad av varatonen ytan (storleken) Coeffcents Standard Error T-value P-value Intercept 98.5 58.33.69.89 Square Feet.977.397 3.33.39 Korrelaton och R Korrelatonskoeffcenten mellan och Y är just kvadratroten av R : r xy = R

Varans av fel termerna (Error Varance) Ett skattnng på varansen av populatons modellvarans ges av ˆ = s e V dvderar med n stället av n eftersom enkel lnjär regressonsmodellen använder två skattade parametrar, b och b, stället av ett. n e = SSE = = n n s e = s e kallas estmatens standardavvkelse Mntab Output Regresson Statstcs Multple R.76 R Square.58 Adjusted R Square.58 Standard Error 4.333 Observatons s e = 4.333 ANOVA df SS MS F Sgnfcance F Regresson 895 8935.8.39 Resdual 8 3666 78 Total 9 36 Coeffcents Standard Error t Stat P-value Intercept 98.5 58.33.69.89 Square Feet.977.33 3.33.39

Jämföra standardavvkelser s e mäter varatonen observerade y-värden krng den skattade lnjär regressonslnjen Y Y lten se stor se Storleken på s e skall alltd bedömas förhållande tll storleken av y-värdena datamateralet. dvs., s e = $4.33 (tusen) är relatvt lten förhållande tll fastghetsprs nom $ - $3 (tusen). Inferens om lutnngen: t-test t-test för populatonslutnngen: Fnns det lnjär samband mellan och Y? Noll- och mothypotes H : = (ngen lnjär samband) H : (fnns lnjär samband) Testvarabel: t b = s b d.f. = n där: b = skattade lutnngen ( ) = = populatonslutnngen under H s b = skattade lutnngens standardavvkelse

Inferens om lutnngen: t-test House Prce n $s (y) Square Feet (x) 45 4 3 6 79 7 38 875 99 9 55 45 35 34 45 39 45 55 7 Skattade Regressonsekvaton: house prce = 98.5 +.98 (sq.ft.) Påverkar fastghets storlek (yta) fastghetens prs? Den skattade lutnngen är b =.98. Inferens om lutnngen: t-test H : = H : Från Mntab output: b s b Coeffcents Standard Error t -value p-value Intercept 98.5 58.33.6996.89 Square Feet.977.33 3.39.39 b t = s.977 =.397 t = b 3.39

H : = H : d.f. = - = 8 t 8,.5 =.36 α/=.5 Förkasta H Inferens om lutnngen: t-test Testvarabel: t = 3.39 Från Mntab output: Förkasta ej H Förkasta H -t n-, / t n-, / -.36.36 3.39 Coeffcents Standard Error T-value P-value Intercept 98.5 58.33.69.89 Square Feet.977.33 3.39.39 α/=.5 b Beslut: Förkasta H Slutsats: sb Det fnns tllräcklgt bevs att fastghetens yta (storlek) påverkar prset på fastgheten (på α =.5) t Prognos Den skattade regressonsekvaton kan användas för att predcera ett värde på y, för ett gvet värde på x. För ett specfcerat värde, x n+, den predcerad värde på y beräknas enlgt: ˆ y n+ = b + bxn+

Prognos: Exempel Predcera prset på ett fastghet som är (sq.ft.) stort house prce = = 98.5 +.98 (sq.ft.) 98.5 +.98() = 37.85 Predcerat prs för ett fastghet med yta på square feet är 37.85($,s) = $37,85. Relevant Dataräckvdd Använd ett regressonsmodell för att göra prognos (predcera) endast nom den relevanta räckvdden av datamateralet Relevant räckvdd House Prce ($s) 45 4 35 3 5 5 5 5 5 5 3 Chap -38 Square Feet Rskabel att försöka extrapolera långt utanför de observerade -värdena