Lijär regressio F4 Ekel lijär regressio. Christia Tallberg Avdelige för Natioalekoomi och Statistik Karlstads uiversitet Hittills har vi försökt beskriva data som utgjorts av observatioer frå e variabel. Oftaharvidockobservatioerfråfleräevariabel. Vi ställer oss då kaske följade frågor: Fis det ågot sambad mella variablera? Hurserisåfalldettasambadut? Hur starkt är sambadet? Vi har e verklighet som vi vill försöka beskriva(eller approximera) med hjälp av matematiska modeller. Exempel: Vivilltexhasvarpåföljadefråga: Vad styr priset på e fastighet? Om det är boyta, rätor, geografiskt läge osv, ka detta sambad kaske beskrivas med hjälp av följade matematiska modell: pris=b 1 boyta+b 2 rätor+b 3 geografi+ε, därb 1,b 2 ochb 3 ärkostatersom(aigeföreklat) uttrycker hur mycket respektive variabel påverkar (eller förklarar) huspriset. Detta är ett exempel på e lijär regressiosmodell med tre oberoede(förklarade) variabler som styr (eller förklarar) värdet på e beroede variabel. Uttrycketb 1 boyta+b 2 rätor+b 3 geografiär de förklarade(determiistiska) dele av modelle och ε de icke förklarade(slumpmässiga) dele av modelle, som iblad kallas de aturliga variatioe(av fastighetspriset). Pådeakursiriktarviossdockebartpådedetermiistiska dele av regressiosmodelle. Dessutom specialfallet då de determiistiska dele består av ebart e förklarade variabel. Därförharviudatafråtvåvariabler.
Ekel lijär regressio Vi täker oss uatt vi har eförklarade variabel, boyta, som styr fastighetspriset. Dvs, Beteckigskovetio: x=boyta x = oberoede eller förklarade variabel( predictor ) och y=fastighetspris. y = beroede (av värdet på x) variabel ( respose variable ) Vihardådataavföljadetyp: Obs. r. x y 1 x 1 y 1 2 x 2 y 2 x y Vi ställer oss då kaske följade frågor: Apassig av rät lije till data Fis det ågot lijärt sambad? (Om så är fallet, apassa e rät lije som beskriver det lijära sambadet.) Hur bra är apassige? Vihartvåobservatiospar(x i,y i ). Utifrådessa kaviapassaerätlije. Räta lijes ekvatio y=a+bx, Hur mycket av variatioe av y värdea ka förklaras av x? där a är iterceptet (det ställe där lije skär y axel), och b är lutigskoefficiete.
Vi täkeross udet geerellafallet. Dvs, vi har styckeobservatiospar(x i,y i ). Exempel: E fastighetsekoom vill udersöka hur fastighetspriser förklaras av boyta. Ho samlar därför i följade data. x=boyta(im 2 ) Fastigh x y xy x 2 y 2 1 30 680 20400 900 462400 2 40 810 32400 1600 656100 3 50 1520 76000 2500 2310400 4 60 1870 112200 3600 3496900 5 60 2040 122400 3600 4161600 6 70 1350 94500 4900 1822500 7 80 2130 170400 6400 4536900 8 85 2140 181900 7225 4579600 9 90 3150 283500 8100 9922500 10 100 3500 350000 10000 12250000 Summa 665 19190 1443700 48825 44198900 y=huspris(itusekroor) Vi aväder Mista Kvadrat Metode: De iebär att ma lägger lije så att kvadratsumma Hurskallvidå läggalije,dvshurskallviberäka iterceptet a och lutigskoefficiete b. Räta lijes ekvatio skrivs i det här sammahaget som ŷ=a+bx därŷärdety värdesomliggerpådeapassade lije för ett givet x värde. Vi säger att ŷ är ett apassat y värde. Q= (y i ŷ i ) 2 = (y i a bx i ) 2 miimeras. Det vill säga, summa av alla kvadrerade lodräta avståd till lije skall miimeras. Geom partiell deriverig av Q med avseede på a och b, respektive, får ma följade formler för regressioskoefficietera a = ȳ b x b = (xi x)(y i ȳ) (xi x) 2 = xi y i xi yi x 2 i ( x i ) 2.
De skattade regressioskoefficietera blir då Fortsättig exemplet: För att kua utföra beräkigar behövs följade summor: b = xi y i xi yi x 2 i ( x i ) 2 = 36.4 1443700 665 19190 = 10 48825 6652 10 =10 x=665 x 2 =48825 xy=1443700 y=19190 y 2 =44198900 och a=ȳ b x= 19190 10 (36.4) 665 10 = 502. Regressioslije har alltså ekvatioe ŷ= 502.1+36.4x. Tolkig av koefficietera: b = 36.4 : När bostadsyta ökar e m 2 ökar fastighetspriset i geomsitt med 36400 kr. OBS!! Tolkige gäller i itervallet som vi har observerat data, dvs för boytor mella 30 och 100 m 2. Om ma vill tolka fastighetspriser för adra boytor utaför observerade itervallet, måstemavara försiktigochfråga sigom tolkige blir relevat. Förett givet x värde, äralltsåŷett apassat y värde som ofta skiljer sig frå det observerade y värdet. Skillade e=y ŷ mella observerat och apassat y värde brukar kallas för residual. a = 502 : Det geomsittliga priset på e fastighetdåboytaärollm 2. Noteraattofta är tolkige av iterceptet a meigslös.
Fortsättig på exemplet: Fastighet x y ŷ e=y ŷ 1 30 680 590.13 89.87 2 40 810 954.20-144.20 3 50 1520 1318.28 201.72 4 60 1870 1682.35 187.65 5 60 2040 1682.35 357.65 6 70 1350 2046.43-696.43 7 80 2130 2410.50-280.50 8 85 2140 2592.54-452.54 9 90 3150 2774.57 375.43 10 100 3500 3138.65 361.35 Summa 665 19190 0.00 De totala variatioe för y variabel (krig sitt medelvärde ȳ) ka delas upp i två kompoeter (yi ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 där (y i ȳ) 2 =totalkvadratsumma =måttpåtotal variatiohosy värdea = y värdeas variatio krig ȳ (ŷ i ȳ) 2 =regressioskvadratsumma = mått på förklarad variatio = de del av y värdeas variatio som förklaras av det lijära sambadet med x(boyta). (y i ŷ i ) 2 =residualkvadratsumma Korrelatioskoefficiete Två begrepp: Kausalitet: Ett faktiskt beroede mella variabler i verklighete, och riktig på beroedet. Exempel: Dotters kroppslägd beror(till viss del) på moders kroppslägd, ej tvärtom! = mått på oförklarad variatio = mått på y värdeas variatio krig lije =dedelavy värdeasvariatiosomiteförklaras av det lijära sambadet med x(boyta). Korrelatio: Lijärt umeriskt sambad, ej ödvädigtvis förakrat i verklighete. Korrelatioskoefficiete, r, ärett måttpåhurstarktdet lijärasambadetärmellaxochy. Exempel: Lö är högt korrelerad med kroppslägd. Nosessambad(skesambad).
Regressiosaalys iebär att vistuderarhurypåettytligtsättförklarasavx. Iga slutsatser om orsakssambad, kausalitet. vi studerar sambad ur perspektivet: x y. Vi talar om e beroede och e förklarade variabel. I korrelatiosaalys däremot studerar vi samvariatio mella två jämbördiga variabler,utaattsedeeasomberoedeochde adrasomförklarade: x y ochr xy =r yx. Korrelatioskoefficiete defiieras som (xi x)(y r= i ȳ) sqrt ( (xi x) 2 (y i ȳ) 2). Oftast, särskilt om atalet observatioer är måga, är det eklast att aväda följade beräkigsformel xi yi xi y i r= [( x sqrt 2 ( x i ) 2 )( y 2 ( y i ) 2 )]. Korrelatioskoefficiete atar alltid ågot av följade värde Värde i itervallet 1 r 1. 1 r<0 iebär att vi har ett egativt sambad. r = 1 iebär att alla observatioer ligger på lije, dvs ett perfekt egativt lijärt sambad. Värde i itervallet 0<r 1 iebäratt vi harett positivt sambad. r=1 iebär att alla observatioer ligger på lije, dvs ett perfekt positivt lijärt sambad. Justörrevärdepårtillbeloppet,destostarkare (lijärt) sambad. Värdet r = 0 betyder att det ite fis ågot lijärt sambad alls mella x och y (det ka dock fias ågot aat sambad). Exempel fortsättig: Korrelatioe mella boyta och huspris blir xi yi xi y i r = [( x sqrt 2 ( x i ) 2 )( y 2 ( y i ) 2 )] 1443700 665 19190 = [( )( 10 )] sqrt 48825 6652 10 44198900 191902 10 = 0.91.
Ofta vill ma ha ett mått på hur stor adel av de totala variatioe för de beroede variabel (y) som förklaras av de apassade lije (av de oberoede variabel(x)). Ma ka visa att kvadrate av korrelatioskoefficiete är ett sådat mått, dvs r 2 = förklaradvariatio total variatio (ŷi ȳ) 2 (yi ŷ = i ) 2 (yi ȳ) 2=1 (yi ȳ) 2. Av defiitioe följer att 0 r 2 1. Exempel fortsättig: Förklarigsgrade blir r 2 =0.91 2 =0.83. Tolkig: Av de totala variatioe i fastighetspris förklaras 83% av boyta. r 2 kallasdetermiatioskoefficieteochäralltså ett mått på förklarigsgrade. Kuriosa för itresserade: r 2 =1betyderperfektlijärsamvariatio. Om allay värdeafråbörjaliggerprecispåe rätlije,såblirallaresidualer=0. Allaresidualer=0= r 2 =1. r 2 = 0 betyder fullstädig avsakad av lijär samvariatio. om det ite fis ågo som helst lijärsamvariatiomellaxochy,såblirb=0. b=0= allaŷ=ȳ= r 2 =0. Extremvärde ka ofta radikalt påverka styrka på detlijärasambadetmellaxochypåsådatsätt att variabler som har ett svagt sambad uta ett extremvärde får ett starkt med. variabler som har ett starkt sambad med ett extremvärde får ett svagt uta. Det är därför viktigt att i aalyse av ett datamaterialflaggaförextremvärde. Taredapåomdeär korrekta och evetuellt ta bort dem om de får för ett alltför stort, omotiverat iflytade på resultatet av aalyse.