F4 Enkel linjär regression.

Relevanta dokument
Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

Föreläsning 2: Punktskattningar

Föreläsning G04: Surveymetodik

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

1. Test av anpassning.

Borel-Cantellis sats och stora talens lag

101. och sista termen 1

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

STATISTIK B, 8 HP TENTAMEN FREDAGEN DEN 4 DECEMBER

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Formelsamling. Enkel linjär regressionsananalys: Modell: y i = β 0 + β 1 x i + ε i. Anpassad regressionslinje: ŷ = b 0 + b 1 x. (x i x) (y i ȳ) ( x)2

θx θ 1 om 0 x 1 f(x) = 0 annars

Uppgifter 3: Talföljder och induktionsbevis

Genomsnittligt sökdjup i binära sökträd

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

TMS136: Dataanalys och statistik Tentamen med lösningar

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Datorövning 2 Fördelningar inom säkerhetsanalys

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

Lycka till! I(X i t) 1 om A 0 annars I(A) =

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

================================================

ENDIMENSIONELL ANALYS B1 FÖRELÄSNING VI. Föreläsning VI. Mikael P. Sundqvist

Lösningar och kommentarer till uppgifter i 1.1

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Tentamen Metod C vid Uppsala universitet, , kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

F10 ESTIMATION (NCT )

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

H1009, Introduktionskurs i matematik Armin Halilovic POLYNOM, POLYNOMDIVISION, ALGEBRAISKA EKVATIONER, PARTIALBRÅKSUPPDELNING. vara ett polynom där a

Introduktion till statistik för statsvetare

2. Konfidensintervall för skillnaden mellan två proportioner.

Biostatistik II - Hypotesprövning i teori och praktik. Frida Eek

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

Tentamen i statistik för STA A13, 1-10 poäng Deltentamen II, 5p Lördag 9 juni 2007 kl

Tentamenskrivning, , kl SF1625, Envariabelanalys för CINTE1(IT) och CMIEL1(ME ) (7,5hp)

Inledande matematisk analys. 1. Utred med bevis vilket eller vilka av följande påståenden är sana:

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Linjär regression - kalibrering av en våg

Föreläsning G70 Statistik A

= x 1. Integration med avseende på x ger: x 4 z = ln x + C. Vi återsubstituerar: x 4 y 1 = ln x + C. Villkoret ger C = 1.

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

Tentamen i Matematisk statistik för V2 den 28 maj 2010

Ekvationen (ekv1) kan beskriva en s.k. stationär tillstånd (steady-state) för en fysikalisk process.

Universitetet: ER-diagram e-namn

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

STATISTIK FÖR LÄKARSTUDENTER

P (A) = k A P (A ) = 1 P (A) P (A B) P (B) P (M i ) = 1 P (A) P (X = k) = p X (k) p X (k) = 1 P (A B) p X (k)

Anmärkning: I några böcker använder man följande beteckning ]a,b[, [a,b[ och ]a,b] för (a,b), [a,b) och (a,b].

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00. Kap 2: Sannolikhetsteorins grunder

vara ett polynom där a 0, då kallas n för polynomets grad och ibland betecknas n grad( P(

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Tentamen i Linjär Algebra, SF december, Del I. Kursexaminator: Sandra Di Rocco. Matematiska Institutionen KTH

Tentamen Metod C vid Uppsala universitet, , kl

Databaser - Design och programmering. Databasdesign. Kravspecifikation. Begrepps-modellering. Design processen. ER-modellering

Del A. x 0 (1 + x + x 2 /2 + x 3 /6) x x 2 (1 x 2 /2 + O(x 4 )) = x3 /6 + O(x 5 ) (x 3 /6) + O(x 4 )) = 1 + } = 1

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MA2018 Tillämpad Matematik III-Statistik, 7.5hp,

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

Datorövning 2 Fördelningar inom säkerhetsanalys

b 1 och har för olika värden på den reella konstanten a.

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Några grundläggande begrepp och termer i statistikteorin

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

Grundläggande matematisk statistik

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

Matematisk statistik TMS063 Tentamen

Lösningar till tentamensskrivning i kompletteringskurs Linjär Algebra, SF1605, den 10 januari 2011,kl m(m + 1) =

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

S0005M V18, Föreläsning 10

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Webprogrammering och databaser. Begrepps-modellering. Exempel: universitetsstudier Kravspec. ER-modellen. Exempel: kravspec forts:

a) Beräkna E (W ). (2 p)

Lösningsförslag

LINJÄRA DIFFERENTIALEKVATIONER AV HÖGRE ORDNINGEN

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Resultatet av kryssprodukten i exempel 2.9 ska vara följande: Det vill säga att lika med tecknet ska bytas mot ett plustecken.

Tentamentsskrivning: Tillämpad Statistik 1MS026 1

Design mönster. n n n n n n. Command Active object Template method Strategy Facade Mediator

Föreläsningsanteckningar till Linjär Regression

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

z Teori z Hypotesgenerering z Observation (empirisk test) z Bara sanningen : Inga falska teser z Hela sanningen : Täcker alla sanna teser

TENTAMEN I MATEMATISK STATISTIK

TAMS15: SS1 Markovprocesser

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

Transkript:

Lijär regressio F4 Ekel lijär regressio. Christia Tallberg Avdelige för Natioalekoomi och Statistik Karlstads uiversitet Hittills har vi försökt beskriva data som utgjorts av observatioer frå e variabel. Oftaharvidockobservatioerfråfleräevariabel. Vi ställer oss då kaske följade frågor: Fis det ågot sambad mella variablera? Hurserisåfalldettasambadut? Hur starkt är sambadet? Vi har e verklighet som vi vill försöka beskriva(eller approximera) med hjälp av matematiska modeller. Exempel: Vivilltexhasvarpåföljadefråga: Vad styr priset på e fastighet? Om det är boyta, rätor, geografiskt läge osv, ka detta sambad kaske beskrivas med hjälp av följade matematiska modell: pris=b 1 boyta+b 2 rätor+b 3 geografi+ε, därb 1,b 2 ochb 3 ärkostatersom(aigeföreklat) uttrycker hur mycket respektive variabel påverkar (eller förklarar) huspriset. Detta är ett exempel på e lijär regressiosmodell med tre oberoede(förklarade) variabler som styr (eller förklarar) värdet på e beroede variabel. Uttrycketb 1 boyta+b 2 rätor+b 3 geografiär de förklarade(determiistiska) dele av modelle och ε de icke förklarade(slumpmässiga) dele av modelle, som iblad kallas de aturliga variatioe(av fastighetspriset). Pådeakursiriktarviossdockebartpådedetermiistiska dele av regressiosmodelle. Dessutom specialfallet då de determiistiska dele består av ebart e förklarade variabel. Därförharviudatafråtvåvariabler.

Ekel lijär regressio Vi täker oss uatt vi har eförklarade variabel, boyta, som styr fastighetspriset. Dvs, Beteckigskovetio: x=boyta x = oberoede eller förklarade variabel( predictor ) och y=fastighetspris. y = beroede (av värdet på x) variabel ( respose variable ) Vihardådataavföljadetyp: Obs. r. x y 1 x 1 y 1 2 x 2 y 2 x y Vi ställer oss då kaske följade frågor: Apassig av rät lije till data Fis det ågot lijärt sambad? (Om så är fallet, apassa e rät lije som beskriver det lijära sambadet.) Hur bra är apassige? Vihartvåobservatiospar(x i,y i ). Utifrådessa kaviapassaerätlije. Räta lijes ekvatio y=a+bx, Hur mycket av variatioe av y värdea ka förklaras av x? där a är iterceptet (det ställe där lije skär y axel), och b är lutigskoefficiete.

Vi täkeross udet geerellafallet. Dvs, vi har styckeobservatiospar(x i,y i ). Exempel: E fastighetsekoom vill udersöka hur fastighetspriser förklaras av boyta. Ho samlar därför i följade data. x=boyta(im 2 ) Fastigh x y xy x 2 y 2 1 30 680 20400 900 462400 2 40 810 32400 1600 656100 3 50 1520 76000 2500 2310400 4 60 1870 112200 3600 3496900 5 60 2040 122400 3600 4161600 6 70 1350 94500 4900 1822500 7 80 2130 170400 6400 4536900 8 85 2140 181900 7225 4579600 9 90 3150 283500 8100 9922500 10 100 3500 350000 10000 12250000 Summa 665 19190 1443700 48825 44198900 y=huspris(itusekroor) Vi aväder Mista Kvadrat Metode: De iebär att ma lägger lije så att kvadratsumma Hurskallvidå läggalije,dvshurskallviberäka iterceptet a och lutigskoefficiete b. Räta lijes ekvatio skrivs i det här sammahaget som ŷ=a+bx därŷärdety värdesomliggerpådeapassade lije för ett givet x värde. Vi säger att ŷ är ett apassat y värde. Q= (y i ŷ i ) 2 = (y i a bx i ) 2 miimeras. Det vill säga, summa av alla kvadrerade lodräta avståd till lije skall miimeras. Geom partiell deriverig av Q med avseede på a och b, respektive, får ma följade formler för regressioskoefficietera a = ȳ b x b = (xi x)(y i ȳ) (xi x) 2 = xi y i xi yi x 2 i ( x i ) 2.

De skattade regressioskoefficietera blir då Fortsättig exemplet: För att kua utföra beräkigar behövs följade summor: b = xi y i xi yi x 2 i ( x i ) 2 = 36.4 1443700 665 19190 = 10 48825 6652 10 =10 x=665 x 2 =48825 xy=1443700 y=19190 y 2 =44198900 och a=ȳ b x= 19190 10 (36.4) 665 10 = 502. Regressioslije har alltså ekvatioe ŷ= 502.1+36.4x. Tolkig av koefficietera: b = 36.4 : När bostadsyta ökar e m 2 ökar fastighetspriset i geomsitt med 36400 kr. OBS!! Tolkige gäller i itervallet som vi har observerat data, dvs för boytor mella 30 och 100 m 2. Om ma vill tolka fastighetspriser för adra boytor utaför observerade itervallet, måstemavara försiktigochfråga sigom tolkige blir relevat. Förett givet x värde, äralltsåŷett apassat y värde som ofta skiljer sig frå det observerade y värdet. Skillade e=y ŷ mella observerat och apassat y värde brukar kallas för residual. a = 502 : Det geomsittliga priset på e fastighetdåboytaärollm 2. Noteraattofta är tolkige av iterceptet a meigslös.

Fortsättig på exemplet: Fastighet x y ŷ e=y ŷ 1 30 680 590.13 89.87 2 40 810 954.20-144.20 3 50 1520 1318.28 201.72 4 60 1870 1682.35 187.65 5 60 2040 1682.35 357.65 6 70 1350 2046.43-696.43 7 80 2130 2410.50-280.50 8 85 2140 2592.54-452.54 9 90 3150 2774.57 375.43 10 100 3500 3138.65 361.35 Summa 665 19190 0.00 De totala variatioe för y variabel (krig sitt medelvärde ȳ) ka delas upp i två kompoeter (yi ȳ) 2 = (ŷ i ȳ) 2 + (y i ŷ i ) 2 där (y i ȳ) 2 =totalkvadratsumma =måttpåtotal variatiohosy värdea = y värdeas variatio krig ȳ (ŷ i ȳ) 2 =regressioskvadratsumma = mått på förklarad variatio = de del av y värdeas variatio som förklaras av det lijära sambadet med x(boyta). (y i ŷ i ) 2 =residualkvadratsumma Korrelatioskoefficiete Två begrepp: Kausalitet: Ett faktiskt beroede mella variabler i verklighete, och riktig på beroedet. Exempel: Dotters kroppslägd beror(till viss del) på moders kroppslägd, ej tvärtom! = mått på oförklarad variatio = mått på y värdeas variatio krig lije =dedelavy värdeasvariatiosomiteförklaras av det lijära sambadet med x(boyta). Korrelatio: Lijärt umeriskt sambad, ej ödvädigtvis förakrat i verklighete. Korrelatioskoefficiete, r, ärett måttpåhurstarktdet lijärasambadetärmellaxochy. Exempel: Lö är högt korrelerad med kroppslägd. Nosessambad(skesambad).

Regressiosaalys iebär att vistuderarhurypåettytligtsättförklarasavx. Iga slutsatser om orsakssambad, kausalitet. vi studerar sambad ur perspektivet: x y. Vi talar om e beroede och e förklarade variabel. I korrelatiosaalys däremot studerar vi samvariatio mella två jämbördiga variabler,utaattsedeeasomberoedeochde adrasomförklarade: x y ochr xy =r yx. Korrelatioskoefficiete defiieras som (xi x)(y r= i ȳ) sqrt ( (xi x) 2 (y i ȳ) 2). Oftast, särskilt om atalet observatioer är måga, är det eklast att aväda följade beräkigsformel xi yi xi y i r= [( x sqrt 2 ( x i ) 2 )( y 2 ( y i ) 2 )]. Korrelatioskoefficiete atar alltid ågot av följade värde Värde i itervallet 1 r 1. 1 r<0 iebär att vi har ett egativt sambad. r = 1 iebär att alla observatioer ligger på lije, dvs ett perfekt egativt lijärt sambad. Värde i itervallet 0<r 1 iebäratt vi harett positivt sambad. r=1 iebär att alla observatioer ligger på lije, dvs ett perfekt positivt lijärt sambad. Justörrevärdepårtillbeloppet,destostarkare (lijärt) sambad. Värdet r = 0 betyder att det ite fis ågot lijärt sambad alls mella x och y (det ka dock fias ågot aat sambad). Exempel fortsättig: Korrelatioe mella boyta och huspris blir xi yi xi y i r = [( x sqrt 2 ( x i ) 2 )( y 2 ( y i ) 2 )] 1443700 665 19190 = [( )( 10 )] sqrt 48825 6652 10 44198900 191902 10 = 0.91.

Ofta vill ma ha ett mått på hur stor adel av de totala variatioe för de beroede variabel (y) som förklaras av de apassade lije (av de oberoede variabel(x)). Ma ka visa att kvadrate av korrelatioskoefficiete är ett sådat mått, dvs r 2 = förklaradvariatio total variatio (ŷi ȳ) 2 (yi ŷ = i ) 2 (yi ȳ) 2=1 (yi ȳ) 2. Av defiitioe följer att 0 r 2 1. Exempel fortsättig: Förklarigsgrade blir r 2 =0.91 2 =0.83. Tolkig: Av de totala variatioe i fastighetspris förklaras 83% av boyta. r 2 kallasdetermiatioskoefficieteochäralltså ett mått på förklarigsgrade. Kuriosa för itresserade: r 2 =1betyderperfektlijärsamvariatio. Om allay värdeafråbörjaliggerprecispåe rätlije,såblirallaresidualer=0. Allaresidualer=0= r 2 =1. r 2 = 0 betyder fullstädig avsakad av lijär samvariatio. om det ite fis ågo som helst lijärsamvariatiomellaxochy,såblirb=0. b=0= allaŷ=ȳ= r 2 =0. Extremvärde ka ofta radikalt påverka styrka på detlijärasambadetmellaxochypåsådatsätt att variabler som har ett svagt sambad uta ett extremvärde får ett starkt med. variabler som har ett starkt sambad med ett extremvärde får ett svagt uta. Det är därför viktigt att i aalyse av ett datamaterialflaggaförextremvärde. Taredapåomdeär korrekta och evetuellt ta bort dem om de får för ett alltför stort, omotiverat iflytade på resultatet av aalyse.