F15 ENKEL LINJÄR REGRESSION (NCT )

Relevanta dokument
Föreläsningsanteckningar till Linjär Regression

Geodetisk och fotogrammetrisk mätnings- och beräkningsteknik

Sannolikhetslära statistisk inferens F10 ESTIMATION (NCT )

Geodetisk och fotogrammetrisk mätnings- och beräkningsteknik

Sensorer, effektorer och fysik. Analys av mätdata

Sensorer och elektronik. Analys av mätdata

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

ENKEL LINJÄR REGRESSION

REGRESSIONSANALYS S0001M

Väntevärde, standardavvikelse och varians Ett statistiskt material kan sammanfattas med medelvärde och standardavvikelse (varians), och s.

SAMMANFATTNING AV KURS 602 STATISTIK (Newbold kapitel [7], 8, 9, 10, 13, 14)

Enkel linjär regression

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Lycka till och trevlig sommar!

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

TENTAMEN I MATEMATISK STATISTIK. Statistik för lärare, 5 poäng

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

= α. β = α = ( ) D (β )= = 0 + β. = α 0 + β. E (β )=β. V (β )= σ2. β N β, = σ2

F11. Kvantitativa prognostekniker

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

HYPOTESPRÖVNING. De statistiska metoderna som används för att fatta denna typ av beslut baseras på två komplementära antaganden om populationen.

SOS HT10. Punktskattning. Inferens för medelvärde ( ) och varians (σ 2 ) för ett stickprov. Punktskattningen räcker inte!

Tillåtna hjälpmedel: Eget handskrivet formelblad (A4), utdelad tabellsamling, miniräknare med tömt minne Studenterna får behålla tentamensuppgifterna

En utvärdering av två olika sätt att skatta fördelningen till stickprovsmedelvärden från olikfördelade data - normalapproximation kontra resampling

Något om beskrivande statistik

4.2.3 Normalfördelningen

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Lösningsförslag till tentamen i 732G71 Statistik B,

Fyra typer av förstärkare

D 45. Orderkvantiteter i kanbansystem. 1 Kanbansystem med två kort. Handbok i materialstyrning - Del D Bestämning av orderkvantiteter

Formelsamling i statistik

Armin Halilovic: EXTRA ÖVNINGAR. ) De Moivres formel ==================================================== 2 = 1

Väntevärde för stokastiska variabler (Blom Kapitel 6 och 7)

F10 ESTIMATION (NCT )

Korrelationens betydelse vid GUM-analyser

Multipel Regressionsmodellen

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

F7 PP kap 4.1, linjära överbestämda ekvationssystem

Grundläggande matematisk statistik

Begreppet rörelsemängd (eng. momentum) (YF kap. 8.1)

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

F7 Polynomregression och Dummyvariabler

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

Exempel 1 på multipelregression

b) Om du nu hade oturen att du köpt en trasig dator, vad är sannolikheten att den skulle ha tillverkats i Litauen?

Regressions- och Tidsserieanalys - F7

0 Testvariabel t, x s n. Lite historia om t-testett. testet. Ett stickprov: Hur räknar r. testet. ett stickprov

10.1 Enkel linjär regression

Repetition DMI, m.m. Några begrepp. egenskap d. egenskap1

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Formelsamling. Enkel linjär regressionsananalys: Modell: y i = β 0 + β 1 x i + ε i. Anpassad regressionslinje: ŷ = b 0 + b 1 x. (x i x) (y i ȳ) ( x)2

Regressionsanalys Enkel regressionsanalys Regressionslinjen

Orderkvantiteter vid begränsningar av antal order per år

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Matematisk statistik KTH. Formelsamling i matematisk statistik

Medelvärde. Repetition. Median. Standardavvikelse. Frekvens. Normerat värde. z = x x

Regressionsanalys Enkel regressionsanalys Regressionslinjen

SOS HT Punktskattningar. Skattning från stickprovet. 2. Intuitiva skattningar. 3. Skattning som slumpvariabel. slump.

F4 Matematikrep. Summatecken. Summatecken, forts. Summatecken, forts. Summatecknet. Potensräkning. Logaritmer. Kombinatorik

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Regressions- och Tidsserieanalys - F3

Variansberäkningar KPI

Regressions- och Tidsserieanalys - F3

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Lösning till till tentamen i EIEF10 Elmaskiner och drivsystem

Tentamen del 2 i kursen Elinstallation, begränsad behörighet ET

Formelsamling för Finansiell Statistik

Parametriska metoder. Icke-parametriska metoder. parametriska test. Icke-parametriska test. Location Shift. Vilket test ersätts med vilket?

Metod och teori. Statistik för naturvetare Umeå universitet

Regressions- och Tidsserieanalys - F3

Tentamen i Matematisk statistik för V2 den 28 maj 2010

APPROXIMATION AV SERIENS SUMMA MED EN DELSUMMA OCH EN INTEGRAL

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

Skrivning i ekonometri torsdagen den 8 februari 2007

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

Begreppet rörelsemängd (eng. momentum)

Följande begrepp används ofta vid beskrivning av ett statistiskt material:

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Strukturell utveckling av arbetskostnad och priser i den svenska ekonomin

Examinationsuppgifter del 2

Kontingenstabell (Korstabell) 2. Oberoende-test. Stickprov beror av slumpen. Vad vi förvf. är r oberoende: kriterier är r oberoende: kriterier

= x 1. Integration med avseende på x ger: x 4 z = ln x + C. Vi återsubstituerar: x 4 y 1 = ln x + C. Villkoret ger C = 1.

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

f(x i ) Vi söker arean av det gråfärgade området ovan. Området begränsas i x-led av de två x-värdena där kurvan y = x 2 2x skär y = 0, d.v.s.

Tentamentsskrivning: Tillämpad Statistik 1MS026 1

ANOVA I: Kap 14. Åldersgrupper -30 år år 51- år. Totalt n k N = 9 X k X = s k s = 8.

Orderkvantiteter i kanbansystem

FÖRSÖKSPLANERING. och utvärdering av försöksresultat med den matematiska statistikens metoder. av Jarl Ahlbeck

Transkript:

Stat. teor gk, ht 006, JW F5 ENKEL LINJÄR REGRESSION (NCT.-.4) Ordlta tll NCT Scatter plot Depedet/depedet Leat quare Sum of quare Redual Ft Predct Radom error Aal of varace Sprdgdagram Beroede/oberoede Beroede/förklarade Repo/predktor Mta kvadrat Kvadratumma Redual Apaa, apag Predcera Slumpfel Varaaal

Bekrvade mått på amvarato mella två oberverade kvattatva varabler (Lä avtt.5 och 3.4 3-5 NCT, om du te tdgare tött på begreppe regreo och korrelato.) Data av följade tp: Ob. r. M M M Ka åkådlggöra prdgdagram: Sprdgdagram 60 50 40 30 0 0 7 8 9 0 3 4 5 6

3 Korrelato: r r ) ( ) ( ) )( ( där är tckprovet kovara: ) )( ( Korrelatokoeffcete r är ett mått på grade av ljär amvarato ho data. - r Vad betder r, r > 0, r 0, r < 0, r -? Se d. 66-68 kurboke. Varablera behadla mmetrkt: r XY r YX.

Regreo: beroede varabel ( repoe varable ) förklarade varabel ( predctor ) Hur mcket av varatoe ho -värdea ka förklara av? F det ågo ljär amvarato? Beräka e rät lje, b 0 + b, om bekrver det ljära ambadet. Hur bra är apage? OBS Med regreoaal tuderar v hur på ett gaka tlgt ätt förklara av. Iga lutater om orakambad, kaualtet. OBS I regreoaal tuderar v ambad ur perpektvet:. V talar om e beroede och e förklarade varabel. I korrelatoaal däremot tuderar v amvarato mella två jämbördga varabler, uta att e de ea om beroede och de adra om förklarade: och r XY r YX. 4

Apag av rät lje tll tckprovdata Apaa e rät lje, b 0 + b, tll tckprovdata med mta-kvadratmetode. Summa av alla kvadrerade lodräta avtåd tll lje kall mmera. Matematk lög: Beräka b 0 och b om b ( ( )( ) ) ( )( ( ) ) r b0 b Hur tolka b 0 och b? 5

E.: Total oljeförbrukg ett tckprov av hu uder 0 måader. Hur förklara oljeförbrukge av ttertemperature? medeltemperatur uder måade ( C) oljeförbrukg uder måade (lter) Måad ju 5, 55 340,5 8,0 jul 4,4 75 080,0 07,36 aug 5, 35 05,0 3,04 ep 0, 5 95,0 04,04 okt 8,3 75 8,5 68,89 ov 3,8 385 463,0 4,44 dec 0,5 470 35,0 0,5 ja -,4 55-735,0,96 feb -4, 65-56,5 6,8 mar, 450 540,0,44 Summa 63, 330 8990,5 874,4 700 Oljeförbrukg och ttertemperatur Oljeförbrukg 600 500 400 300 00 00 0-5 0 5 0 Yttertemperatur 5 6

Mta-kvadratmetode ger: b 63, 330 8990,5 0 63, 874,4 0 5,3 b 330 0 63, ( 5,3) 0 0 49 De apaade regreolje ekvato blr 49 5,3 700 600 500 400 300 00 00 0 Sprdgdagram med regr.-lje 49-5,3-5 0 5 0 5 7

Redualer, kvadratummor, ANOVA-tablå För varje gvet defera det apaade, predcerade -värdet om ˆ b 0 + b Det är det -värde om lgger på de apaade lje. Det apaade värdet, ˆ, är oftat det oberverade värdet,. Skllade e - ˆ mella oberverat och apaat -värde kalla för redual. E.: Fort. på föreg.eempel. e- 5, 55 09,97 45,03 4,4 75 7,68 5,68 5, 35 07,44 7,56 0, 5 33,94-8,94 8,3 75 8,0-7,0 3,8 385 395,86-0,86 0,5 470 479,35-9,35 -,4 55 57,4 -,4-4, 65 595,73 9,7, 450 46,64 -,64 8

De totala varatoe ho -varabel (krg tt medelvärde) ka dela upp två kompoeter: ( ) 443 SST ( ˆ ) 443 SSR + e { SSE där SST totala kvadratumma mått på total varato ho -värdea -värdea varato krg SSR regreokvadratumma mått på förklarad varato de del av -värdea varato om förklara av de apaade lje SSE redualkvadratumma (E error) mått på oförklarad varato mått på -värdea varato krg lje de del av -värdea varato om te förklara av de apaade lje 9

För att mäta hur pa bra de apaade lje är på att bekrva gva data aväd determatokoeffcete, R, om defera: R SSR SST SSE SST är ett mått på förklarggrade : det ager hur tor del av -varatoe om förklara av de apaade lje. (Age blad procet.) R Av deftoe följer att 0 R. R betder perfekt ljär amvarato. Om alla -värdea frå börja lgger prec på e rät lje, å blr alla e 0. Alla e 0 SSE 0 R. R 0 betder fulltädg avakad av ljär amvarato. Om det te f ågo om helt ljär amvarato mella och, å blr b 0. b 0 Alla ˆ SSR 0 R 0. Vd ekel ljär regreo gäller att R r. 0

Vd regreoaal redova ofta e.k. ANOVA-tablå (ANOVA Aal of Varace): Varatoorak Kvadratumma (SS) Frhetgrader (df) Medelkvadratumma (MS) Regreo SSR MSR SSR/ Redual SSE - MSE SSE/(-) Totalt SST - MSE e redualvarae. E.: Med data frå oljeförbrukgeemplet ger Mtab följade (här ågot tmpade) ANOVAtablå. Aal of Varace Source DF SS MS Regreo 30866 30866 Redual Error 8 6894 86 Total 9 309760 R SSR SST 30 866 309 760 0,978 97,8%

Ekel ljär regreomodell Httll: Bekrvg av gve datamägd (, ) (,,, ) geom apag av e rät lje. Nu: Stattk fere. Våra data täk ha geererat elgt e regreomodell (e täkt lumpmekam, om producerar data med va egekaper). På grudval av våra oberverade data vll v föröka dra lutater om de modell om har geererat data. V täker o att varje oberverat -värde är e obervato på e tokatk varabel Y, åda att: Y β 0 +β + ε där ε är e lumpmäg felterm. V täker o med adra ord att: Y e ljär fukto av (β 0 +β ) + ett lumpfel (ε)

Våra oberverade -värde,,, e alltå om oberverade värde på tokatka varabler Y, Y,, Y ådaa att Y β 0 + β + ε (,,, ) I tadardmodelle för ekel ljär regreo gör följade modellatagade:. Värdea på,,, betrakta om fa.. För varje gvet (,,, ) gäller att Y β 0 + β + ε 3. ε, ε,, ε är oberoede ormalfördelade tokatka varabler med vätevärde 0 och med amma tadardavvkele σ ε. Dv. ε, ε,, ε är oberoede och N(0; σ ). Vad ebär dea modellatagade? ε 3

Skattg av β 0 och β V vll katta de okäda parametrara β 0 och β regreomodelle. (I praktke är det ofta β om är de met treata parameter.) Gör å här: För gva data, apaa e rät lje b 0 + b med mta-kvadratmetode, på det ätt om bekrvt. De b 0 och b om v då får är våra puktkattgar av modellparametrara β 0 repektve β. Alltå: ˆ b β 0 0 och β ˆ b Det går att va (uder förutättg att modellatagadea gäller) att: E(b 0 ) β 0 och E(b ) β De båda kattgara, b 0 och b, är alltå vätevärderktga kattgar av β 0 rep. β. 4

Det går ockå att va (uder förutättg att modellatagadea gäller) att: Var( b ) σ σ ε ε ( X ) ( ) X (Hur Var(b 0 ) er ut, tår te kurboke.) Ttta på uttrcket för Var(b ). Hur bör ma välja a -värde om ma vll katta β med å tor preco om möjlgt? Några vädgar? De aa lumpfelvarae σ ε är praktke oftat okäd. Om v utfrå gva data vll blda o e uppfattg om torleke på Var(b ), å erätter v σ med de oberverade redualvarae e ε ( MSE), om är e vätevärderktg kattg av lumpfelvarae: E( e ) σ ε Som kattg av Var(b ) aväd då: b e ( ) ( e ) 5

Mtab-utkrft För oljeförbrukgeemplet ger Mtab följade utkrft (om kommetera på föreläge): ) ) 3) 4) The regreo equato 49-5,3 Predctor Coef SE Coef T P Cotat 49,6,60 39,03 0,000-5,56,347-8,75 0,000 S 9,3554 R-Sq 97,8% R-Sq(adj) 97,5% Aal of Varace Source DF SS MS F P Regreo 30866 30866 35,46 0,000 Redual Error 8 6894 86 Total 9 309760 5) Uuual Obervato Ob Ft SE Ft Redual St Red 4,4 75,00 7,93 4,3-5,93 -,06R R deote a obervato wth a large tadardzed redual. 6