Grundläggande matematisk statistik

Relevanta dokument
Föreläsning 12: Linjär regression

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Regression

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

TMS136. Föreläsning 10

SF1901 Sannolikhetsteori och statistik I

Föreläsning 11: Mer om jämförelser och inferens

9. Konfidensintervall vid normalfördelning

Thomas Önskog 28/

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

F13 Regression och problemlösning

F9 Konfidensintervall

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

10.1 Enkel linjär regression

MVE051/MSG Föreläsning 14

Stickprovsvariabeln har en fördelning / sprindning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Enkel och multipel linjär regression

Grundläggande matematisk statistik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Föreläsning 4. Kapitel 5, sid Stickprovsteori

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Regressions- och Tidsserieanalys - F1

Repetitionsföreläsning

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Regressions- och Tidsserieanalys - F1

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematisk statistik KTH. Formelsamling i matematisk statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Metod och teori. Statistik för naturvetare Umeå universitet

Matematisk statistik för B, K, N, BME och Kemister

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

oberoende av varandra så observationerna är

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

TMS136. Föreläsning 11

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Laboration 4 R-versionen

Föreläsning 7: Punktskattningar

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 4: Konfidensintervall (forts.)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

FÖRELÄSNING 8:

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Medicinsk statistik II

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Matematisk statistik för D, I, Π och Fysiker

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Föreläsning 7. Statistikens grunder.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 8: Konfidensintervall

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

SF1901: Medelfel, felfortplantning

Föreläsningsanteckningar till kapitel 8, del 2

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Grundläggande matematisk statistik

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Föreläsning G60 Statistiska metoder

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

TMS136. Föreläsning 13

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Matematisk statistik, Föreläsning 5

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Mer om konfidensintervall + repetition

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsning 5. Kapitel 6, sid Inferens om en population

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Avd. Matematisk statistik

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Tentamen MVE301 Sannolikhet, statistik och risk

STATISTISK ANALYS AV KOMPLEXA DATA

Transkript:

Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x i x i : oberoende variabel (prediktor, kovariat) kända, inga slumpvariabler! y i : målvariabel (responsvariabel) behäftade med brus (mätningar), slumpvariabler 1

Linjär Regression mätvärden x i, y i regressionslinje Vi antar att det finns ett linjärt sammanhang mellan x och y: y = α + β x α och β är okända, vi söker skattningar för dem skattningarna görs baserad på stickprovet stickprov = mätningar av talpar x i, y i y i Modell för bruset ε 3 ε 4 ε 5 ε 6 mätvärden regressionslinje ε 1 ε 2 α + β x 3 x 1 x 2 x 3 x 4 x 6 x i Modell för att hantera bruset: y i = α + β x i + ε i i = 1, 2,, n n = antal mätningar (stickprovsstorlek) ε i = brus ε i ~ N 0, σ E ε i = 0 V ε i = σ 2 2

Modell för bruset Antaganden: ε i normalfördelade ε i oberoende ε i har alla samma varians ( homoscledasticity ) Att hitta den bästa regressionslinjen Minsta-kvadrat metoden (least squares method): Idè Q = i ε i 2 Min Q : kvadratsumma (sum of squares) regressionslinjen ( ------ ) ska läggas så att Q mimimeras använder kvadraten av ε i så att positiva och negativa värden inte jämnas ut Att bestämma α och β så att Q mimimeras: Q α, β = i ε i 2 = y i α β x 2 i Min i 3

ҧ ҧ 2018-10-04 Att hitta den bästa regressionslinjen Q α, β = i ε i 2 = y i α β x 2 i Min i partiella deriveringar måsta vara noll linjära ekvationer för α och β (allt annat känt från stickprovet) två ekvationer, 2 variabler Att hitta den bästa regressionslinjen Lösningar: β = S xy α = തy β xҧ S xx (det är faktiskt ekvation 1) skattningar för α och β n S xy = x i x y i തy = x i y i nxҧ തy i=1 n i=1 i=1 S xx = x i x 2 = x 2 i nxҧ 2 n i=1 OBS!: α och β är slumpvariabler (beror på stickprovet) : nytt stickprov ändrar ε i y i S xy α n För varje x 0 får man nu en skattning av målvariabeln (x 0 måste inte överensstämma med någon x i ): 4

ҧ 2018-10-04 Skattning av brusets varians Vi ville minimera Q. Hur stor blev det?: Q α, β = y i α β x 2 i Mata in värden som minimerar Q, alltså α och β : i Q 0 = y i α β x 2 i = y i തy + β x β x i i Q 0 = S yy S xy 2 S xx i α helt känd från stickprovet 2 = Man kan använda ML-metoden för att hitta en skattning för σ 2 i N μ, σ. Detta ger Q 0 Τ n. Skattningen måste dock korrigeras för att bli väntevärdesriktigt: s r 2 = Q 0 n 2 E s r 2 = σ 2 s r 2 är en väntevärdesriktigt skattning för σ 2 (och s r en väntevärdesriktigt skattning för σ) σ 2 = s r 2 σ = s r skattning för varians av bruset i N μ, σ Denna formel är åskadligt: ju större Q = σ i ε i 2, desto större σ (se bild ovan). Att hitta den bästa regressionslinjen 5

Exempel, fortsättning även för x som aldrig mätts Beräkning av regressionslinjen μ 0 y i För varje x 0 får man nu en skattning av målvariabeln: regressionslinje: lutning: β intercept: α α x 0 x i o x 0 kan även ligga mellan de mätna x i -värden o α och β är slumpvariabler μ 0 är en slumpvariabel (förändras när nytt stickprov tas). 6

ҧ ҧ ҧ 2018-10-04 Fördelning för de skattade variabler Vi har sett att α, β, μ 0, är slumpvariabler. Vilken fördelning har dem? y i = α + β x i + ε i y i ~ N i = 1, 2,, n ε i ~ N målvariablerna y i är normalfördelade, eftersom bruset ε i är normalfördelad Man kan räkna ut att (lite krångligt, se Appendix): α och β är linjärkombinationer av normalfördelade slumpvariabler (y i ) α, β, μ 0 ~ N Regressionsvariablerna α, β, μ 0 är normalfördelade. Fördelning för de skattade variabler Regressionsvariablerna α, β, μ 0 är normalfördelade. Vi kan räkna ut deras väntevärde, varians och standardavvikelse: E β V β = = β = = σ2 S xx väntevärdesriktig skattning (se Appendix för härledning) konsistent, eftersom n S xx = x i i=1 x 2 när n n E μ 0 = E α + β x 0 = E d i + c i x 0 Y i = = α + β x 0 = μ 0 i=1 n V μ 0 = V α + β x 0 = V i=1 1 n + c i x 0 x Y i = = σ 2 1 n + x 0 xҧ 2 S xx utnyttjat att d i = 1 c n i x (Variansen är stor när x 0 ligger långt ifrån x ҧ ) Väntevärde och varians för α följer från uttrycket för μ 0 genom att sätta x 0 = 0. 7

Fördelning för de skattade variabler Vi vet nu att α, β, μ 0 är normalfördelade, och vi vet vilka väntevärden och vilka standardavvikelser de har. Det betyder att vi känner till deras fördelning: fördelning för skattning av lutningen (om ε i ~N) fördelning för skattning av interceptet fördelning för skattning av målvariabeln om x 0 = 0 blir detta fördelningen för α Alla skattningar är väntevärdesriktiga och konsistenta. Konfidensintervall för β Vi vill räkna ut ett intervall som omfattar det sanna värdet β med en viss sannolikhet (oftast med 95% sannolikhet) = konfidensintervall. Vi utnyttjar fördelningen för β, som vi har fått ovan: fördelning för skattning av lutningen Om σ var känt hade detta varit en referensvariabel. Om σ inte är känt ersätts σ med respektive skattning s r. Som vi har sett förut (föreläsning intervallskattning) måste vi samtidigt ändra fördelningen: σ s r Om σ är okänt är detta en referensvariabel (följer t-fördelningen med f = n 2 frihetsgrader). 8

Konfidensintervall för β referensvariabel σ s r Allmän metod för att härleda ett KI (se föreläsning intervallskattning): stäng in referensvariabeln mellan kvantilerna (för t-fördelningen) omforma i parantesen P tills β stängs in mellan kända storheter I β = β ± tα 2 n 2 s r S xx 1 α 100% konfidensintervall för lutningen (när σ är okänd) punktskattning kvantil medelfel Analogt kan vi härleda ett konfidensintervall för interceptet α : I α = α ± tα Τ2 n 2 s r 1 + x2 ҧ n 1 α 100% konfidensintervall S xx för interveptet när σ är okänd Mest är lutningen viktigare: om lutningen inte är noll (dvs. om KI:et inte går över noll) betyder det att det finns ett samband mellan x och y. Exempel, KI för β 9

Konfidensintervall för μ 0 referensvariabel σ s r där medelfel Allmän metod för att härleda ett konfidensintervall : stäng in referensvariabeln mellan kvantilerna (för t(n 2)-fördelningen) omforma i parantesen P tills μ 0 stängs in mellan kända storheter I μ0 = μ 0 ± tα n 2 d 1 α 100% konfidensintervall 2 för målvariabeln (σ okänd) punktskattning kvantil medelfel Sammanfattning KI 10

Exempel, KI för μ 0 Konfidensintervall för μ 0 I μ0 = μ 0 ± tα n 2 s 2 r 1 n + x 0 xҧ 2 S xx 1 α 100% konfidensintervall för målvariabeln x 0 är den punkt på x-axeln för den vi vill ha ett KI för målvariabeln. Ovanstående formel visar att konfidensintervallet blir bredare om x 0 är längre bort från x ҧ (från medelvärdet av alla x-värden), eftersom medelfelet blir större. Konfidesintervallet har följande (typisk) form: o längre bort från xҧ blir skattningarna mera osäkra (KI blir bredare) o en extrpolation långt bort från alla x i borde inte göras bild från https://rpubs.com/aaronsc32/regress ion-confidence-prediction-intervals 11

Förklaringsgrad (R) Hur bra fungerade regressionslinjen? (How good is the fit?) R nära noll R nära ett S xy 2 2 R 2 = = 1 σ y i y i S xx S yy σ y i തy 2 förklaringsgrad, definition dålig anpassning 0 R 2 1 bra anpassning R 2 = r 2 xy (för enkel linjär regression) r xy = c xy s x s y korrelationskoefficient c xy = kovarians Icke-linjär sammanhang mellan x och y o inget problem alls! o vi kan ändå använda linjär regression o med linjär menas att koefficienterna α och β uppträder linjärt Exempel 1: kvadratiskt samband y i = α + β x i 2 + ε i z i = x i 2 y i = α + β z i + ε i kvadratisk term för x x i är ju kända, z i = nya mätvärden vanlig linjär regression α, β beräknas μ 0 = α + β z 0 = α + β x 0 2 blir en parabel! Exempel 2: exponentiellt samband y i = α + β e x i 2 + ε i z i = e x i 2 OBS!: I R kan man beräkna icke-linjära samband direkt: funktion : lm() 12

Motivering för linjär Regression o det måste kollas om linjär regression kan användas o rent tekniskt fungerar det alltid att räkna ut en regressionslinje (dvs. α och β ) alla fyra stickprov ger samma regressionslinje! Det är därför viktikt att rita en diagram! Dessutom borde värdet på R 2 vara nära 1. Motivering för linjär Regression (det följande kan bara göras med hjälp av mjukvara, t.ex. R) Vi antog att ε i ~ N 0, σ, dvs. att alla ε i har samma varians: V ε i = σ 2 För att kolla om detta stämma kan man plotta ε i mot x-värden: bruset borde skingras runt noll, och inte bli systematiskt större eller mindre med x (borde inte se ut som ett strut) residuals = resid(lm.out) plot(residuals, x) 13

Motivering för linjär Regression (det följande kan bara göras med hjälp av mjukvara, t.ex. R) Vi antog att ε i ~ N 0, σ, dvs. att bruset (ε i ) är normalfördelat. För att kolla om detta stämmer kan man rita en så kallad QQ-plot: inte bra! flertalet av punkterna borde ligga på den röda linjen residuals = resid(lm.out) qqnorm(residuals) qqline(residuals) Motivering för linjär Regression (det följande kan bara göras med hjälp av mjukvara, t.ex. R) Vi antog att brusets värden ε i är oberoende. För att kolla om detta stämmer kan man rita en autokorrelations-plot: övre konfidensgräns Flertalet (helst alla) värden på autokorrelation borde vara små, dvs. mindre än konfidensgränserna (blå linje -------) nedre konfidensgräns auto.cor = acf(resid(lm.out)) plot(auto.cor) 14

Appendix Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Skattning β är en linjärkombination av y i : orna 15

Skattning α är en linjärkombination av y i : orna Skattning β är väntevärdesriktig 16

Skattning β är konsistent Variansen för β är liten om x - värdena är utspredda (stor S xx )! Referensvariabel för beräkning av KI för β 17

Referensvariabel för beräkning av KI för β Z Konfidensintervall för β 18

Konfidensintervall för μ 0 19