Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Relevanta dokument
Föreläsning 12: Regression

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

F13 Regression och problemlösning

Föreläsning 12: Linjär regression

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Grundläggande matematisk statistik

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

oberoende av varandra så observationerna är

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för B, K, N, BME och Kemister

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 2: Styrkefunktion samt Regression

1 Förberedelseuppgifter

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 4 R-versionen

10.1 Enkel linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Bayesiansk statistik, 732g43, 7.5 hp

MVE051/MSG Föreläsning 14

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen för kursen. Linjära statistiska modeller. 13 januari

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Metod och teori. Statistik för naturvetare Umeå universitet

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

PROGRAMFÖRKLARING III

Sänkningen av parasitnivåerna i blodet

Föreläsning 11: Mer om jämförelser och inferens

Medicinsk statistik II

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Regressions- och Tidsserieanalys - F7

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Examinationsuppgifter del 2

Matematisk statistik, Föreläsning 5

F11. Kvantitativa prognostekniker

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning G60 Statistiska metoder

TAMS65 DATORÖVNING 2

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen för kursen. Linjära statistiska modeller. 17 februari

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning G60 Statistiska metoder

STATISTISK ANALYS AV KOMPLEXA DATA

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Laboration 4 Regressionsanalys

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Regressions- och Tidsserieanalys - F8

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Enkel linjär regression

Höftledsdysplasi hos dansk-svensk gårdshund

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Enkel och multipel linjär regression

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Statistisk försöksplanering

Lycka till!

Regressions- och Tidsserieanalys - F4

Mer om konfidensintervall + repetition

Tidsserier. Tre modeller för tidsserier är den multiplikativa, additiva och säsongdummymetoden.

9. Konfidensintervall vid normalfördelning

Tidsserier, forts från F16 F17. Tidsserier Säsongrensning

Föreläsning 13: Multipel Regression

F3 Introduktion Stickprov

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Lektionsanteckningar 11-12: Normalfördelningen

Transkript:

Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval och prediktion p.2/28 Sambands- och trendanalys Regressionsanalys, parametrisk Skattning av parameterar säkerhet Konfidensintervall prediktionsintervall Beroende data Osäkerhet i indata Icke-parametrisk trendanalys Mann-Kendalls test; skattningat; osäkerhet Säsongvariation Komplikationer vid beroende data Trend? - Syrehalt beroende på kovariater Naturlig variation eller mätfel? 1 9 Trend beroende på djup och årstid? 8 Januari, djup= Juli, djup= 4 3 Juli, djup=4 2 1 Januari, djup=4 1 198 198 199 199 2 stik för modellval och prediktion p.3/28 Statistik för modellval och prediktion p.4/28

Syre under juli, djup = Modellsamband datasamband. En förklaringsmodell anger ett samband mellan en förklaringsvariabel och en responsvariabel y: halt j uli.. 198 199 199 2 2 tid uli j Normplot of 1.. 1 1.9.9...2.1... 1 y = m() (= a + b) där m() är en fysikaliskt och logiskt rimlig funktion En beskrivningsmodell beskriver ett empiriskt samband mellan observerade data 1,..., n resp y 1,..., y n : y j = m( j ) + e j (= a + b j + e j ) där avvikelserna e j är så små som möjligt Förklaringsmodeller utgår ofta från en beskrivningsmodell stik för modellval och prediktion p./28 Statistik för modellval och prediktion p./28 Enkel regression Grundmodellen vid enkel linjär regression mellan responsvariabeln y och förklaringsvariabeln : y j = a + b j + e j där e j representerar antingen naturlig variation kring en sambands- eller trendlinje y = a + b eller är mätfel. Icke-linjära samband fungerar likadant: Observera skillnaden!!! Observera skillnaden mellan naturlig variation och mätfel. Mätfel är ofta normalfördelade med konstant standardavvikelse eller relativ standardavvikelse. Kan ofta hanteras med parametriska standardmetoder. Naturlig variation har större friheter och kan ibland kräva ickeparametriska metoder. y j = m( j ) + e j med modellsambandet y = m() och med e j som antingen motsvarar naturlig variation kring medelmodellen eller utgörs av mätfel. stik för modellval och prediktion p./28 Statistik för modellval och prediktion p.8/28

Gemensamt Fel i den förklarande variabeln? I modellen y = a + b + e antas variationen (osäkerheten) uppkomma endast i y-led: E(e) = { Var(e) = σ 2 σ 2 () Den förklarande variabeln antas ofta mätt utan fel t e datum med variation endast i responsvariabeln. Anpassa linje som passar i y-led. Obs: Annan linje vid passning i -led!. Fel i båda: t e ortogonal anpassning. 4 Avvikelserna mellan modell och mätning är i medeltal och har en varians som kan vara konstant eller kan variera med den förklarande variabeln. Obs: Om det finns osäkerhet även i den förklarande variabeln så används andra skattningar. 3 2 1 1 Röd linje: Förklarande: Respons: y Blå linje: Förklarande: y Respons: 2 2 2 4 8 1 stik för modellval och prediktion p.9/28 Statistik för modellval och prediktion p.1/28 Skattning minsta kvadrat Gauss 19 (opublicerat) Legendre 18(?) (publicerat) Datapar ( 1, y 1 ),..., ( n, y n ) Antag mätningar kommer från en linjär modell y = a + b med slumpvis variation kring modellen så att (mätfel?) resultatet är y j = a + b j + e j där e 1,..., e n kommer från en normalfördelning med medelvärde och konstant standardavvikelse σ. Intercept och lutning centrering Separera skattningarna av intercept och lutning genom att centrera till tyngdpunkten : y j = a + b j = α + β ( j ) Skatta α och β = b och räkna sedan ut a = α β. Den nya parametern α är interceptet i tyngdpunkten. Skattningen av α påverkas inte av skattningen av lutningen β. Minsta-kvadrat = ML-skattningarna vid normalfördelning blir α = y a = α β β (j )(y j y) = (j ) 2 = S y S stik för modellval och prediktion p.11/28 Statistik för modellval och prediktion p.12/28

Ett Matlab-eempel Osäkerhet? y4 2 2 1 1 1 1 2 2 Normplot of 1.999.99.98.99.9.9...2.1..1.2.3.1 1 2 4 1 1 Osäkerheten i skattningarna beror av Om modellen är tillräckligt bra!!! Värdet på spridningen kring regressionskurvan, dvs σ σ 2 skattas med ( ) σ 2 = 1 S yy S2 y n 2 S = 1 n 2 min (yj a b j ) 2 a,b σ = σ 2 stik för modellval och prediktion p.13/28 Statistik för modellval och prediktion p.14/28 Residualanalys Eempel: residualer ej normala Viktigt: studera residualerna r j = y j a b j Deras standardavvikelse är en uppskattning av σ. MEN: Undersök deras fördelning! Den kan avslöja om modellen är rimlig: Är sambandet linjärt? Är spridningen konstant i hela intervallet? Är avvikelserna (någorlunda) normalfördelade? y4ep 4 4 3 3 2 2 1 1 1 1 2 2 Normplot of 3 2.999.99.98.99.9.9. 1..2.1..1.2.3.1 1 2 4 1 1 2 3 stik för modellval och prediktion p.1/28 Statistik för modellval och prediktion p.1/28

Månadsvisa och årsvisa CO 2 värden En icke-linjär regression: Månadsvis CO2 halt Årssvis medelhalt 3 3 3 3 34 34 33 33 32 32 y 3 3 34 33 32 och dess diagnostik 31 1 2 3 4 31 1 2 3 4 31 1 1 2 2 3 3 Normplot of 4 2.999.99.98.99.9.9...2 2.1..1.2.3.1 4 1 2 3 4 4 2 2 4 stik för modellval och prediktion p.1/28 Statistik för modellval och prediktion p.18/28 Osäkerhet i skattningarna Osäkerheten i skattningarna av α och β är D(α ) = σ/ n D(β ) = σ/ S D(a ) = σ 1/n + 1/S och 9% konfidensintervall blir intervall = skattning ± 2 D Prediktionsintervall konfidensintervall Osäkerhet i skattningarna av α och β leder till osäkerhet i skattningen av regressionslinjen. För varje kan man beräkna ett konfidensintervall för var linjen kan tänkas gå. Detta ger en osäkerhet om det eakta sambandet mellan den oberoende variabeln och det förväntade värdet av responsvariabeln y för det -värdet, dvs vad man får i medeltal. Ett prediktionsintervall är ett intervall som talar om vad en mätning av responsvariabeln kan komma att bli. stik för modellval och prediktion p.19/28 Statistik för modellval och prediktion p.2/28

Prediktionsintervall blir breda Syre under juli, djup = y4 3 2 2 1 1 halt j uli... 1 1 2 Normplot of 1.999.99.98.99.9.9...2.1..1.2.3.1 1 2 4 1 1 198 199 199 2 2 tid j uli Normplot of 1.. 1 1.9.9...2.1... 1 stik för modellval och prediktion p.21/28 Statistik för modellval och prediktion p.22/28 Några användbara formler Formlerna för 9% konfidensintervall resp prediktionsintervall vid linjär regression ser ut så här: Konf-intervall I konf () = a + b ± 2 σ 1 ( )2 + n S Pred-intervall I pred () = a + b ± 2 σ 1 + 1 ( )2 + n S Tolkning: Tolkning Prediktionsintervall: 9% av framtida mätningar på den givna nivån hamnar mellan gränserna Konfidensintervall: Man är 9% säker att medelvärdet av framtida mätningar på den givna nivån ligger mellan gränserna För andra proportioner: byt ut faktorn 2 mot annan faktor ur normalfördelningstabell eller t-tabell. stik för modellval och prediktion p.23/28 Statistik för modellval och prediktion p.24/28

Komplikationer Icke-parametrisk trendanalys Beroende data tidsserieanalys. Skattningar ofta desamma men osäkerheten kan ha ökat Osäkerhet i förklarande variabeln! Mann-Kendalls test för trend för tidsserie y 1, y 2,..., y n Jämför alla par, (y j, y k ), k > j, av värden är y j < y k eller y j > y k? Beräkna S = antal par med y j < y k antal par med y j > y k Om värdena är oberoende och kommer från samma fördelning (t e ingen trend) så är S ungefär normalfördelad med E(S) = och varians V n = 1 n(n 1)(2n + ) 18 stik för modellval och prediktion p.2/28 Statistik för modellval och prediktion p.2/28 Trendanalys med säsongvariation Gör ett S i för varje säsong i 12 11 1 9 8 Ytsyre Gör ett S i -värde för varje säsong i = 1, 2,..., b och addera till S = S i i som blir normalfördelad med varians i V i n om ingen trend Komplikation om data är tidsmässigt beroende (variansen kan bli större) och olika antal mätningar under olika säsonger 198 198 199 199 2 stik för modellval och prediktion p.2/28 Statistik för modellval och prediktion p.28/28