Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval och prediktion p.2/28 Sambands- och trendanalys Regressionsanalys, parametrisk Skattning av parameterar säkerhet Konfidensintervall prediktionsintervall Beroende data Osäkerhet i indata Icke-parametrisk trendanalys Mann-Kendalls test; skattningat; osäkerhet Säsongvariation Komplikationer vid beroende data Trend? - Syrehalt beroende på kovariater Naturlig variation eller mätfel? 1 9 Trend beroende på djup och årstid? 8 Januari, djup= Juli, djup= 4 3 Juli, djup=4 2 1 Januari, djup=4 1 198 198 199 199 2 stik för modellval och prediktion p.3/28 Statistik för modellval och prediktion p.4/28
Syre under juli, djup = Modellsamband datasamband. En förklaringsmodell anger ett samband mellan en förklaringsvariabel och en responsvariabel y: halt j uli.. 198 199 199 2 2 tid uli j Normplot of 1.. 1 1.9.9...2.1... 1 y = m() (= a + b) där m() är en fysikaliskt och logiskt rimlig funktion En beskrivningsmodell beskriver ett empiriskt samband mellan observerade data 1,..., n resp y 1,..., y n : y j = m( j ) + e j (= a + b j + e j ) där avvikelserna e j är så små som möjligt Förklaringsmodeller utgår ofta från en beskrivningsmodell stik för modellval och prediktion p./28 Statistik för modellval och prediktion p./28 Enkel regression Grundmodellen vid enkel linjär regression mellan responsvariabeln y och förklaringsvariabeln : y j = a + b j + e j där e j representerar antingen naturlig variation kring en sambands- eller trendlinje y = a + b eller är mätfel. Icke-linjära samband fungerar likadant: Observera skillnaden!!! Observera skillnaden mellan naturlig variation och mätfel. Mätfel är ofta normalfördelade med konstant standardavvikelse eller relativ standardavvikelse. Kan ofta hanteras med parametriska standardmetoder. Naturlig variation har större friheter och kan ibland kräva ickeparametriska metoder. y j = m( j ) + e j med modellsambandet y = m() och med e j som antingen motsvarar naturlig variation kring medelmodellen eller utgörs av mätfel. stik för modellval och prediktion p./28 Statistik för modellval och prediktion p.8/28
Gemensamt Fel i den förklarande variabeln? I modellen y = a + b + e antas variationen (osäkerheten) uppkomma endast i y-led: E(e) = { Var(e) = σ 2 σ 2 () Den förklarande variabeln antas ofta mätt utan fel t e datum med variation endast i responsvariabeln. Anpassa linje som passar i y-led. Obs: Annan linje vid passning i -led!. Fel i båda: t e ortogonal anpassning. 4 Avvikelserna mellan modell och mätning är i medeltal och har en varians som kan vara konstant eller kan variera med den förklarande variabeln. Obs: Om det finns osäkerhet även i den förklarande variabeln så används andra skattningar. 3 2 1 1 Röd linje: Förklarande: Respons: y Blå linje: Förklarande: y Respons: 2 2 2 4 8 1 stik för modellval och prediktion p.9/28 Statistik för modellval och prediktion p.1/28 Skattning minsta kvadrat Gauss 19 (opublicerat) Legendre 18(?) (publicerat) Datapar ( 1, y 1 ),..., ( n, y n ) Antag mätningar kommer från en linjär modell y = a + b med slumpvis variation kring modellen så att (mätfel?) resultatet är y j = a + b j + e j där e 1,..., e n kommer från en normalfördelning med medelvärde och konstant standardavvikelse σ. Intercept och lutning centrering Separera skattningarna av intercept och lutning genom att centrera till tyngdpunkten : y j = a + b j = α + β ( j ) Skatta α och β = b och räkna sedan ut a = α β. Den nya parametern α är interceptet i tyngdpunkten. Skattningen av α påverkas inte av skattningen av lutningen β. Minsta-kvadrat = ML-skattningarna vid normalfördelning blir α = y a = α β β (j )(y j y) = (j ) 2 = S y S stik för modellval och prediktion p.11/28 Statistik för modellval och prediktion p.12/28
Ett Matlab-eempel Osäkerhet? y4 2 2 1 1 1 1 2 2 Normplot of 1.999.99.98.99.9.9...2.1..1.2.3.1 1 2 4 1 1 Osäkerheten i skattningarna beror av Om modellen är tillräckligt bra!!! Värdet på spridningen kring regressionskurvan, dvs σ σ 2 skattas med ( ) σ 2 = 1 S yy S2 y n 2 S = 1 n 2 min (yj a b j ) 2 a,b σ = σ 2 stik för modellval och prediktion p.13/28 Statistik för modellval och prediktion p.14/28 Residualanalys Eempel: residualer ej normala Viktigt: studera residualerna r j = y j a b j Deras standardavvikelse är en uppskattning av σ. MEN: Undersök deras fördelning! Den kan avslöja om modellen är rimlig: Är sambandet linjärt? Är spridningen konstant i hela intervallet? Är avvikelserna (någorlunda) normalfördelade? y4ep 4 4 3 3 2 2 1 1 1 1 2 2 Normplot of 3 2.999.99.98.99.9.9. 1..2.1..1.2.3.1 1 2 4 1 1 2 3 stik för modellval och prediktion p.1/28 Statistik för modellval och prediktion p.1/28
Månadsvisa och årsvisa CO 2 värden En icke-linjär regression: Månadsvis CO2 halt Årssvis medelhalt 3 3 3 3 34 34 33 33 32 32 y 3 3 34 33 32 och dess diagnostik 31 1 2 3 4 31 1 2 3 4 31 1 1 2 2 3 3 Normplot of 4 2.999.99.98.99.9.9...2 2.1..1.2.3.1 4 1 2 3 4 4 2 2 4 stik för modellval och prediktion p.1/28 Statistik för modellval och prediktion p.18/28 Osäkerhet i skattningarna Osäkerheten i skattningarna av α och β är D(α ) = σ/ n D(β ) = σ/ S D(a ) = σ 1/n + 1/S och 9% konfidensintervall blir intervall = skattning ± 2 D Prediktionsintervall konfidensintervall Osäkerhet i skattningarna av α och β leder till osäkerhet i skattningen av regressionslinjen. För varje kan man beräkna ett konfidensintervall för var linjen kan tänkas gå. Detta ger en osäkerhet om det eakta sambandet mellan den oberoende variabeln och det förväntade värdet av responsvariabeln y för det -värdet, dvs vad man får i medeltal. Ett prediktionsintervall är ett intervall som talar om vad en mätning av responsvariabeln kan komma att bli. stik för modellval och prediktion p.19/28 Statistik för modellval och prediktion p.2/28
Prediktionsintervall blir breda Syre under juli, djup = y4 3 2 2 1 1 halt j uli... 1 1 2 Normplot of 1.999.99.98.99.9.9...2.1..1.2.3.1 1 2 4 1 1 198 199 199 2 2 tid j uli Normplot of 1.. 1 1.9.9...2.1... 1 stik för modellval och prediktion p.21/28 Statistik för modellval och prediktion p.22/28 Några användbara formler Formlerna för 9% konfidensintervall resp prediktionsintervall vid linjär regression ser ut så här: Konf-intervall I konf () = a + b ± 2 σ 1 ( )2 + n S Pred-intervall I pred () = a + b ± 2 σ 1 + 1 ( )2 + n S Tolkning: Tolkning Prediktionsintervall: 9% av framtida mätningar på den givna nivån hamnar mellan gränserna Konfidensintervall: Man är 9% säker att medelvärdet av framtida mätningar på den givna nivån ligger mellan gränserna För andra proportioner: byt ut faktorn 2 mot annan faktor ur normalfördelningstabell eller t-tabell. stik för modellval och prediktion p.23/28 Statistik för modellval och prediktion p.24/28
Komplikationer Icke-parametrisk trendanalys Beroende data tidsserieanalys. Skattningar ofta desamma men osäkerheten kan ha ökat Osäkerhet i förklarande variabeln! Mann-Kendalls test för trend för tidsserie y 1, y 2,..., y n Jämför alla par, (y j, y k ), k > j, av värden är y j < y k eller y j > y k? Beräkna S = antal par med y j < y k antal par med y j > y k Om värdena är oberoende och kommer från samma fördelning (t e ingen trend) så är S ungefär normalfördelad med E(S) = och varians V n = 1 n(n 1)(2n + ) 18 stik för modellval och prediktion p.2/28 Statistik för modellval och prediktion p.2/28 Trendanalys med säsongvariation Gör ett S i för varje säsong i 12 11 1 9 8 Ytsyre Gör ett S i -värde för varje säsong i = 1, 2,..., b och addera till S = S i i som blir normalfördelad med varians i V i n om ingen trend Komplikation om data är tidsmässigt beroende (variansen kan bli större) och olika antal mätningar under olika säsonger 198 198 199 199 2 stik för modellval och prediktion p.2/28 Statistik för modellval och prediktion p.28/28