Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik för modellval och prediktion p./4 Beskriva, förklara, förutsäga Statistikens uppgift: att skilja systematiska samband från slumpmässig variation Tre nivåer: att beskriva observerad variation och samband histogram, fördelningsanpassning, skattningar att förklara variation och samband genom genom tolkbara modellval skattningar, osäkerhet, test att förutsäga variation normal och extrem modellvalidering Ett exempel: vågriktning och våghöjd 15 1 5 4 3 Våghöjd 1 3 4 15 1 5 Riktning 1 3 Samvariation riktning våghöjd 1 5 1 15 5 3 35 stik för modellval och prediktion p.3/4 Statistik för modellval och prediktion p.4/4
Riktningsfördelning Ex: Uppdelning i normalfördelningar.1.8.6 Uppdelning av våghöjd i två normalfördelningar.4. 5 1 15 5 3 35 1 15.8.6.4 Sannolikhet för tillhörighet. 5 1 15 5 3 35 Riktnings- och höjdfördelning kan var för sig delas upp i två normalfördelningar stöds inte av tvådimensionell plott. stik för modellval och prediktion p.5/4 Statistik för modellval och prediktion p.6/4 REPETITION Lite repetition Data = observationer x 1,..., x n av en stokastisk (slump-)variabel X Fördelningsfunktion CDF: F X (x) = Prob(slumpvariaben x) Empirisk fördelningfunktion EDF: F emp (x) = antalet observationer x n Kvantil q α är sådan att F X (q α ) = 1 α Alternativt the return period F X (q 1/α ) = 1 α stik för modellval och prediktion p.7/4 Statistik för modellval och prediktion p.8/4
Mer repetition Sannolikhetstäthet PDF, för stokastisk variabel X: f X (x) : f X (x) dx = P(x X x + dx) Histogram motsvarar EDF Väntevärde = (medelvärde) = tyngdpunkt i fördelningen: E(X) = x f X (x) dx = m X Varians = (standardavvikelse) Oberoende, beroende, betingning Oberoende händelser: P(A och B) = P(A) P(B) Oberoende mätningar: P(x X x + dx och y Y y + dy) = f X (x)f Y (y) dx dy Betingad sannolikhet för händelse A om B: P(A B) = P (A och B) P(B) V(X) = σ = E((X m X ) ) D(X) = V(X) = σ stik för modellval och prediktion p.9/4 Statistik för modellval och prediktion p.1/4 Summor och medelvärden Väntevärden adderas alltid E(X 1 +... + X n ) = E(X 1 )... + E(X n ) Varianser av oberoende variabler adderas Rep: normalfördelning Normalfördelning N(m, σ) har väntevärde m och varians σ :.14 f X (x; m, σ) = 1 σ π e (x m) /σ V(X 1 +... + X n ) = V(X 1 )... + V(X n ).1 PDF för N(5,3) För medelvärdet X = (X 1 +... + X n )/n av oberoende observationer med väntevärde m och varians σ betyder detta att E(X) = m V(X) = σ /n, D(X) = σ/ n.1.8.6.4. 67% inom m ± σ 95% inom m ± σ 5 5 1 15 stik för modellval och prediktion p.11/4 Statistik för modellval och prediktion p.1/4
Rep: Exponentialfördelning Exponentialfördelning Exp(µ) har PDF och CDF f X (x) = 1 µ e x/µ, F X (x) = 1 e x/µ, x, E(X) = D(X) = µ..18.16.14.1.1.8.6 Exponentialfördelning Histogram och PDF E = D = µ = 5 Extremvärdesfördelningar Exponentialfördelningen är en slags extremvärdesfördelning för minimum liksom Weibullfördelningen. Minimum av oberoende exponentialfördelade variabler är exponentialfördelad Väntetider mellan händelser som kan orsakas av många oberoende aktörer har ofta en exponentiell fördelning nästa händelse är alltid den som inträffar först snabbast att dra vinner! Händelseintensiteten = 1/µ 1 µ(min) = 1 µ 1 +... + 1 µ n.4. 5 1 15 5 3 stik för modellval och prediktion p.13/4 Statistik för modellval och prediktion p.14/4 Minimum av tre exponential Andra extremvärdesfördelningar 1 5 4 6 8 1 1 14 16 18 1 5 Gumbelfördelning = Extremvärdesfördelningen för maximum har PDF: f X (x) = e e (x a)/b Weibullfördelningen är en extremvärdesfördelning för minimum har CDF: 4 6 8 1 1 14 16 18 1 5 4 6 8 1 1 14 16 18 1 F X (x) = 1 e ((x a)/b)c, Maximum av Gumbel är Gumbel! Minimum av Weibull är Weibull! x > a 5 Histogram för minimum av tre exponentialvariabler 1 3 4 5 6 7 stik för modellval och prediktion p.15/4 Statistik för modellval och prediktion p.16/4
Ett hjälpmedel: fördelningspapper Anpassa skalor så att CDF blir en rät linje: Quantiles of standard normal 4 4 Normal Probability Plot 99.99% 99.9% 99% 99.5% 98% 95% 9% 7% 5% 3% 1% 5% %.5% 1%.1%.1% 5 1 15 5 Quantiles of standard normal 4 4 Normal Probability Plot 5 1 15 99.99% 99.9% 99% 99.5% 98% 95% 9% 7% 5% 3% 1% 5% %.5% 1%.1%.1% PROGRAMFÖRKLARING II Quantiles of standard normal 4 4 Normal Probability Plot 5 1 15 5 99.99% 99.9% 99% 99.5% 98% 95% 9% 7% 5% 3% 1% 5%.5% 1% %.1%.1% Quantiles of standard normal 4 4 Normal Probability Plot 99.99% 99.9% 99% 99.5% 98% 95% 9% 7% 5% 3% 1% 5%.5% 1% %.1%.1% 5 1 15 stik för modellval och prediktion p.17/4 Statistik för modellval och prediktion p.18/4 Modellval anpassning validering Mål på tre nivåer: att så bra som möjligt B: beskriva välj fördelningstyp och skatta parametrar, sammanfattar det man har sett F: förklara välj fördelningstyp och modell för samband (logiskt, fysikaliskt, tolkbart) och skatta parametrar pröva hypotes uppskatta osäkerhet P: förutsäga välj modell, validera, extrapolera utanför det redan sedda vad kan hända Beskriva stik för modellval och prediktion p.19/4 Statistik för modellval och prediktion p./4
B: Data eller modellantaganden? Exempel på ML-skattning Ju mer data man har desto färre modellantaganden behövs! B, beskriva: Modell + lite data eller mycket data Likelihood-principen: Välj den modell och de parametrar som gör att data och modell stämmer bäst överens i statistisk mening Likelihood-funktionen i modellen med PDF f X (x; θ) är proportionell mot sannolikheten att få de data x 1,..., x n man fått:.18.16.14.1.1.8 Röd: "bästa" pdf m=4.3 σ=.9 ML skattning med 1 observationer Blå: sann pdf m=5 σ=3 L(x 1,..., x n ; θ) = j f X (x j ; θ).6.4 OBS: P(X [x j, x j + dx]) = f X (x j ) dx. 5 5 1 15 stik för modellval och prediktion p.1/4 Statistik för modellval och prediktion p./4 Normalobservationer och likelihood ML-skattning vid normalfördelning 1.5.5 1 4 4 6 8 1 1.5 x 1 3 1.5 1.5 Fel m rätt σ Rätt m och σ Likelihood funktion Fel m och σ 4 4 6 8 1 1 Observationer x 1, x,..., x n från en fördelning med pdf f X (x; θ), t ex N(m, σ): f X (x) = 1 σ π e (x m) /σ. ML-skattningen är de värden på m och σ man skall använda i modellen N(m, σ) för att det skall bli maximalt troligt att man skall få det man verkligen fick! m = x = 1 x i n i 1 σ = s = (x i x) n i stik för modellval och prediktion p.3/4 Statistik för modellval och prediktion p.4/4
ikelihood-funktion för normalfördelning ML-skattning i exponentialfördelning Likelihood-funktionen är proportionell mot sannolikheten att få just de värden som man fått, som funktion av de okända parametrarna: Skatta väntevärdet µ med hjälp av x 1,..., x n PDF: f X (x) = (1/µ) e x/µ, x > Likelihoodfunktion L(m, σ; x 1,..., x n ) = i för normalfördelningen: f X (x i ; m, σ) L(µ; x 1,..., x n ) = 1 P µ n e j x J/µ l(µ) = n log µ (1/µ) x j l n (m, σ) = log L n = n log σ n log(π) 1 σ (x i m) i Derivera och sätt derivatan = n µ + 1 µ xj = Ger maximum för µ = x j /n = x stik för modellval och prediktion p.5/4 Statistik för modellval och prediktion p.6/4 lihood-ytan har maximum i ML-skattningen 3. 3.1 3.9.8.7 σ ML skattning = maximipunkten i Likelihoodytan m* = 4.34 σ * =.8647.6 4. 4.5 4.3 4.35 4.4 4.45 4.5 m Skattningar i andra fördelningar Exempel: I exponentialfördelningen Exp(µ), dvs PDF f X (x) = (1/µ) e x/µ är ML-skattningen µ = x precis som för normalfördelningen. ML-skattningen är ofta enkel att beräkna se Blom antingen exakt med formel, som för normal- och exponentialfördelningarna, eller med ett numeriskt optimeringsprogram som för Weibull eller Extremvärdesfördelningarna även blandningsexemplet med våghöjd och riktning. Man kan också jämföra olika fördelningstyper med hjälp av Likelihoodfunktionen den med högst likelihood passar bäst! stik för modellval och prediktion p.7/4 Statistik för modellval och prediktion p.8/4
ML-skattning med kovariater 1 års månadsvärden från en exponentialfördelning är väntevärdet månadsberoende? 3 1 års månadsdata ML-skattning med kovariater 1 års månadsvärden från en exponentialfördelning är väntevärdet månadsberoende? 3 1 års månadsdata 5 5 15 15 1 1 5 5 1 13 5 37 49 61 73 85 97 19 1 13 5 37 49 61 73 85 97 19 stik för modellval och prediktion p.9/4 Statistik för modellval och prediktion p.3/4 ML-skattning med kovariater 1 års månadsvärden från en exponentialfördelning är väntevärdet månadsberoende? 3 5 1 års månadsdata Modell och skattning Maximering av likelihood-funktionen med µ(t) = a + b sin πt/1 L(a, b) = (1/µ(t) e x t/µ(t) t 15 1 5 ger ML-skattningar a = 3.88, b =.5 Om månadseffekt saknas är b =. Skatta även c i den utökade modellen µ(t) = a + b sin(πt/1 + c) 1 13 5 37 49 61 73 85 97 19 stik för modellval och prediktion p.31/4 Statistik för modellval och prediktion p.3/4
Är b =? Likelihood-funktionen b L(a, b) visar om b kan vara! 65 7 75 8 Profil likelihood, a=3.88 log L(b) Förklara 85 9 b* =.5 95 3 1.5.5 1 1.5.5 3 stik för modellval och prediktion p.33/4 Statistik för modellval och prediktion p.34/4 F: Förklara osäkerhet, konfidens, test Hur säker är man på sin anpassade modell? Hur osäker är skattningen θ av en parameter, t ex θ = medeltemperaturhöjningen per år? Kan det tänkas att parametern θ är? Konfidensområde för en skattad parameter är ett område beräknat från observerade data, som med viss given sannolikhet, konfidens, innehåller det efterfrågade parametervärdet. Om data avviker från någon uppsatt hypotes så kan man fråga sig om avvikelsen är ett tecken på att hypotesen är fel. Signifikans är sannolikheten att få så avvikande värden som man faktiskt fått, om hypotesen skulle vara sann. Konfidensområde Likelihood-ytans krökning ger en uppskattning av osäkerheten: Liten krökning, t ex i m-led, många m-värden passar ungefär lika bra till data stor osäkerhet i skattningen av m. Osäkerheten i skattningarna anges med ett konfidensområde som med given sannolikhet, konfidens, innehåller det sökta rätta parametervärdet. stik för modellval och prediktion p.35/4 Statistik för modellval och prediktion p.36/4
Konfidensintervall vid normalfördelning Skattningarna av m och σ baserade på n > 1 observationer i en normalfördelning N(m, σ) har konfidensintervall med 95% konfidens: I m : x ± s/ n = 4.34 ±.57 ( ) I σ : s 1 ± =.86 (1 ±.14) n T ex n = för ett fel inom ± 1% i skattning av standardavvikelsen σ. Förklaring Skatta m med enda observation x av en normalvariabel X N(m, σ) Skattningen m = x har osäkerheten σ: P(m σ < X < m + σ) =.95 = P(X σ < m < X + σ dvs sannolikheten att hamna inom ±σ = två standardavvikelser från väntevärdet är 95%. Med fler mätningar tar man medelvärdet X. Det har också väntevärdet m men variansen σ /n och standardavvikelsen σ/ n. Alltså: X och m har 95% chans att hamna högst σ/ n från varandra. Ersätt σ med skattningen s. stik för modellval och prediktion p.37/4 Statistik för modellval och prediktion p.38/4 Komplikation vid små stickprov Eftersom skattningen σ = s i sig är osäker måste man modifiera x ± s/ n vid små stickprov när man skall skatta m i en normalfördelning. Koefficienten måste bytas mot en t-kvantil t.5 (n), som beror av n. För konfidensen 95% gäller: n 1 3 4 5 t(n).3.9.4..1 Allmän princip för konfidensområden Antag att vi har r okända parametrar som skall skattas och förses med osäkerhet; t ex θ = σ (r = 1) eller θ = (m, σ) (r = ) i normalfördelning med känt medelvärde eller med både medelvärde och standardavvikelse okända. Om n = antalet observationer är stort kan man använda en generell, approximativ, metod för att göra ett konfidensområde för θ baserad på log-likelihooden, l n (θ) = log L n (θ; x 1,..., x n ). ML-skattningen θ är det θ-värde som gör likelihooden så stor som möjligt. Konfidensområdet skall innehålla de θ-värden som gör likelihooden nästan lika stor. stik för modellval och prediktion p.39/4 Statistik för modellval och prediktion p.4/4
Allmän princip vid stora stickprov Ett 95% konfidensområde för en r-dimensionell parameter θ med ML-skattningen θ, dvs l n ( θ) = max θ l n (θ), är de värden på θ som gör l n ( θ) 1.9 om r = 1 l n (θ) > l n ( θ) 3. om r = l n ( θ) 3.9 om r = 3 Exempel på likelihood-konfidensintervall I exemplet med normalfördelning blir konfidensområdena för m med 95%, 99%, 99.9% konfidens: 46 48 5 5 95% 99% 99.9% l n (m) 54 56 m* 58 3 3.5 4 4.5 5 5.5 stik för modellval och prediktion p.41/4 Statistik för modellval och prediktion p.4/4