PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Relevanta dokument
PROGRAMFÖRKLARING III

Extremvärden att extrapolera utanför data och utanför teori/modell. Statistik för modellval och prediktion p.1/27

Föreläsning 11: Mer om jämförelser och inferens

SF1901 Sannolikhetsteori och statistik I

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 7: Punktskattningar

Föreläsning 7. Statistikens grunder.

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

9. Konfidensintervall vid normalfördelning

Föreläsning 7: Punktskattningar

0 om x < 0, F X (x) = c x. 1 om x 2.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

F9 Konfidensintervall

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

SF1901 Sannolikhetsteori och statistik I

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

Föreläsning 5, Matematisk statistik Π + E

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Föreläsning 12: Linjär regression

Avd. Matematisk statistik

Föreläsning 6, Matematisk statistik Π + E

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Avd. Matematisk statistik

SF1911: Statistik för bioteknik

Demonstration av laboration 2, SF1901

Matematisk statistik för B, K, N, BME och Kemister

Lektionsanteckningar 11-12: Normalfördelningen

Matematisk statistik för D, I, Π och Fysiker

Grundläggande matematisk statistik

Föreläsning 8: Konfidensintervall

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 12: Regression

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 7: Punktskattningar

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

TMS136. Föreläsning 4

f(x) = 2 x2, 1 < x < 2.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1901 Sannolikhetsteori och statistik I

Tenta i Statistisk analys, 15 december 2004

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

F13 Regression och problemlösning

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

F3 Introduktion Stickprov

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

MVE051/MSG Föreläsning 7

Statistiska metoder för säkerhetsanalys

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Föreläsning 5, FMSF45 Summor och väntevärden

Uppgift 1. f(x) = 2x om 0 x 1

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Matematisk statistik TMS063 Tentamen

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Lärmål Sannolikhet, statistik och risk 2015

Tentamen MVE301 Sannolikhet, statistik och risk

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

FÖRELÄSNING 7:

SF1901: Sannolikhetslära och statistik

Föreläsning 12: Repetition

Grundläggande matematisk statistik

Avd. Matematisk statistik

FÖRELÄSNING 8:

Matematisk statistik för B, K, N, BME och Kemister

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Kap 2. Sannolikhetsteorins grunder

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

TMS136. Föreläsning 10

Weibullanalys. Maximum-likelihoodskattning

Matematisk statistik för B, K, N, BME och Kemister

Statistiska metoder för säkerhetsanalys

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Lufttorkat trä Ugnstorkat trä

Tentamen MVE301 Sannolikhet, statistik och risk

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Statistiska metoder för säkerhetsanalys

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Mer om konfidensintervall + repetition

Repetitionsföreläsning

Transkript:

Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik för modellval och prediktion p./4 Beskriva, förklara, förutsäga Statistikens uppgift: att skilja systematiska samband från slumpmässig variation Tre nivåer: att beskriva observerad variation och samband histogram, fördelningsanpassning, skattningar att förklara variation och samband genom genom tolkbara modellval skattningar, osäkerhet, test att förutsäga variation normal och extrem modellvalidering Ett exempel: vågriktning och våghöjd 15 1 5 4 3 Våghöjd 1 3 4 15 1 5 Riktning 1 3 Samvariation riktning våghöjd 1 5 1 15 5 3 35 stik för modellval och prediktion p.3/4 Statistik för modellval och prediktion p.4/4

Riktningsfördelning Ex: Uppdelning i normalfördelningar.1.8.6 Uppdelning av våghöjd i två normalfördelningar.4. 5 1 15 5 3 35 1 15.8.6.4 Sannolikhet för tillhörighet. 5 1 15 5 3 35 Riktnings- och höjdfördelning kan var för sig delas upp i två normalfördelningar stöds inte av tvådimensionell plott. stik för modellval och prediktion p.5/4 Statistik för modellval och prediktion p.6/4 REPETITION Lite repetition Data = observationer x 1,..., x n av en stokastisk (slump-)variabel X Fördelningsfunktion CDF: F X (x) = Prob(slumpvariaben x) Empirisk fördelningfunktion EDF: F emp (x) = antalet observationer x n Kvantil q α är sådan att F X (q α ) = 1 α Alternativt the return period F X (q 1/α ) = 1 α stik för modellval och prediktion p.7/4 Statistik för modellval och prediktion p.8/4

Mer repetition Sannolikhetstäthet PDF, för stokastisk variabel X: f X (x) : f X (x) dx = P(x X x + dx) Histogram motsvarar EDF Väntevärde = (medelvärde) = tyngdpunkt i fördelningen: E(X) = x f X (x) dx = m X Varians = (standardavvikelse) Oberoende, beroende, betingning Oberoende händelser: P(A och B) = P(A) P(B) Oberoende mätningar: P(x X x + dx och y Y y + dy) = f X (x)f Y (y) dx dy Betingad sannolikhet för händelse A om B: P(A B) = P (A och B) P(B) V(X) = σ = E((X m X ) ) D(X) = V(X) = σ stik för modellval och prediktion p.9/4 Statistik för modellval och prediktion p.1/4 Summor och medelvärden Väntevärden adderas alltid E(X 1 +... + X n ) = E(X 1 )... + E(X n ) Varianser av oberoende variabler adderas Rep: normalfördelning Normalfördelning N(m, σ) har väntevärde m och varians σ :.14 f X (x; m, σ) = 1 σ π e (x m) /σ V(X 1 +... + X n ) = V(X 1 )... + V(X n ).1 PDF för N(5,3) För medelvärdet X = (X 1 +... + X n )/n av oberoende observationer med väntevärde m och varians σ betyder detta att E(X) = m V(X) = σ /n, D(X) = σ/ n.1.8.6.4. 67% inom m ± σ 95% inom m ± σ 5 5 1 15 stik för modellval och prediktion p.11/4 Statistik för modellval och prediktion p.1/4

Rep: Exponentialfördelning Exponentialfördelning Exp(µ) har PDF och CDF f X (x) = 1 µ e x/µ, F X (x) = 1 e x/µ, x, E(X) = D(X) = µ..18.16.14.1.1.8.6 Exponentialfördelning Histogram och PDF E = D = µ = 5 Extremvärdesfördelningar Exponentialfördelningen är en slags extremvärdesfördelning för minimum liksom Weibullfördelningen. Minimum av oberoende exponentialfördelade variabler är exponentialfördelad Väntetider mellan händelser som kan orsakas av många oberoende aktörer har ofta en exponentiell fördelning nästa händelse är alltid den som inträffar först snabbast att dra vinner! Händelseintensiteten = 1/µ 1 µ(min) = 1 µ 1 +... + 1 µ n.4. 5 1 15 5 3 stik för modellval och prediktion p.13/4 Statistik för modellval och prediktion p.14/4 Minimum av tre exponential Andra extremvärdesfördelningar 1 5 4 6 8 1 1 14 16 18 1 5 Gumbelfördelning = Extremvärdesfördelningen för maximum har PDF: f X (x) = e e (x a)/b Weibullfördelningen är en extremvärdesfördelning för minimum har CDF: 4 6 8 1 1 14 16 18 1 5 4 6 8 1 1 14 16 18 1 F X (x) = 1 e ((x a)/b)c, Maximum av Gumbel är Gumbel! Minimum av Weibull är Weibull! x > a 5 Histogram för minimum av tre exponentialvariabler 1 3 4 5 6 7 stik för modellval och prediktion p.15/4 Statistik för modellval och prediktion p.16/4

Ett hjälpmedel: fördelningspapper Anpassa skalor så att CDF blir en rät linje: Quantiles of standard normal 4 4 Normal Probability Plot 99.99% 99.9% 99% 99.5% 98% 95% 9% 7% 5% 3% 1% 5% %.5% 1%.1%.1% 5 1 15 5 Quantiles of standard normal 4 4 Normal Probability Plot 5 1 15 99.99% 99.9% 99% 99.5% 98% 95% 9% 7% 5% 3% 1% 5% %.5% 1%.1%.1% PROGRAMFÖRKLARING II Quantiles of standard normal 4 4 Normal Probability Plot 5 1 15 5 99.99% 99.9% 99% 99.5% 98% 95% 9% 7% 5% 3% 1% 5%.5% 1% %.1%.1% Quantiles of standard normal 4 4 Normal Probability Plot 99.99% 99.9% 99% 99.5% 98% 95% 9% 7% 5% 3% 1% 5%.5% 1% %.1%.1% 5 1 15 stik för modellval och prediktion p.17/4 Statistik för modellval och prediktion p.18/4 Modellval anpassning validering Mål på tre nivåer: att så bra som möjligt B: beskriva välj fördelningstyp och skatta parametrar, sammanfattar det man har sett F: förklara välj fördelningstyp och modell för samband (logiskt, fysikaliskt, tolkbart) och skatta parametrar pröva hypotes uppskatta osäkerhet P: förutsäga välj modell, validera, extrapolera utanför det redan sedda vad kan hända Beskriva stik för modellval och prediktion p.19/4 Statistik för modellval och prediktion p./4

B: Data eller modellantaganden? Exempel på ML-skattning Ju mer data man har desto färre modellantaganden behövs! B, beskriva: Modell + lite data eller mycket data Likelihood-principen: Välj den modell och de parametrar som gör att data och modell stämmer bäst överens i statistisk mening Likelihood-funktionen i modellen med PDF f X (x; θ) är proportionell mot sannolikheten att få de data x 1,..., x n man fått:.18.16.14.1.1.8 Röd: "bästa" pdf m=4.3 σ=.9 ML skattning med 1 observationer Blå: sann pdf m=5 σ=3 L(x 1,..., x n ; θ) = j f X (x j ; θ).6.4 OBS: P(X [x j, x j + dx]) = f X (x j ) dx. 5 5 1 15 stik för modellval och prediktion p.1/4 Statistik för modellval och prediktion p./4 Normalobservationer och likelihood ML-skattning vid normalfördelning 1.5.5 1 4 4 6 8 1 1.5 x 1 3 1.5 1.5 Fel m rätt σ Rätt m och σ Likelihood funktion Fel m och σ 4 4 6 8 1 1 Observationer x 1, x,..., x n från en fördelning med pdf f X (x; θ), t ex N(m, σ): f X (x) = 1 σ π e (x m) /σ. ML-skattningen är de värden på m och σ man skall använda i modellen N(m, σ) för att det skall bli maximalt troligt att man skall få det man verkligen fick! m = x = 1 x i n i 1 σ = s = (x i x) n i stik för modellval och prediktion p.3/4 Statistik för modellval och prediktion p.4/4

ikelihood-funktion för normalfördelning ML-skattning i exponentialfördelning Likelihood-funktionen är proportionell mot sannolikheten att få just de värden som man fått, som funktion av de okända parametrarna: Skatta väntevärdet µ med hjälp av x 1,..., x n PDF: f X (x) = (1/µ) e x/µ, x > Likelihoodfunktion L(m, σ; x 1,..., x n ) = i för normalfördelningen: f X (x i ; m, σ) L(µ; x 1,..., x n ) = 1 P µ n e j x J/µ l(µ) = n log µ (1/µ) x j l n (m, σ) = log L n = n log σ n log(π) 1 σ (x i m) i Derivera och sätt derivatan = n µ + 1 µ xj = Ger maximum för µ = x j /n = x stik för modellval och prediktion p.5/4 Statistik för modellval och prediktion p.6/4 lihood-ytan har maximum i ML-skattningen 3. 3.1 3.9.8.7 σ ML skattning = maximipunkten i Likelihoodytan m* = 4.34 σ * =.8647.6 4. 4.5 4.3 4.35 4.4 4.45 4.5 m Skattningar i andra fördelningar Exempel: I exponentialfördelningen Exp(µ), dvs PDF f X (x) = (1/µ) e x/µ är ML-skattningen µ = x precis som för normalfördelningen. ML-skattningen är ofta enkel att beräkna se Blom antingen exakt med formel, som för normal- och exponentialfördelningarna, eller med ett numeriskt optimeringsprogram som för Weibull eller Extremvärdesfördelningarna även blandningsexemplet med våghöjd och riktning. Man kan också jämföra olika fördelningstyper med hjälp av Likelihoodfunktionen den med högst likelihood passar bäst! stik för modellval och prediktion p.7/4 Statistik för modellval och prediktion p.8/4

ML-skattning med kovariater 1 års månadsvärden från en exponentialfördelning är väntevärdet månadsberoende? 3 1 års månadsdata ML-skattning med kovariater 1 års månadsvärden från en exponentialfördelning är väntevärdet månadsberoende? 3 1 års månadsdata 5 5 15 15 1 1 5 5 1 13 5 37 49 61 73 85 97 19 1 13 5 37 49 61 73 85 97 19 stik för modellval och prediktion p.9/4 Statistik för modellval och prediktion p.3/4 ML-skattning med kovariater 1 års månadsvärden från en exponentialfördelning är väntevärdet månadsberoende? 3 5 1 års månadsdata Modell och skattning Maximering av likelihood-funktionen med µ(t) = a + b sin πt/1 L(a, b) = (1/µ(t) e x t/µ(t) t 15 1 5 ger ML-skattningar a = 3.88, b =.5 Om månadseffekt saknas är b =. Skatta även c i den utökade modellen µ(t) = a + b sin(πt/1 + c) 1 13 5 37 49 61 73 85 97 19 stik för modellval och prediktion p.31/4 Statistik för modellval och prediktion p.3/4

Är b =? Likelihood-funktionen b L(a, b) visar om b kan vara! 65 7 75 8 Profil likelihood, a=3.88 log L(b) Förklara 85 9 b* =.5 95 3 1.5.5 1 1.5.5 3 stik för modellval och prediktion p.33/4 Statistik för modellval och prediktion p.34/4 F: Förklara osäkerhet, konfidens, test Hur säker är man på sin anpassade modell? Hur osäker är skattningen θ av en parameter, t ex θ = medeltemperaturhöjningen per år? Kan det tänkas att parametern θ är? Konfidensområde för en skattad parameter är ett område beräknat från observerade data, som med viss given sannolikhet, konfidens, innehåller det efterfrågade parametervärdet. Om data avviker från någon uppsatt hypotes så kan man fråga sig om avvikelsen är ett tecken på att hypotesen är fel. Signifikans är sannolikheten att få så avvikande värden som man faktiskt fått, om hypotesen skulle vara sann. Konfidensområde Likelihood-ytans krökning ger en uppskattning av osäkerheten: Liten krökning, t ex i m-led, många m-värden passar ungefär lika bra till data stor osäkerhet i skattningen av m. Osäkerheten i skattningarna anges med ett konfidensområde som med given sannolikhet, konfidens, innehåller det sökta rätta parametervärdet. stik för modellval och prediktion p.35/4 Statistik för modellval och prediktion p.36/4

Konfidensintervall vid normalfördelning Skattningarna av m och σ baserade på n > 1 observationer i en normalfördelning N(m, σ) har konfidensintervall med 95% konfidens: I m : x ± s/ n = 4.34 ±.57 ( ) I σ : s 1 ± =.86 (1 ±.14) n T ex n = för ett fel inom ± 1% i skattning av standardavvikelsen σ. Förklaring Skatta m med enda observation x av en normalvariabel X N(m, σ) Skattningen m = x har osäkerheten σ: P(m σ < X < m + σ) =.95 = P(X σ < m < X + σ dvs sannolikheten att hamna inom ±σ = två standardavvikelser från väntevärdet är 95%. Med fler mätningar tar man medelvärdet X. Det har också väntevärdet m men variansen σ /n och standardavvikelsen σ/ n. Alltså: X och m har 95% chans att hamna högst σ/ n från varandra. Ersätt σ med skattningen s. stik för modellval och prediktion p.37/4 Statistik för modellval och prediktion p.38/4 Komplikation vid små stickprov Eftersom skattningen σ = s i sig är osäker måste man modifiera x ± s/ n vid små stickprov när man skall skatta m i en normalfördelning. Koefficienten måste bytas mot en t-kvantil t.5 (n), som beror av n. För konfidensen 95% gäller: n 1 3 4 5 t(n).3.9.4..1 Allmän princip för konfidensområden Antag att vi har r okända parametrar som skall skattas och förses med osäkerhet; t ex θ = σ (r = 1) eller θ = (m, σ) (r = ) i normalfördelning med känt medelvärde eller med både medelvärde och standardavvikelse okända. Om n = antalet observationer är stort kan man använda en generell, approximativ, metod för att göra ett konfidensområde för θ baserad på log-likelihooden, l n (θ) = log L n (θ; x 1,..., x n ). ML-skattningen θ är det θ-värde som gör likelihooden så stor som möjligt. Konfidensområdet skall innehålla de θ-värden som gör likelihooden nästan lika stor. stik för modellval och prediktion p.39/4 Statistik för modellval och prediktion p.4/4

Allmän princip vid stora stickprov Ett 95% konfidensområde för en r-dimensionell parameter θ med ML-skattningen θ, dvs l n ( θ) = max θ l n (θ), är de värden på θ som gör l n ( θ) 1.9 om r = 1 l n (θ) > l n ( θ) 3. om r = l n ( θ) 3.9 om r = 3 Exempel på likelihood-konfidensintervall I exemplet med normalfördelning blir konfidensområdena för m med 95%, 99%, 99.9% konfidens: 46 48 5 5 95% 99% 99.9% l n (m) 54 56 m* 58 3 3.5 4 4.5 5 5.5 stik för modellval och prediktion p.41/4 Statistik för modellval och prediktion p.4/4