Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Föreläsning 1. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik 1MS026 vt 2014

Varför tillämpad statistik? Användningsområden i medicin, naturvetenskap och teknik: Beskriva Jämföra Förutsäga Vetenskaplig metod: 1. Idé: formulering av hypotes 2. Undersökning: test av hypotes 3. Slutsats: eventuell modifiering av hypotesen

Några olika steg 1. Vilken population skall studeras? Hur skall data samlas in? 2. Matematisk modell. Fördelningar, parametrar,... 3. Formulering av hypoteser uttryckt med hjälp av parametrar i modellen. 4. Bestämning av stickprovsstorlek (begreppet styrka). Insamling av data. 5. Analys av data. Användning av resultat från sannolikhetsoch statistikteori. 6. Kvalitetskontroll. Förutsättningar och antaganden? Enskilda obs., residualanalys, modellantaganden om fördelningar, oberoende,...

Exempel: Vintertemperaturer i Uppsala Vintertid i Uppsala.

Exempel: Vintertemperaturer i Uppsala Temperaturer för årets kallaste dag. Finns trend? Minimum daily temperature in Uppsala Temperature (C) 40 30 20 1850 1900 1950 2000 Year

Diskussion! Med tidigare kunskaper i matematik och statistik, hur kan man tackla frågan om eventuell trend i data?

Bysantinska silvermynt Silverhalt (% Ag) i bysantinska mynt funna på Cypern. Fyra olika präglingar vid olika tidpunkter i historien (första under Manuel I, 1143-1180). Signifikant skillnad i silverhalt? Ag 5 6 7 8 9 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Epok

Bysantinska silvermynt 5 6 7 8 9 1 2 3 4

Orsakssamband kausalitet Kausalitet Orsakssamband. Om det råder ett kausalt förhållande mellan A och B innebär det att A är orsak och B är verkan. [Nationalencyklopedin, NE] Kommer storken med barn?

Uppskattning av produktion Uppskattade samt verkliga produktionstal för tyska stridsvagnar under andra världskriget. Tidpunkt Statistiker Säkerhetstjänsten Verkligt antal juni 1940 169 1 000 122 juni 1941 244 1 550 271 aug 1942 327 1 550 342 Källa: Ruggles, R, Brodie, H (1947). An empirical approach to economic intelligence in World War II. Journal of the American Statistical Association 42, 72-91.

Parametrisk inferens Statistisk inferens: Induktiv vetenskap där man drar slutsatser ur empiriska data under en osäkerhet orsakad av slumpmässighet i data. Systematisk och slumpmässig variation i data beskrivs i en statistisk modell (t.ex. en regressionsmodell) med en eller flera okända parametrar. Val av modell för data hör också till inferensen, men är mindre principbundet än inferens rörande modellens parametrar. [Nationalencyklopedin, NE] Givet en viss fördelning, vilken parameter är av intresse? Finn en skattning från data (punktskattning) med hjälp av speciella metoder. Osäkerhet behäftad med punktskattningen. Kan preciseras med hjälp av konfidensintervall. Statistisk hypotesprövning: Skapa referensvariabel och finn dess fördelning, använd motsvarande testvariabel. Drag slutsatser.

Slumpmässigt stickprov Definition. Observationerna x 1, x 2,..., x n säges vara ett stickprov av storlek n från slumpvariabeln X med fördelningen F, om x 1 är en observation av X 1, x 2 en observation av X 2, osv., där slumpvariablerna X 1, X 2,..., X n alla har fördelningen F. Om variablerna X 1, X 2,..., X n dessutom är oberoende talar man om ett slumpmässigt stickprov från X (alt. från F ).

Skattning Betrakta en slumpvariabel X med fördelningen F (x; θ), där θ är en okänd parameter vilken tar värden i ett parameterrum Θ, säg. Definition. En skattning θ = θ (x) av θ är en funktion av stickprovet x. Skattningen, eller estimatet, är en observation av estimatorn θ (X). Estimatorns fördelning (exakt eller asymptotiskt) är av betydelse när statistisk slutledning genomförs.

Exempel: Vanliga situationer för skattning Diskreta fördelningar: En observation x från X Bin(n, p). Skattning av p: p = x/n. Estimator: p (X) = X /n. Kontinuerliga fördelningar: Stickprov x 1,..., x n från X N(µ, σ 2 ). Skattning av µ: µ = x = 1 n (x 1 + + x n ). Estimator: µ (X) = 1 n (X 1 + + X n ).

Egenskaper hos skattningar Felet hos en skattning kan delas upp i Systematiskt fel; skillnaden mellan estimatorns väntevärde och det korrekta värdet Slumpmässigt fel; skillnaden mellan skattningen och dess väntevärde Uppdelning: ˆθ θ = (E[ˆθ(X)] θ) }{{} + (ˆθ E[ˆθ(X)]) }{{} Systematiskt fel Slumpmässigt fel

Egenskaper hos skattningar Definition. En skattning säges vara väntevärdesriktig om den inte har något väntevärdesfel, dvs. om för alla θ Θ. E[θ (X)] = θ För en parameter kan finnas flera väntevärdesriktiga skattningar. Man studerar ytterligare egenskaper som konsistens, effektivitet osv. (ej ingående i denna kurs).

Exempel, väntevärdesriktighet Exempel 1. Betrakta den tidigare estimatorn p = X /n. För en binomialfördelad variabel Y Bin(n, p) gäller att E[Y ] = np. Det följer att E[p ] = E[X /n] = E[X ]/n = np/n = p, dvs. väntevärdesriktighet. Exempel 2. Betrakta estimatorn µ = X. För en normalfördelad variabel X N(µ, σ 2 ) gäller X N(µ, σ 2 /n). Det följer att dvs. väntevärdesriktighet. E[µ ] = E[ X ] = µ,

Medelfel Osäkerhet hos skattningen? En skattning av estimatorns standardavvikelse. Definition. Medelfelet för skattningen θ är en skattning av standardavvikelsen D[θ (X)] och betecknas d(θ ). Exempel 1. Skattning av väntevärde µ med µ = x (för normalfördelning). Medelfel? Exempel 2. Skattning av parametern p med hjälp av relativ frekvens, p = x/n. Medelfel? [Tavlan]

Skattning av p, översikt :-)

Momentmetoden Momentmetoden en av de äldsta systematiska metoderna för att skatta parametrar. Antag slumpmässigt stickprov. En parameter θ Sätt det teoretiska förstamomentet (väntevärdet), m(θ), lika med stickprovets första moment (medelvärdet), lös för θ: m(θ) = x = 1 n n i=1 x i

Momentmetoden Tvådimensionell parameter θ = (θ 1, θ 2 ) Utnyttja m 1 (θ 1, θ 2 ) = 1 n m 2 (θ 1, θ 2 ) = 1 n n x i = x, i=1 n xi 2. i=1 Lös för θ 1 och θ 2.

Exempel, modifierade momentmetoden Ofta används vid tvåparametrar en modifierad momentmetod; ekvationerna E[X ] = x och V[X ] = s 2 utnyttjas. Exempel. Gammafördelning (två parametrar). Låt x 1,..., x n vara ett slumpmässigt stickprov från en gammafördelad variabel X Γ(a, b). Skatta parametrarna a och b. [Tavlan]

Maximum likelihood-metoden Kasta ett häftstift 10 gånger. Spetsen upp inträffar 3 gånger. Hur kan vi uttala oss om sannolikheten θ för händelsen spets upp? Utgå från binomialfördelning, X Bin(10,θ). Man har t.ex. att P(X = 3) = 0.27 om θ = 0.3, P(X = 3) = 0.21 om θ = 0.4.

Maximum likelihood-metoden Likelihoodfunktion Låt x 1, x 2,..., x n vara ett slumpmässigt stickprov från variabeln X med fördelningen F (x; θ) där θ Θ. Likelihoodfunktionen: { n L(θ) = i=1 p(x i; θ) om X är diskret n i=1 f (x i; θ) om X är kontinuerlig Maximum likelihood-skattningen (ML-skattningen) av θ är det θ-värde som maximerar likelihoodfunktionen. Ofta studeras den s.k. loglikelihoodfunktionen l(θ) = ln L(θ) vilket ger enklare räkningar. Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society of London. Series A 222:309-368.

Ronald A. Fisher Ronald A. Fisher (1890-1962). Brittisk statistiker och genetiker.

ML-metoden: Häftstift Likelihoodfunktion för n = 10 och x = 3: L(theta) 0.00 0.05 0.10 0.15 0.20 0.25 0.0 0.2 0.4 0.6 0.8 1.0 theta

Exempel: ML-metoden Låt X Bin(5, θ). Observerat: x = 3. Likelihoodfunktion: ( ) 5 L(θ) = θ 3 (1 θ) 2, 0 θ 1 3 Sök maximum: d dθ L(θ) = 10θ2 (1 θ)(3 5θ) Nollställen: θ = 0, θ = 0.6, θ = 1. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.0 0.2 0.4 0.6 0.8 1.0 p

Exempel: ML-metoden, forts. Loglikelihoodfunktion: ln L(θ) = ln 10 + 3 ln θ + 2 ln(1 θ) Sök maximum: d dθ ln L(θ) = 3 θ 2 1 θ Nollställe: θ = 0.6. 10 8 6 4 2 0.0 0.2 0.4 0.6 0.8 1.0 p