Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Relevanta dokument
Föreläsning 7. Statistikens grunder.

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 8: Konfidensintervall

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 7: Punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 7: Punktskattningar

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 7: Punktskattningar

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 12: Regression

MVE051/MSG Föreläsning 7

SF1901 Sannolikhetsteori och statistik I

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

F3 Introduktion Stickprov

FÖRELÄSNING 7:

F9 Konfidensintervall

Kapitel 9 Egenskaper hos punktskattare

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning G60 Statistiska metoder

Repetitionsföreläsning

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Matematisk statistik för B, K, N, BME och Kemister

FÖRELÄSNING 8:

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Föreläsning 12: Linjär regression

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Föreläsning 11, Matematisk statistik Π + E

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Mer om konfidensintervall + repetition

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 3. Sannolikhetsfördelningar

Samplingfördelningar 1

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Matematisk statistik för B, K, N, BME och Kemister

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Föreläsning 12: Repetition

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsningsanteckningar till kapitel 8, del 2

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

f(x) = 2 x2, 1 < x < 2.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Avd. Matematisk statistik

Formel- och tabellsamling i matematisk statistik

Föreläsning 5: Hypotesprövningar

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Statistik 1 för biologer, logopeder och psykologer

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Några extra övningsuppgifter i Statistisk teori

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning 5. Kapitel 6, sid Inferens om en population

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 11, FMSF45 Konfidensintervall

4.1 Grundläggande sannolikhetslära

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

F10 Problemlösning och mer om konfidensintervall

Statistik 1 för biologer, logopeder och psykologer

SF1901: Medelfel, felfortplantning

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Thomas Önskog 28/

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Lufttorkat trä Ugnstorkat trä

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Matematisk statistik för D, I, Π och Fysiker

Tentamen i Matematisk statistik Kurskod S0001M

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Avd. Matematisk statistik

Kapitel 10 Hypotesprövning

SF1901 Sannolikhetsteori och statistik I

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

Avd. Matematisk statistik

TMS136. Föreläsning 11

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Transkript:

Föreläsning 1. Jesper Rydén Matematiska institutionen, Uppsala universitet jesper@math.uu.se Tillämpad statistik 1MS026 vt 2014

Varför tillämpad statistik? Användningsområden i medicin, naturvetenskap och teknik: Beskriva Jämföra Förutsäga Vetenskaplig metod: 1. Idé: formulering av hypotes 2. Undersökning: test av hypotes 3. Slutsats: eventuell modifiering av hypotesen

Några olika steg 1. Vilken population skall studeras? Hur skall data samlas in? 2. Matematisk modell. Fördelningar, parametrar,... 3. Formulering av hypoteser uttryckt med hjälp av parametrar i modellen. 4. Bestämning av stickprovsstorlek (begreppet styrka). Insamling av data. 5. Analys av data. Användning av resultat från sannolikhetsoch statistikteori. 6. Kvalitetskontroll. Förutsättningar och antaganden? Enskilda obs., residualanalys, modellantaganden om fördelningar, oberoende,...

Exempel: Vintertemperaturer i Uppsala Vintertid i Uppsala.

Exempel: Vintertemperaturer i Uppsala Temperaturer för årets kallaste dag. Finns trend? Minimum daily temperature in Uppsala Temperature (C) 40 30 20 1850 1900 1950 2000 Year

Diskussion! Med tidigare kunskaper i matematik och statistik, hur kan man tackla frågan om eventuell trend i data?

Bysantinska silvermynt Silverhalt (% Ag) i bysantinska mynt funna på Cypern. Fyra olika präglingar vid olika tidpunkter i historien (första under Manuel I, 1143-1180). Signifikant skillnad i silverhalt? Ag 5 6 7 8 9 1.0 1.5 2.0 2.5 3.0 3.5 4.0 Epok

Bysantinska silvermynt 5 6 7 8 9 1 2 3 4

Orsakssamband kausalitet Kausalitet Orsakssamband. Om det råder ett kausalt förhållande mellan A och B innebär det att A är orsak och B är verkan. [Nationalencyklopedin, NE] Kommer storken med barn?

Uppskattning av produktion Uppskattade samt verkliga produktionstal för tyska stridsvagnar under andra världskriget. Tidpunkt Statistiker Säkerhetstjänsten Verkligt antal juni 1940 169 1 000 122 juni 1941 244 1 550 271 aug 1942 327 1 550 342 Källa: Ruggles, R, Brodie, H (1947). An empirical approach to economic intelligence in World War II. Journal of the American Statistical Association 42, 72-91.

Parametrisk inferens Statistisk inferens: Induktiv vetenskap där man drar slutsatser ur empiriska data under en osäkerhet orsakad av slumpmässighet i data. Systematisk och slumpmässig variation i data beskrivs i en statistisk modell (t.ex. en regressionsmodell) med en eller flera okända parametrar. Val av modell för data hör också till inferensen, men är mindre principbundet än inferens rörande modellens parametrar. [Nationalencyklopedin, NE] Givet en viss fördelning, vilken parameter är av intresse? Finn en skattning från data (punktskattning) med hjälp av speciella metoder. Osäkerhet behäftad med punktskattningen. Kan preciseras med hjälp av konfidensintervall. Statistisk hypotesprövning: Skapa referensvariabel och finn dess fördelning, använd motsvarande testvariabel. Drag slutsatser.

Slumpmässigt stickprov Definition. Observationerna x 1, x 2,..., x n säges vara ett stickprov av storlek n från slumpvariabeln X med fördelningen F, om x 1 är en observation av X 1, x 2 en observation av X 2, osv., där slumpvariablerna X 1, X 2,..., X n alla har fördelningen F. Om variablerna X 1, X 2,..., X n dessutom är oberoende talar man om ett slumpmässigt stickprov från X (alt. från F ).

Skattning Betrakta en slumpvariabel X med fördelningen F (x; θ), där θ är en okänd parameter vilken tar värden i ett parameterrum Θ, säg. Definition. En skattning θ = θ (x) av θ är en funktion av stickprovet x. Skattningen, eller estimatet, är en observation av estimatorn θ (X). Estimatorns fördelning (exakt eller asymptotiskt) är av betydelse när statistisk slutledning genomförs.

Exempel: Vanliga situationer för skattning Diskreta fördelningar: En observation x från X Bin(n, p). Skattning av p: p = x/n. Estimator: p (X) = X /n. Kontinuerliga fördelningar: Stickprov x 1,..., x n från X N(µ, σ 2 ). Skattning av µ: µ = x = 1 n (x 1 + + x n ). Estimator: µ (X) = 1 n (X 1 + + X n ).

Egenskaper hos skattningar Felet hos en skattning kan delas upp i Systematiskt fel; skillnaden mellan estimatorns väntevärde och det korrekta värdet Slumpmässigt fel; skillnaden mellan skattningen och dess väntevärde Uppdelning: ˆθ θ = (E[ˆθ(X)] θ) }{{} + (ˆθ E[ˆθ(X)]) }{{} Systematiskt fel Slumpmässigt fel

Egenskaper hos skattningar Definition. En skattning säges vara väntevärdesriktig om den inte har något väntevärdesfel, dvs. om för alla θ Θ. E[θ (X)] = θ För en parameter kan finnas flera väntevärdesriktiga skattningar. Man studerar ytterligare egenskaper som konsistens, effektivitet osv. (ej ingående i denna kurs).

Exempel, väntevärdesriktighet Exempel 1. Betrakta den tidigare estimatorn p = X /n. För en binomialfördelad variabel Y Bin(n, p) gäller att E[Y ] = np. Det följer att E[p ] = E[X /n] = E[X ]/n = np/n = p, dvs. väntevärdesriktighet. Exempel 2. Betrakta estimatorn µ = X. För en normalfördelad variabel X N(µ, σ 2 ) gäller X N(µ, σ 2 /n). Det följer att dvs. väntevärdesriktighet. E[µ ] = E[ X ] = µ,

Medelfel Osäkerhet hos skattningen? En skattning av estimatorns standardavvikelse. Definition. Medelfelet för skattningen θ är en skattning av standardavvikelsen D[θ (X)] och betecknas d(θ ). Exempel 1. Skattning av väntevärde µ med µ = x (för normalfördelning). Medelfel? Exempel 2. Skattning av parametern p med hjälp av relativ frekvens, p = x/n. Medelfel? [Tavlan]

Skattning av p, översikt :-)

Momentmetoden Momentmetoden en av de äldsta systematiska metoderna för att skatta parametrar. Antag slumpmässigt stickprov. En parameter θ Sätt det teoretiska förstamomentet (väntevärdet), m(θ), lika med stickprovets första moment (medelvärdet), lös för θ: m(θ) = x = 1 n n i=1 x i

Momentmetoden Tvådimensionell parameter θ = (θ 1, θ 2 ) Utnyttja m 1 (θ 1, θ 2 ) = 1 n m 2 (θ 1, θ 2 ) = 1 n n x i = x, i=1 n xi 2. i=1 Lös för θ 1 och θ 2.

Exempel, modifierade momentmetoden Ofta används vid tvåparametrar en modifierad momentmetod; ekvationerna E[X ] = x och V[X ] = s 2 utnyttjas. Exempel. Gammafördelning (två parametrar). Låt x 1,..., x n vara ett slumpmässigt stickprov från en gammafördelad variabel X Γ(a, b). Skatta parametrarna a och b. [Tavlan]

Maximum likelihood-metoden Kasta ett häftstift 10 gånger. Spetsen upp inträffar 3 gånger. Hur kan vi uttala oss om sannolikheten θ för händelsen spets upp? Utgå från binomialfördelning, X Bin(10,θ). Man har t.ex. att P(X = 3) = 0.27 om θ = 0.3, P(X = 3) = 0.21 om θ = 0.4.

Maximum likelihood-metoden Likelihoodfunktion Låt x 1, x 2,..., x n vara ett slumpmässigt stickprov från variabeln X med fördelningen F (x; θ) där θ Θ. Likelihoodfunktionen: { n L(θ) = i=1 p(x i; θ) om X är diskret n i=1 f (x i; θ) om X är kontinuerlig Maximum likelihood-skattningen (ML-skattningen) av θ är det θ-värde som maximerar likelihoodfunktionen. Ofta studeras den s.k. loglikelihoodfunktionen l(θ) = ln L(θ) vilket ger enklare räkningar. Fisher, R.A. (1922). On the mathematical foundations of theoretical statistics. Philosophical Transactions of the Royal Society of London. Series A 222:309-368.

Ronald A. Fisher Ronald A. Fisher (1890-1962). Brittisk statistiker och genetiker.

ML-metoden: Häftstift Likelihoodfunktion för n = 10 och x = 3: L(theta) 0.00 0.05 0.10 0.15 0.20 0.25 0.0 0.2 0.4 0.6 0.8 1.0 theta

Exempel: ML-metoden Låt X Bin(5, θ). Observerat: x = 3. Likelihoodfunktion: ( ) 5 L(θ) = θ 3 (1 θ) 2, 0 θ 1 3 Sök maximum: d dθ L(θ) = 10θ2 (1 θ)(3 5θ) Nollställen: θ = 0, θ = 0.6, θ = 1. 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.0 0.2 0.4 0.6 0.8 1.0 p

Exempel: ML-metoden, forts. Loglikelihoodfunktion: ln L(θ) = ln 10 + 3 ln θ + 2 ln(1 θ) Sök maximum: d dθ ln L(θ) = 3 θ 2 1 θ Nollställe: θ = 0.6. 10 8 6 4 2 0.0 0.2 0.4 0.6 0.8 1.0 p