SF1901 Sannolikhetsteori och statistik I

Relevanta dokument
SF1901 Sannolikhetsteori och statistik I

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 8: Konfidensintervall

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat. Jan Grandell & Timo Koski

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 11: Mer om jämförelser och inferens

SF1901 Sannolikhetsteori och statistik I

Föreläsning 12: Repetition

MVE051/MSG Föreläsning 7

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Punktskattning 1 Ett exempel

SF1901: Medelfel, felfortplantning

Härledning av Black-Littermans formel mha allmänna linjära modellen

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

Matematisk statistik KTH. Formelsamling i matematisk statistik

Thomas Önskog 28/

Lufttorkat trä Ugnstorkat trä

Avd. Matematisk statistik

Föreläsning 7. Statistikens grunder.

Tentamen MVE301 Sannolikhet, statistik och risk

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Kapitel 9 Egenskaper hos punktskattare

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

FÖRELÄSNING 8:

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen MVE300 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

f(x) = 2 x2, 1 < x < 2.

SF1901 Sannolikhetsteori och statistik I

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 7: Punktskattningar

Jörgen Säve-Söderbergh

Repetitionsföreläsning

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

4 Diskret stokastisk variabel

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

SF1901 Föreläsning 14: Felfortplantning, medelfel, Gauss approximation, bootstrap

7.5 Experiment with a single factor having more than two levels

Matematisk statistik för B, K, N, BME och Kemister

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Matematisk statistik för B, K, N, BME och Kemister

TMS136. Föreläsning 7

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: Sannolikhetslära och statistik

SF1901 Sannolikhetsteori och statistik I

Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 17 August 2015, 8:00-12:00. English Version

TMS136. Föreläsning 10

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Föreläsning 7: Punktskattningar

Teoretisk statistik. Gunnar Englund Matematisk statistik KTH. Vt 2005

Avd. Matematisk statistik

SF1901: Sannolikhetslära och statistik

Grundläggande matematisk statistik

Statistiska metoder för säkerhetsanalys

Tentamen MVE301 Sannolikhet, statistik och risk

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

9. Konfidensintervall vid normalfördelning

Tentamen MVE302 Sannolikhet och statistik

Matematisk statistik TMS064/TMS063 Tentamen

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Avd. Matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

FÖRELÄSNING 7:

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Föreläsning 11, FMSF45 Konfidensintervall

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 7: Punktskattningar

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Föreläsning 12: Regression

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Enkel och multipel linjär regression

TAMS65 - Föreläsning 6 Hypotesprövning

Tentamen MVE302 Sannolikhet och statistik

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Avd. Matematisk statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TMS136. Föreläsning 4

TAMS65 - Föreläsning 6 Hypotesprövning

Measuring child participation in immunization registries: two national surveys, 2001

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Transkript:

SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 9 25 november 2016 1 / 32

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 2 / 32

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 3 / 32

Statistisk inferens: data kunskap Inference is the problem of turning data into knowledge, where knowledge often is expressed in terms of entities that are not present in the data per se but are present in models that one uses to interpret the data. Committee on the Analysis of Massive Data: Frontiers in Massive Data Analysis. The National Academies Press, Washington D.C., 2013, sid. 3. 4 / 32

Exempel: opinionsundersökning Ett antal personer, säg 1000 st, väljes på måfå ur en stor population (t.ex. Sveriges befolkning). En fråga (rörande t.ex. monarkins vara eller icke vara eller medlemskap i Nato), som skall besvaras med ja eller nej, ställs med resultatet att x = 350 personer svarar ja. Vi vill uppskatta andelen ja -svarare p i hela populationen. 5 / 32

Exempel: the German tank problem During World War II, British and U.S. statisticians working for military intelligence were keenly interested in estimating German war production (especially the production of Panzerkampfwagen V, Panther), but could hardly ask the German factories to send them reports. Instead, they based their estimates on the manufacturing serial numbers of captured equipment (especially the tank gearboxes). These numbers ({1, 2, 3,... }) were consecutive and did not vary (as this was rational in terms of maintenance and spare parts). These serial numbers provided a sample that was very small, but reliable. Utmaningen består i att skatta det totala antalet tyska stridsvagnar av denna typ. 6 / 32

Inferensproblemet Vi antar att vi har tillgång till uppmätta värden x 1, x 2,..., x n. Denna mätdata kan ses som utfall av s.v. X 1, X 2,..., X n, vilkas fördelning (diskret eller kontinuerlig) beror av en ev. flerdimensionell okänd parameter θ. Mängden av möjliga parametrar, parameterrummet, betecknas Ω θ. Vi vill skatta θ med hjälp av mätdatan. 7 / 32

Exempel: opinionsundersökning (forts.) Statistisk modell: det uppmätta antalet ja -sägare x = 350 kan ses som ett utfall (observation) av där p är okänt. X Hyp(9743087, 1000, p), Då n/n = 1000/9743087 0.1 kan vi med gott samvete bortse från det faktum att vi väljer personer utan återläggning och approximera hypergeometriska fördelningen med en binomialfördelning, dvs. anta att x = 350 är en observation av X Bin(1000, p). Befolkningsmängd i Sverige den 30 nov 2014 enligt SCB. 8 / 32

Exempel: the German tank problem (forts.) Statistisk modell: varje upphittat serienummer x i, i = 1,..., n, ses, något förenklat, som ett utfall av en s.v. X i med likformig fördelning över mängden {1,..., θ}, där θ är det okända antalet pansarvagnar. De olika X i :na kan anses vara oberoende. 9 / 32

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 10 / 32

Punktskattning Vi vill skatta den okända parametern θ med hjälp av en funktion av data. Följande definition är viktig. Definition En punktskattning av en parameter θ är en funktion θ som för varje uppsättning mätdata x 1, x 2,..., x n ordnar ett värde i Ω θ. Detta värde betecknas θ obs = θ (x 1, x 2,..., x n ). Då mätdata ses som utfall av s.v. X 1, X 2,..., X n är θ obs ett utfall observation av stickprovsvariabeln θ (X 1, X 2,..., X n ). Den senare betecknas ofta θ för enkelhets skull. 11 / 32

Punktskattning (forts.) Det gäller alltså att θ obs är en observation av den s.v. θ (X 1, X 2,..., X n ) = θ. Om ny mätdata samlas in ses denna som ett nytt utfall av X 1, X 2,..., X n, vilket i sin tur leder till ett nytt utfall θ obs av θ. Skattningens osäkerhet beror på hur θ varierar kring θ, och att bestämma fördelningen för θ är sålunda en viktig (och ibland svår) uppgift. 12 / 32

Väntevärdesriktighet Det är givetvis önskvärt att fördelningen för θ inte har något systematiskt fel. Detta kan formaliseras med hjälp av följande definition. Definition En punktskattning sägs vara väntevärdesriktig om E(θ ) = θ oavsett värdet på den okända parametern θ Ω θ. 13 / 32

Konsistens Ju fler mätningar (information) vi har tillgång till, desto bättre kan vi förvänta oss att den okända parametern kan skattas. För n mätdata betecknar vi nu stickprovsvariabeln med θ n. Fördelningen för θ n bör sålunda koncentreras mer och mer kring θ när n ökar. Detta kan formaliseras med hjälp av följande definition. Definition Om för varje θ Ω θ och för varje givet (litet) ε > 0, P( θ n θ ε) 0 då stickprovsstorleken n, sägs punktskattningen vara konsistent. 14 / 32

Intermezzo: Markovs olikhet I samband med konsistensundersökningar är följande enkla olikhet användbar. Sats (Markovs olikhet) Låt X vara en icke-negativ s.v. Då gäller för varje fixt ε > 0, P(X ε) 1 E(X ). ε Markovs olikhet implicerar direkt Tjebysjovs olikhet (som finns i formelsamlingen). Genom att tillämpa Markovs olikhet på X p, för p 0, får man även P(X ε) = P(X p ε p ) 1 ε p E(X p ). 15 / 32

Opinionsundersökning (forts.) Då vi vill skatta en andel p är punktskattningen rimlig. p obs = p (x) = x n = 350 1000 = 0.35. Denna skattning är väntevärdesriktig, ty då X Bin(1000, p) gäller att ( ) X E(p ) = E(p (X )) = E = E(X ) 1000 1000 = 1000p 1000 = p. 16 / 32

Opinionsundersökning (forts.) För ett godtyckligt n ges skattningens varians av ( ) X V(pn) = V = 1 np(1 p) V(X ) = n n2 n 2 = p(1 p). n Detta medför att skattningen även är konsistent, ty Markovs olikhet ger för varje fixt ε > 0, P( p n p ε) 1 ε 2 E( p n p 2 ) = 1 ε 2 V(p n) = där högerledet går mot noll då n. p(1 p) nε 2, Alltså, ju fler personer vi frågar, desto mer koncentrerad blir skattningen kring den okända andelen p! 17 / 32

Medelkvadratfel Ett annat sätt att beskriva hur koncentrerad θ är kring θ är följande. Definition Medelkvadratfelet (MSE, Mean Square Error) för en punktskattning är MSE = E({θ θ} 2 ). Man visar enkelt (övning!) att MSE = V(θ ) + {E(θ ) θ} 2. Termen E(θ ) θ kallas systematiskt fel eller bias och är noll om skattningen är väntevärdesriktig. I det senare fallet är alltså MSE = V(θ ). 18 / 32

Effektivitet Definition Om två olika skattningar θ och ˆθ är väntevärdesriktiga och det gäller att V(θ ) V(ˆθ ) för alla θ Ω θ (med sträng olikhet för något θ) sägs θ vara effektivare on ˆθ. En väntevärdesriktig skattning med liten varians är helt enkelt bättre! 19 / 32

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 20 / 32

Skattning av väntevärde och varians Låt mätdata x 1, x 2,..., x n vara observationer av oberoende s.v. X 1, X 2,..., X n från någon fördelning med väntevärde µ och varians σ 2, dvs. för alla i gäller att E(X i ) = µ, V(X i ) = σ 2. Antag att vi vill skatta µ och σ 2 med hjälp av mätdata x 1, x 2,..., x n. Lämpliga skattningar visar sig vara stickprovsmedelvärdet resp. stickprovsvariansen µ obs = x = 1 n (σ 2 ) obs = 1 n 1 n x i, i=1 n (x i x) 2 not. = s 2. i=1 21 / 32

Skattning av väntevärde och varians (forts.) Normeringen 1/(n 1) istället för 1/n i s 2 gör stickprovsvariansen väntevärdesriktig. Ovan skattningar visar sig ha goda egenskaper: Sats Stickprovsmedelvärdet x och stickprovsvariansen s 2 är väntevärdesriktiga och konsistenta skattningar av µ resp. σ 2. Notera att dessa skattningar inte kräver kännedom om den gemensamma fördelningen för X i :na! 22 / 32

Idag Inferensproblemet Punktskattningar (Kap. 11.3) Skattning av väntevärde och varians (Kap. 11.4) Metoder för att ta fram skattningar (Kap. 11.5) 23 / 32

Maximum-likelihood-metoden Hittills har vi konstruerat skattningar ad hoc. Maximum-likelihood-metoden (ML-metoden) ger ett systematiskt tillvägagångssätt. Idé: välj det parametervärde som ger högst sannolikhet för den givna mätdatan! Definition Funktionen L(θ) = { p X1,...,X n (x 1,..., x n ; θ) f X1,...,X n (x 1,..., x n ; θ) kallas likelihood-funktionen (L-funktionen). (diskreta fallet), (kontinuerliga fallet), Funktionen ln L(θ) kallas log-likelihood-funktionen. 24 / 32

Maximum-likelihood-metoden (forts.) Notera att L(θ) beror på den observerade mätdatan. I det diskreta fallet är sålunda L(θ) precis sannolikheten att just mätdatan x 1, x 2,..., x n erhållas om θ vore modellparameter. Det kontinuerliga fallet kan tolkas analogt. Som skattning väljer vi sedan det parametervärde som maximerar L(θ). Definition Det värde θ obs för vilket L(θ) antar sitt största värde inom Ω θ kallas maximum-likelihood-skattningen (ML-skattningen) av θ. Ofta är det enklare att maximera log-likelihood-funktionen, vilken har samma maximum. 25 / 32

R. A. Fisher Figur: R. A. Fisher (1890 1962), a genius who almost single-handedly created the foundations for modern statistical science (A. Hald), the greatest biologist since Darwin (R. Dawkins). 26 / 32

Opinionsundersökning (forts.) Beräkna ML-skattningen av p! [ svar: p obs = x n = 350 ] 1000 = 0.35 27 / 32

Opinionsundersökning (forts.) 0 log likelihood function 50 100 log L(p) 150 200 250 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p Figur: Plot av log-likelihood-funktionen. 28 / 32

Exempel: the German tank problem (forts.) Statistisk modell: varje upphittat serienummer x i, i = 1,..., n, ses som ett utfall av en s.v. X i med likformig fördelning över mängden {1,..., θ}, där θ är det okända antalet pansarvagnar. De olika X i :na kan anses vara oberoende. Beräkna ML-skattningen av θ! [ svar: θ obs = max{x 1,..., x n }] 29 / 32

Exempel: the German tank problem (forts.) I detta fall är inte ML-skattningen väntevärdesriktig, ty E(θ ) = E(max{X 1,..., X n }) =... = n(θ + 1) n + 1, där högerledet dock är nära θ då n är stort. Dock kan vi enkelt korrigera skattningen genom att använda ˆθ obs = θ obs n + 1 n 1; denna korrigerade skattning väntevärdesriktig då E(ˆθ obs) = E(θ obs) n + 1 n 1 = n(θ + 1)(n + 1) (n + 1)n 1 = θ. 30 / 32

Exempel: the German tank problem (forts.) By using the previous estimator, statisticians reportedly estimated that the Germans produced 246 tanks per month between June 1940 and September 1942. At that time, standard intelligence estimates had believed that the number was at around 1400. After the war, the allied captured German production records of the Ministry, which was in charge of Germany s war production, showing that the true number of tanks produced in those three years was 245 per month, almost exactly what the statisticians had calculated, and less than one fifth of what standard intelligence had thought likely, and were more accurate and timely than Germany s own estimates. 31 / 32

Nästa föreläsning Mer om punktskattningar, konfidensintervall. 32 / 32