SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

Relevanta dokument
SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat. Jan Grandell & Timo Koski

SF1901 Sannolikhetsteori och statistik I

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik

SF1901 Sannolikhetsteori och statistik I

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

f(x) = 2 x2, 1 < x < 2.

SF1901: Medelfel, felfortplantning

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Avd. Matematisk statistik

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

SF1901 Föreläsning 14: Felfortplantning, medelfel, Gauss approximation, bootstrap

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Punktskattning 1 Ett exempel

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

SF1901: Sannolikhetslära och statistik. Mer om Approximationer

Föreläsning 8: Konfidensintervall

Matematisk statistik för D, I, Π och Fysiker

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Avd. Matematisk statistik

SF1901: Sannolikhetslära och statistik

Föreläsning 7. Statistikens grunder.

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Teoretisk statistik. Gunnar Englund Matematisk statistik KTH. Vt 2005

SF1901: Sannolikhetslära och statistik

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

0 om x < 0, F X (x) = c x. 1 om x 2.

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Kurskod: TAMS28 MATEMATISK STATISTIK Provkod: TEN1 05 June 2017, 14:00-18:00. English Version

SF1901: Sannolikhetslära och statistik

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Avd. Matematisk statistik

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Thomas Önskog 28/

Föreläsning 11, FMSF45 Konfidensintervall

Kapitel 9 Egenskaper hos punktskattare

Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

SF1901: Sannolikhetslära och statistik

Avd. Matematisk statistik

9. Konfidensintervall vid normalfördelning

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Föreläsning 11, Matematisk statistik Π + E

Uppgift 1 P (A B) + P (B A) = 2 3. b) X är en diskret stokastisk variabel, som har de positiva hela talen som värden. Vi har. k s

SF1901: Sannolikhetslära och statistik

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Avd. Matematisk statistik

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Grundläggande matematisk statistik

Lufttorkat trä Ugnstorkat trä

Härledning av Black-Littermans formel mha allmänna linjära modellen

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Föreläsning 7: Punktskattningar

, för 0 < x < θ; Uppgift 2

Uppgift 1. f(x) = 2x om 0 x 1

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Lektionsanteckningar 11-12: Normalfördelningen

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 4: Konfidensintervall (forts.)

Matematisk statistik för D, I, Π och Fysiker

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

SF1901 Sannolikhetsteori och statistik I

MATEMATISK STATISTIK AK FÖR F, E, D, I, C, Π; FMS 012 FÖRELÄSNINGSANTECKNINGAR I

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsning 7: Punktskattningar

SF1901: Sannolikhetslära och statistik

MVE051/MSG Föreläsning 7

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Föreläsningsanteckningar i Matematisk Statistik. Jan Grandell

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Kapitel 10 Hypotesprövning

Föreläsning 12: Linjär regression

F9 SAMPLINGFÖRDELNINGAR (NCT

Uppgift 1 Andrej och Harald roar sig med en standardkortlek med 52 kort uppdelade på fyra färger (spader, klöver, hjärter och ruter).

Matematisk statistik för B, K, N, BME och Kemister

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Föreläsning 12: Repetition

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Avd. Matematisk statistik

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Föreläsning 11: Mer om jämförelser och inferens

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Transkript:

SF1901: Sannolikhetslära och statistik Föreläsning 7. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat Jan Grandell & Timo Koski 22.09.2008 Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 1 / 48

Sammanfattning Vi inleder med några exempel på statistiska inferensproblem (inferens= slutledning): Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 2 / 48

Sammanfattning Vi inleder med några exempel på statistiska inferensproblem (inferens= slutledning): opinionsundersökning Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 2 / 48

Sammanfattning Vi inleder med några exempel på statistiska inferensproblem (inferens= slutledning): opinionsundersökning serienummerproblemet även känt som the German tank problem. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 2 / 48

Sammanfattning Vi inleder med några exempel på statistiska inferensproblem (inferens= slutledning): opinionsundersökning serienummerproblemet även känt som the German tank problem. mätvärden med brus Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 2 / 48

Sammanfattning Vi inleder med några exempel på statistiska inferensproblem (inferens= slutledning): opinionsundersökning serienummerproblemet även känt som the German tank problem. mätvärden med brus Sedan definierar vi begrepp som punktskattning och stickprovsvariabel, och inför krav på deras prestanda. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 2 / 48

Sammanfattning Vi inleder med några exempel på statistiska inferensproblem (inferens= slutledning): opinionsundersökning serienummerproblemet även känt som the German tank problem. mätvärden med brus Sedan definierar vi begrepp som punktskattning och stickprovsvariabel, och inför krav på deras prestanda. Vi inför två systematiska metoder för systematisk konstruktion av punktskattningar: maximum-likelihood och minsta kvadrat och ger exempel därpå. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 2 / 48

Inledande om opinionsundersökning: punktskattning Vi väljer 1000 personer ur en stor population (t.ex. Sveriges befolkning). De ska svara JA eller NEJ till en fråga (t.ex. om medlemskap i militäralliansen NATO). Ponera nu att x = 350 svarat JA Vi vill veta proportionen JA-sägare i HELA populationen, dvs. punktskatta proportionen JA-sägare i HELA populationen. En skattning av av p: p obs = x 1000 p obs = 35% Hur stor är osäkerheten i denna skattning? Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 3 / 48

Inledande diskussion: modell för skattning pobs = x 1000 = 0.35. Hur stor är osäkerheten i denna skattning? Vi använder oss av en sannolikhetsmodell. URNMODELL: p = andelen JA-svar i populationen. X = antalet JA-svar när vi frågar 1000 individer. N = populationens storlek, t.ex. N = 7,3 miljoner svenskar över 15 år (enligt SCB var Sveriges befolkning 9 182 927 invånare på nyårsafton 2007) 1. Vi har att X Hyp(N, 1000, p) 1 http://www.scb.se/templates/pressinfo 227515.asp Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 4 / 48

Inledande diskussion: modell för skattning Vi återkallar i minnet Sats Om X är Hyp(N, n, p)-fördelad med n/n 0.1 så är X approximativt Bin(n, p)-fördelad. Då kan vi utan stor förlust ta X Bin(1000, p) Vi uppfattar x = 350 som ett utfall av X. Vi kallar p = X 1000 en stickprovsvariabel. pobs = x 1000 = 0.35 är ett utfall av p Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 5 / 48

Inledande diskussion: modell för skattning X Bin(1000, p) Vi vet att E (X) = 1000 p, V (X) = 1000 p (1 p). Detta ger ( ) X E (p ) = E = 1 1000 1000 E (X) = 1 1000 p = p. 1000 ( ) X V (p ) = V = 1 1000 1000 2 V (X) = 1 p(1 p) 1000 p(1 p) = 10002 1000. Svårigheten är att de ovanstående uttrycken beror på den okända (parameter ) p som vi vill skatta! Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 6 / 48

Inledande diskussion: medelfelet för skattning E (p ) = p, V (p p(1 p) ) = 1000. D (p ) = p(1 p) V (p ) = 1000 Vår skattning av osäkerhet i skattningen är då medelfelet d (p ) = p obs (1 p obs ) 1000 = 0.35(1 0.35) 1000 0.0015 = 1.5% Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 7 / 48

German tank problem (1) During World War II, the Germans tried to make a complete tabulation of how much they were producing, but reports from individual factories were often late and not always reliable. British and U.S. statisticians working for military intelligence were keenly interested in estimating German war production (especially the production of Mark V German tanks (Panther)), too, but they could hardly ask the German factories to send them reports. Instead, they based their estimates on the manufacturing serial numbers of captured equipment (specifically the tank gearboxes). These numbers were consecutive and didn t vary - because that was a rational system in terms of maintenance and spare parts. These serial numbers provided a sample that was very small, but reliable. The challenge is to choose a good estimator for the total number of tanks. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 8 / 48

German tank problem (2) Detta är även känt som the serial number problem. Vi kan renodla det enligt följande: Någon har levererat oss heltalen x 1, x 2,..., x n, som är slumpmässiga stickprov från mängden av heltal där N är okänt. {1, 2, 3,..., N} Uppgiften (uppgiften för statistisk inferens) är att skatta N på basis av x 1, x 2,..., x n. (forts.) Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 9 / 48

Statistisk inferens: f.d. sannolikhetsbevis http://runeberg.org/nfcd/0387.html Nordisk familjebok / Uggleupplagan. 24. Ryssläder - Sekretär, sid. 725-726 (1916) Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 10 / 48

Statistisk inferens: f.d. sannolikhetsbevis I Nordisk familjebok (1916) avses med ett induktionsbevis en utsaga om en egenskap hos en hel population som baserar sig på ett studium av en (kanske relativt liten) del av populationen. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 11 / 48

Punktskattning: ett inferensproblem till Exempel På en laboration vill man bestämma den fysikaliska konstanten µ. Vi gör upprepade mätningar av µ t.ex. och erhåller följande mätvärden: mätvärde = µ+ slumpmässigt mätfel x 1, x 2,..., x n Problem Hur skall vi skatta µ så bra som möjligt. Här liksom i de föregående två exemplen arbetar vi med punktskattning (till skillnad från intervallskattning som kommer att presenteras längre fram i kursen). Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 12 / 48

Punktskattning Modell Vi uppfattar mätvärdena som utfall av n st. oberoende och lika fördelade s.v. X 1, X 2,..., X n med E(X i ) = µ och V (X i ) = σ 2. En punktskattning µ obs av µ är en funktion av mätvärdena: µ obs = µ (x 1,..., x n ). Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 13 / 48

Punktskattning Modell När vill vill analysera en skattning ersätter vi observationerna med de underliggande stokastiska variablerna. Vi säger då att är en stickprovsvariabel. µ = µ (X 1,..., X n ) Stickprovsvariabeln är själv en stokastisk variabel, vars fördelning beror av fördelningen för X 1, X 2,..., X n och därmed av µ. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 14 / 48

Punktskattning Modell Om vi inte använder någon statistisk teori så väljer vi antagligen µ obs = x = 1 n x i. För motsvarande stickprovsvariabel µ = X gäller (liksom tidigare konstaterats) att E(µ ) = E(X) = µ och V (µ ) = V (X) = σ 2 /n. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 15 / 48

Allmänt Vi har en uppsättning data x 1, x 2,..., x n som ses som utfall av s.v. X 1, X 2,..., X n. Dessa variabler antages vara oberoende och likafördelade och deras gemensamma fördelning beror av en okänd parameter θ, t.ex. N(θ, σ), Po(θ), N(θ 1, θ 2 ), osv. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 16 / 48

Allmänt En punktskattning θ obs av θ är en funktion θ (x 1,..., x n ) Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 17 / 48

Allmänt En punktskattning θ obs av θ är en funktion θ (x 1,..., x n ) och motsvarande stickprovsvariabel θ är θ (X 1,..., X n ) Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 17 / 48

Allmänt En punktskattning θ obs av θ är en funktion θ (x 1,..., x n ) och motsvarande stickprovsvariabel θ är θ (X 1,..., X n ) Exemplet ovan: är en punktskattning. p = är motsvarande stickprovsvariabel. p obs = 350 1000 = 0.35 X, X Bin(1000, p) 1000 Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 17 / 48

Vad menas med en bra skattning? Vi ger tre kriterier: Definition 1) En punktskattning θobs av θ är väntevärdesriktig om E(θ (X 1,..., X n )) = θ. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 18 / 48

Vad menas med en bra skattning? Vi ger tre kriterier: Definition 1) En punktskattning θobs av θ är väntevärdesriktig om E(θ (X 1,..., X n )) = θ. 2) En punktskattning θobs av θ är konsistent om P( θ (X 1,..., X n ) θ > ε) 0 då n. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 18 / 48

Vad menas med en bra skattning? Vi ger tre kriterier: Definition 1) En punktskattning θobs av θ är väntevärdesriktig om E(θ (X 1,..., X n )) = θ. 2) En punktskattning θobs av θ är konsistent om P( θ (X 1,..., X n ) θ > ε) 0 då n. 3) Om θobs och θ obs är väntevärdesriktiga skattningar av θ så säger man att θobs är effektivare än θ obs om V (θ (X 1,..., X n )) < V (θ (X 1,..., X n )). Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 18 / 48

Proportionen JA-sägare X Bin(1000, p) p = X 1000, E (p ) = p. Således är pobs väntevärdesriktig. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 19 / 48

Skattning av väntevärdet µ Sats Stickprovsmedelvärdet x = 1 n n i=1 x i som skattning av väntevärdet µ är 1) Väntevärdesriktig; 2) Konsistent; 3) Ej nödvändigtvis effektiv, dvs. den effektivaste möjliga skattningen. Bevis. 1) E(X) = µ. 2) V (X) = σ 2 /n och stora talens lag gäller. 3) Det finns motexempel (den intresserade hänvisas till Blom et al.) Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 20 / 48

Skattning av σ 2 Sats Stickprovsvariansen s 2 = 1 n 1 n i=1 (x i x) 2 som skattning av σ 2 är 1) Väntevärdesriktig; 2) Konsistent; 3) Ej nödvändigtvis effektiv. 1) används ofta som motivering för att man dividerar med n 1, men det är en dålig motivering, eftersom man oftast vill skatta σ. s som skattning av σ är dock ej väntevärdesriktig. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 21 / 48

Maximum-likelihood-metoden: Likelihoodfunktion Antag att X i har täthetsfunktionen f X (x, θ), θ okänd. Vi ska nu studera en systematisk metod att hitta skattningar. Idén är att skatta θ så att utfallet blir så troligt som möjligt. Definition kallas Likelihood-funktionen. L(θ) = f X1 (x 1, θ) f Xn (x n, θ) Observera att likelihoodfunktionen betraktas som en funktion av θ, inte av x 1,..., x n. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 22 / 48

Maximum-likelihood-metoden: Diskreta fallet Antag att X i har sannolikhetsfunktionen p X (x, θ), θ okänd. kallas Likelihood-funktionen. L(θ) = p X1 (x 1, θ) p Xn (x n, θ) Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 23 / 48

Maximum-likelihood-metoden Det diskreta fallet: L(θ) = p X1 (x 1, θ) p Xn (x n, θ) Definition Det värde θobs för vilket L(θ) antar sitt största värde kallas ML-skattningen av θ. Den grundläggande tanken: vi väljer ett θobs de observerade data blir maximal. sådant att sannolikheten för Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 24 / 48

Maximum-likelihood-metoden L(θ) = f X1 (x 1, θ) f Xn (x n, θ) Definition Det värde θobs för vilket L(θ) antar sitt största värde kallas ML-skattningen av θ. För stora stickprov är denna skattning i allmänhet mycket bra. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 25 / 48

Maximum-likelihood-metoden för Bin(1000, p) Låt oss återkalla i minnet den inledande diskussionen om skattning av proportionen JA-sägare i en stor population. Vi har observerat x = 350 och tar detta som ett utfall av X med X Bin(1000, p) Då är likelihoodfunktionen för p ( ) 1000 L(p) = p X (x) = p x (1 p) 1000 x x Vi bildar loglikelihoodfunktionen ln L(p), dvs. ( ) 1000 lnl(p) = ln + x lnp + (1000 x) ln 1 p x Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 26 / 48

Maximum-likelihood-metoden för Bin(1000, p) För att maximera L(p) kan vi ekvivalent maximera ( ) 1000 lnl(p) = ln + x lnp + (1000 x) ln 1 p x För detta deriverar vi lnl(p) m.a.p. p och löser d dp lnl(p) = 0 m.a.p. p. d dp lnl(p) = x 1 p (1000 x) 1 1 p x 1 p (1000 x) 1 1 p = 0 x 1 p = (1000 x) 1 1 p (1 p)x = p(1000 x) x px = p1000 px dvs. maximum likelihood - skattningen är p obs = x 1000 = 35 1000 = 0.35. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 27 / 48

Plot av loglikelihoodfunktionen ln L(p) för Bin(1000, p) med x = 350 lnl(p) = ln ( ) 1000 + 350ln p + (1000 350) ln 1 p, 0 < p < 1. 350 Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 28 / 48

Maximum-likelihood-metoden Exempel X i är N(θ, σ), dvs. Vi kan t.ex. ha f (x, θ) = 1 σ 2π e 1 2( x θ σ ) 2. mätvärde = θ+ slumpmässigt normalfördelat mätfel X i = θ + σz i, Z i N(0, 1), i = 1, 2,..., n Vi observerar x 1,..., x n. Då fås L(θ) = 1 σ 1 2π e 2 ( ) x1 θ 2 σ 1 σ 2π e 1 2 ( xn θ σ ) 2 = 1 1 σ n (2π) n/2 e 2 n 1 ( ) xi θ 2 σ Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 29 / 48

Maximum-likelihood-metoden Exempel Vi antar att σ är känt. ger dvs. I detta fall är θ obs effektiv! lnl(θ) = ln(σ n (2π) n/2 ) 1 2σ 2 d lnl(θ) dθ = 1 2σ 2 d lnl(θ) dθ n 1 n 1 = 0 x i = nθ, θ obs = x. n 1 2(x i θ). (x i θ) 2 Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 30 / 48

Maximum-likelihood-metoden Exempel: σ = 3 lnl(θ) = log(3 10 (2π) 10/2 ) 1 2 3 2 10 1 (x i θ) 2 x 1 = 3.28 x 2 = 0.21 x 31 = 3.69 x 4 = 2.15 x 5 = 3.38 x 6 = 3.89 x 7 = 3.14 x 8 = 1.04 x 9 = 0.96 x 10 = 3.33 x = 1.83 Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 31 / 48

German tank problem (3) θ = total number of tanks (true population value) n = number of tanks captured m = largest serial number of the captured tanks The following estimator (=stickprovsvariabel i vår terminologi) was invented and used by statisticians in the the WW II allied military intelligence 2 : θ = [(n + 1)/n]m θ = m + (m/n) which is interpreted as adding the average size of the gap to the highest serial number. 2 Economic Warfare Division of the American Embassy in London Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 32 / 48

German tank problem (4) Betrakta ett fiktivt exempel 3. Antag att vi har n = 15 och att serienumren är 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 så att m = 75. Då ger formeln ovan punktskattningen θ obs = 75 + (75/15) = 80 Vi kommer nedan att tolka stickprovsvariabeln θ = m + (m/n) som en för väntevärdesriktighet korrigerad maximum-likelihood-skattning av θ i U(0, θ) med n observationer! 3 http://en.wikipedia.org/wiki/german tank problem Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 33 / 48

Minsta-kvadrat-metoden Om vi inte känner fördelningen helt kan inte ML-metoden användas. Ibland ger den även upphov till svåra beräkningsproblem. Man kan då gå tillväga på följande sätt: Låt x 1,..., x n vara ett stickprov från en fördelning med E(X) = µ(θ) där µ(θ) är en känd funktion av en okänd parameter θ. Sätt Q(θ) = n i=1(x i µ(θ)) 2 och minimera Q(θ) map. θ. Lösningen θ obs till detta problem kallas MK-skattningen av θ. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 34 / 48

Minsta-kvadrat-metoden Q(θ) = n i=1 (x i µ(θ)) 2 n d dθ Q(θ) = 2 (x i µ(θ)) ( ddθ ) µ(θ) i=1 d dθ Q(θ) = 0 2 d n dθ µ(θ) (x i µ(θ)) = 0 n i=1 (x i µ(θ)) = 0 i=1 n i=1 x i nµ(θ) = 0 µ(θ) = 1 n n x i i=1 Ifall den inversa funktionen µ 1 (θ) existerar ges MK-skattningen θobs ( ) av θobs n = 1 µ 1 n x i = µ 1 (x) i=1 Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 35 / 48

Minsta-kvadrat-metoden x 1, x 2,..., x n utfall av s.v. X 1, X 2,..., X n, X i U(0, θ). Kursens formelsamling eller en enkel härledning ger E (X i ) = θ 2, V (X i) = θ2 12 dvs. vi tar µ(θ) = θ 2 i Q(θ) = n i=1 (x i µ(θ)) 2, dvs. Q(θ) = n i=1 MK-skattningen θ ges enligt ovan av (x i θ 2 )2 θ obs = µ 1 (x) = 2x Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 36 / 48

Minsta-kvadrat-metoden θ obs = µ 1 (x) = 2x Denna punktskattning är väntevärdesriktig: och konsistent (Tjebysjovs olikhet) E (θ ) = 2E ( X ) = 2 θ 2 = θ V (θ ) = V ( 2X ) = 4 1 n 2 n θ2 12 = θ2 3n. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 37 / 48

Maximum likelihood : samma exempel x 1, x 2,..., x n utfall av s.v. X 1, X 2,..., X n, X i U(0, θ). Vad är maximum likelihood skattningen av θ? { 1 f X (x) = θ för 0 x θ 0 annars. L(θ) = f X1 (x 1, θ) f Xn (x n, θ) = och eftersom x θ f X (x) = 0 { 1 = θ för θ max(x n 1, x 2,..., x n ) 0 annars. L(θ) är en avtagande funktion av θ och detta ger (utan derivering) θ ML obs = max(x 1, x 2,..., x n ). Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 38 / 48

Korrigerad maximum likelihood i U(0, θ) X 1, X 2,..., X n, X i U(0, θ). Maximum likelihood skattningen av θ är θ ML obs = max(x 1, x 2,..., x n ). Man kan checka (Blom et.al. sid. 258) att den korrigerade skattningen n + 1 n θml obs är väntevärdesriktig, konsistent samt effektivare än minst-kvadrat skattningen. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 39 / 48

Korrigerad maximum likelihood i U(0, θ) & the German tank problem (5) Den korrigerade skattningen n + 1 n θml obs = max(x 1, x 2,..., x n ) + max(x 1, x 2,..., x n ) n är ingenting annat än den ovan framlagda skattningen i the German tank problem. MEN: vi har då gett oss in på en kontinuerlig approximation av det ursprungliga problemet, dvs. vi har approximerat en likformig sannolikhetsfunktion på heltalen {1, 2,..., θ} med en likformig täthet på (0, θ). Detta låter sig göras om θ är stort. Exakt räknat kan man visa för det diskreta problemet att θ obs = max(x 1, x 2,..., x n ) + max(x 1, x 2,..., x n ) n är en väntevärdesriktig och effektiv skattning. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 40 / 48 1

Simulerad korrigerad maximum likelihood & the German tank problem (6) Vi drar hundra gånger tio värden x 1, x 2,..., x 10 ur 1, 2,..., θ med θ = 245 med hjälp av slumptalsgeneratorn unidrnd i MATLAB Statistics toolbox Sedan tar vi maximum y i = max(x 1, x 2,..., x 10 ), i = 1,..., 100 för vart och ett av dessa hundra sampel och bildar θ obs nr i = y i + y i /10. Histogrammet för de hundra θ obs syns i bilden. θ obs = 250.64. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 41 / 48

Simulerad korrigerad maximum likelihood & the German tank problem (7) Samma som ovan men med θ obs nr i = y i + y i /10 1. Histogrammet för de hundra θ obs syns i bilden. θ obs = 249.65. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 42 / 48

German tank problem (8) By using the formula θ = θ ML + (θ ML /n), statisticians reportedly estimated that the Germans produced 246 tanks per month between June 1940 and September 1942. At that time, standard intelligence estimates had believed the number was at around 1,400. After the war, the allies captured German production records of the Ministry, which was in charge of Germany s war production, showing that the true number of tanks produced in those three years was 245 per month, almost exactly what the statisticians had calculated, and less than one fifth of what standard intelligence had thought likely, and were more accurate and timely than Germany s own estimates. Emboldened, the allies attacked the western front in 1944 and overcame the Panzers on their way to Berlin. And so it was that statisticians won the war - in their own estimation, at any rate. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 43 / 48

German tank problem (9): lätt tillgängliga referenser G. Davies: How a statistical formula won the war. The Guardian, Thursday July 20 2006 http://www.guardian.co.uk/world/2006/jul/20/secondworldwar.tvandradio Robert Matthews: Hidden truths. New Scientist 23 May 1998 http://www.newscientist.com/article/mg15821355.000-hidden-truths.html Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 44 / 48

Bilaga: räkneoperationer med summor Definition (1) n i=1 x i = x 1 + x 2 +... + x n. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 45 / 48

Bilaga: räkneoperationer med summor Sats (2) n i=1 a x i = a n i=1 x i. Bevis. Definitionen (1) ger n i=1 a x i = ax 1 + ax 2 +... + ax n = a (x 1 + x 2 +... + x n ) = a n i=1 x i. Exempel: x i = 1, i = 1...., n n i=1 ax i = a n i=1 1 = a (1 + 1 +... + 1) = a n. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 46 / 48

Bilaga: räkneoperationer med summor Sats (3) n i=1 (x i + y i ) = n i=1 x i + n i=1 y i. Bevis. Definition (1) ger n i=1 (x i + y i ) = (x 1 + y 1 ) + (x 2 + y 2 ) +... + (x n + y n ) = x 1 + x 2 +... + x n + y 1 + y 2 +... + y n = n i=1 x i + n i=1 y i. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 47 / 48

Bilaga: räkneoperationer med summor Sats (4) n i=1 (ax i + by i ) = a n i=1 x i + b n i=1 y i Bevis. Detta fås av (3) och (2). Sats (5) n i=1 (x i + y i ) 2 = n i=1 x 2 i + 2 n i=1 x i y i + n i=1 y 2 i. Bevis. Använd (x i + y i ) 2 = x 2 i + 2x i y i + y 2 i och (4) samt (2) med a = 2. Jan Grandell & Timo Koski () Matematisk statistik 22.09.2008 48 / 48