SF1901 Föreläsning 14: Felfortplantning, medelfel, Gauss approximation, bootstrap

Relevanta dokument
SF1901: Medelfel, felfortplantning

SF1901: Sannolikhetslära och statistik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik KTH. Formelsamling i matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Thomas Önskog 28/

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 11: Mer om jämförelser och inferens

Föreläsningsanteckningar till kapitel 8, del 2

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Avd. Matematisk statistik

Avd. Matematisk statistik

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Uppgift 1. f(x) = 2x om 0 x 1

9. Konfidensintervall vid normalfördelning

FÖRELÄSNING 7:

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Matematisk statistik för D, I, Π och Fysiker

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Grundläggande matematisk statistik

Föreläsning 7. Statistikens grunder.

f(x) = 2 x2, 1 < x < 2.

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

0 om x < 0, F X (x) = c x. 1 om x 2.

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Repetitionsföreläsning

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 7: Punktskattningar

Föreläsning 12: Regression

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Mer om konfidensintervall + repetition

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

TMS136. Föreläsning 7

Föreläsning 7: Punktskattningar

F9 Konfidensintervall

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Formel- och tabellsamling i matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 8: Konfidensintervall

Föreläsning 6, Matematisk statistik Π + E

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

SF1901: Sannolikhetslära och statistik

Föreläsning 7: Punktskattningar

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Statistik för bioteknik SF1911 CBIOT3 Föreläsning 9: Modellbaserad data-analys Timo Koski

Demonstration av laboration 2, SF1901

Föreläsning 12: Repetition

FÖRELÄSNING 8:

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Ingenjörsmetodik IT & ME 2011 Föreläsning 11

Lektionsanteckningar 11-12: Normalfördelningen

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 12: Linjär regression

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

SF1901: Sannolikhetslära och statistik

Matematisk statistik för B, K, N, BME och Kemister

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

SF1901: Sannolikhetslära och statistik

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

TMS136. Föreläsning 10

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Föreläsning 11, FMSF45 Konfidensintervall

Avd. Matematisk statistik

Statistiska metoder för säkerhetsanalys

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TAMS79: Föreläsning 6. Normalfördelning

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Lufttorkat trä Ugnstorkat trä

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

Felfortplantningsformlerna

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Transkript:

SF1901 Föreläsning 14: Felfortplantning, medelfel, Gauss approximation, bootstrap Jan Grandell, Gunnar Englund & Timo Koski 03.03.2016 Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 1 / 40

Lärandemål: Felfortplantning Medelfel för en punktskattning Gauss formel Ett exempel med minstakvadrat Bootstrap Definition Bootstrap och felfortplantning Bootstrap och konfidensintervall Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 2 / 40

Felfortplantning Felfortplantning kallas propagation of error på engelska. Felfortplantning handlar om hur mätfel fortplantas till funktioner av mätvärden. Felfortplantningen är av särskild betydelse i samband med behandlingen av toleransfrågor för funktioner av mätvärden. Vi kommer att först diskutera Gauss approximationsformler för fortplantning av medelfel. Förvånande nog finns dock enkla algoritmer som ger tämligen god uppfattning om medelfelet oavsett hur komplicerad funktionen är (d.v.s. oavsett hur dålig/bra Gauss approximation är eller om den alls går att använda). En sådan modern metod är bootstrap, som vi beskriver sist. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 3 / 40

Felfortplantning: Exempel 1. på problemställningen I en serie försok uppmättes svängningstiden t för en pendel samt pendelns längd l. Mätningarna kan ses som observationer av stokastiska variabler med väntevärden lika med de verkliga värdena t o och l o. I ett försök uppmättes t = 2.0084 och l = 1.0031. Vidare vet man av lång erfarenhet att standardavvikelserna för dessa bestämningar är 2.0084 och 0.00043. Mätningarna kan betraktas som oberoende. Efter försöket beräknas tyngdaccelerationen g enligt formeln g = 4π2 l t 2 Sökt: approximativa formler för väntevärde och standardavvikelse för beräknat g. Svar: Senare Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 4 / 40

Exempel 2. på problemställningen: Medelfel för en skattning av en statistisk parameter Vi använder variansen V(θ ) eller, vilket i princip är samma sak, standardavvikelsen D(θ ) som precisionsmått för en skattning θ. Ju mindre varians (större effektivitet), desto belåtnare är vi med skattningen. Ibland hamnar man då i en besvärlig situation: Variansen och standardavvikelsen är själva okända, emedan de beror av just den parameter som man vill skatta (och kanske av ytterligare andra okända parametrar). Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 5 / 40

Medelfel för en skattning Om man vill få information om D(θ ) får man försöka hitta på en skattning även av denna storhet (parameter). Konsekvensen blir att man inte får ett exakt precisionsmått utan bara ett ungefärligt. Vi betecknar denna numeriska skattning av osäkerheten med d(θ ). Definition En skattning av D(θ ) kallas medelfelet för θ och betecknas d(θ ). Detta kan nog verka förbryllande men man skall hålla isär begreppen: θ obs är en skattning av θ och d(θ ) är en skattning av D(θ ). Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 6 / 40

Medelfel för en skattning: plug-in Hur medelfelet skall väljas får avgöras från fall till fall. Man borde tillse att d(θ ) är en konsistent skattning av D(θ ). Ett vanligt sätt är s.k. plug-in: d.v.s man insätter θ obs för θ i D(θ ). d(θ ) = D(θ obs) Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 7 / 40

Fortplantning av medelfel Felfortplantning, eller Gauss-approximation, används ibland för att approximativt beräkna medelfel för skattningar. Antag att vi har en skattning θobs som vi vet är approximativt väntevärdesriktig samt anser oss veta medelfelet för. Vi bildar nu en funktion g(θobs ) av skattningen. Detta kan vara aktuellt om vi är intresserade av att skatta en parameter ψ = g(θ), där en naturlig skattning är ψobs = g(θ obs ). Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 8 / 40

Felfortplantning Vi undrar nu hur osäkerheten (medelfelet) i θ-skattningen fortplantas genom funktionen g till en osäkerhet (medelfel) i ψ-skattningen. Vad vi gör är att serieutveckla (linjärisera) funktionen g genom g(x) = g(a)+(x a)g (a)+restterm där vi anser oss kunna försumma resttermen. ψ = g(θ ) g(θ)+(θ θ)g (θ)+restterm Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 9 / 40

Felfortplantning: ett bra läge för att försumma resttermen ψ = g(θ ) g(θ)+(θ θ)g (θ)+restterm Låt I vara ett intervall, där det mesta av sannolikhetsmassan för θ är koncentrerad. Antag att g har kontinuerliga första och andra derivator på I. Då har resttermen det bekanta uttrycket restterm = (θ θ) 2 g (z)/2, där z ligger mellan θ och θ. Antag vidare att g (z) C för z I. Då är E restterm CE(θ θ) 2 /2. Om nu g(x) är ungefär linjär, så är C liten. Om dessutom V(θ ) = E(θ θ) 2 är liten, blir approximationen god. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 10 / 40

Felfortplantning: ett bra läge för att försumma resttermen Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 11 / 40

Felfortplantning g(x) g(a)+(x a)g (a) Vad detta innebär är att vi ersätter funktionen g(x) med tangenten i punkten a som (se ovan) är en hyfsad approximation åtminstone i närheten av punkten a. Om vi väljer a = θ erhåller vi ψ = g(θ ) g(θ)+(θ θ)g (θ). Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 12 / 40

Gauss-approximation Om nu E(θ ) θ, d.v.s. att θobs är (åtminstone approximativt) väntevärdesriktig, och dessutom huvuddelen av sannolikhetsmassan i fördelningen för θ finns i det område där den linjära approximationen är god erhåller man E(ψ ) g(θ) = ψ och V(ψ ) (g (θ)) 2 V(θ θ) = (g (θ)) 2 V(θ ) (g (θ obs)) 2 V(θ ). Gauss-approximation: linjärisering + plug-in i g (θ). Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 13 / 40

Gauss-approximation: varning för aningslös användning Tag g(x) = x 2, ψ = θ 2 och antag E(θ ) θ. Då har vi E [ (θ ) 2] = E(ψ ) g(θ) = θ 2 och och V(θ ) = E [ (θ ) 2] (E [θ ]) 2 θ 2 θ 2 = 0 V(ψ ) (g (θ obs)) 2 V(θ ) 0. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 14 / 40

Gauss-approximation Sats Om θobs är approximativt väntevärdesriktig med medelfelet d(θ ) så gäller att ψobs = g(θ obs ) är approximativt väntevärdesriktig som skattning av ψ = g(θ) samt har approximativt (plug-in) medelfel d(ψ ) g (θobs ) d(θ ). Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 15 / 40

Exempel: Felfortplantning Låt x 1,...,x n vara utfall av oberoende stokastiska variabler X 1,...,X n, respektive, som är ffg-fördelade dvs. p X (x) = p (1 p) (x 1) för x = 1,2,... (a) Bestäm minsta-kvadrat-skattningen pobs 0 < p < 1. av parametern p, där (b) Bestäm approximativt väntevärde E(p ) och varians V(p ) för minsta-kvadrat-skattningen p obs. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 16 / 40

Exempel: Felfortplantning Minsta kvadrat (a) Enligt formelsamlingen är E(X i ) = 1 p = µ(p) och därmed bildar vi minsta-kvadrat-skattningen genom att minimera funktionen och enligt tidigare fås Q(p) = n (x i µ(p)) 2. i=1 ( ) pobs n = 1 µ 1 n x i = µ 1 (x) = 1 i=1 x, där x = 1 n n i=1 x i. SVAR: p obs = 1 x. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 17 / 40

Felfortplantning (b) Inför g(x) = 1 x, för x > 0. Sätt θ = 1 p, d.v.s. p = g(θ), p = g (θ ). Vi har θ = X = 1 n n i=1 X i. Vi har = E ( 1 n E (θ ) = E ( X ) ) n X i = 1 i=1 n n E(X i ) i=1 Men och enligt formelsamlingen är E(X i ) = 1 p och således E ( X ) = 1 p = θ dvs. E (θ ) = θ. Då ger Gauss approximation E (p ) = E (g (θ )) g (E (θ )) = g (θ) = p. SVAR: E (p ) p. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 18 / 40

Felfortplantning Med stöd av Gauss approximationsformler fås nu att ( 2. V (p ) = V (g (θ )) V (θ ) g (E (θ ))) Men eftersom vi har oberoende stokastiska variabler, så blir V (θ ) = V ( X ) = 1 n 2 n i=1v (X i ). Enligt formelsamlingen är V (X i ) = 1 p. Detta ger V (θ ) = 1 1 p p 2 n (= 1 p 2 n θ(θ 1)). Eftersom ( 2 g (x) = 1/x 2, blir g (E (θ ))) = 1 (E(θ )) = 1 = p 4. 4 θ 4 SVAR: V (p ) (1 p ) (p ) 2 /n. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 19 / 40

Konfidensintervall & felfortplantning Konfidensintervall för g(θ) med approximativ konfidensgrad 1 α (Gauss approximation används för medelfel) I g(θ) = (g(θ obs) λ α/2 g (θ obs) d(θ ),g(θ obs)+λ α/2 g (θ obs) d(θ )). I exemplet ovan I p = I 1/θ = 1 x ± λ α/2 (1 1 1 2 x) x n Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 20 / 40

Allmänna formeln för fortplantning av varians X 1,X 2...,X n är oberoende stokastiska variabler. Vi har en funktion U = g (X 1,X 2...,X n ) som är så snäll att där V (U) ( ) 2 ( ) 2 g 1 V(X 1 )+...+ g n V(X n ) x 1 x n g i = g (x 1,...,x n ) x i x x1 =E[X 1 ],...,x n =E[X n ] i Det är ingen svår sak att konstruera ett matematiskt exempel där formeln ger en rätt så dålig approximation. Men många praktiker anser att formeln fungerar fungerar oftast hyfsat väl i tillämpningar. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 21 / 40

Exempel 1. : fortsättning U = g (l,t) = 4π2 l t 2. Då är och E (U) = 4π2 l o t 2 o l g 1 = 4π2 to 2 t g 2 = 8π2 l o to 3. M.h.a. den allmänna formeln för fortplantning av varians V (U) 16π4 to 4 V(l)+ 64π4 lo 2 to 6 V(t). Med V(t) = 2.0084 2, V(l) = 0.00043 2, och två plug-in t o 2.0084 och l 1.0031. fås V (U) = 19.635. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 22 / 40

Exempel 1. : konfidensintervall I U = 4π2 1.0031 2.00845 2 ± λ α/219.635. = 9.8176±λ α/2 19.635. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 23 / 40

Medelfel för en skattning & bootstrap Vi har observationerna x 1,x 2,...,x n som vi ser som utfall av oberoende likafördelade s.v. X 1,...,X n vilkas fördelning beror av en okänd parameter ψ = g(θ). Denna skattar vi med en funktion g (θ obs ) = g (θ (x 1,...,x n )). Vi vill beräkna medelfelet d(g(θ )). Vi beskriver nu en algoritm kallad bootstrap, som ger tämligen god uppfattning om medelfelet d(g(θ )). Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 24 / 40

Bootstrap Namnet bootstrap (på sv. stövelstropp) härstammar från uttrycket i amerikansk engelska pull oneself up by the bootstraps, vilket betyder att man förbättrar ens (ekonomiska/sociala o.s.v.) situation genom egna insatser utan andras hjälp. Ett uttryck med likadan betydelse är att lyfta sig själv i håret (jfr. baron von Münchausens äventyr). Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 25 / 40

Bootstrap Bootstrap: Vi lottar fram ett första fiktivt eller bootstrap- stickprov ur våra mätdata genom att på måfå dra n st med återläggning från x 1,...,x n. Detta stickprov blir typiskt ungefär som det ursprungliga även om vissa observationer saknas och vissa finns i dubbel eller kanske tredubbel uppsättning. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 26 / 40

Bootstrap med matlab: exempel Vi har, till exempel, x 1 = 0.2746,x 2 = 1.1730,x 3 = 1.4842,x 4 = 1.1454,x 5 = 1.6248, eller x 6 = 0.9985,x 7 = 0.4571,x 8 = 1.2315,x 9 = 0.9868,x 10 = 0.5941 x = [ 0.2746 1.1730 1.4842 1.1454 1.6248 0.9985 0.4571 1.2315 0.9868 0.5941]; Matlabkommandot unidrnd(10,1,10) ger tio slumptal ur den likformiga fördelningen på de tio heltalen i 1,...,10, d.v.s p(i) = 1/10. >> z=unidrnd(10,1,10) z = 5 1 6 3 2 5 6 3 7 10 Bootstrapstickprovet ges nu av >> bssampl=x(z) Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 27 / 40

Bootstrap med matlab: exempel Med >> bssampl=x(z) fås bootstrap stickprovet bssampl = Columns 1 through 7-1.6248-0.2746 0.9985 1.4842-1.1730-1.6248 0.9985 Columns 8 through 10 1.4842 0.4571-0.5941 Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 28 / 40

Medelfel för en skattning & bootstrap Ur detta nya stickprov beräknar vi skattningen θ1,obs av θ. Detta upprepas nu B gånger (kanske B = 1000 eller B = 10000) och ur dessa B fiktiva stickprov får vi B skattningar θ1,obs, θ 2,obs,...,θ B,obs. Vi får då en medelfelsskattning genom att beräkna spridningen av dessa d.v.s. d(θ ) = 1 B (θ B 1 i,obs θ medel,obs )2 i=1 där θmedel,obs = B 1 θ i,obs /B är aritmetiska medelvärdet av de B skattningarna för de B fiktiva stickproven. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 29 / 40

Medelfel för en skattning & bootstrap Vi hade simulerat så att x = [ 0.2746 1.1730 1.4842 1.1454 1.6248 0.9985 0.4571 1.2315 0.9868 0.5941]; är tio oberoende stickprov på X i N(0,1). Vi har att θ = 1 10 (X 1 1+...+X 10 ) N(0, 10 ). Om vi drar B bootstrap-stickprov från x och beräknar x i,obs för i = 1,...,B, får vi enligt receptet ovan en 1 boostrap-skattning av 10 = 0.3162. I figuren ses histogrammet för x i,obs för i = 1,...,B med B = 1000, där standaravvikelsen är d(θ ) = 0.339. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 30 / 40

Medelfel för en skattning & bootstrap I figuren ses histogrammet för x i,obs för i = 1,...,B med B = 1000, där standaravvikelsen är 0.339. 250 200 150 100 50 0 1.5 1 0.5 0 0.5 1 Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 31 / 40

Medelfel för en skattning & bootstrap De fiktiva stickproven är framlottade enligt den empiriska fördelningen som lägger massan 1/n i vardera av de n observationerna. Denna empiriska fördelning är en skattning av den sanna fördelningen F som observationerna genererats av. Vi har därmed lyckats skapa en kopia av det ursprungliga försöket (där våra data kom från F). Vi kan då undersöka egenskaper hos den ursprungliga skattningen genom undersöka skattningen i kopian. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 32 / 40

Felfortplantning & bootstrap För varje i = 1,...,B (kanske B = 1000 eller B = 10000) drar vi bootstrap-stickprovet (xi1,...,xin). Vi beräknar skattningen ψ i,obs = g(θi,obs ) i = 1,...,B, av ψ = g(θ). Vi får B skattningar g(θ1,obs ),g(θ 2,obs ),...,g(θ B,obs ). Vi får då en medelfelsskattning d(g(θ )) genom att beräkna spridningen av dessa d.v.s. d(g(θ )) = 1 B 1 B i=1 (g(θ i,obs ) g(θ ) medel,obs ) 2 där g(θ ) medel,obs = B 1 g(θ i,obs )/B är aritmetiska medelvärdet av de B skattningarna för de B fiktiva stickproven. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 33 / 40

Exempel fortsätts med MATLAB: Bootstrap av medelfelet hos minsta-kvadrat-skattningen pobs av ffg(p) Vi simulerar i matlab x 1,...,x 1000 utfall av oberoende stokastiska variabler X 1,...,X 1000, respektive, som är ffg(0.67)-fördelade. Detta görs genom >> x=geornd(0.67,1,1000); >> x=x+1; Liksom visats ovan är minsta-kvadrat skattningen pobs = 1/x, vilket blev i detta fall >> 1/mean(x) ans = 0.6579 Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 34 / 40

Bootstrap av medelfelet hos minsta-kvadrat-skattningen pobs av ffg(p) function bsstderr= stovelsffg(x,n) phats=[]; for i=1:n bssampl=stovelstropp(x); phat=1/mean(bssampl); phats=[phats phat] ; end bsstderr= std(phats); Här anropas matlab-funktionen stovelstropp.m, som de facto framställdes redan ovan men återges i bilagan. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 35 / 40

Exempel forts. med MATLAB: Bootstrap av medelfelet hos minsta-kvadrat-skattningen pobs av ffg(p) Vi använder funktionen stovelsffg.m (se bilagan) och får bootstrapskattningen av d(pobs ) med B = 1000 (B behöver inte vara lika med antalet ursprungliga stickprov) som >> stovelsffg(x,1000) ans = 0.0120 Gauss-approximationen från ovan ger för det aktuella värdet på p d (p ) (1 0.6579)0.6579 2 /1000 = 0.0122 Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 36 / 40

Konfidensintervall för minsta-kvadrat-skattningen p obs av ffg(p) Med data ovan I p = 1 x ± λ α/2 ( 1 1 x ) 1 2 /n x I p = 0.6579±λ α/2 0.0122. Detta är inte ett s.k. bootstrap-konfidensintervall för p. Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 37 / 40

Bootstrap med matlab: Med arbetsättet ovan måste vi skriva en ny.m fil (d.v.s. skriva om definitionen på phat) för varje ny stickprovsvariabel, vars medelfel skall undersökas. I själva verket har Matlab en inbyggd funktion bootstrp.m, som tar en funktion som argument. Mer om bootstrap kan vid behov läsas i http://www.math.kth.se/matstat/gru/sf2955/datortot.pdf Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 38 / 40

Bilaga: Bootstrap stovelstropp.m function bssampl=stovelstropp(x) m=length(x); z=unidrnd(m,1,m); bssampl=x(z); Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 39 / 40

Bilaga: Baron von Münchausen lyfter sig i håret ur ett träsk Jan Grandell, Gunnar Englund & Timo Koski Matematisk statistik 03.03.2016 40 / 40