SF1901 Sannolikhetsteori och statistik I

Relevanta dokument
SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Thomas Önskog 28/

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

9. Konfidensintervall vid normalfördelning

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 11, FMSF45 Konfidensintervall

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Föreläsning 11, Matematisk statistik Π + E

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

F9 Konfidensintervall

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsning 11: Mer om jämförelser och inferens

SF1901 Sannolikhetsteori och statistik I

TMS136. Föreläsning 10

Matematisk statistik KTH. Formelsamling i matematisk statistik

Avd. Matematisk statistik

Lufttorkat trä Ugnstorkat trä

SF1901: Medelfel, felfortplantning

Matematisk statistik för B, K, N, BME och Kemister

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Avd. Matematisk statistik

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik för B, K, N, BME och Kemister

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Föreläsningsanteckningar till kapitel 8, del 2

FÖRELÄSNING 7:

FÖRELÄSNING 8:

SF1901 Sannolikhetsteori och statistik I

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Föreläsning 12, FMSF45 Hypotesprövning

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1901 Sannolikhetsteori och statistik I

Avd. Matematisk statistik

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 8: Konfidensintervall

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

f(x) = 2 x2, 1 < x < 2.

Grundläggande matematisk statistik

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Matematisk statistik för D, I, Π och Fysiker

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

10. Konfidensintervall vid två oberoende stickprov

Repetitionsföreläsning

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

MATEMATISK STATISTIK AK FÖR F, E, D, I, C, Π; FMS 012 FÖRELÄSNINGSANTECKNINGAR I

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Föreläsning 12: Repetition

Föreläsning 4: Konfidensintervall (forts.)

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Mer om konfidensintervall + repetition

Kapitel 9 Egenskaper hos punktskattare

Avd. Matematisk statistik

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 7. Statistikens grunder.

SF1901: Sannolikhetslära och statistik

Avd. Matematisk statistik

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Matematisk statistik för B, K, N, BME och Kemister

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Punktskattning 1 Ett exempel

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

SF1901 Föreläsning 14: Felfortplantning, medelfel, Gauss approximation, bootstrap

Matematisk statistik för B, K, N, BME och Kemister

F10 Problemlösning och mer om konfidensintervall

TMS136. Föreläsning 11

Föreläsning 12: Linjär regression

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

TMS136. Föreläsning 13

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Avd. Matematisk statistik

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Grundläggande matematisk statistik

SF1911: Statistik för bioteknik

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Föreläsning 7: Punktskattningar

Föreläsning 7: Punktskattningar

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Avd. Matematisk statistik

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Avd. Matematisk statistik

SF1901 Sannolikhetsteori och statistik I

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Avd. Matematisk statistik

Transkript:

SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28

Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på normalfördelningen (Kap. 12.3) 2 / 28

Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på normalfördelningen (Kap. 12.3) 3 / 28

Förra gången: inferensproblemet Vi antog att vi hade tillgång till uppmätta värden x 1, x 2,..., x n. Denna mätdata kunde ses som utfall av s.v. X 1, X 2,..., X n, vilkas fördelning (diskret eller kontinuerlig) berodde av en ev. flerdimensionell okänd parameter θ. Mängden av möjliga parametrar, parameterrummet, betecknades Ω θ. Vi vill skatta θ med hjälp av mätdatan. 4 / 28

Förra gången: punktskattning Vi införde följande definition. Definition En punktskattning av en parameter θ är en funktion θ som för varje uppsättning mätdata x 1, x 2,..., x n ordnar ett värde i Ω θ. Detta värde betecknas θ obs = θ (x 1, x 2,..., x n ). Då mätdata ses som utfall av s.v. X 1, X 2,..., X n är θ obs ett utfall observation av stickprovsvariabeln θ (X 1, X 2,..., X n ). Den senare betecknas ofta θ för enkelhets skull. 5 / 28

Förra gången: punktskattning (forts.) Vi tittade även på olika egenskaper hos en punktskattning θ, såsom väntevärdesriktighet, konsistens, medelkvadratfel, effektivitet. Ovan egenskaper beskriver hur fördelningen för punktskattningen koncentreras kring det sanna parametervärdet θ. En väntevärdesriktig skattning med liten varians är bättre! 6 / 28

Medelfel Vi använder i regel variansen V(θ ) eller standardavvikelsen D(θ ) för en skattning θ som ett mått på dess precision. Ibland kan vi inte bestämma standardavvikelsen D(θ ) då denna beror just på den parameter θ som vi vill bestämma. En lösning är då att helt enkelt plugga in skattningen av θ i uttrycket för variansen, vilket ger oss ett ungefärligt värde på variansen. Definition En skattning av D(θ ) kallas medelfelet för θ och betecknas d(θ ). 7 / 28

Förra gången: maximum-likelihood-metoden Idé: välj det parametervärde som ger högst sannolikhet för den givna mätdatan! Definition Funktionen L(θ) = { p X1,...,X n (x 1,..., x n ; θ) f X1,...,X n (x 1,..., x n ; θ) (diskreta fallet), (kontinuerliga fallet), kallas likelihood-funktionen (L-funktionen). Definition Det värde θ obs för vilket L(θ) antar sitt största värde inom Ω θ kallas maximum-likelihood-skattningen (ML-skattningen) av θ. 8 / 28

Tillämpning av ML-metoden på normalfördelningen Låt x 1, x 2,..., x n vara oberoende observationer från en N(µ, σ)-fördelning, där µ är okänd och σ känd. Varje x i skulle t.ex. kunna vara en mätning av en konstant µ med ett N(0, σ)-fördelat mätfel ε i, dvs. L-funktionen ges av X i = µ + ε i. n 1 L(µ) = f X1,...,X n (x 1,..., x n ; µ) = σ 2π e (x i µ)2 /(2σ2 ) i=1 ( ) 1 n/2 = 2πσ 2 e n i=1 (x i µ) 2 /(2σ 2). 9 / 28

Tillämpning av ML-metoden på normalfördelningen (forts.) I detta fall är det enklare att maximera log-likelihoodfunktionen ln L(µ) = 1 2σ 2 genom att lösa d ln L(µ) dµ n (x i µ) 2 + konst. som ej beror av µ i=1 = 1 σ 2 n i=1(x i µ) = 1 σ 2 ( n i=1 x i nµ ) = 1 (n x nµ) = 0 µ = x. σ2 Man kontrollerar att detta är ett maximum, vilket ger ML-skattningen µ obs = x. 10 / 28

Tillämpning av ML-metoden på normalfördelningen (forts.) Om även σ 2 är okänt ges log-likelihood-funktionen av ln L(µ, σ 2 ) = n 2 ln(σ2 ) 1 2σ 2 n (x i µ) 2 + konst. i=1 och att maximera ln L(µ, σ 2 ) är ett tvådimensionellt optimeringsproblem som visar sig ha lösningen µ obs = x, (σ 2 ) obs = 1 n n (x i x) 2. Skattningen av variansen (som ej är väntevärdesriktig) brukar vanligtvis korrigeras enligt (σ 2 ) obs = 1 n 1 i=1 n (x i x) 2 = s 2. i=1 11 / 28

Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på normalfördelningen (Kap. 12.3) 12 / 28

Minsta-kvadrat-metoden Minsta-kvadrat-metoden (MK-metoden) är ett alternativt sätt att ta fram punktskattningar. Låt x 1, x 2,..., x n vara utfall av oberoende s.v. X 1, X 2,..., X n vars väntevärden är kända sånär som på en okänd parameter θ, dvs. E(X i ) = µ i (θ) för i = 1,..., n. MK-metoden matchar θ efter mätdatan genom att minimera Q(θ) = n {x i µ i (θ)} 2 i=1 med avseende på θ. 13 / 28

Exempel: the German tank problem igen Statistisk modell: varje upphittat serienummer x i, i = 1,..., n, ses som ett utfall av en s.v. X i med likformig fördelning över mängden {1,..., θ}, där θ är det okända antalet pansarvagnar. De olika X i :na kan anses vara oberoende. Beräkna MK-skattningen av θ samt bestäm medelfelet! [ ] 4 x( x 1) svar: θ obs = 2 x 1, d(θ ) = 3n Jämför med ML-skattningen, vilken ges av θ obs = max{x 1,..., x n } (se förra gången). 14 / 28

Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på normalfördelningen (Kap. 12.3) 15 / 28

Konfidensintervall Dagens definition: Definition Låt x 1, x 2,..., x n vara utfall av s.v. X 1, X 2,..., X n vars fördelning beror av en okänd parameter θ och låt 0 < α < 1. Ett intervall I θ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )) kallas ett konfidensintervall för θ med konfidensgraden 1 α om det täcker θ med sannolikheten 1 α, dvs. P(a 1 (X 1,..., X n ) < θ < a 2 (X 1,..., X n )) = 1 α. Om både a 1 och a 2 är ändliga kallas intervallet tvåsidigt. Om antingen a 1 = eller a 2 = kallas det ensidigt. 16 / 28

Konfidensintervall (forts.) Vanligtvis väljer man α {0.05, 0.01, 0.0001}. Ju mindre α är, desto bredare blir konfidensintervallet. Frekvenstolkning: om man gång på gång skulle upprepa datainsamlingen och varje gång konstruera ett, säg, 95%-igt intervall, så kommer ca. 95% av dessa intervall att täcka θ. Annorlunda uttryckt: vi använder en metod med vilken vi drar rätt slutsats med sannolikhet 1 α. 17 / 28

Allmän metod för konfidensintervall Vi kommer att gå till väga enligt följande för att konstruera konfidensintervall: (1) Hitta en s.k. pivotvariabel T (X 1,..., X n ; θ) vars fördelning inte beror på θ. (2) Hitta kvantiler x α/2 och x 1 α/2 till T så att (3) Lös ut θ enligt 1 α = P(x 1 α/2 < T (X 1,..., X n ; θ) < x α/2 ). 1 α = P ( x 1 α/2 < T (X 1,..., X n ; θ) < x α/2 ) = P (a 1 (X 1,..., X n ) < θ < a 2 (X 1,..., X n )). (4) Intervallet ges så av I θ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )). I moment (1) är det lämpligt att utgå från en punktskattning av θ. 18 / 28

Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på normalfördelningen (Kap. 12.3) 19 / 28

Fall 1: µ är okänt och σ är känt Låt x 1, x 2,..., x n vara oberoende observationer från en N(µ, σ)-fördelning, där µ är okänd och σ känd. Vi vill göra ett konfidensintervall för µ med konfidensgraden 1 α. Vi följer receptet: (1) Som vi sett ges ML-skattningen av µ av (med D = σ/ n) µ = X N(µ, D) T (X 1,..., X n ; µ) = X µ D (2) T :s kvantiler är ±λ α/2. (3) Lös ut µ enligt N(0, 1). ( 1 α = P( λ α/2 < T < λ α/2 ) = P λ α/2 < X ) µ D < λ α/2 = P ( X λ α/2 D }{{} =a 1(X 1,...,X n) < µ < X + λ α/2 D ). }{{} =a 2(X 1,...,X n) 20 / 28

Fall 1: µ är okänt och σ är känt (4) Intervallet ges så slutligen av I µ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )) = ( x ± λ α/2 D) ) σ = ( x ± λ α/2 n. 21 / 28

Fall 2: både µ och σ är okända Låt nu x 1, x 2,..., x n vara oberoende observationer från en N(µ, σ)-fördelning, där både µ och σ är okända. Vi vill igen göra ett konfidensintervall för µ med konfidensgraden 1 α. Vi följer åter receptet: (1) Som vi såg tidigare ges ML-skattningen av µ även i detta fall av (med D = σ/ n) µ = X N(µ, D), men att använda samma pivotvariabel T som i förra fallet fungerar ej, då resulterande intervall I µ = ( x ± λ α/2 σ/ n) innehåller den okända parametern σ. Lösning: använd istället T (X 1,..., X n ; µ, σ) = X µ d t(n 1), där d = S n är medelfelet och t betyder t-fördelning! 22 / 28

Fall 2: både µ och σ är okända (forts.) (2) T :s kvantiler ges nu av t-fördelningens kvantiler, dvs. ±t α/2 (n 1). Dessa finns i tabell. (3) Genom samma operationer som tidigare löser vi ut µ enligt 1 α = P( t α/2 (n 1) < T < t α/2 (n 1)) = P ( X t α/2 (n 1)d }{{} =a 1(X 1,...,X n) (4) Slutligen ges intervallet av < µ < X + t α/2 (n 1)d ). }{{} =a 2(X 1,...,X n) I µ = (a 1 (x 1,..., x n ), a 2 (x 1,..., x n )) = ( x ± t α/2 (n 1)d) ( = x ± t α/2 (n 1) s ). n 23 / 28

t-fördelningen Definition Om den s.v. X har täthetsfunktionen f X (x) = ( Γ((ν + 1)/2) 1 + x 2 ) (ν+1)/2, x R, νπγ(ν/2) ν där ν > 0, sägs X vara t-fördelad med ν frihetsgrader (kodbeteckning: X t(ν)). Vi kommer i det som följer endast att behöva t-fördelningens vanligaste kvantiler, vilka finns tillgängliga i tabell för olika ν. 24 / 28

t-fördelningen (forts.) (a) Täthetsfunktioner (b) Fördelningsfunktioner Figur: Täthets- och fördelningsfunktioner för t(ν)-fördelningar med olika antal frihetsgrader ν. När ν närmar sig t(ν) normalfördelningen. 25 / 28

Sammanfattning Vi sammanfattar de resultat vi funnit i normalfördelningsfallet. Sats Låt x 1, x 2,..., x n vara oberoende observationer från en N(µ, σ)-fördelning, där µ är okänt. Då är { ( x ± λ I µ = α/2 D) om σ är känt (D = σ/ n). ( x ± t α/2 (n 1)d) om σ är okänt (d = s/ n). ett tvåsidigt konfidensintervall för µ med konfidensgraden 1 α. Då λ α/2 < t α/2 (n 1), kommer osäkerheten i skattningen av σ att leda till ett bredare intervall i det senare fallet. 26 / 28

W. S. Gosset, alias Student Figur: William Sealy Gosset (1876 1937) uppfann t-fördelningen i sitt arbete som kemist på bryggerifirman Guinness i Dublin. 27 / 28

Nästa föreläsning Konfidensintervall för σ 2, approximativa konfidensintervall,... 28 / 28