SF1901: Sannolikhetslära och statistik

Relevanta dokument
SF1901: Medelfel, felfortplantning

SF1901 Föreläsning 14: Felfortplantning, medelfel, Gauss approximation, bootstrap

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

SF1901 Sannolikhetsteori och statistik I

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Föreläsning 12: Linjär regression

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Matematisk statistik för D, I, Π och Fysiker

f(x) = 2 x2, 1 < x < 2.

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

SF1901: Sannolikhetslära och statistik

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Matematisk statistik för D, I, Π och Fysiker

Weibullanalys. Maximum-likelihoodskattning

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Avd. Matematisk statistik

Teoretisk statistik. Gunnar Englund Matematisk statistik KTH. Vt 2005

Föreläsning 12: Regression

Föreläsning 7. Statistikens grunder.

SF1901: Sannolikhetslära och statistik

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

9. Konfidensintervall vid normalfördelning

Grundläggande matematisk statistik

Kapitel 9 Egenskaper hos punktskattare

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Enkel och multipel linjär regression

Föreläsning 8: Konfidensintervall

SF1911: Statistik för bioteknik

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Avd. Matematisk statistik

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

FACIT: Tentamen L9MA30, LGMA30

Föreläsning 11, FMSF45 Konfidensintervall

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

SF1901: Sannolikhetslära och statistik. Flera stokastiska variabler.

Föreläsning 6, Matematisk statistik Π + E

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Thomas Önskog 28/

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

SF1901: Sannolikhetslära och statistik

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Härledning av Black-Littermans formel mha allmänna linjära modellen

Repetitionsföreläsning

SF1901: Sannolikhetslära och statistik. Statistik: statistiska inferensproblem, maximum likelihood, minsta kvadrat. Jan Grandell & Timo Koski

Uppgift 1 P (A B) + P (B A) = 2 3. b) X är en diskret stokastisk variabel, som har de positiva hela talen som värden. Vi har. k s

Föreläsning 11, Matematisk statistik Π + E

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

SF1901: Sannolikhetslära och statistik

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 7: Punktskattningar

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Avd. Matematisk statistik

MVE051/MSG Föreläsning 14

0 om x < 0, F X (x) = c x. 1 om x 2.

Tentamen MVE301 Sannolikhet, statistik och risk

Lektionsanteckningar 11-12: Normalfördelningen

AMatematiska institutionen avd matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Föreläsningsanteckningar till kapitel 8, del 2

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 4: Konfidensintervall (forts.)

Föreläsning 7: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

SF1901 Sannolikhetsteori och statistik I

Tentamen MVE302 Sannolikhet och statistik

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Föreläsning 12: Repetition

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Tentamen MVE301 Sannolikhet, statistik och risk

F13 Regression och problemlösning

TMS136. Föreläsning 10

Punktskattning 1 Ett exempel

Föreläsning 6, FMSF45 Linjärkombinationer

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

Tenta i Statistisk analys, 15 december 2004

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Transkript:

SF1901: Sannolikhetslära och statistik Föreläsning 8. Statistik: Mer om maximum likelihood, minsta kvadrat. Linjär regression, medelfel, felfortplantning Jan Grandell & Timo Koski 24.09.2008 Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 1 / 51

Sammanfattning Vi fortsätter från den föregående föreläsningen med statistiska inferensproblem (inferens= slutledning): Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 2 / 51

Sammanfattning Vi fortsätter från den föregående föreläsningen med statistiska inferensproblem (inferens= slutledning): mer om maximum-likelihood (ML) och minsta kvadrat (MK) Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 2 / 51

Sammanfattning Vi fortsätter från den föregående föreläsningen med statistiska inferensproblem (inferens= slutledning): mer om maximum-likelihood (ML) och minsta kvadrat (MK) som exempel på MK tar vi fram formlerna för en enkel linjär regressionsanalys. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 2 / 51

Sammanfattning Vi fortsätter från den föregående föreläsningen med statistiska inferensproblem (inferens= slutledning): mer om maximum-likelihood (ML) och minsta kvadrat (MK) som exempel på MK tar vi fram formlerna för en enkel linjär regressionsanalys. Sedan definierar vi begrepp som medelfel och felfortplantning. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 2 / 51

Statistisk inferens: allmän repetition Vi har en uppsättning data som ses som utfall av s.v. x 1, x 2,..., x n X 1, X 2,..., X n. Dessa variabler antages vara oberoende och likafördelade och deras gemensamma fördelning beror av en okänd parameter θ, t.ex. N(θ, σ), Po(θ), N(θ 1, θ 2 ), osv. En punktskattning θ obs av θ är en funktion θ (x 1,..., x n ) och motsvarande stickprovsvariabel θ är θ (X 1,..., X n ) Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 3 / 51

Maximum-likelihood-metoden: Likelihoodfunktion Antag att X i har täthetsfunktionen f X (x, θ), θ okänd. Definition kallas Likelihood-funktionen. L(θ) = f X1 (x 1, θ) f Xn (x n, θ) Idén är att skatta θ så att utfallet blir så troligt som möjligt. Observera att likelihoodfunktionen betraktas som en funktion av θ, inte av x 1,..., x n. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 4 / 51

Maximum-likelihood-metoden L(θ) = f X1 (x 1, θ) f Xn (x n, θ) Definition Det värde θobs för vilket L(θ) antar sitt största värde kallas ML-skattningen av θ. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 5 / 51

Maximum-likelihood-metoden Exempel X i är N(θ, σ), dvs. f (x, θ) = 1 σ 2π e 1 2 ( x θ σ ) 2. Vi observerar x 1,..., x n. Vi antar att σ är känt. lnl(θ) = ln(σ n (2π) n/2 ) 1 2σ 2 n 1 (x i θ) 2 ger dvs. d lnl(θ) dθ n 1 = 0 x i = nθ, θ obs = x. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 6 / 51

Maximum-likelihood-metoden Nu förutsätter vi att både µ och σ 2 är okända, vilket är den vanligaste situationen. Då blir L(µ, σ 2 ) = 1 (2πσ 2 ) n/2 e n 1(x i µ) 2 /2σ 2. Genom logaritmering och derivering med avseende på µ och σ 2 får man lnl µ = 1 σ 2 n (x i µ), lnl σ 2 = n 2σ 2 + 1 2σ 4 n (x i µ) 2. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 7 / 51

Maximum-likelihood-metoden Om man sätter derivatorna lika med noll och löser det så erhållna ekvationssystemet, får man ML-skattningarna µ obs = x och (σ2 ) obs = 1 n n (x i x) 2. Den första skattningen är väntevärdesriktig, men den senare måste korrigeras för att bli detta. Den korrigerade ML-skattningen av σ 2 är (Se Bilaga 1) s 2 = 1 n 1 n (x i x) 2. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 8 / 51

Weibullfördelning Weibullfördelning X Weib (λ, c), λ = 1/a > 0 beror på en skalparameter a, c > 0 är en formparameter. sannolikhetstäthet f X (x) = fördelningsfunktion F X (x) = { λc (λx) c 1 e (λx)c om x 0 0 om x < 0 { 1 e (λx) c om x 0 0 om x < 0 Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 9 / 51

Weibullfördelning Weibull, W. (1951) A statistical distribution function of wide applicability Journal of Applied Mechanics-Transactions of ASME 18(3), 293-297. Weibull, W. (1939): A statistical theory of the strength of materials. Ingenjörsvetenskapsakademiens Handlingar. 151. Stockholm 1939 Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 10 / 51

Weibullfördelning Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 11 / 51

Om Weibullfördelning ur Wikipedia The Weibull Distribution was first published in 1939, is by far the world s most popular statistical model and has proven to be invaluable for life data analysis in aerospace, automotive, electric power, nuclear power, medical, dental, electronics, every industry. It is also used in many other applications, such as weather forecasting and fitting data of all kinds. It may be employed for engineering analysis with smaller sample sizes than any other statistical distribution. (An increasing failure rate (felintensitet) suggests wear out - parts are more likely to fail as time goes on). http://www.bobabernethy.com/bios weibull.htm Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 12 / 51

Weibullfördelning Plot av Weibullfördelningarna Weib (1, 1), Weib (1, 2) och Weib (1, 3). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 13 / 51

Maximum-likelihood och Weibullfördelning X Weib (1/a, 1.3) med tätheten f (x; a) = 1.3x0.3 a 1.3 e (x/a)1.3 om x > 0. Likelihoodfunktionen blir för n observationer x 1,..., x n L(a) = f (x 1 ; a)f (x 2 ; a) f (x n ; a) = 1.3n x0.3 a1.3n 1 x0.3 2 xn 0.3 e ( n x1.3 i )/a 1.3. Logaritmering och derivering med avseende på a ger d ln(l(a)) da = 1.3n a + 1.3 n a 2.3 xi 1.3, a obs = ( n 1 x 1.3 i /n) 1/1.3. Detta exempel visar att ML-skattningar mycket väl kan vara sådana att man inte omedelbart kan gissa utseendet. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 14 / 51

Maximum-likelihood och Weibullfördelning Observationerna x 1, x 2,..., x n kommer från en Weibull-fördelning med formparameter c och skalparameter a = 1/λ = 1/b 1/c. Täthetsfunktionen är då Likelihoodfunktionen blir som logaritmerat blir f (x; b, c) = bcx c 1 e bxc om x > 0 och 0 annars. L(b, c) = b n c n (x 1 x 2... x n ) c 1 e b n 1 xc i ln(l(b, c)) = n ln(b) + n ln(c) + (c 1) n ln(x i ) b n x c i. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 15 / 51

Maximum-likelihood och Weibullfördelning Deriverar vi detta partiellt med avseende på b respektive c (för att försöka hitta maximipunkten) erhålls derivatorna ln(l(b, c)) b = n b n 1 x c i, ln(l(b, c)) c = n c + n 1 ln(x i ) b n 1 x c i ln(x i ). Sätts dessa derivator till 0 erhålls ur den första ekvationen b = n/ n 1 xc i som kan sättas in i den andra ekvationen som då blir n c + n 1 ln(x i ) n n 1 x c i ln(x i ) n 1 x c i = 0, som inte kan lösas analytiskt utan får beräknas numeriskt för att på så sätt erhålla c. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 16 / 51

Minsta-kvadrat-metoden Låt x 1,..., x n vara ett stickprov från en fördelning med E(X) = µ(θ) där µ(θ) är en känd funktion av en okänd parameter θ. Sätt Q(θ) = n (x i µ(θ)) 2 och minimera Q(θ) map. θ. Lösningen θobs till detta problem kallas MK-skattningen av θ. Ifall den inversa funktionen µ 1 (θ) existerar ges MK-skattningen θobs av ( ) θobs n = 1 µ 1 n x i = µ 1 (x) Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 17 / 51

Minsta-kvadrat-metoden: Regressionsanalys Exempel Vi vill undersöka hur en termometer mäter temperatur. Vi prövar därför termometern i vätskor med olika temperaturer x 1,..., x n. Dessa temperaturer anser vi helt kända. Motsvarande mätvärden y 1,..., y n antar vi är ungefär en linjär funktion av den verkliga temperaturen: y k α + βx k. Som vanligt uppfattas mätvärdena y 1,..., y n som utfall av s.v. Y 1,..., Y n. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 18 / 51

Minsta-kvadrat-metoden: Regressionsanalys Ett fiktivt exempel x = 1 2 3 4 5 6 7 y = 0.9 1.4 2.2 2.7 3.2 4.3 4.2 Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 19 / 51

Minsta-kvadrat-metoden: Enkel linjär regressionsanalys Exemplen handlar om enkel linjär regression. En ofta använd modell för detta är följande: Det föreligger n par av värden (x 1, y 1 ),..., (x n, y n ) där x 1,..., x n är givna storheter och y 1,..., y n är observationer av oberoende s.v. Y 1,..., Y n, där Y i N(µ i, σ). Observera att σ förutsätts att ej bero av x, vilket ofta är det kritiska antagandet. Varje väntevärde µ i är linjärt beroende av x i, d.v.s. Linjen µ i = α + βx i, i = 1,..., n. kallas den teoretiska regressionslinjen. y = α + βx (1) Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 20 / 51

Minsta-kvadrat-metoden: Enkel linjär regressionsanalys Koefficienten β är betydelsefull, ty den anger hur mycket väntevärdet ökar, då x ökas med en enhet. Om speciellt β skulle vara noll, är väntevärdet konstant, d.v.s beror inte av x. Med hjälp av regressionslinjen kan man för varje givet x bestämma tillhörande väntevärde. Ju mindre σ är, desto mindre är på det hela taget dessa avstånd, d.v.s. desto bättre ansluter sig punkterna till linjen. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 21 / 51

Minsta-kvadrat-metoden: Regressionsanalys Vi skattar parametrarna α och β med Minsta-Kvadratmetoden, dvs. vi minimerar Q(α, β) = n (y i α βx i ) 2 m.a.p. α och β. De värden αobs och β obs som ger minimum kallas MK-skattningarna av α och β. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 22 / 51

Minsta-kvadrat-metoden: Regressionsanalys Vi får nu: n Q α = 2 (y i α βx i ) = 2n(y α βx) n Q β = 2 x i (y i α βx i ). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 23 / 51

Minsta-kvadrat-metoden: Regressionsanalys Sätter vi derivatorna = 0, så fås av första ekvationen vilket insatt i andra ekv. ger 0 = α = y βx, n x i (y i y β(x i x)) = n (x i x)(y i y β(x i x)). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 24 / 51

Minsta-kvadrat-metoden: Regressionsanalys Sätter vi ihop detta så får vi α obs = y β obs x och β obs = n (x i x)(y i y) n (x i x) 2. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 25 / 51

Minsta-kvadrat-metoden: Regressionsanalys Linjen y = α obs + β obs x. kallas den skattade regressionslinjen. De lodräta avstånden ε i från y i till den skattade regressionslinjen i x i, ε i = y i α obs β obs x i kallas observerade residualer. Q 0 definieras som Q 0 = Q(α obs, β obs ) = n ε 2 i. och kallas residualkvadratsumman. σ 2 skattas med s 2 = Q 0 n 2. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 26 / 51

Minsta-kvadrat-metoden: Regressionsanalys I exemplet ovan är skattade regressionslinjen, residualkvadratsumman och s 2 y = 0.3143 + 0.5964x, Q 0 = 0.2796, s 2 = 0.0559 Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 27 / 51

Priset på gamla viner http://www.liquidasset.com/ av Orley Ashenfelter. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 28 / 51

Medelfel för en skattning Vi använder variansen V (θ ) eller, vilket i princip är samma sak, standardavvikelsen D(θ ) som precisionsmått för en skattning θ. Ju mindre varians (större effektivitet), desto belåtnare är vi med skattningen. Ibland hamnar man då i en besvärlig situation: Variansen och standardavvikelsen är själva okända, emedan de beror av just den parameter som man vill skatta (och kanske av ytterligare andra okända parametrar). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 29 / 51

Medelfel för en skattning Om man vill få information om D(θ ) får man försöka hitta på en skattning även av denna storhet (parameter). Konsekvensen blir att man inte får ett exakt precisionsmått utan bara ett ungefärligt. Vi skulle kunna beteckna denna numeriska skattning av osäkerheten med D(θ ) obs men skriver den i stället d(θ ). Definition En skattning av D(θ ) kallas medelfelet för θ och betecknas d(θ ). Hur medelfelet skall väljas får avgöras från fall till fall. Man borde tillse att d(θ ) är en konsistent skattning av D(θ ). Detta kan nog verka förbryllande men man skall hålla isär begreppen: θ obs är en skattning av θ och d(θ ) är en skattning av D(θ ). Det var detta vi gjorde i det inledande exemplet i i samband med analys av en opinionsundersökning. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 30 / 51

Medelfel för en skattning: Felfortplantning Felfortplantning, eller Gauss-approximation, används ibland för att approximativt beräkna medelfel för skattningar. Antag att vi har en skattning θobs som vi vet är approximativt väntevärdesriktig samt anser oss veta medelfelet för. Vi bildar nu en funktion g(θobs ) av skattningen. Detta kan vara aktuellt om vi är intresserade av att skatta en parameter ψ = g(θ), där en naturlig skattning är ψobs = g(θ obs ). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 31 / 51

Felfortplantning Vi undrar nu hur osäkerheten (medelfelet) i θ-skattningen fortplantas genom funktionen g till en osäkerhet (medelfel) i ψ-skattningen. Vad vi gör är att serieutveckla (linjärisera) funktionen g genom g(x) = g(a) + (x a)g (a) + restterm där vi anser oss kunna försumma resttermen. Vad detta innebär är att vi ersätter funktionen g(x) med tangenten i punkten a som (ibland) är en hyfsad approximation åtminstone i närheten av punkten a. Om vi väljer a = θ erhåller vi ψ = g(θ ) g(θ) + (θ θ)g (θ). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 32 / 51

Gauss-approximation Om nu E(θ ) θ, d.v.s. att θobs är (åtminstone approximativt) väntevärdesriktig, och dessutom huvuddelen av sannolikhetsmassan i fördelningen för θ finns i det område där den linjära approximationen är god erhåller man E(ψ ) g(θ) = ψ och V (ψ ) (g (θ)) 2 V (θ θ) = (g (θ)) 2 V (θ ) (g (θ obs ))2 V (θ ). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 33 / 51

Gauss-approximation Sats Om θobs är approximativt väntevärdesriktig med medelfelet d(θ ) så gäller att ψobs = g(θ obs ) är approximativt väntevärdesriktig som skattning av ψ = g(θ) samt har approximativt medelfel d(ψ ) g (θobs ) d(θ ). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 34 / 51

Felfortplantning Låt x 1,..., x n vara utfall av oberoende stokastiska variabler X 1,..., X n, respektive, som är ffg-fördelade dvs. p X (x) = p (1 p) (x 1) för x = 1, 2,... (a) Bestäm minsta-kvadrat-skattningen pobs 0 < p < 1. av parametern p, där (b) Bestäm approximativt väntevärde E(p ) och varians V (p ) för minsta-kvadrat-skattningen p obs. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 35 / 51

Minsta kvadrat a) Enligt formelsamlingen är E(X i ) = 1 p = µ(p) och därmed bildar vi minsta-kvadrat-skattningen genom att minimera funktionen och enligt tidigare fås Q (p) = n (x i µ(p)) 2. ( ) pobs n = 1 µ 1 n x i = µ 1 (x) = 1 x, där x = 1 n n x i. SVAR: p obs = 1 x. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 36 / 51

Felfortplantning (b) Inför g(x) = 1 x, för x > 0. Sätt θ = 1 p och θ = X = 1 n n X i. Vi har = E ( 1 n E (θ ) = E ( X ) ) n X i = 1 n n E(X i ) Men och enligt formelsamlingen är E(X i ) = 1 p och således E ( X ) = 1 p = θ dvs. E (θ ) = θ. Då ger Gauss approximation SVAR: E (p ) p. E (p ) = E (g (θ )) g (E (θ )) = g (θ) = p. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 37 / 51

felfortplantning Med stöd av Gauss approximationsformler fås nu att ( 2 V (p ) = V (g (θ )) V (θ ) g (E (θ ))). Men eftersom vi har oberoende stokastiska variabler, så blir V (θ ) = V ( X ) = 1 n 2 n V (X i ). Enligt formelsamlingen är V (X i ) = 1 p. Detta ger V (θ ) = 1 1 p p 2 n (= 1 p 2 n θ(θ 1)). Eftersom ( 2 g (x) = 1/x 2, blir g (E (θ ))) = 1 = 1 = p 4. (E(θ )) 4 θ 4 SVAR: V (p ) (1 p ) (p ) 2 /n. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 38 / 51

Bilaga 1 Stickprovsvariansen s 2 är en väntevärdesriktig skattning av σ 2. Sats (σ 2 ) obs = s2 = 1 n 1 n (x i x) 2. Stickprovsvariansen s 2 är en väntevärdesriktig skattning av σ 2. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 39 / 51

Bilaga 1 Stickprovsvariansen s 2 Bevis. Satsen utsäger att om S 2 är den mot s 2 svarande stickprovsvariabeln så är där X = n X i/n. [ E[S 2 ] = E 1 n 1 n (X i X) 2] = σ 2 Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 40 / 51

Bilaga 1 Stickprovsvariansen s 2 Man finner (t.ex. med (2) och (5) i Bilaga 2 nedan) n (X i X) 2 = n [(X i µ) (X µ)] 2 = n (X i µ) 2 2(X µ) n (X i µ) + n(x µ) 2 = n (X i µ) 2 2n(X µ) 2 + n(x µ) 2 = n (X i µ) 2 n(x µ) 2. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 41 / 51

Bilaga 1 Stickprovsvariansen s 2 Härav får man successivt n E[ (X i X) 2] n = E[ (X i µ) 2] ne[(x µ) 2 ] = ne[(x µ) 2 ] ne[(x µ) 2 ] = nv (X) nv (X) = nσ 2 n σ2 n = (n 1)σ2. Genom att dividera med n 1 får vi det vi skulle bevisa. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 42 / 51

Bilaga 1 Stickprovsvariansen s 2 Satsen ger en förklaring till varför man dividerar med n 1 vid beräkning av s 2 ; orsaken är att man vill ha en väntevärdesriktig skattning av σ 2. Om n är någorlunda stort, är det rätt likgiltigt om man dividerar med n eller n 1, men det är enklast att alltid använda den senare faktorn. I praktiken önskar man ofta skatta standardavvikelsen σ (alltså inte variansen σ 2 ). Man använder då ofta stickprovets standardavvikelse σobs = s = 1 n 1 n (x i x) 2. Denna skattning är dock inte väntevärdesriktig, men det saknar i praktiken större betydelse, särskilt som det systematiska felet E(S) σ i regel är litet om n är någorlunda stort. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 43 / 51

Bilaga 2: räkneoperationer med summor Definition (1) n x i = x 1 + x 2 +... + x n. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 44 / 51

Bilaga 2: räkneoperationer med summor Sats (2) n a x i = a n x i. Bevis. Definitionen (1) ger n a x i = ax 1 + ax 2 +... + ax n = a (x 1 + x 2 +... + x n ) = a n x i. Exempel: x i = 1, i = 1...., n n ax i = a n 1 = a (1 + 1 +... + 1) = a n. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 45 / 51

Bilaga 2: räkneoperationer med summor Sats (3) n (x i + y i ) = n x i + n y i. Bevis. Definition (1) ger n (x i + y i ) = (x 1 + y 1 ) + (x 2 + y 2 ) +... + (x n + y n ) = x 1 + x 2 +... + x n + y 1 + y 2 +... + y n = n x i + n y i. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 46 / 51

Bilaga 2: räkneoperationer med summor Sats (4) n (ax i + by i ) = a n x i + b n y i Bevis. Detta fås av (3) och (2). Sats (5) n (x i + y i ) 2 = n x 2 i + 2 n x i y i + n y 2 i. Bevis. Använd (x i + y i ) 2 = x 2 i + 2x i y i + y 2 i och (4) samt (2) med a = 2. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 47 / 51

Bilaga 2 : räkneoperationer med summor Låt x = 1 n n x i. Då gäller Sats (6) n (x i x) = 0. Bevis. : n (x i x) = n x i n x enligt (4). Men här har vi med a = x i (2) att n x = x n 1= x n enligt exemplet i (2). Men x n = n x i och detta ger påståendet i (6). Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 48 / 51

Bilaga 2: räkneoperationer med summor Sats (7) n (x i x) (y i y) = n (x i x) y i = n x i (y i y). Bevis. : (x i x) (y i y) = (x i x) y i (x i x) y. Då fås enligt (4) att n (x i x) (y i y) = n (x i x) y i n (x i x) y. Men med a = y i (2) fås att n (x i x) y = y n (x i x) och då ger (6) att n (x i x) (y i y) = n (x i x) y i. Analogt tar vi fram den andra likheten. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 49 / 51

Bilaga 2: räkneoperationer med summor Sats (8) n (x i x) (y i y) = n x i y i nxy. Bevis. Utveckla t.ex. n x i (y i y) i högra ledet av (7) och använd (2) och definitionen på x. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 50 / 51

Bilaga 2: räkneoperationer med summor Sats (9) n (x i x) 2 = n x 2 i nx 2. Bevis. : Ur (5) fås att n (x i x) 2 = n x2 i 2 n x ix + n x2. Då ger (2) med a = x och exemplet i (2) att n x 2 i 2 n x i x + n x 2 = n x 2 i 2x n x i + nx 2. Definitionen på x ger n x i = nx, så att n x 2 i 2x n x i + nx 2 = n x 2 i 2x nx + nx 2 = n x 2 i nx 2. Jan Grandell & Timo Koski () Matematisk statistik 24.09.2008 51 / 51