TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder Martin Singull Matematisk statistik Matematiska institutionen
Innehåll Fö2 I Punktskattningar I Egenskaper I Väntevärdesriktig I E ektiv I Konsistent I Punktskattning för väntevärde och varians I Minsta-kvadrat-metoden I Likelihoodfunktionen I Maximum-Likelihood-Metoden TAMS65 - Fö2 1/48
Punktskattning Låt x 1,...,x n vara observationer av oberoende s.v. X 1,...,X n,vars sannolikhetsfunktion p(k; ) eller täthetsfunktion f (x; ) innehåller en okänd parameter. Vi söker ett approximativt värde på, dvs.en punktskattning baserad på x 1,...,x n. Definition. En punktskattning är en funktion av de observerade mät- värdena, det vill säga ˆ = g(x 1,...,x n ). I boken har vi notationen ˆ = (x). TAMS65 - Fö2 2/48
Stickprovsvariabeln Det fixa värdet ˆ (eng. estimate) är observation av stickprovsvariabeln (eng. estimator) b =g(x 1,...,X n ). I boken har vi notationen b = (X). Ibland kallar vi även b för skattningsvariabel eller (punkt-) skattning. Fördelningen för b beskrivervilkavärden vi kan få på ˆ för olika observationsserier. TAMS65 - Fö2 3/48
Exempel - Punktskattning Antag att vi har tre oberoende mätningar x 1, x 2, x 3 från en och samma population med väntevärdet µ och standardavvikelsen. Vi kan till exempel skatta µ på två olika sätt ˆµ 1 = 1 3 (x 1 + x 2 + x 3 ) ˆµ 2 = 1 6 (x 1 +2x 2 +3x 3 ). Antag att x 1, =1.32, x 2 =2.41 och x 3 =1.97 då blir de observerade skattningarna ˆµ 1 = 1 (1.32 + 2.41 + 1.97) = 1.90 3 ˆµ 2 = 1 (1.32 + 2 2.41 + 3 1.97) = 2.01. 6 TAMS65 - Fö2 4/48
Väntevärdesriktighet m.m. Definition. b kallasväntevärdesriktig (vvr) (eng. unbiased) om E( b ) =. Definition. Ett systematiskt fel är definierat som E( b ) = systematiskt fel (eng. bias). Definition. Om b 1 och b 2 är väntevärdesriktiga skattningar av, såkallas b 1 e ektivare än b 2 om var( b 1 ) < var( b 2 ). TAMS65 - Fö2 5/48
Exempel, forts. Väntevärdesriktiga? E( M b 1 1 )=E 3 (X 1 + X 2 + X 3 ) =... = µ, E( M b 1 2 )=E 6 (X 1 +2X 2 +3X 3 ) =... = µ Alltså, båda skattningarna är vvr skattningar av µ, menvilken skattning är e ektivast? var( M b 1 1 )=var 3 (X 1 + X 2 + X 3 ) = 1 9 ( 2 + 2 + 2 2 )= 3, var( M b 1 2 )=var 6 (X 1 +2X 2 +3X 3 ) = 1 36 ( 2 +4 2 +9 2 )= 14 36 2. Alltså gäller att var( b M 1 ) < var( b M 2 ) och skattningen µ 1 ( b M 1 ) är e ektivare och bör användas. TAMS65 - Fö2 6/48
Exempel Låt x 1,...,x 7 vara ett stickprov från en slumpvariabel X med E(X )=µ och var(x )= 2. Betrakta skattningen av 2 enligt Är denna skattning vvr? X 2 E(ˆ2) =E 2 2 + X 6 2 2 ˆ2 = x 2 2 + x 6 2 (x 2 + x 6 )/2. 2 X 2 4 X 6 4 = E(X 2 2) + E(X 6 2) E(X 2 ) E(X 6 ) 2 2 4 4 = / E(Z 2 )=var(z)+(e(z)) 2 / = var(x 2)+(E(X 2 )) 2 + var(x 6)+(E(X 6 )) 2 µ 2 2 4 2 + µ 2 2 + µ 2 µ = + 2 2 2 = 2 + µ 2 µ 2 6= 2 Svar: Nej, skattningen är inte vvr. TAMS65 - Fö2 7/48 µ 4
Konsistent skattning Om man har stora stickprov är även asymptotiska egenskaper hos punktskattningar intressanta. Definition. Anta att b n är definierad för varje stickprovsstorlek n. Omför varje ">0gäller att P( b n >")! 0dån!1, så sägs b n vara en konsistent skattning. När man ska bevisa att en skattning är konsistent har man ofta nytta av följande sats. Sats. Om E( b n )= och var( b n )! 0dån!1,såär b n en konsistent skattning av. TAMS65 - Fö2 8/48
Bevis Använd Tjebysjovs-olikhet P( Y µ Y > k Y ) apple 1 k 2. Låt ">0 vara givet. Då gäller att P( n >")=P( n " > D( n )) apple D( n ) {z } =k = var( n) " 2! 0 då n!1 eftersom var( b n )! 0dån!1. D( n ) " 2 TAMS65 - Fö2 9/48
Skattning av väntevärdet Låt x 1,...,x n vara observationer av oberoende s.v. X 1,...,X n med E(X i )=µ och var(x i )= 2. Sats. Det gäller att stickprovsmedelvärdet bm = X = 1 n X i är en väntevärdesriktig och konsistent skattning av µ. Sats. Det gäller att stickprovsvariansen S 2 = 1 n 1 (X i X ) 2 är en väntevärdesriktig skattning av 2. TAMS65 - Fö2 10/48
Bevis E( b M)=E( X )= 1 n var( b M)=var( X )= 1 2 n Alltså var( b M)! 0dån!1. E(X i ) = 1 {z } n nµ = µ =µ var(x i ) = {z } = 2 1 n 2 n 2 = n 2 bm är en vvr och konsistens skattning av µ. TAMS65 - Fö2 11/48
Bevis Vi har att (X i X ) 2 = och = (X 2 i 2X i X + X 2 )= X 2 i n X 2 X 2 i 2 X X i {z } =n X +n X 2 E(X 2 i )=var(x i )+(E(X i )) 2 = 2 + µ 2 E( X 2 )=var( X )+(E( X )) 2 = 2 n + µ2 vilket ger TAMS65 - Fö2 12/48
Bevis forts. E(S 2 )=E 1 n 1!! (X i X ) 2 = 1 n 1 E (X i X ) 2! = 1 n 1 E Xi 2 n X 2 = 1 n 1 = 1 n 1 n( 2 + µ 2 ) E(Xi 2 ) n E( X {z } = 2 +µ 2 2 ) {z } = 2 n +µ2 Alltså, S 2 är en vvr skattning av 2. 2! nµ 2 = 1 n 1 (n 1) 2 = 2. TAMS65 - Fö2 13/48
Anm. S är inte en väntevärdesriktig skattning av, eftersom 0 < var(s) =E(S 2 ) [E(S)] 2 = 2 [E(S)] 2 dvs. [E(S)] 2 < 2 och då är E(S) <. Leta upp s på din räknare och lär dig använda den rutinen. Heter ibland n 1. TAMS65 - Fö2 14/48
Minsta-kvadrat-metoden Låt x 1,...,x n vara observationer av oberoende stokastiska variabler X 1,...,X n med E(X i )=µ i ( ) ochvar(x i )= 2. Det värde ˆ som minimerar Q( ) = (x i µ i ( )) 2, kallas minsta-kvadrat-skattningen (MK-skattningen) av parametern. Här behöver inte vara endimensionell, se tex. avsnittet om regressionsanalys. Tänk på att när vi minimerar Q( ), så betraktar vi som en variabel, medan x 1,...,x n är fixa tal (mätvärden). TAMS65 - Fö2 15/48
Exempel - Normalfördelning Låt x 1,...,x n vara observationer av oberoende s.v. X 1,...,X n,där X i N (µ, )och är känt. Skattaµ med minsta-kvadratmetoden. Q(µ) = (x i µ) 2 dq dµ = 2 (x i µ)=0 0= (x i µ)= x i nµ vilket ger ˆµ = 1 n P n x i = x. TAMS65 - Fö2 16/48
Exempel - Linjär regression I en studie har man velat undersöka sambandet mellan skadekostnader och avstånd till närmaste brandstation vid bränder i bostadshus. Distance from Fire Station Fire Damage x, miles y, thousandsofdollars 3.4 26.2 1.8 17.8 4.6 31.3 2.3 23.1 3.1 27.5 5.5 36.0 0.7 14.1 3.0 22.3 2.6 19.6 4.3 31.3 2.1 24.0 1.1 17.3 6.1 43.2 4.8 36.4 3.8 26.1 TAMS65 - Fö2 17/48
Exempel, forts. Ett approximativt linjärt samband verkar fullt rimligt. TAMS65 - Fö2 18/48
Exempel, forts. Vi har värdepar (x j, y j ), där y j är observation av den stokastiska variabeln Y j = µ j + " j = 0 + 1 x j + " j, för j =1,...,n, där µ j = 0 + 1 x j och x 1,...,x n är fixa tal medan " 1,...," n är oberoende s.v. med E(" j )=0och var(" j )= 2. Modellen ger att E(Y j )=µ j = 0 + 1 x j och var(y j )= 2. Vi skattar 0 och 1 med hjälp av MK-metoden, d.v.s. minimerar Q( 0, 1) = (y j E(Y j )) 2 = j=1 (y j 0 1 x j ) 2 j=1 med avseende på 0 och 1. TAMS65 - Fö2 19/48
Exempel, forts. Vi får den skattade regressionslinjen ŷ = ˆ0 + ˆ1x = 10.278 + 4.9193x TAMS65 - Fö2 20/48
Exempel - Hypergeometrisk fördelning IenurnafinnsN kulor varav Np är vita och N(1 p) är svarta. Man väljer slumpmässigt n stycken utan återläggning och får då X vita kulor. Då gäller att X har hypergeometrisk fördelning, X Hyp(N, n, p) dvs. p X (x) =P(X = x) = Np x N(1 p) n x N n, för 0 apple x apple Np och 0 apple n x apple N(1 p). TAMS65 - Fö2 21/48
Exempel - Hypergeometrisk fördelning Bland 200 ekonomiska transaktioner i ett företag väljer man ut 25 st och finner bland dem 3 felaktiga. Uppskatta p =andelen felaktiga transaktioner. N = 200, n = 25, x =3är en observation från X Hyp(N, n, p) E(X )=np mm ger n ˆp = x d.v.s. ˆp = x n. mkm ger Q(p) = P n (x i np) 2 =(x np) 2 dq 2 dp = 2n(x np) samtd Q dp 2 =2n2 > 0(min) dq dp = 0 ger ˆp = x n. TAMS65 - Fö2 22/48
Exempel - Exponentialfördelning Under en kort geologisk period kan det vara rimligt att anta att tiderna mellan successiva utbrott för en vulkan är oberoende och exponentialfördelade med ett väntevärde µ som är karakteristiskt för den enskilda vulkanen. I tabellen nedan finns tiderna i månader mellan 37 successiva utbrott för vulkanen Mauna Loa på Hawaii 1832-1950. 126 73 3 6 37 23 73 23 2 65 94 51 26 21 6 68 16 20 6 18 6 41 40 18 41 11 12 38 77 61 26 3 38 50 91 12 TAMS65 - Fö2 23/48
Exempel forts. För att se hur datamaterialet ser ut gör vi ett histogram. Tiderna mellan utbrott varierar mycket. Histogrammets form antyder att exponentialfördelning kan vara ett lämpligt antagande. TAMS65 - Fö2 24/48
Exempel forts. Om X är tiden mellan två utbrott så skulle täthetsfunktionen vara f (x) = 1 µ e x/µ för x 0. Parametern µ är väntevärdet och vi vet att µ > 0. För att kunna beskriva variationerna i tidsavstånden mellan utbrotten och kunna beräkna intressanta sannolikheter behöver vi ett approximativt värde på µ. Alltså, vi behöver punkskatta µ. Förslag? TAMS65 - Fö2 25/48
Exempel forts. Anta t.ex. att ett utbrott just är över. Uppskatta, utgående från antagandet om exponentialfördelning, sannolikheten att det dröjer mer än sex månader till nästa utbrott. Alltså vi ska beräkna ˆp = P(X > 6) = Z 1 6 f (x)dx = Vi återkommer till det här exemplet senare. Z 1 6 1 ˆµ e x/ˆµ dx TAMS65 - Fö2 26/48
Exempel - Binomialfördelning För ett datorsystem är det önskvärt att svarstiden, då man ger en viss typ av kommando, är under tre sekunder. Vid 66 oberoende testningar fick man 14 svarstider som var längre än tre sekunder. Vi vill uppskatta p = sannolikheten att en svarstid är > 3s. Modell: x = 14 är observation av X Bin(n, p) där n = 66. Hur ska vi skatta p? Förslag? Vi återkommer också till det här exemplet senare. TAMS65 - Fö2 27/48
Maximum-Likelihood-Metoden Låt x 1,...,x n vara observationer av oberoende s.v. X 1,...,X n med täthetsfunktion f (x; ) eller sannolikhetsfunktion p(x; ). Definition. Funktionen 8 Q n < f (x i; ) =f (x 1 ; )... f (x n ; ) L( ) = : Q n p(x i; ) =p(x 1 ; )... p(x n ; ) kontinuerlig s.v. diskret s.v. kallas likelihoodfunktionen. Definition. Det värde på ˆ som maximerar likelihoodfunktionen L( ), då 2 A = {tillåtna värden på }, kallasmaximumlikelihood- skattningen (ML-skattningen) av. TAMS65 - Fö2 28/48
Exempel - ML-metoden Stickprov x =( 0.5, 0, 0.3, 0.5, 0.7, 0.8, 0.95, 1.15, 1.25, 1.30, 1.6, 1.9, 2.7, 3.5). Då ändras från 1 till 2 får vi en ny täthetsfunktion. ML-metoden väljer den täthetsfunktion som gör L( ) så stor som möjligt. TAMS65 - Fö2 29/48
Anmärkningar Anm. 1 Vid maximeringen av L( ) = Q n f (x i; ) skavibetrakta som en variabel och x i som konstanta. Anm. 2 Det är oftare enklare att maximera ln L( ) = ln f (x i ; ). Anm. 3 Skattningsvariabeln b som hör ihop med ML-skattningen har goda asymptotiska egenskaper vilket gör att man åtminstone för stora stickprov föredrar ML-skattningen framför andra typer av skattningar. Under ganska generella villkor gäller att den s.v. b är konsistent och asymptotiskt normalfördelad med optimal varians. TAMS65 - Fö2 30/48
Generaliseringar a) Parametern kan vara flerdimensionell, t.ex. två som i normalfördelningsfallet. b) Man har observationer x 1,...,x n och y 1,...,y m,där de s.v. X i har en fördelning och de s.v. Y j en annan fördelning, men båda fördelningarna innehåller samma parameter. Då är L( ) =L 1 ( ) L 2 ( ). TAMS65 - Fö2 31/48
Exempel forts. - Exponentialfördelning I exemplet ovan har vi x 1,...,x n, n = 36 och f (x) = 1 µ e x/µ. L(µ) = Q n f (x i)= Q n 1 µ e x i /µ = 1 µ n e 1 P n µ x i ln L(µ) =l(µ) = n ln µ 1 P n µ x i dl dµ = n µ + 1 µ 2 P n x i = 0 ger µ = x = 36.72 Max? d 2 l dµ 2 = n 2 P n µ 2 µ 3 x i d.v.s. max. = n x 2 µ= x 2 n x =... = < 0 ) x 3 n x 2 TAMS65 - Fö2 32/48
Exempel forts. p =P(X > 6) = R 1 6 ˆp = e 6/ˆµ = e 6/ x 0.85 1 µ e x/µ =... = e 6/µ TAMS65 - Fö2 33/48
Exempel forts. - Binomial Vi har att x = 14 är en observation av X Bin(n, p), där n = 66. p(k) = n k pk (1 p) n k för k =0, 1,...,n L(p) = n x px (1 p) n x l(p) =lnl(p) =ln n x + x ln p +(n x)ln(1 p) dl dp = x p n x 1 p = 0 ger p = x n (max?) ˆp = x n = 14 66 0.21 TAMS65 - Fö2 34/48
ML-skattningarna i normalfördelningsfallet Vi har observationer x 1,...,x n av oberoende s.v. X 1,...,X n,där X i N(µ, ). Fall 1: känd och µ okänd. Då är ˆµ = x. f (x) = 1 p 2 e (x µ)2 2 2 L(µ) = Q n 1 p e (x i µ) 2 2 2 2 = 1 ( 2 2 ) n/2 e 1 2 2 P n (x i µ) 2 Funktionen P L(µ) uppnår maximum samtidigt som funktionen n (x i µ) 2 antar minimum, d.v.s. då µ = x (samma som MK). TAMS65 - Fö2 35/48
ML-skattningarna i normalfördelningsfallet Fall 2: okänd och µ känd. Då är ˆ2 = 1 n P n (x i µ) 2. (Hemuppgift) Fall 3: Både µ och okända. Likelihoodfunktionen ges av h L(µ, )= 1 p e (x 1 µ) 2 /2 2i h... 2 1 p 2 e (xn µ)2 /2 2i = 1 p 2 n n e 1 2 2 P n (x i µ) 2. Vidare får vi l(µ, )=lnl(µ, )=konstant n ln 1 2 2 (x i µ) 2. TAMS65 - Fö2 36/48
Både µ och okända Man kan visa att maximum antas i ett nollställe till de partiella derivatorna.! @l @µ = 1 2 2 2(x i µ)( 1) = 1 x 2 i nµ @l @ = n + 1 3 8 < : @l @µ =0 @l @ =0 ger (x i µ) 2 8 < : ˆµ = 1 n P n x i = x (vvr) ˆ2 = 1 n P n (x i x) 2 (ej vvr) TAMS65 - Fö2 37/48
E(ˆ2) = 1 n E P n (X i X ) 2 = / se ovan / = 1 n (n 1) 2 = n 1 n d.v.s. om vi väljer n ˆ2 =... = s 2 ok. n 1 2 n ˆ2 som skattning så är den vvr. n 1 TAMS65 - Fö2 38/48
Korrigerad ML-skattning Korrigerad ML-skattning av 2 är den vanliga stickprovsvariansen s 2 = 1 n 1 (x i x) 2. Vid ett stickprov från normalfördelning har vi alltså skattningarna ˆµ = x, ˆ2 = s 2 = 1 n 1 (x i x) 2, då båda parametrarna µ och 2 är okända. TAMS65 - Fö2 39/48
Exempel - Normalfördelning En a är har bestämt bemanningen på lördagar så att man behöver sälja för 25 000 kronor för att gå runt den enskilda lördagen. Man vill bedöma hur vanlig en försäljningssumma under 25 000 är och även studera den genomsnittliga försälj- ningen för lördagar. Försäljningssi ror för 40 lördagar: 29 725.3 29 848.2 31 119.2 34 629.1 40 249.5 25 657.4 30 674.9 22 683.1 38 009.9... 26 723.1 27 044.4 TAMS65 - Fö2 40/48
Exempel forts.- Normalfördelning Modell: Försäljningen i tusentals kronor en slumpmässigt vald lördag är en s.v. X N(µ, ). Här beskriver parametern µ den genomsnittliga försäljningen i det långa loppet. En annan intressant parameter är X µ 25000 µ 25000 p =P(X < 25000) = P < = µ Vi behöver approximativa värden på µ och och de är ˆµ = x = 29323, v ˆ = s = p 1 ux t 40 (x i x) 2 = 5517.4. 39 1 TAMS65 - Fö2 41/48
Exempel forts.- Normalfördelning De approximativa värdena på µ och ger 25000 ˆµ ˆp = = ( 0.7835) = 1 (0.7835) 0.22 s Tolkning: Ungefär 22% av lördagarna ligger försäljningen under 25000 kronor. Den genomsnittliga försäljningen µ på lördagar är ungefär 29300 kronor. TAMS65 - Fö2 42/48
Hur säker information har vi om µ och 2 via punktskattningarna? Vi behöver studera fördelningarna för de s.v. b M och S 2.Viharatt bm = X = 1 X i N µ, pn n S 2 = 1 X i X 2??? - se nästa föreläsning. n 1 Vi återkommer till detta i samband med intervallskattning. TAMS65 - Fö2 43/48
Flera stickprov från normalfördelning Antag nu att vi har flera stickprov från normalfördelning x 1,...,x m, där X 1,...,X m är oberoende och N(µ 1, ) y 1,...,y n, där Y 1,...,Y n är oberoende och N(µ 2, ) På liknande sätt som vid fallet med ett stickprov från normalfördelning kan man härleda skattningarna av de tre parametrarna. Använd a) och b) på sid. 31 så får man likelihoodfunktionen L(µ 1,µ 2, 2 )=L(µ 1, 2 )L(µ 2, 2 ) = Qm 1 p e (x i µ 1 ) 2 2 2 2 Qn 1 p e (y i µ 2 ) 2 2 2 2 TAMS65 - Fö2 44/48
Flera stickprov från normalfördelning Vid två stickprov från normalfördelningar med skilda väntevärden och en gemensam standardavvikelse har vi ML-skattningarna ˆµ 1 = x, ˆµ 2 =ȳ, samt den korrigerade 2 -skattningen s 2 = (m 1)s2 1 +(n 1)s2 2 (m 1) + (n 1), där s 2 1 = 1 m 1 mx 1 (x i x) 2 och s 2 2 = 1 n 1 (y i ȳ) 2, d.v.s. stickprovsvariansen för respektive stickprovet. Det här resultatet kan generaliseras till flera stickprov (se F-S). TAMS65 - Fö2 45/48
Medelfel för en skattning Vi har använt oss av variansen var( b ) eller standardavvikelsen D( b ) som ett precisionsmått för skattningen b. Ju mindre varians, desto bättre skattning. Problem Variansen och standardavvikelsen är ofta okända, då de kan bero på just den parameter som vi vill skatta (och kanske ytterligare andra okända parametrar). Definition. En skattning av D( b ) kallas medelfelet för b och betecknas d = d( b ). TAMS65 - Fö2 46/48
Exempel Medelfel för en skattning N(µ, ) Låt X 1,...,X n vara oberoende och N(µ, ), där µ och okända. Vi vet att en skattning av µ är ˆµ = x. Denna skattning har standardavvikelsen D( b M)=p n,vilkenberor på som är okänt. Vi skattar variansen 2 med s 2 och medelfelet blir d( b M)= s p n. TAMS65 - Fö2 47/48
Exempel Medelfel för en skattning Bin(n, p) Skatta p med ˆp = x n som är en observation från b P = X n. var( P)= b 1 n 2 var(x )= 1 p) np(1 p) =p(1 n2 n D( b P)= r p(1 p) n r och d( P)= b ˆp(1 n ˆp) TAMS65 - Fö2 48/48
http://courses.mai.liu.se/gu/tams65/
Appendix - Summor och Produkter Summor x i = x 1 + x 2 +...+ x n ax i = ax 1 + ax 2 +...+ ax n = a(x 1 + x 2 +...+ x n )=a c = n c Produkter ny x i = x 1 x 2... x n ny (ax i )=(ax 1 ) (ax 2 )... (ax n )=a n x 1 x 2... x n = a n ny x i x i TAMS65 - Fö2 49/48
Appendix - Logaritmlagarna ln(a b) =lna +lnb ln a b =lna ln b ln a c = c ln a ln e a = a e ln b = b TAMS65 - Fö2 50/48