Föreläsning 2: Punktskattningar

Föreläsig : Puktskattigar Joha Thim joha.thim@liu.se 7 augusti 08 Repetitio Stickprov Defiitio. Låt de stokastiska variablera X, X,..., X vara oberoede och ha samma fördeligsfuktio F. Ett stickprov x, x,..., x består av observatioer av variablera X, X,..., X. Vi säger att stickprovsstorleke är. Puktskattig Defiitio. E puktskattig θ av parameter θ är e fuktio av de observerade värdea x, x,..., x : θ = gx, x,..., x. Vi defiierar motsvarade stickprovsvariabel Θ eligt Θ = gx, X,..., X. Var oggra med att tydligt visa och göra skillad på vad som är stokastiskt eller ite i di redovisig! Vi har tre storheter: y i θ verkligt värde. Okät. Determiistiskt. ii θ skattat värde. Kät beräkat frå stickprovet. Determiistiskt. iii Θ stickprovsvariabel. Dea är stokastisk! Stokastiskt eller ej? θ E Θ y = f Θx Saolikheter som beräkas bör aväda sig av Θ då Θ beskriver variatioe hos θ för olika stickprov. Om bara θ och θ igår är saolikhete alltid oll eller ett varför?. θ x

Defiitio. Stickprovsvariabel Θ kallas i vätevärdesriktig vvr om E Θ = θ; Egeskaper för skattigar ii kosistet om det för varje ɛ > 0 gäller att lim P Θ θ > ɛ = 0, där Θ är puktskattige för varje stickprovsstorlek ; iii effektivare ä e skattig Θ om V Θ V Θ. Om e puktskattig ite är vätevärdesriktig pratar ma iblad om ett systematiskt fel. Vi defiierar detta som skillade E Θ θ. E vätevärdesriktig skattig Θ har alltså iget systematiskt fel; i medel kommer de att hama rätt täk på de stora tales lag. Vi vill också gära ha egeskape att e puktskattig blir bättre ju större stickprov vi aväder. Valiga puktskattigar Vi stötte på medelvärdet och stickprovsvariase på föregåede föreläsig. Dessa skattigar är vettiga skattigar av vätevärdet och variase i meige att de är vätevärdesriktiga och kosisteta. Medelvärdet X = X i är e vätevärdesriktig och kosistet skattig av vätevärdet. Medelvärde Bevis: Variablera X k är oberoede och likafördelade. Låt EX i = µ och V X i = σ för alla i. Eftersom vätevärdesoperator är lijär så gäller att EX = E X i = EX i = µ = µ. Alltså är X e vätevärdesriktig skattig av µ. Då variablera är oberoede ka vi göra e likade kalkyl för variase: V X = V X i = V X i = σ = σ. Här ser vi att V X 0 då, så eligt satse ova är skattige kosistet.

Stickprovsvariase S = X i X är e vätevärdesriktig skattig av variase. Stickprovsvarias Bevis: Detta bevis är lite bökigare, me följer samma pricip. E X i X = E Xi X i X + X = EX i EX i X + EX. Vi vet att EX = µ och att V X = σ /. Steiers formel säger att EY = V Y + EY för e stokastisk variabel Y, vilket vi ka utyttja för att skriva EX i = V X i + EX i = σ + µ samt EX = σ / + µ. Vidare så ser vi att EX i X = E X i X k = EX i X k och eftersom EX i X k = EX i EX k = µ om i k eftersom dessa variabler är oberoede och EX i = σ + µ då i = k ka vi skriva Vi återgår till det sökta vätevärdet: EX i X = µ + σ + µ / = µ + σ /. ES = σ + µ µ + σ / + σ / + µ = σ σ / = σ. Alltså är S e vätevärdesriktig skattig av σ. Värt att otera är att S = S ite är e vätevärdesriktig skattig av σ me de aväds oftast ädå!. 3 Metoder för att hitta puktskattigar Vi har slarvat lite i defiitioe av puktskattigar är det gäller vilka värde på de okäda parameter θ som är tillåta. Vi iför begreppet parameterrum. Vi låter Ω θ betecka parameterrummet av alla tillåta värde på parame- Defiitio. ter θ. Parameterrum Parameterrummet är alltså e delmägd av R p där p är atalet parametrar täk på att θ ka vara e vektor θ = θ, θ,..., θ p. 3

Exempel i Om X Nµ, σ ka vi täka oss θ = µ, σ, i vilket fall parameterrummet ka represeteras som R 0,. ii Om X Bi, p där är fixerad är parameterrummet Ω p = [0, ]. Skulle vi med ågo metod hitta e skattig som faller utaför parameterrummet måste de förkastas. Så åter till fråga hur vi hittar skattigar mer systematiskt. 3. Mometmetode Vi såg mometmetode i förra föreläsige. Låt oss edast repetera vad de gick ut på. Mometskattig med flera parametrar Defiitio. Låt X F x ; θ, θ,..., θ j bero på j okäda parametrar θ, θ,..., θ j och defiiera m i θ, θ,..., θ j := EX i, i =,,... Mometskattigara för θ k, k =,,..., j, ges av lösige till ekvatiossystemet m i θ, θ,..., θ j = x i k, i =,,..., j. 3. MK-skattig Mista kvadrat-metode har vi egetlige stött på i tidigare kurser, mer specifikt är vi hittade approximativa lösigar till överbestämda ekvatiossystem. Faktum är att vi kommer att upprepa de procedure seare i dea kurs i sammbad med lijär regressio. Låt x, x,..., x vara observatioer av oberoede stokastiska variabler X, X,..., X sådaa att EX k = µ k θ och V X k = σ för k =,,..., alltså samma varias me potetiellt olika vätevärde. Mista kvadrat-skattig Defiitio. Mista kvadrat-skattige för θ ges av de vektor θ som miimerar Q θ = x k µ k θ. Exempel Låt X,..., X vara ett slumpmässigt stickprov frå e fördelig F. Hitta MK-skattige för vätevärdet µ. 4

Lösig. Vi ställer upp fuktioe Qµ = x k µ, µ R. Vi söker u det värde µ som miimerar Q. Eklast är att ta till evariabelaalyse och derivera och söka efter statioära pukter: 0 = Q µ = x k µ µ = x k µ = x k = x. Är detta ett miimum? Eftersom Q x = > 0 är det mycket riktigt ett miimum. De eftersökta MK-skattige av vätevärdet är alltså µ = x. Ekel lijär regressio Atag att vi gjort mätigar y k på ågot vid vissa värde x k, k =,,..., och att ett spridigsdiagram visar ågot i stil med figure till höger. Det förefaller rimligt att det föreligger ett approximativt lijärt sambad. Ka vi hitta e lije som passar i i mätserie? vi söker alltså e lije y = β 0 + β x som i ågo meig approximerar mätresultate. I vilke meig? Där fis flera sätt, me det valigaste är og att miimera kvadrate i fele. 0 8 6 4 0 0 3 Lösig. Vi betraktar varje pukt x k, y k som att x k är fixerad och y k är e observatio av e stokastisk variabel Y = β 0 + β x k + ɛ k där ɛ k är oberoede stokastiska variabler med Eɛ k = 0 och V ɛ k = σ. Detta är de typiska modelle vid lijär regressio. Kostatera β 0 och β är okäda och det är dessa vi vill bestämma. Eftersom så blir Qβ 0, β = EY k = β 0 + β x k och V Y k = σ yk EY k. = yk β 0 β x k Miimerig av dea fuktio med avseede på β 0 och β ger skattigara β 0 och β. Jakte på miimum sker og eklast med lite flervariabelaalys: 0 = Q = Q β 0, Q β = y j β 0 β x j, x j y j β 0 β x j j= så β 0 + β x j = j= y j β 0 + β x = y j=0 5

och β 0 j=0 x j + β Första ekvatioe ger att β 0 = y β x, så x j = x j y j β 0 x + β x j = j=0 j= j= x j y j. j= x y β x + β x j = j= x j y j j= vilket om vi löser ut β leder till β = j= x jy j x y j= x j x = j= x j xy j y j= x j x. 3.3 ML-skattig Låt X, X,..., X vara oberoede stokastiska variabler med täthets- eller saolikhetsfuktioer f i x; θ respektive p i k; θ. Vi atar att samtliga edera är kotiuerliga eller diskreta. Det typiska är att alla variablera har samma fördelig, me det är iget ödvädigt krav för metode däremot föreklar det så klart. Samtliga fördeligar beror dock på e och samma parameter θ som ka vara vektorvärd. Defiitio. ML-skattige för θ är det värde som gör att likelihood-fuktioe Lθ maximeras, där Lθ = i det kotiuerliga fallet och i det diskreta fallet. Lθ = f k x k ; θ = f x ; θ f x ; θ f x ; θ p k x k ; θ = p x ; θ p x ; θ p x ; θ ML-skattig Så vad är då ML-skattige? Gaska ekelt är det de skattig som gör att det stickprov vi observerat är det mest troliga. Eftersom vi atar att variablera som stickprovet är observatioer av är oberoede ges de simultaa täthets- eller saolikhetsfuktioe av produkte av de margiella, så vi väljer helt ekelt de skattig som maximerar de simultaa täthete/saolikhete. Ofta är ma arbetar med ML-skattigar yttjar ma de så kallade log-likelihood-fuktioe: lθ = l Lθ. Dea fuktio bevarar de flesta av de egeskaper vi är itresserade av eftersom l är strägt växade och Lθ [0, ]. Specifikt så har Lθ och lθ samma extrempukter. 6

Exempel Låt x, x,..., x vara ett stickprov av e expoetialfördelig med okäd itesitet θ. Hitta ML-skattige för θ. Lösig. Täthetsfuktioe ges av fx = θe θx, x 0, så Lθ = θe θx k = θ exp θ x k lθ = l Lθ = l θ θ Vi udersöker vart det fis extrempukter och fier att 0 = l θ = θ x k θ = k x k = x, x k. uder förutsättig att x 0. Är detta ett maximum? Aväd det i lärt er i evariabelaalyse! Till exempel ser vi att l θ = θ, så l θ < 0 för alla θ > 0. Således är det ett maximum vi fuit. Exempel Låt X Bi, p med p okäd och låt x vara e observatio av X. Hitta ML-skattige för p. Lösig. Saolikhetsfuktioe ges av px = Lp = x p x p x x p x p x, så lp = C, x + x l p + x l p, där C, x är e kostat med avseede på p. Parameterrummet ges av Ω p = 0,. Vi deriverar och erhåller att 0 = l p = x p x p = px xp p p = x p p p x = p p = x. ML-skattige är således p = x om detta är ett maximum. Vi kotrollerar: p l p + 0 lp max Vad skulle häda om observatioe blev x = 0 eller x =? 7

Exempel Låt x, x,..., x vara ett stickprov frå Nµ, σ där både µ och σ är okäda. Hitta MLskattigara för µ och σ. Lösig. Vi har u två okäda parametrar och likelihoodfuktioe ges av Lµ, v = där v = σ, så exp x k µ = πv v lµ, v = kostat l v v exp πv / v x k µ. x k µ, Parameterrummet ges av Ω µ,v = R 0, och vi vill maximera lµ, v. Statioära pukter fier vi där lµ, v = 0, 0, så vi beräkar de partiella derivatorera: l µµ, v = v x k µ = v x µ och Det är tydligt att µ = x och l vµ, v = v + v x k µ. v = v x k µ v = x k µ, så l = 0 precis då µ = x och v = x k x. Är detta ett maximum? Vi udersöker ärmare: l µµ l µv Hµ, v = l vµ l vv = v v x µ x µ v v v 3 x k µ där vi låter SS = H x k µ och i pukte µ, v = x, SS 0 = SS 0 3 3 SS SS SS 3 x, = SS blir SS 0 0 3 SS vilket är e egativt defiit matris, så detta är ett maximum. Vi vet seda tidigare att skattige för v behöver ha faktor / för att vara vätevärdesriktig, så ML-skattige av σ är således ite vätevärdesriktig. 8,,

4 Flera stickprov; sammavägd variasskattig Atag att vi har två stickprov x, x,..., x m och y, y,..., y frå ormalfördeligar med olika vätevärde me samma varias. ML-skattigara för respektive vätevärde blir µ = x respektive µ = y. För stadardavvikelse ka ma visa att de sammavägda variasskattige pooled variace blir s = m s + s, + m där s och s är stickprovsvariasera för respektive stickprov. Formel geeraliserar aturligt till fler stickprov. Vi ka äve direkt se att ES = m ES m + + ES = så skattige är vätevärdesriktig. 5 Medelfel m + σ = σ, m + Vi har avät variase V Θ eller stadardavvikelse D Θ för att jämföra olika skattigar effektivitet och kosistes. Midre varias betyder helt ekelt att skattige i ågo meig är bättre. Detta är ett problem då dessa storheter i allmähet ite är käda. Vad vi gör är att vi helt ekelt skattar de okäda storhetera i D Θ och kallar resultatet för medelfelet. Defiitio. medelfel. Medelfel E skattig d = d Θ av stadardavvikelse D Θ kallas för skattiges Vi ersätter alltså helt ekelt okäda storheter i V Θ med skattigar. Givetvis påverkar detta precisioe och sättet vi väljer att ersätt de okäda storhetera har iverka på resultatet. Exempel Om X,..., X är ett slumpmässigt stickprov av e Nµ, σ -fördelig där både µ och σ är okäda ka vi uppskatta µ med medelvärdet M = X. Således är DM = σ, me då σ är okäd behöver vi skatta σ med ågot. Förslagsvis med stickprovsstadardavvikelse s, vilket ger medelfelet d M = s. Detta är ite på ågot sätt uikt. E aa skattig av σ ger ett aat medelfel. Med det sagt är detta ett gaska aturligt val för medelfelet. Ett aat valigt exempel är vid skattigar av adel. Ofta gör vi som i följade exempel. 9

Exempel Ett aat valigt exempel är är p ska skattas i biomialfördelig. Låt X Bi, p. Vi vet att V X = p p så om vi skattar p med P = X erhåller vi att D P p p =. Eftersom p är okäd käer vi ite dea storhet exakt, me medelfelet skulle bli d P p p =. 0