Föreläsning 2: Punktskattningar

Relevanta dokument
Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

Grundläggande matematisk statistik

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00. Kap 2: Sannolikhetsteorins grunder

FORMELSAMLING MATEMATISK STATISTIK, FMS601. Fördelning Väntevärde Varians. p x (1 p) n x x = 0, 1,..., n np np(1 p) ) x = 0, 1,..., n np.

θx θ 1 om 0 x 1 f(x) = 0 annars

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

Formelblad Sannolikhetsteori 1

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

4.2.3 Normalfördelningen

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

F3 Lite till om tidsserier. Statistikens grunder 2 dagtid. Sammansatta index 4. Deflatering HT Laspeyres index: Paasche index: Index.

Lycka till! I(X i t) 1 om A 0 annars I(A) =

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

Datorövning 2 Fördelningar inom säkerhetsanalys

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

Föreläsning G04: Surveymetodik

a) Beräkna E (W ). (2 p)

P (A) = k A P (A ) = 1 P (A) P (A B) P (B) P (M i ) = 1 P (A) P (X = k) = p X (k) p X (k) = 1 P (A B) p X (k)

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

Id: statistik.tex :48:29Z joa

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

F10 ESTIMATION (NCT )

SAMMANFATTNING TAMS65

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR CDEFI, NANO OCH PI, MAS233, 2004 FMS 012, FMS 022, FMS 121 OCH MAS233

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Introduktion till statistik för statsvetare

TAMS15: SS1 Markovprocesser

Datorövning 2 Fördelningar inom säkerhetsanalys

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Borel-Cantellis sats och stora talens lag

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen i matematisk statistik

Vad är det okända som efterfrågas? Vilka data är givna? Vilka är villkoren?

Tentamen i Sannolikhetsteori III 13 januari 2000

101. och sista termen 1

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

TMS136: Dataanalys och statistik Tentamen med lösningar

1. Test av anpassning.

Föreläsning G70 Statistik A

Avd. Matematisk statistik

Matematisk statistik

Matematisk statistik TMS063 Tentamen

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

Linjär Algebra (lp 1, 2016) Lösningar till skrivuppgiften Julia Brandes

2. Konfidensintervall för skillnaden mellan två proportioner.

Genomsnittligt sökdjup i binära sökträd

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

MS-A0409 Grundkurs i diskret matematik Sammanfattning, del I

F6 Uppskattning. Statistikens grunder 2 dagtid. Beteckningar, symboler, notation. Grekiskt-romerskt

H1009, Introduktionskurs i matematik Armin Halilovic POLYNOM, POLYNOMDIVISION, ALGEBRAISKA EKVATIONER, PARTIALBRÅKSUPPDELNING. vara ett polynom där a

Normalfördelningens betydelse. Sannolikhet och statistik. Täthetsfunktion, väntevärde och varians för N (µ, σ)

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 7.5hp

b 1 och har för olika värden på den reella konstanten a.

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

Laboration 5: Konfidensintervall viktiga statistiska fördelningar

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Z-Testet. Idè. Repetition normalfördelning. rdelning. Testvariabel z

MA2018 Tillämpad Matematik III-Statistik, 7.5hp,

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

Enkel slumpvandring. Sven Erick Alm. 9 april 2002 (modifierad 8 mars 2006) 2 Apan och stupet Passagesannolikheter Passagetider...

Tentamen i Flervariabelanalys F/TM, MVE035

S0005M V18, Föreläsning 10

DEL I. Matematiska Institutionen KTH

Höftledsdysplasi hos dansk-svensk gårdshund - Exempel på tavlan

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

vara ett polynom där a 0, då kallas n för polynomets grad och ibland betecknas n grad( P(

E ( X ) = (här ska ni skriva en viss bokstav! Vilken? Varför)

Lösningar och kommentarer till uppgifter i 1.1

Ekvationen (ekv1) kan beskriva en s.k. stationär tillstånd (steady-state) för en fysikalisk process.

c n x n, där c 0, c 1, c 2,... är givna (reella eller n=0 c n x n n=0 absolutkonvergent om x < R divergent om x > R n n lim = 1 R.

TENTAMEN I MATEMATISK STATISTIK

F4 Enkel linjär regression.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

Induktion LCB Rekursion och induktion; enkla fall. Ersätter Grimaldi 4.1

Tentamen i statistik för STA A13, 1-10 poäng Deltentamen II, 5p Lördag 9 juni 2007 kl

Inledande matematisk analys (TATA79) Höstterminen 2016 Föreläsnings- och lekionsplan

Linjär regression - kalibrering av en våg

Transkript:

Föreläsig : Puktskattigar Joha Thim joha.thim@liu.se 7 augusti 08 Repetitio Stickprov Defiitio. Låt de stokastiska variablera X, X,..., X vara oberoede och ha samma fördeligsfuktio F. Ett stickprov x, x,..., x består av observatioer av variablera X, X,..., X. Vi säger att stickprovsstorleke är. Puktskattig Defiitio. E puktskattig θ av parameter θ är e fuktio av de observerade värdea x, x,..., x : θ = gx, x,..., x. Vi defiierar motsvarade stickprovsvariabel Θ eligt Θ = gx, X,..., X. Var oggra med att tydligt visa och göra skillad på vad som är stokastiskt eller ite i di redovisig! Vi har tre storheter: y i θ verkligt värde. Okät. Determiistiskt. ii θ skattat värde. Kät beräkat frå stickprovet. Determiistiskt. iii Θ stickprovsvariabel. Dea är stokastisk! Stokastiskt eller ej? θ E Θ y = f Θx Saolikheter som beräkas bör aväda sig av Θ då Θ beskriver variatioe hos θ för olika stickprov. Om bara θ och θ igår är saolikhete alltid oll eller ett varför?. θ x

Defiitio. Stickprovsvariabel Θ kallas i vätevärdesriktig vvr om E Θ = θ; Egeskaper för skattigar ii kosistet om det för varje ɛ > 0 gäller att lim P Θ θ > ɛ = 0, där Θ är puktskattige för varje stickprovsstorlek ; iii effektivare ä e skattig Θ om V Θ V Θ. Om e puktskattig ite är vätevärdesriktig pratar ma iblad om ett systematiskt fel. Vi defiierar detta som skillade E Θ θ. E vätevärdesriktig skattig Θ har alltså iget systematiskt fel; i medel kommer de att hama rätt täk på de stora tales lag. Vi vill också gära ha egeskape att e puktskattig blir bättre ju större stickprov vi aväder. Valiga puktskattigar Vi stötte på medelvärdet och stickprovsvariase på föregåede föreläsig. Dessa skattigar är vettiga skattigar av vätevärdet och variase i meige att de är vätevärdesriktiga och kosisteta. Medelvärdet X = X i är e vätevärdesriktig och kosistet skattig av vätevärdet. Medelvärde Bevis: Variablera X k är oberoede och likafördelade. Låt EX i = µ och V X i = σ för alla i. Eftersom vätevärdesoperator är lijär så gäller att EX = E X i = EX i = µ = µ. Alltså är X e vätevärdesriktig skattig av µ. Då variablera är oberoede ka vi göra e likade kalkyl för variase: V X = V X i = V X i = σ = σ. Här ser vi att V X 0 då, så eligt satse ova är skattige kosistet.

Stickprovsvariase S = X i X är e vätevärdesriktig skattig av variase. Stickprovsvarias Bevis: Detta bevis är lite bökigare, me följer samma pricip. E X i X = E Xi X i X + X = EX i EX i X + EX. Vi vet att EX = µ och att V X = σ /. Steiers formel säger att EY = V Y + EY för e stokastisk variabel Y, vilket vi ka utyttja för att skriva EX i = V X i + EX i = σ + µ samt EX = σ / + µ. Vidare så ser vi att EX i X = E X i X k = EX i X k och eftersom EX i X k = EX i EX k = µ om i k eftersom dessa variabler är oberoede och EX i = σ + µ då i = k ka vi skriva Vi återgår till det sökta vätevärdet: EX i X = µ + σ + µ / = µ + σ /. ES = σ + µ µ + σ / + σ / + µ = σ σ / = σ. Alltså är S e vätevärdesriktig skattig av σ. Värt att otera är att S = S ite är e vätevärdesriktig skattig av σ me de aväds oftast ädå!. 3 Metoder för att hitta puktskattigar Vi har slarvat lite i defiitioe av puktskattigar är det gäller vilka värde på de okäda parameter θ som är tillåta. Vi iför begreppet parameterrum. Vi låter Ω θ betecka parameterrummet av alla tillåta värde på parame- Defiitio. ter θ. Parameterrum Parameterrummet är alltså e delmägd av R p där p är atalet parametrar täk på att θ ka vara e vektor θ = θ, θ,..., θ p. 3

Exempel i Om X Nµ, σ ka vi täka oss θ = µ, σ, i vilket fall parameterrummet ka represeteras som R 0,. ii Om X Bi, p där är fixerad är parameterrummet Ω p = [0, ]. Skulle vi med ågo metod hitta e skattig som faller utaför parameterrummet måste de förkastas. Så åter till fråga hur vi hittar skattigar mer systematiskt. 3. Mometmetode Vi såg mometmetode i förra föreläsige. Låt oss edast repetera vad de gick ut på. Mometskattig med flera parametrar Defiitio. Låt X F x ; θ, θ,..., θ j bero på j okäda parametrar θ, θ,..., θ j och defiiera m i θ, θ,..., θ j := EX i, i =,,... Mometskattigara för θ k, k =,,..., j, ges av lösige till ekvatiossystemet m i θ, θ,..., θ j = x i k, i =,,..., j. 3. MK-skattig Mista kvadrat-metode har vi egetlige stött på i tidigare kurser, mer specifikt är vi hittade approximativa lösigar till överbestämda ekvatiossystem. Faktum är att vi kommer att upprepa de procedure seare i dea kurs i sammbad med lijär regressio. Låt x, x,..., x vara observatioer av oberoede stokastiska variabler X, X,..., X sådaa att EX k = µ k θ och V X k = σ för k =,,..., alltså samma varias me potetiellt olika vätevärde. Mista kvadrat-skattig Defiitio. Mista kvadrat-skattige för θ ges av de vektor θ som miimerar Q θ = x k µ k θ. Exempel Låt X,..., X vara ett slumpmässigt stickprov frå e fördelig F. Hitta MK-skattige för vätevärdet µ. 4

Lösig. Vi ställer upp fuktioe Qµ = x k µ, µ R. Vi söker u det värde µ som miimerar Q. Eklast är att ta till evariabelaalyse och derivera och söka efter statioära pukter: 0 = Q µ = x k µ µ = x k µ = x k = x. Är detta ett miimum? Eftersom Q x = > 0 är det mycket riktigt ett miimum. De eftersökta MK-skattige av vätevärdet är alltså µ = x. Ekel lijär regressio Atag att vi gjort mätigar y k på ågot vid vissa värde x k, k =,,..., och att ett spridigsdiagram visar ågot i stil med figure till höger. Det förefaller rimligt att det föreligger ett approximativt lijärt sambad. Ka vi hitta e lije som passar i i mätserie? vi söker alltså e lije y = β 0 + β x som i ågo meig approximerar mätresultate. I vilke meig? Där fis flera sätt, me det valigaste är og att miimera kvadrate i fele. 0 8 6 4 0 0 3 Lösig. Vi betraktar varje pukt x k, y k som att x k är fixerad och y k är e observatio av e stokastisk variabel Y = β 0 + β x k + ɛ k där ɛ k är oberoede stokastiska variabler med Eɛ k = 0 och V ɛ k = σ. Detta är de typiska modelle vid lijär regressio. Kostatera β 0 och β är okäda och det är dessa vi vill bestämma. Eftersom så blir Qβ 0, β = EY k = β 0 + β x k och V Y k = σ yk EY k. = yk β 0 β x k Miimerig av dea fuktio med avseede på β 0 och β ger skattigara β 0 och β. Jakte på miimum sker og eklast med lite flervariabelaalys: 0 = Q = Q β 0, Q β = y j β 0 β x j, x j y j β 0 β x j j= så β 0 + β x j = j= y j β 0 + β x = y j=0 5

och β 0 j=0 x j + β Första ekvatioe ger att β 0 = y β x, så x j = x j y j β 0 x + β x j = j=0 j= j= x j y j. j= x y β x + β x j = j= x j y j j= vilket om vi löser ut β leder till β = j= x jy j x y j= x j x = j= x j xy j y j= x j x. 3.3 ML-skattig Låt X, X,..., X vara oberoede stokastiska variabler med täthets- eller saolikhetsfuktioer f i x; θ respektive p i k; θ. Vi atar att samtliga edera är kotiuerliga eller diskreta. Det typiska är att alla variablera har samma fördelig, me det är iget ödvädigt krav för metode däremot föreklar det så klart. Samtliga fördeligar beror dock på e och samma parameter θ som ka vara vektorvärd. Defiitio. ML-skattige för θ är det värde som gör att likelihood-fuktioe Lθ maximeras, där Lθ = i det kotiuerliga fallet och i det diskreta fallet. Lθ = f k x k ; θ = f x ; θ f x ; θ f x ; θ p k x k ; θ = p x ; θ p x ; θ p x ; θ ML-skattig Så vad är då ML-skattige? Gaska ekelt är det de skattig som gör att det stickprov vi observerat är det mest troliga. Eftersom vi atar att variablera som stickprovet är observatioer av är oberoede ges de simultaa täthets- eller saolikhetsfuktioe av produkte av de margiella, så vi väljer helt ekelt de skattig som maximerar de simultaa täthete/saolikhete. Ofta är ma arbetar med ML-skattigar yttjar ma de så kallade log-likelihood-fuktioe: lθ = l Lθ. Dea fuktio bevarar de flesta av de egeskaper vi är itresserade av eftersom l är strägt växade och Lθ [0, ]. Specifikt så har Lθ och lθ samma extrempukter. 6

Exempel Låt x, x,..., x vara ett stickprov av e expoetialfördelig med okäd itesitet θ. Hitta ML-skattige för θ. Lösig. Täthetsfuktioe ges av fx = θe θx, x 0, så Lθ = θe θx k = θ exp θ x k lθ = l Lθ = l θ θ Vi udersöker vart det fis extrempukter och fier att 0 = l θ = θ x k θ = k x k = x, x k. uder förutsättig att x 0. Är detta ett maximum? Aväd det i lärt er i evariabelaalyse! Till exempel ser vi att l θ = θ, så l θ < 0 för alla θ > 0. Således är det ett maximum vi fuit. Exempel Låt X Bi, p med p okäd och låt x vara e observatio av X. Hitta ML-skattige för p. Lösig. Saolikhetsfuktioe ges av px = Lp = x p x p x x p x p x, så lp = C, x + x l p + x l p, där C, x är e kostat med avseede på p. Parameterrummet ges av Ω p = 0,. Vi deriverar och erhåller att 0 = l p = x p x p = px xp p p = x p p p x = p p = x. ML-skattige är således p = x om detta är ett maximum. Vi kotrollerar: p l p + 0 lp max Vad skulle häda om observatioe blev x = 0 eller x =? 7

Exempel Låt x, x,..., x vara ett stickprov frå Nµ, σ där både µ och σ är okäda. Hitta MLskattigara för µ och σ. Lösig. Vi har u två okäda parametrar och likelihoodfuktioe ges av Lµ, v = där v = σ, så exp x k µ = πv v lµ, v = kostat l v v exp πv / v x k µ. x k µ, Parameterrummet ges av Ω µ,v = R 0, och vi vill maximera lµ, v. Statioära pukter fier vi där lµ, v = 0, 0, så vi beräkar de partiella derivatorera: l µµ, v = v x k µ = v x µ och Det är tydligt att µ = x och l vµ, v = v + v x k µ. v = v x k µ v = x k µ, så l = 0 precis då µ = x och v = x k x. Är detta ett maximum? Vi udersöker ärmare: l µµ l µv Hµ, v = l vµ l vv = v v x µ x µ v v v 3 x k µ där vi låter SS = H x k µ och i pukte µ, v = x, SS 0 = SS 0 3 3 SS SS SS 3 x, = SS blir SS 0 0 3 SS vilket är e egativt defiit matris, så detta är ett maximum. Vi vet seda tidigare att skattige för v behöver ha faktor / för att vara vätevärdesriktig, så ML-skattige av σ är således ite vätevärdesriktig. 8,,

4 Flera stickprov; sammavägd variasskattig Atag att vi har två stickprov x, x,..., x m och y, y,..., y frå ormalfördeligar med olika vätevärde me samma varias. ML-skattigara för respektive vätevärde blir µ = x respektive µ = y. För stadardavvikelse ka ma visa att de sammavägda variasskattige pooled variace blir s = m s + s, + m där s och s är stickprovsvariasera för respektive stickprov. Formel geeraliserar aturligt till fler stickprov. Vi ka äve direkt se att ES = m ES m + + ES = så skattige är vätevärdesriktig. 5 Medelfel m + σ = σ, m + Vi har avät variase V Θ eller stadardavvikelse D Θ för att jämföra olika skattigar effektivitet och kosistes. Midre varias betyder helt ekelt att skattige i ågo meig är bättre. Detta är ett problem då dessa storheter i allmähet ite är käda. Vad vi gör är att vi helt ekelt skattar de okäda storhetera i D Θ och kallar resultatet för medelfelet. Defiitio. medelfel. Medelfel E skattig d = d Θ av stadardavvikelse D Θ kallas för skattiges Vi ersätter alltså helt ekelt okäda storheter i V Θ med skattigar. Givetvis påverkar detta precisioe och sättet vi väljer att ersätt de okäda storhetera har iverka på resultatet. Exempel Om X,..., X är ett slumpmässigt stickprov av e Nµ, σ -fördelig där både µ och σ är okäda ka vi uppskatta µ med medelvärdet M = X. Således är DM = σ, me då σ är okäd behöver vi skatta σ med ågot. Förslagsvis med stickprovsstadardavvikelse s, vilket ger medelfelet d M = s. Detta är ite på ågot sätt uikt. E aa skattig av σ ger ett aat medelfel. Med det sagt är detta ett gaska aturligt val för medelfelet. Ett aat valigt exempel är vid skattigar av adel. Ofta gör vi som i följade exempel. 9

Exempel Ett aat valigt exempel är är p ska skattas i biomialfördelig. Låt X Bi, p. Vi vet att V X = p p så om vi skattar p med P = X erhåller vi att D P p p =. Eftersom p är okäd käer vi ite dea storhet exakt, me medelfelet skulle bli d P p p =. 0