Minsta kvadrat-metoden, MK. Maximum likelihood-metoden, ML. Medelfel. E(X i ) = µ i (θ) MK-skattningen av θ fås genom att minimera

Relevanta dokument
Grundläggande matematisk statistik

Skattning / Inferens. Sannolikhet och statistik. Skattning / Inferens. Vad är det som skattas?

Föreläsning 2: Punktskattningar

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00. Kap 2: Sannolikhetsteorins grunder

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Statistisk analys. Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund? Hur säkra uttalande kan göras om resultatet?

Uppsala Universitet Matematiska institutionen Matematisk Statistik. Formel- och tabellsamling. Sannolikhetsteori och Statistik

4.2.3 Normalfördelningen

FORMELSAMLING MATEMATISK STATISTIK, FMS601. Fördelning Väntevärde Varians. p x (1 p) n x x = 0, 1,..., n np np(1 p) ) x = 0, 1,..., n np.

Datorövning 2 Fördelningar inom säkerhetsanalys

Intervallskattning. c 2005 Eric Järpe Högskolan i Halmstad. Antag att vi har ett stickprov x 1,..., x n på X som vi vet är N(µ, σ) men vi vet ej

För att skatta väntevärdet för en fördelning är det lämpligt att använda Medelvärdet. E(ξ) =... = µ

F10 ESTIMATION (NCT )

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Lycka till! I(X i t) 1 om A 0 annars I(A) =

LÖSNINGAR TILL. Räkningar: (z i z) 2 = , Δ = z = 1 n. n 1. Konfidensintervall:

θx θ 1 om 0 x 1 f(x) = 0 annars

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 1)

a) Beräkna E (W ). (2 p)

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 4 (del 2)

1. (a) Eftersom X och Y har samma fördelning så har de även samma väntevärde och standardavvikelse. E(X 2 ) = k

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Statistik. Språkligt och historiskt betyder statistik ungefär sifferkunskap om staten

Sannolikhetsteori FORMELSAMLING MATEMATISK STATISTIK, AK FÖR CDEFI, NANO OCH PI, MAS233, 2004 FMS 012, FMS 022, FMS 121 OCH MAS233

Id: statistik.tex :48:29Z joa

Föreläsning G04: Surveymetodik

Antalet sätt att välja ut r objekt bland n stycken med hänsyn till ordning är np r = n(n 1) (n r + 1).

b) Bestäm det genomsnittliga antalet testade enheter, E (X), samt även D (X). (5 p)

SAMMANFATTNING TAMS65

Datorövning 2 Fördelningar inom säkerhetsanalys

(a) Skissa täthets-/frekvensfunktionen och fördelningsfunktionen för X. Glöm inte att ange värden på axlarna.

Föreläsning G70 Statistik A

Normalfördelningens betydelse. Sannolikhet och statistik. Täthetsfunktion, väntevärde och varians för N (µ, σ)

F3 Lite till om tidsserier. Statistikens grunder 2 dagtid. Sammansatta index 4. Deflatering HT Laspeyres index: Paasche index: Index.

F19 HYPOTESPRÖVNING (NCT ) Hypotesprövning för en differens mellan två medelvärden

Introduktion till statistik för statsvetare

Formelblad Sannolikhetsteori 1

P (A) = k A P (A ) = 1 P (A) P (A B) P (B) P (M i ) = 1 P (A) P (X = k) = p X (k) p X (k) = 1 P (A B) p X (k)

SAMMANFATTNING TAMS79 Matematisk statistik, grundkurs

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 5 juni 2004, kl

2. Konfidensintervall för skillnaden mellan två proportioner.

Tentamen i Sannolikhetsteori III 13 januari 2000

TMS136: Dataanalys och statistik Tentamen med lösningar

Tentamen i matematisk statistik

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Matematisk statistik TMS063 Tentamen

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 20 januari 2007, kl

Avd. Matematisk statistik

1. Test av anpassning.

Borel-Cantellis sats och stora talens lag

S0005M V18, Föreläsning 10

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004 TEN kl

Viktigt! Glöm inte att skriva Tentamenskod på alla blad du lämnar in.

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning G04 Surveymetodik 732G19 Utredningskunskap I

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Matematisk statistik för D, I, Π och Fysiker

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 mars 2004, klockan

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

TAMS79: Föreläsning 9 Approximationer och stokastiska processer

SF1901 Sannolikhetsteori och statistik I

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Intervallskattningar, synonymt konfidensintervall eller statistiska osäkerhetsgränser

Stat. teori gk, ht 2006, JW F13 HYPOTESPRÖVNING (NCT ) Ordlista till NCT

Sannolikhetslära statistisk inferens F10 ESTIMATION (NCT )

Laboration 5: Konfidensintervall viktiga statistiska fördelningar

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

================================================

Föreläsning 11, FMSF45 Konfidensintervall

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del II

Lösningsförslag

Högskoleutbildad 0,90*0,70=0,63 0,80*0,30=0,24 0,87 Ej högskoleutbildad 0,07 0,06 0,13 0,70 0,30 1,00

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

Z-Testet. Idè. Repetition normalfördelning. rdelning. Testvariabel z

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 7.5hp

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i Matematisk statistik för V2 den 28 maj 2010

F6 Uppskattning. Statistikens grunder 2 dagtid. Beteckningar, symboler, notation. Grekiskt-romerskt

Statistik för bioteknik SF1911 // KTH Matematisk statistik // Formler och tabeller. 1 Numeriska sammanfattningar (statistikor)

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning och exempel, del II

MA2018 Tillämpad Matematik III-Statistik, 7.5hp,

Övningstentamen i MA2018 Tillämpad Matematik III-Statistik, 3.5hp

Tentamen i Statistik STG A01 (12 hp) 5 mars 2010, kl

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel etc., del II

TENTAMEN I MATEMATISK STATISTIK Datum: 13 mars 08

Vid mer än 30 frihetsgrader approximeras t-fördelningen med N(0; 1). Konfidensintervallet blir då

Matematisk statistik

Tentamen i statistik för STA A13, 1-10 poäng Deltentamen II, 5p Lördag 9 juni 2007 kl

MA2018 Tillämpad Matematik III-Statistik, 3.5hp,

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Transkript:

Matematisk statistik slumpes matematik Saolikhetsteori hur beskriver ma slumpe? Statistikteori vilka slutsatser ka ma dra av ett datamaterial? Statistikteori översikt Puktskattig Hur gör ma e bra gissig av e okäd storhet? Hur vet ma att de är bra? Itervallskattig Gissa i stället två tal som tillsammas täcker de okäda storhete med e give (stor) saolikhet. Hypotestest Om gissige blev 7., ka rätt värde på de okäda storhete ädå vara 6.5? Vad är saolikhete att vi ljuger om vi påstår att de ite är 6.5? Regressio Sambadsaalys. Tillämpig av ovaståede. F1 1 F1.7.6.5 Ett stickprov frå ågo fördelig Statistikteori, grudläggade begrepp Ett stickprov, x 1, x,..., x, är observatioer av s.v. X 1,..., X frå ågo fördelig X i F (θ) där θ är e okäd parameter. Täthet.4.. E skattig av θ, θ (x 1,..., x ) är e observatio av de s.v θ (X 1,..., X ). Båda beteckas oftast bara med θ. Bra egeskaper för e skattig.1 4 5 6 7 8 Observatioer E(θ ) θ, Vätevärdesriktig, iget systematiskt fel. V (θ ) lite. Skattige skall vara effektiv. F1 F1 4 Variatio i observatioer ger variatio i skattige.8.6 Observatioeras fördelig Observatioer, x jk µ x j 1 4.8 4.9 5.4 5.1 5.1 4.69 5.6 4.7 5. 5.9 5.1 4.5 4.59 4.7 4.1 4.96 5.6 4.79 5.5 5.1 4.4 5.5 5.1 4.4 4. 4.56 4.8 4 4.48 5.1 4.75 5.17 4.98 5.1 5.8 5.1 5.5 5 5.14 5.1 4.79 5.48 4.7 5.89 5. 5.91 5.8 6 4.8 5. 5. 5.6 4.45 4.1 5.9 5.9 4.95 7 5. 5.6 5.49 5.6 4.8 5.8 4.8 5.18 5.15 8 4.48 4.81 4.6 4.61 5.4 4.81 4. 4.41 4.64..4..5 1.5.5.5 4 4.5 5 5.5 6 6.5 7 1 Skattigaras fördelig.5 4 4.5 5 5.5 6 6.5 7 F1 5 F1 6 E skattig θ är ett tal, e s.v. och e fuktio Tal x1 x θ (x1,..., x) θ Modell för mätig med slumpmässigt mätfel Atag att vi vill mäta e storhet µ. Om ma tar upp st mätvärde, x 1,..., x är dessa observatioer av X i µ + ε i Rätt värde + Mätfel där ε i är ett slumpmässigt mätfel. Ofta atas att de är oberoede av varadra och S.V. X1 X θ (X) ε i N(, σ) Detta ger att våra observatioer blir Xi F (θ) θ Fuktio X i N(µ, σ) Vi ser att vätevärdet är de storhet vi försöker mäta upp. F1 7 F1 8

Maximum likelihood-metode, ML ML-skattige av θ fås geom att maximera likelihood-fuktioe L(θ; x 1,..., x ) map θ. L(θ) f X (x 1 )... f X (x ) (kot) L(θ) p X (x 1 )... p X (x ) (diskr) I det diskreta fallet ager L-fuktioe: Saolikhete att få det stickprov vi fått. Sätt upp L(θ) Logaritmera (l L(θ) maximeras av samma θ som L(θ)). Derivera, sätt lika med oll och lös m.a.p θ. Det θ som maximerar L(θ) är ML-skattige θml. Mista kvadrat-metode, MK E(X i ) µ i (θ) MK-skattige av θ fås geom att miimera förlustfuktioe Q(θ) map θ. Q(θ) (x i µ i (θ)) Normalfördelig Om x 1,..., x är observatioer av X i N(µ, σ) blir ML- och MK-skattige av µ och e korrigerad ML-skattig av σ µ x (σ ) s 1 1 (x i x) Dessa aväds äve för att skatta vätevärde och varias vid okäd fördelig F1 9 F1 1 Medelfel Om stadardavvikelse, D(θ ), för e skattig iehåller okäda parametrar ka ma ite räka ut ett ummeriskt värde på de. Om vi stoppar i skattigar på de okäda parametrara fås medelfelet d(θ ). Ex. p X, där X Bi(, p) (V (X) pq) V (p ) V ( X ) 1 V (X) 1 pq pq d(p p q ) Ex. µ X, där X N(µ, σ), σ okäd V (µ ) σ, d(µ ) s, där s 1 1 (x i x) F1 11

Föreläsig 7: Matstat AK för M, HT-8 MATEMATISK STATISTIK AK FÖR M HT-8 FÖRELÄSNING 7: KAPITEL 11: PUNKTSKATTNING Vi har X i hastighete hos bilist i N ( Ñ, ) där Xi är oberoede för i 1,..., där. PUNKTSKATTNINGAR INFERENSTEORI KONSTEN ATT DRA SLUTSATSER Vi har skaffat oss ett stickprov av oberoede observatioer x 1,..., x av de s.v. X (eller frå X 1,..., X ) geom experimet. Fördelige för X är helt eller delvis okäd me vi vill utyttja stickprovet till att uttala oss om ågo egeskap (i regel ågo parameter ) hos fördelige för X. Exempel (Växjökorsig): Uppskatta medelhastighete hos hela populatioe bilar ( Ñ E(X )) som passerar korsige (ite bara för de vi mätt)? Hur osäker är vår uppskattig? Hur stor är de förvätade adele fortkörare ( p P(X > 5)) och hur osäker är vår uppskattig? X i hastighet hos bil i, Y atal fortkörare. Observatioer: x 1, x,..., x 65, 5,..., 56 resp. y 41 LÄMPLIG PROCEDUR ATT ALLTID FÖLJA Steg 1: Vad är slumpmäsigt och vilke fördelig ka det ha? Iför beteckigar och sätt upp e lämplig modell. Steg : Vilke parameter är vi itresserade av, vad är det som är okät och hur skattar vi det? Steg : Vad har skattige för egeskaper? Behöver och ka vi ormalapproximera de? Steg 4: Behöver vi skatta ågot mer, t.ex. std.avv.? Steg 5: Utyttja skattige och dess egeskaper för att svara på fråga. Vi skattar fördeligsparameter med hjälp av ågo lämplig fuktio (x) av stickprovet x (x 1,..., x ). kallas e skattig av. Fuktioe (X) av motsvarade stokastiska variabler X (X 1,..., X ) är också e stokastisk variabel med t.ex. fördelig, vätevärde och varias. Fördelige för talar om vad skattige kude blivit istället, om vi gjort om försöket, t.ex. mätt ya bilister. LÖSNING STEG : SKATTA PARAMETRAR Vi vill skatta de okäda medelhastighete (vätevärdet av hastighete), Ñ med hjälp av stickprovet x 1,... x. Vi väljer mella de tre alterative (taga ur lufte): Ñ1 x 1 + x, Ñ x 1 + x och Ñ x 1 x i. Sätt i observatiosvärdea: Ñ 1 x 1 + x Ñ x 1 + x Ñ x 1 +... + x 65 + 5 65 + 56 8.5 km/h, 65 +... + 56 59. km/h, 51.7 km/h. Tre sätt att skatta samma sak ger tre olika resultat. Vilket är rätt? (iget!) Vilket är bäst? (det beror på vad vi mear med bra ). LÖSNING STEG 1: MODELL Vi har X i hastighete hos bilist i där E(X i ) Ñ och V(X i ) och alla X i är oberoede och likafördelade för i 1,..., där. Am.: Om vi dessutom atar att X i är ormalfördelade ska det också ages: ÖNSKVÄRDA EGENSKAPER E skattig bör vara Vätevärdesriktig, dvs E( (X)) och Effektiv, dvs V( (X)) så lite som möjligt. 1

Föreläsig 7: Matstat AK för M, HT-8 LÖSNING STEG : SKATTNINGENS EGENSKAPER gäller, eligt CGS, att Ñ N (Ñ, ) Vätevärdesriktig (skattar de rätt sak?): E(Ñ1) E( X 1 + X ) Ñ + Ñ Ñ E(Ñ) E( X 1 + X ) Ñ + Ñ Ñ E(Ñ) E( X 1 +... + X ) Ñ +... + Ñ Ñ Alterativ Ñ 1 är ite bra eftersom de blir 5 % för stor i medeltal. De adra två blir rätt i medeltal. Variase (hur osäker är de?): V(Ñ1 ) V(X 1 + X ) + 5 4 V(Ñ ) V(X 1 + X ) + 5 9 V(Ñ ) V(X 1 +... + X ) +... + 1 Alterativ Ñ 1 är ite bra eftersom de har större varias ä e eskild observatio. Alterativ Ñ har midre varias ä e eskild observatio me variase är lika stor oavsett hur stort stickprovet är, det är ieffektivt. Alterativ Ñ har e varias som avtar med ökade stickprovsstorlek, det är bra. Alterativ Ñ 1 är varke vätevärdesriktig eller effektiv. Alterativ Ñ är vätevärdesriktig me ite effektiv. Alterativ Ñ är både vätevärdesriktig och effektiv (bevis för effektivitete igår ej i dea kurs). Alltså är Ñ bäst. Fördelig (hur varierar de?): Om X i N ( Ñ, ) så är alla tre skattigara ormalfördelade eftersom de är lijärkombiatioer av ormalfördeligar. Vätevärde och stadardavvikelser (m.h.a. variasera) ova: ( ) ( ) 5 5 Ñ1 N Ñ,, Ñ N Ñ, och 4 9 ( Ñ N Ñ, ). Approximativa fördeligar: Om vi ite vet mer om fördelige för X i ä att E(X i ) Ñ och D(X i ) ka vi iget säga om fördelige för Ñ 1 och Ñ! Me, eftersom är stort, MEDELFEL FÖR EN SKATTNING Om D( (X)) V( (X)) iehåller okäda parametrar måste de också skattas. Dea skattig d( ) D ( ) kallas medelfelet för. LÖSNING STEG 4: MEDELFEL Eftersom, som igår i alla tre variasera, är okäd måste de också skattas, t.ex. med stickprovsstadardavvikelse s 1 (x i x) 1 6.89 km/h så att 5 5 d(ñ1) s 4 7.7 km/h, d(ñ ) s 5.1 km/h, 9 d(ñ ) s. km/h. LÖSNING STEG 5: SVARA PÅ FRÅGAN Vi uppskattar medelhastighete till 51.7 km/h med e osäkerhet (stadardavvikelse) i skattige på.8 km/h. SKATTNINGEN ÄR EN STOKASTISK VARIABEL! Skilj på som är e kostat parameter, dvs ett (i regel okät) tal, och som är dess skattig. Skattige varierar med stickprovet, det gör ite. Varig för förvirrig! ka vara ett tal, dvs skattige uträkad med hjälp av ett visst stickprov ( 51.7 km/h) eller, ka vara stickprovsfuktioe (x) som talar om hur ma ska beräka skattige ( x), eller, ka vara e s.v., (X), dvs fuktioe av de s.v. som stickprovet är observatioer av ( X ).

Föreläsig 7: Matstat AK för M, HT-8 Fördelige för X : Mät måga bilar och gör histogram över bilaras hastighet. MAXIMUM-LIKELIHOOD-METODEN (ML).6.5.4. Fördelige för X i Ett sätt att hitta garaterat bra skattigar. Förutsätter käd fördeligstyp. Idé: Välj det värde på de okäda parameter som maximerar saolikhete att få de observatioer ma faktiskt fick...1 4 5 6 7 8 9 1 11 1 Fördelige för Ñ : Gå varje dag ut och mät bilar och räka ut dages Ñ. Upprepa uder måga dagar och gör histogram över Ñ. Likelihoodfuktioe L( ; x) skall maximeras med avseede på : p Xi (x i ) X i diskreta L( ; x) P(X 1 x 1,..., X x ) f Xi (x i ) X i kotiuerliga.6.5.4. Fördelige för θ * 1 (X 1 +X )/ Fördelig Ñ 1 X 1 + X för Logaritmera, derivera m.a.p., sätt till oll och lös ut. ML-metode ger alltid de skattig som har mist varias. De är ite ödvädigtvis vätevärdesriktig me E( ML ) är...1 Exempel (medelhastighet): Vi har observerat hastighetera hos bilister, x 1,..., x där X i N ( Ñ, ). Skatta medelhastighete Ñ..8.7.6.5.4...1.7.6.5.4...1 4 5 6 7 8 9 1 11 1 Fördelige för θ * (X 1 +X )/ 4 5 6 7 8 9 1 11 1 Fördelige för θ * (X 1 +...+X )/ 4 5 6 7 8 9 1 11 1 Fördelig Ñ X 1 + X Fördelig Ñ X för för Steg 1 (modell): Ober. X i N ( Ñ, ) där i 1,..., och. Steg (skatta parametrar): Vi vill skatta Ñ. Likelihoodfuktioe L(Ñ; x) f X (x i ) f X (x 1 )... f X (x ) 1 e (x i Ñ) / ( Ô) e 1 Ô Logaritmera: 1 l L(Ñ) l( Ô) Derivera och sätt till oll: d l L(Ñ) d Ñ (x i Ñ) Lös ut Ñ: x i (x i Ñ) Ñ Ñ Ñ 1 P (x i Ñ) ML-skattige av Ñ blir Ñ x 51.7 km/h. x i x.

Föreläsig 7: Matstat AK för M, HT-8 Exempel (fortkörare): Vi har bara observerat att 41 av de var fortkörare. Skatta adele fortkörare i hela populatioe. Steg 1 (modell): Vi har e observatio y 41 frå Y atal fortkörare Bi(, p) där. Steg (skatta parametrar): Vi vill skatta p. Likelihoodfuktioe: L(p) p Y (y) p Y (41) Logaritmera: l L(p) l ( 41 ( ) p 41 (1 p) 41. 41 ) + 41 l p + ( 41) l(1 p). Förlustfuktioe Q(p; x) skall miimeras med avseede på där E(X i ) är e fuktio av : Q( ; x) (x i E(X i ; )). MK-metode ger ite alltid samma resultat som ML-metode. Lösig (ige, fortkörare): Vi har att E(Y ) p p. Q(p) (y E(Y )) (48 p) ; dq(p) (48 p) p 41 dp Derivera och sätt till oll: d l L(p) dp 41 p 41 1 p. Lös ut p: p 41 5.6 % Allmät: p y. Steg (egeskaper): E(p ) E( Y ) p p, vätevärdesriktig! V(p ) V( Y p(1 p) ) D(p ) p(1 p) V(p ). p(1 p), avtar med. Eftersom( p (1 p ) 19.4 > 1 så gäller, eligt CGS, att Y N p, ) p(1 p) och alltså att p Y ) p(1 p) (p, N. Steg 4 (medelfel): p d(p ) (1 p ).56(1.56) 5.6 %. Steg 5 (svar): Adele fortkörare uppskattas till 5.6 % med e osäkerhet (stadardavvikelse) för skattige på 5.6 %. MINSTA-KVADRAT-METODEN (MK) Ett sätt att hitta bra skattigar av parametrar som igår i vätevärdet om ma ite vet vilke typ av fördelig ma har. Idé: Välj det värde på de okäda parameter som miimerar de kvadratiska avvikelse frå vätevärdet. Dvs, ugefär: miimera variase. 4