Stat. teori gk, ht 2006, JW F10 ESTIMATION (NCT 8.1-8.3) Ordlista till NCT Iferece Parameter Estimator Estimate Ubiased Bias Efficiecy Cofidece iterval Cofidece level (Studet s) t distributio Slutledig, iferes Parameter Estimator, skattig Estimat, skattig Vätevärdesriktig Bias, systematiskt fel, skevhet Effektivitet Kofidesitervall Kofidesivå t-fördelig 1
Saolikhetslära statistisk iferes Hittills har vi sysslat med saolikhetslära. Problem av type: Hur stor är slh att det och det skall iträffa? Ex.: Vi skall dra ett slumpmässigt stickprov på 100 persoer frå e populatio på 1 000, av vilka vi vet att 30 procet är bilägare. Hur stor är slh att stickprovet skall iehålla 50 eller fler bilägare? Nu övergår vi till området statistisk iferes (= slutledig). Problemet är här det omväda: Vi har data frå ett stickprov. Vilka slutsatser ka vi dra om de populatio stickprovet kommer frå? Ex.: Populatio med 1 000 persoer, varav e okäd adel är bilägare. Vi drar ett slumpmässigt stickprov på 100 persoer och fier att 40 av dessa är bilägare. Vad skall vi tro om adele bilägare i populatioe? 2
Allmät om skattig av e populatiosparameter På grudval av stickprovsdata vill vi uppskatta värdet på e okäd parameter i de populatio som stickprovet kommer ifrå. Exempel på populatiosparametrar är: Medelvärde, µ Proportiostal (saolikhet), P Varias, 2 Vi täker oss, allmät, att vi vill skatta e viss populatiosparameter θ (som ka vara t.ex. ett populatiosmedelvärde, eller e populatiosproportio, eller vad som helst). Säg att X 1, X 2,, X är ett stickprov av oberoede observatioer frå populatioe. På grudval av dessa observerade stickprovsvärde beräkar vi e skattig, θˆ, av de okäda populatiosparameter θ. 3
Eftersom slumpe bestämmer vilka våra observatioer kommer att bli, så ka vi säga att skattige θˆ är e stokastisk variabel. De har e saolikhetsfördelig, e s.k. sampligfördelig, som beskriver hur värdet på θˆ ka variera frå stickprov till stickprov. Vår förhoppig är aturligtvis att vi skall få ett värde på θˆ, som ligger så ära det saa (okäda) värdet på θ som möjligt. Hur bra är det att aväda θˆ som skattig av θ? Vi ka aldrig komma ifrå att skattige har e viss osäkerhet. E skattigs egeskaper brukar beskrivas i termer av dess vätevärde och varias, alltså E(θˆ) och Var(θˆ). Öskvärda egeskaper hos e skattig är: Att de är vätevärdesriktig, dvs. att E(θˆ) = θ. Att de har lite varias, dvs. att Var(θˆ) är lite. 4
Varför dessa öskemål? Vi täker oss hypotetiskt e låg serie upprepade stickprov frå samma populatio. Då ka vi tolka egeskapera vätevärdesriktighet och lite varias på följade sätt: E vätevärdesriktig skattig kommer i det låga loppet att i geomsitt träffa rätt. (OBS ite varje gåg, me i geomsitt.) E vätevärdesriktig skattig har iget systematiskt fel. Variase är ett mått på skattiges osäkerhet. Ju midre varias e vätevärdesriktig skattig har, desto oftare kommer de att träffa i ärhete av det saa parametervärdet. E skattig som ite är vätevärdesriktig har e bias: Bias(θˆ) = E(θˆ) θ (Om θˆ är vätevärdesriktig, så är Bias(θˆ) = 0.) Om θˆ1 och θˆ2 är två vätevärdesriktiga skattigar av parameter θ, och om Var(θˆ1) < Var(θˆ2), så säger vi att θˆ1 är mer effektiv ä θˆ2. 5
Skattig av ett populatiosmedelvärde Säg att X 1, X 2,, X är ett slumpmässigt stickprov av oberoede observatioer frå e populatio med medelvärde µ och varias 2. Ett okät populatiosmedelvärde, µ, brukar vid slumpmässigt stickprov skattas med stickprovsmedelvärdet, X. Vi vet reda att: E( X ) = µ, dvs. vätevärdesriktig skattig 2 Var( X ) = Skattig av e populatiosproportio E okäd populatiosproportio, P, brukar vid slumpmässigt stickprov skattas med motsvarade stickprovsproportio, Pˆ. E(Pˆ ) = P, dvs. vätevärdesriktig skattig Var(Pˆ ) = P ( 1 P) 6
Skattig av e populatiosvarias E okäd populatiosvarias, 2, brukar vid slumpmässigt stickprov skattas med stickprovsvariase, s 2. Vi vet reda att E(s 2 ) = 2, dvs. vätevärdesriktig skattig (Me s är ite ågo vätevärdesriktig skattig av.) [Amärkig om termiologi: Av bekvämlighet aväder vi terme skattig för både estimator och estimat. Egetlige är: Estimator = skattige betraktad som stokastisk variabel, alltså ia vi observerat ågra data Estimat = det umeriska värde som skattige atar efter att data erhållits.] 7
Kofidesitervall för ett populatiosmedelvärde Kofidesitervall: Puktskattig ± felmargial Med ett kofidesitervall för populatiosmedelvärdet µ med kofidesivå 95% meas ett itervall sådat att: ädpuktera beräkas frå stickprovsdata; itervallet kommer med slh 0,95 att iehålla det saa värdet på µ. Saolikhetsuttaladet görs ia vi dragit stickprovet. Atag att vi har ett stickprov av storlek frå e ormalfördelad populatio med käd varias 2. Ädpuktera för ett 95% kofidesitervall för µ beräkas då såsom: x ± 1,96 8
Motiverig: Ia stickprovet dras vet vi att de stokastiska variabel X är N(µ; 2 /). Därför är P(-1,96 X µ 1,96) = 0,95 123 / Z Olikhete ka skrivas om (visa!), så att vi får P( X 1,96 µ X + 1,96 ) = 0,95 14243 14243 edre ädpukt övre ädpukt Ädpuktera är slumpmässiga. Ka variera frå stickprov till stickprov. Me med slh 0,95 kommer de att ligga på varsi sida av µ, vilket iebär att itervallet mella dessa två ädpukter med slh 0,95 kommer att fåga upp det saa, okäda värdet på µ. 9
Tolkig av kofidesitervallet: Ia vi dragit stickprovet: Med slh 0,95 kommer vi att få ett itervall som iehåller det saa värdet på µ. Efter att vi dragit ett stickprov och beräkat ett itervall: Vi vet ite om det faktiskt erhålla itervallet iehåller µ eller ite. Me vi vet att detta itervall har beräkats eligt e metod som i det låga loppet skulle producera itervall som i 95% av falle iehåller µ. Vi käer därför e gaska stor tillförsikt ( cofidece ) att det just erhålla itervallet iehåller µ. 10
I resoemaget yss hade vi valt kofidesivå 95%. Adra valiga val av kofidesivå är 90% och 99%. Med godtycklig kofidesivå skulle kofidesitervallets ädpukter bli: x ± z där z står för e kostat som bestäms av vilke kofidesivå som öskas. Värdet på z ka erhållas frå Tabell 8 i kursboke (sista rade). Några exempel: Öskad kofidesivå z-värde 90% 1,645 (1,64) 95% 1,960 (1,96) 99% 2,576 (2,58) Högre kofidesivå större tillförsikt, me till priset av lägre itervall (givet ). Större stickprov kortare itervall (give kofidesivå). 11
Ex.: Stickprov ( = 25) frå ormalfördelad populatio med käd stadardavvikelse = 15. Stickprovets medelvärde är x = 102. Ett 95% k.i. för µ får ädpuktera: dvs. x ± 1,96 102 ± 1,96 15 25 102 ± 5,88 Ett 95% k.i. för µ blir alltså (96,12; 107,88). 12
När populatioe är ormalfördelad, N(µ; 2 ), med käd varias beräkas alltså ädpuktera till ett kofidesitervall för µ såsom x ± z Me om populatioes varias är okäd? Eller om populatioe ite är ormalfördelad? Hur gör vi då? När stickprovet är stort beräkas k.i. eligt formel ova, oavsett om populatioe är ormalfördelad eller ej (CGS). Och om populatiosvariase är okäd, aväder vi stickprovets stadardavvikelse s i stället för, alltså: s x ± z eller x ± z beroede på om är käd eller ej. Tumregel för stort stickprov: 30. 13
När stickprovet är litet (dvs. < 30) blir det besvärligare. För att vi skall kua beräka ett k.i. måste populatioe vara ormalfördelad. Om det är e populatio med käd varias, beräkar vi kofidesitervallet såsom x ± z Om det är e populatio med okäd varias, beräkar vi kofidesitervallet såsom x ± t s där kostate t hämtas frå Tabell 8 över t- fördelige. Värdet på t bestäms av kofidesivå och atalet frihetsgrader = -1. K.i. beräkade med t-fördelige blir ågot lägre ä om 2 hade varit käd. Återspeglar ökad osäkerhet p.g.a. att populatiosvariase är okäd. Om < 30 och populatioe ite är ormalfördelad, ka vi ite beräka k.i. för µ. 14
Lite om t-fördelige: t-fördelige är e saolikhetsfördelig, som likar de stadardiserade ormalfördelige, me som har lite tjockare svasar. Utseedet bestäms av atalet frihetsgrader. När atalet frihetsgrader ökar, så blir t-fördelige mer och mer lik N(0; 1). För 30 brukar ma aväda N(0; 1) i stället för t-fördelige. Att t-fördelige kommer i i detta sammahag beror på att: Vid slumpmässigt stickprov frå e ormalfördelig gäller att de stokastiska variabel X µ s / har e t-fördelig med -1 frihetsgrader. 15
Ett exempel på hur e t-fördelig ka se ut (samt, som jämförelse, e stadardiserad ormalfördelig): Täthetsfuktio för t-förd. med 3 fg och för N(0; 1) 0,4 Variable t-förd. N(0;1) f(t) och f(z) 0,3 0,2 0,1 0,0-5 -4-3 -2-1 0 t, z 1 2 3 4 16
Beräkig av kofidesitervall för µ, sammafattig: Är stickprovet stort eller ej? Är populatioe ormalfördelad eller ej? Är populatiosvariase käd eller ej? 30 (oavsett om populatioe är ormalfördelad eller ej) 2 käd: 2 okäd: x ± x ± z z s < 30. Populatioe ormalfördelad. 2 käd: x ± z 2 okäd: x ± t s < 30. Populatioe ite ormalfördelad. Kofidesitervall ka ite beräkas. 17
Ex.: Slumpmässigt stickprov med 120 familjer frå e populatio av familjer. Atal bar i varje utvald familj observerades, och ma erhöll x = 1,28 ; s = 1,10 Beräka ett 99% k.i. för µ = medelatalet bar per familj i populatioe. Vi vet att stickprovet dragits geom OSU, och att populatioe iehåller c:a 5000 familjer. Ett 99% k.i. för µ får ädpuktera: dvs. x ± 2, 58 s 1,28 ± 2,58 1,10 120 1,28 ± 0,26 (1,02; 1,54) 18
Ex.: I ett laboratorium görs mätigar på e variabel som ases vara ormalfördelad. Vid ett tillfälle görs 12 mätigar, varvid ma erhåller x = 9,60 och s = 1,89 Beräka ett 95% k.i. för de studerade variabels vätevärde µ. Ett 95% k.i. för µ får gräsera: s x ± t (-1 = 11 f.g. ger t = 2,201) 9,60 ± 2,201 9,60 ± 1,20 (8,40; 10,80) 1,89 12 19