LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 5 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-02 Laboratio 5: Kofidesitervall viktiga statistiska fördeligar Syfte I dea laboratio skall vi som huvudpukt geom datorsimulerigar studera två viktiga statistiska fördeligar. Dessa uppträder i sambad med itervallskattigar och vid hypotesprövig, då ma har stickprov frå e ormalfördelig med okät vätevärde och okäd varias. Det rör sig ärmare bestämt om 2 -fördelige och t-fördelige. Därefter skall vi utyttja samma simulerade stickprov och med hjälp av frekvestolkige av saolikhetsbegreppet illustrera defiitioe av begreppet kofidesitervall. 2 Förberedelseuppgifter Du skall ha löst förberedelseuppgiftera ia du kommer till laboratioe. Hemuppgift : Hur defiieras i kursboke storhete kvatil för e stokastisk variabel? Hemuppgift 2: Atag att de stokastiska variabel X N(0, ) och att du vill beräka / 2 -kvatile för X, där = 0.03752. Du letar förgäves i kvatil-tabelle, så vad gör du då? Hemuppgift 3: Vad har ovaståede fråga med iverse till fördeligsfuktioe att göra? Hemuppgift 4: Räka uppgift 73 i övigshäftet. Beräka äve ett 95 %-igt kofidesitervall för vätevärdet om variase 2 är okäd. 3 Kofidesitervall 3. Normalfördelige, och t-fördelige 2 -fördelige De modeller och de teori som vi arbetar med i dea kurs bygger ofta på ett atagade om att de observerade slumpvariablera är oberoede och ormalfördelade. Med utgågspukt i detta ormalfördeligsatagade ka ma seda härleda egeskaper och fördeligar hos de stickprovsvariabler, ma är itresserad av. Ofta atar ma att slumpvariatioe härrör frå mätfel eller aturlig variatio hos de populatio ma studerar. 3.. Normalfördelige I måga experimetella sammahag utför ma ofta flera mätserier med ett atal mätigar i varje serie, för att seda aväda medelvärdea för varje mätserie i de fortsatta beräkigara. Vi har tidigare medelst datorsimulerigar studerat ågra av stickprovsmedelvärdets egeskaper, där stickprovsmedelvärdet alltså beräkas som x = x i. På samma sätt som x,..., x ka ses som observatioer av motsvarade stokastiska variabler X,..., X ka x = x i ses som e obser-
vatio av de stokastiska variabel X = X i. Besvara, ia du går vidare, följade repetitiosfrågor: Uppgift 3.: Atag att E(X i ) =, V(X i ) = 2 samt att alla X i är oberoede av varadra. Vad har då de stokastiska variabel X för vätevärde respektive varias? Uppgift 3.2: Atag att X,..., X N(, ). Vilke fördelig har då X? (Age äve evetuella parametrar samt ytterligare förutsättigar.) Uppgift 3.3: Vad sker med fördelige för de stokastiska variabel X, som stickprovsmedelvärdet x är e observatio av, då stickprovsstorleke ökar? Om vi utifrå ett slumpmässigt stickprov frå e ormalfördelig N(, ) med okät vätevärde och okäd varias 2 vill kostruera ett kofidesitervall för eller pröva e hypotes agåede vätevärdet, måste vi först hitta e lämplig stickprovsvariabel vars fördelig vi ka bestämma. Om vi låter de stokastiska variabel S betecka stadardavvikelse S = (X i X ) 2 gäller eligt utredigara i kursboke att = X S/ t( ). Det är iebörde av detta teoretiskt härledda resultat vi med hjälp av simulerade stickprov skall studera i detta avsitt. I datorlaboratio 3 studerade vi främst stickprovsmedelvärdet. Som ett led i vår jakt efter fördelige för stickprovsvariabel skall vi u fokusera vår uppmärksamhet på stickprovsvariase s 2 = (x i x) 2. För att de teoretiska resultate skall vara giltiga måste vi förutsätta att de slumpvariabler vi observerar ite bara är oberoede, uta också ormalfördelade. Geerera tuse stickprov om vardera tio observatioer frå e N(0, )-fördelig. Rita också ett histogram över dessas stickprovsmedelvärde med de teoretiska täthetsfuktioe ovapå detta: >> X = rad(0,000); >> mx = mea(x); >> hist2(mx) >> hold o Geerera e vektor x med abscissa-värde geom att läsa av västra respektive högra ädpukte för x-itervallet i figure med histogrammet och seda skapa e vektor med värde i steg om 0.0 mella dessa två ädpukter. >> plot(x,ormpdf(x,my,sig)) >> hold off Parametrara my och sig ka du ekelt räka ut eftersom du besvarat repetitiosfrågora ova. 3..2 2 -fördelige Vi skall u se på 2 -fördelige och hur de kommer i i sammahaget. Sats 3. Om X,..., X är oberoede stokastiska variabler och X i N(0, ), så gäller att Xi 2 2 (). Med hjälp av dea sats och ågra trasformatioer ka ma seda härleda följade sats, som är av stort praktiskt värde. Sats 3.2 Om X,..., X är oberoede stokastiska variabler och X i N(, ), så gäller att (X i X ) 2 2 ( ). 2 Vi skall aväda samma tillvägagågssätt som i föregåede uderavsitt för att illustrera dea sats, dvs rita ett histogram och de teoretiska fördelige i samma figur. De stokastiska variabel (X i X ) 2 ka vi skatta med (x i x) 2, 2
och 2 käer vi ju i detta fall. Med hjälp av matriser ka vi på ett smidigt sätt hatera de tuse stickprove samtidigt och bilda kvadratsummora kolovis (vi betraktar ju varje kolo som ett stickprov). >> M = oes(0,)*mx; Här har vi bildat e y matris M geom oes(0,)*mx som är lika stor som matrise X. Matrise oes(0,) är ju e kolovektor med tio rader av ettor, meda mx är e radvektor med tuse koloer. Matrisprodukte oes(0,)*mx blir alltså e 0 000-matris, där alla elemete i första koloe är medelvärdet av elemete i första koloe i X, och så vidare. Nu är ju M rätt stor (att de verklige har de storlek som påstås ka du kotrollera med kommadot size), me vi ka titta på e del av de, till exempel de fyra första koloera, och jämföra dem med de fyra första koloera i mx. >> size(m) >> M(:,:4) >> mx(:4) Detta var e förberedelse för att kua beräka de kvadratsumma, som vi egetlige är itresserade av. >> Q = sum((x-m).^2); Observera de elemetvisa kvadrerige varje elemet i matrise X-M kvadreras alltså ia vi summerar kolovis. Nu är vi redo att rita ett histogram över (x i x) 2. Kvadratsummora, ett värde för 2 varje stickprov, har vi ju i Q. Vad som sakas är bara att dela med 2, som ju är i vårt fall. >> hist2(q) >> hold >> plot(x2,chi2pdf(x2,f)) Vektor x2 med abscissa-värde geererar du lämplige geom att läsa av västra respektive högra ädpukte för x-itervallet i figure med histogrammet och seda skapa e vektor med värde i steg om 0.0 mella dessa två ädpukter. Atalet frihetsgrader f ka du lätt bestämma med hjälp av e av satsera ova. 3.2 t-fördelige Följade sats bygger vidare på dem i det föregåede avsittet, och lyder i si mest avskalade form: Sats 3.3 Om X och Y är oberoede med X N(0, ) och Y 2 X (f ) så gäller att Y /f t(f ). Utgåede frå dea sats ka ma med ågra få omskrivigar visa de sats som ligger till grud för t-testet och som också utyttjas vid kostruktio av kofidesitervall för vätevärdet, då ma har ett stickprov frå e ormalfördelig med okät : Sats 3.4 Om X,..., X är oberoede stokastiska variabler och X i N(, ) och S = X (X i X ) 2, så gäller att S/ t( ). Vi skall äve kotrollera detta resultat med hjälp av de simulerade stickprove. Vi har reda räkat ut de storheter vi behöver, och vi vet att = 0 i vårt fall, så u ka vi ekelt rita upp ett histogram och ovapå det, de teoretiska täthetsfuktioe. >> s = sqrt(q/(-)); >> t = mx./(s/sqrt()); >> hist2(t) >> hold >> plot(x3,tpdf(x3,f)) Vektor x3 med abscissa-värde ka du geerera på kät maér, och hur du bestämmer atalet frihetsgrader framgår av ovaståede sats. E lite avslutade uppgift: Uppgift 3.4: Aväd det simulerade stickprovet frå t- fördelige, som du tagit fram ova, till att skatta 5 %-kvatile för fördelige. Jämför ditt skattade kvatilvärde med tabellvärdet. 3.3 Simulerig av kofidesitervall Vi börjar med att erira oss defiitioe av ett kofidesitervall: Ett itervall I som med saolikhete täcker över kallas ett kofidesitervall för med kofidesgrade. 3
Ett viktigt momet i datorlaboratio var frekvestolkige av saolikhetsbegreppet, och frekvestolkige är också till stor hjälp är ma vill förstå iebörde av begreppet kofidesitervall. Vi ka fortsätta att aväda oss av de tuse stickprove frå e N(0, )-fördelig som vi har lagrade i matrise X. Låt oss för ett ögoblick glömma bort att vi käer vätevärdet och stadardavvikelse. Vi har reda e skattig mx av vätevärdet. För att kua kostruera ett kofidesitervall för vätevärdet, är stadardavvikelse är okäd, måste vi skatta stadardavvikelse, och det gör vi som bekat med stickprovsstadardavvikelse s, >> sx = std(x); Vi måste också bestämma oss för e kofidesgrad, dvs med hur stor saolikhet vill vi att itervallet verklige skall täcka det saa parametervärdet? När vi bestämt e lämplig kofidesgrad ka vi avläsa motsvarade kvatil i e tabell. E kvatiltabell är ju egetlige igetig aat ä e baklägestabell över fördeligsfuktioe, och har ma tillgåg till de iversa fördeligsfuktioe, så går det lika bra. De iversa fördeligsfuktioera till ormal-, 2 - och t- fördelige heter i STIXBOX qorm, qchisq respektive qt. I STATISTICS TOOLBOX heter de ormiv, chi2iv respektive tiv. Välj ut de fuktio du tycker passar bäst i föreliggade fall och tag geom help-kommadot reda på vilka iparametrar som behövs till fuktioe. När ma beräkar iverse till e fördeligsfuktio så skall ju argumetet vara e saolikhet, p säg. Eftersom du har besvarat förberedelseuppgiftera 2 och 3, vet du också vilket värde på p du skall stoppa i i de iversa fördeligsfuktioe för att få ut rätt kvatilvärde. Låt u = 0.04 och beräka de kvatil du behöver för att kua kostruera tvåsidiga kofidesitervall för vätevärdet utifrå dia simulerade stickprov. När du beräkat kvatiles värde, låt oss kalla det kvatil, ka du beräka de tuse kofidesitervalle på följade sätt: >> b = kvatil*sx/sqrt(k); >> CI = [mx-b;mx+b]; Matrise CI är e 2 000-matris, där de första rade iehåller alla de edre itervallgräsera, meda de adra rade iehåller alla de övre itervallgräsera. Nu har vi alltså utifrå våra hudra stickprov kostruerat hudra kofidesitervall för det okäda vätevärdet. Eftersom vi u befier oss i de lyckliga situatioe att vi faktiskt käer det saa vätevärdet, som ju är oll, så ka vi också kotrollera hur måga av kofidesitervalle som faktiskt iehåller detta värde: >> hits = (CI(,:) < 0 ) & (CI(2,:) > 0); >> at_hits = sum(hits) I de första kommadorade kotrolleras vilka kofidesitervall som täcker olla (det vill säga, första elemetet i motsvarade kolo skall vara midre ä oll och det adra elemetet skall vara större ä oll). Om villkoret är uppfyllt blir svaret e etta, och om villkoret ite är uppfyllt blir svaret e olla. Seda är det bara att räka atalet ettor, det vill säga, lägga ihop dem, vilket vi gör med sum-fuktioe. Uppgift 3.5: Hur väl stämmer atalet träffar med vad du förvätat dig utifrå de valda kofidesgrade? Uppgift 3.6: Vad skulle du kua göra för att öka atalet träffar med bibehålle stickprovsstorlek? Vad är priset för detta? Verifiera dia svar i MATLAB. Uppgift 3.7: Vad skulle du kua göra för att miska itervallbredde med bibehålle kofidesgrad? Vad är priset för detta? (Du behöver ite verifiera detta i MATLAB om du har ot om tid.) 4 Avslutig De metoder för att bestämma puktskattigar av olika parametrar, som preseterats tidigare i kurse, är viktiga och avädbara. E puktskattig ger dock ite alltid tillräcklig iformatio 4
om de okäda parameter. Om ma till exempel har osäkerhet i sia mätigar, ka ma ite räka med att puktskattige träffar mitt i prick. Ma har då större ytta av e itervallskattig. Med saolikhets- och statistikteoris hjälp ka ma kostruera kofidesitervall, vars bredd återspeglar precisioe i mätigara och de säkerhet ma vill uppå i sia slutsatser. I vissa fall ka ma utifrå teoretiska övervägade eller tidigare erfareheter ställa upp e hypotes agåede värdet av e viss parameter. Geom att på ett välövervägt sätt samla i ett stickprov ka ma seda aväda detta för att pröva si hypotes med ett hypotestest. På samma sätt som säkerhete i e itervallskattig ages av kofidesgrade, aväder ma felriskera och för att beskriva säkerhete i ett hypotestest. Hypotestest är e viktig statistisk tekik som ska studeras ärmare i laboratio 6. 5 Stixbox De som ite har Statistics toolbox istallerad får aväda Stixbox istället. Gå till http://www.maths.lth.se/matstat/stixbox/cotets.html och hämta det som behövs. Istället för aväds ormpdf(x,m, ) dorm(x,m, ) chi2pdf(x,f ) dchisq(x,f ) tpdf(x,f ) dt(x,f ) ormiv(p,m, ) qorm(p,m, ) chi2iv(p,f ) qchisq(p,f ) tiv(p,f ) qt(p,f ) 5