F9 SAMPLINGFÖRDELNINGAR (NCT

Relevanta dokument
F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Samplingfördelningar 1

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

TMS136. Föreläsning 7

Formel- och tabellsamling i matematisk statistik

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Föreläsning G60 Statistiska metoder

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

9. Konfidensintervall vid normalfördelning

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Grundläggande matematisk statistik

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

2. Test av hypotes rörande medianen i en population.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 4: Konfidensintervall (forts.)

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Jörgen Säve-Söderbergh

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

MVE051/MSG Föreläsning 7

TMS136. Föreläsning 13

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Statistik 1 för biologer, logopeder och psykologer

Formler och tabeller till kursen MSG830

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Matematisk statistik för B, K, N, BME och Kemister

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Tentamen MVE301 Sannolikhet, statistik och risk

Kap 3: Diskreta fördelningar

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

4 Diskret stokastisk variabel

, s a. , s b. personer från Alingsås och n b

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Något om sannolikheter, slumpvariabler och slumpmässiga urval

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

FACIT: Tentamen L9MA30, LGMA30

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Våra vanligaste fördelningar

F2 SANNOLIKHETSLÄRA (NCT )

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 5. Kapitel 6, sid Inferens om en population

Kurssammanfattning MVE055

FÖRELÄSNING 7:

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning G70 Statistik A

F3 Introduktion Stickprov

TMS136. Föreläsning 11

TMS136. Föreläsning 4

Matematisk statistik KTH. Formelsamling i matematisk statistik

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Tentamen MVE301 Sannolikhet, statistik och risk

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 6, Repetition Sannolikhetslära

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

4.3 Stokastiska variabler (slumpmässiga variabler) 4.4 Väntevärde och varians till stokastiska variabler

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 11: Mer om jämförelser och inferens

Repetitionsföreläsning

Forskningsmetodik 2006 lektion 2

Studietyper, inferens och konfidensintervall

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion till statistik för statsvetare

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 4 mars 2006, kl

F22, Icke-parametriska metoder.

F10 Problemlösning och mer om konfidensintervall

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Uppgift 1. f(x) = 2x om 0 x 1

Kap 2. Sannolikhetsteorins grunder

8. NÅGRA SPECIELLA KONTINUERLIGA SANNOLIKHETSFÖRDELNINGAR

1 Mätdata och statistik

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen den 11 april 2007 i Statistik och sannolikhetslära för BI2

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

TAMS65 - Föreläsning 12 Test av fördelning

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

TMS136. Föreläsning 10

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

S0005M. Stokastiska variabler. Notes. Notes. Notes. Stokastisk variabel (slumpvariabel) (eng: random variable) Mykola Shykula

Transkript:

Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion Stickprov Population Obundet slumpmässigt urval (OSU) Samplingfördelning Stickprovsmedelvärde Standardfel Centrala gränsvärdessatsen Proportion, andel χ (Chi-square) distribution χ -(chitvå)fördelning 1

Population och stickprov I statistiken sägs ofta att data utgör ett stickprov från en population. Vad betyder det? Två typiska situationer när dessa termer används är: 1. Stickprov från ändlig population Populationen är en tydligt definierad mängd av reellt existerande element (t.ex. människor, fastigheter, bilar), som man vill ta reda på någonting om. Från en sådan population väljs genom obundet slumpmässigt urval ett stickprov av element. Sedan samlar man från de utvalda elementen in data med avseende på aktuella undersökningsvariabler. Ändlig population = konkret, ändlig, mängd av element Stickprov = utvald delmängd av populationen Stickprovet väljs genom obundet slumpmässigt urval. För varje utvalt element observeras värdet på en viss undersökningsvariabel.

. Stickprov från oändlig population Populationen är här en tänkt, oändligt stor, mängd av något slag. T.ex. mängden av alla kast man skulle kunna göra med en viss tärning, ifall man höll på oändligt länge. Eller mängden av alla enheter som skulle kunna tillverkas i en viss tillverkningsprocess, ifall den höll på oändligt länge, under oförändrade villkor. När vi nu (t.ex.) gör en verklig serie tärningskast, så ser vi dessa som ett slumpmässigt stickprov från den oändliga populationen av alla kast, som skulle kunna göras med den aktuella tärningen. Om vi noterar antalet prickar i varje kast, så utgör detta våra stickprovsdata. Oändlig population = tänkt, oändlig, serie upprepningar av ett och samma slumpförsök. Stickprov = en verklig, ändlig, serie upprepningar. Upprepningarna antas oberoende av varandra. För varje utförd upprepning observerar vi vilket utfallet blev. 3

Ex.: Stickprov från ändlig population. Ett stickprov på 1000 personer från populationen av alla personer, 15 år eller äldre, som var folkbokförda i Stockholms kommun den 1 mars år 006. Ex.: Stickprov från oändlig population. 100 kast med en tärning ger värdena x 1, x,, x 100, där x i = antalet prickar i det i:te kastet. Kan beskrivas som att x 1,, x 100 är ett stickprov från en tänkt, oändligt stor population där värdena 1,,, 6, förekommer med samma relativa frekvens. Ex.: Stickprov från oändlig population. Med ett mätinstrument görs 50 upprepade mätningar av avståndet mellan två punkter. De 50 mätningarna ger lite olika resultat från gång till gång p.g.a. ett mätfel, som antas uppträda slumpmässigt. Under antagande att mätfelet är en normalfördelad stokastisk variabel, så utgör de erhållna mätvärdena x 1,, x 50 ett stickprov från en tänkt, oändligt stor population av normalfördelade möjliga mätvärden. 4

De förutsättningar som antas gälla i fortsättningen på den här kursen är att antingen: Stickprovet har erhållits genom OSU från en ändlig population, som är mycket stor i förhållande till stickprovet. eller: Stickprovet utgörs av ett antal oberoende observationer från en tänkt oändlig population av möjliga observationer. Båda dessa fall kommer att behandlas på samma sätt, nämligen som om det är fråga om stickprov från en oändlig population. Vi kommer i båda fallen att säga att vi har ett slumpmässigt stickprov ( random sample ), från en oändlig eller stor ändlig population. [Anm.: Urval från ändliga populationer med andra urvalsdesigner än OSU behandlas inte på den här kursen.] 5

Samplingfördelningen för ett stickprovsmedelvärde Låt X 1, X,, X n vara de värden vi kommer att observera i ett framtida stickprov av storlek n från en population med medelvärde µ och varians σ. Den formella innebörden av detta är att: X 1, X,, X n är oberoende stokastiska variabler, med samma väntevärde µ och samma varians σ. Stickprovsmedelvärdet, X, definieras som vanligt såsom X = X + + + n 1 X K X n 1 = X i n n i= 1 Stickprovsmedelvärdet ser vi som en stokastisk variabel. Dess värde bestäms av värdet på de observationer vi råkar få i stickprovet. Sannolikhetsfördelningen för den stokastiska variabeln X kallas för stickprovsmedelvärdets samplingfördelning. 6

När vi tar ett stickprov, kommer X att anta ett visst värde. Om vi tar ett nytt stickprov (från samma population) kommer X antagligen att anta ett annat värde, osv. Samplingfördelningen för X ger en bild av hur stickprovsmedelvärdet X varierar från stickprov till stickprov. Vad vet vi om samplingfördelningens egenskaper? Vad har samplingfördelningen för form? Vad är väntevärde och en varians för X? Vid slumpmässigt stickprov av storlek n från en population med medelvärde µ och varians σ gäller att: σ E( X ) = µ och Var( X ) = n Visa! Standardavvikelsen för X, alltså σ / kursboken för standardfelet för X. n, kallas i Hur påverkas variansen för X av (1) populationens varians, och () stickprovsstorleken? Vad säger formeln? 7

Ex.: Två kast med en tärning: X 1 = antal prickar i första kastet X = antal prickar i andra kastet a) Hur ser populationen ut? Vad är µ och σ? b) Hur ser samplingfördelningen för X ut? c) Vad är E( X ) och Var( X )? Kolla att formlerna ovan stämmer. Vad kan vi säga mer generellt om en samplingfördelnings form? Ett resultat är följande: Vid slumpmässigt stickprov från en population som är normalfördelad, N(µ; σ ), så gäller att X är normalfördelad, dvs. X är N(µ; σ /n) Ex.: Livslängden för en sorts glödlampor antas normalfördelad med medelvärdet 1 00 timmar och standardavvikelsen 50. Slumpmässigt väljs 5 lampor ur produktionen. Vad är slh att medellivslängden för dessa 5 lampor skall understiga 1 180 timmar? (Svar: 0,08) Ett ändå mer generellt resultat kommer här: 8

Centrala gränsvärdessatsen Hur ser stickprovsmedelvärdets samplingfördelning ut, ifall populationen inte är normalfördelad? Det kan vi inte säga något om med exakthet. Men vi kan uttala oss om hur samplingfördelningen för X ser ut approximativt, när vi har stort stickprov. Vi utnyttjar härvid den s.k. centrala gränsvärdessatsen, som i detta sammanhang mycket grovt skulle kunna uttryckas på följande sätt. Centrala gränsvärdessatsen: Stickprovsmedelvärdet, X, kan betraktas som en approximativt normalfördelad stokastisk variabel, när n är tillräckligt stort, oavsett vad populationen har för fördelning. Vad menas med tillräckligt stort? Vanlig tumregel: n 30. På grund av centrala gränsvärdessatsen blir normalfördelningen en viktig fördelning i många olika sammanhang. 9

Oavsett vad populationen har för fördelning, kan vi (om n är tillräckligt stort) approximativt beräkna P( X c) c µ Φ( ) σ / n Exempel: Slumpmässigt stickprov av storlek n = 100 från en population med medelvärde µ = 65 och varians σ = 64. Vad är slh att få ett stickprovsmedelvärde som är mindre än 63? Vi vet att E( X ) = µ = 65 och Var( X ) = σ /n = 0,64. Enl. CGS är X approx. N(65; 0,64), varför 63 65 P( X < 63) Φ ( ) 0,64 = Φ(-,5) = 1 Φ(,5) = 1 0,9938 = 0,006 10

Samplingfördelningen för en stickprovsproportion Två olika fall, som kommer att behandlas på samma sätt: 1. Vi tänker oss att ett stickprov med n element dras med OSU från en (stor) ändlig population. Andelen element i populationen som har en speciell egenskap, A, är lika med P. Låt X = antal A-element i stickprovet Pˆ = X/n = proportionen A-element i stickprovet (Vi vet att X har en hypergeometrisk fördelning.). Vi tänker oss n oberoende upprepningar av ett slumpförsök. Varje gång kan händelsen A inträffa med slh = P. Låt X = antal gånger som A inträffar Pˆ = X/n = proportionen inträffanden av A (Vi vet att X är Bin(n; P).) 11

I båda fallen säger vi att vi har ett slumpmässigt stickprov från en (ändlig eller oändlig) population med proportionen P. Den observerade proportionen Pˆ kallar vi för stickprovsproportionen. Eftersom slumpen bestämmer vilket värde Pˆ skall anta, så är Pˆ en stokastisk variabel. Sannolikhetsfördelningen för Pˆ kallar vi för stickprovsproportionens samplingfördelning. Den beskriver hur Pˆ kan variera från stickprov till stickprov. Vid slumpmässigt stickprov av storlek n från en population med proportionen P gäller att: E(Pˆ ) = P och Var( Pˆ) = P(1 n P) Vad kan vi säga om samplingfördelningens form? Stickprovsproportionen Pˆ kan betraktas som en approximativt normalfördelad stokastisk variabel, när stickprovet är tillräckligt stort. Tumregel: np(1-p) > 9. 1

[Anm.: Stickprovsproportionen kan ses som ett specialfall av ett stickprovsmedelvärde, nämligen ett medelvärde av n stycken 0/1-variabler.] Ex.: (NCT, Ex. 7.7) 30% av villorna i en (stor) population av äldre villor har dåliga elinstallationer. Hur stor är sannolikheten att mellan 5% och 35% av villorna i ett slumpmässigt stickprov på 50 villor skall ha dåliga elinstallationer? P = 0,3 och n = 50 Pˆ = proportionen dåliga bland de 50 utvalda E(Pˆ ) = P = 0,3 P(1 P) 0,3 0,7 Var ( Pˆ) = = = 0,00084 n 50 Kolla tumregeln: np(1-p) = 50 0,3 0,7 =5,5> 9. Alltså Pˆ är approx. N(0,3; 0,00084). P(0,5 < Pˆ < 0,35) 0,35 0,30 0,5 0,30 Φ( ) Φ( ) 0,00084 0,00084 = Φ(1,7) Φ (-1,7) = 0,9146 13

Låt X 1, X,, X n vara ett slumpmässigt stickprov från en population med medelvärde µ och varians σ. Med stickprovsvariansen menas s ( X = = 1 1 1 X ) n n i= 1 + ( X ( X i X ) X ) n 1 + K+ ( X n X ) Samplingfördelningen för en stickprovsvarians Stickprovsvariansen s är en stokastisk variabel. Värdet bestäms av vilka observationer vi råkar få i stickprovet. Sannolikhetsfördelningen för s kallar vi för stickprovsvariansens samplingfördelning. Vad vet man om den? 14

För ett slumpmässigt stickprov av storlek n från en population med medelvärde µ och varians σ gäller att E(s ) = σ Om populationen dessutom är normalfördelad, så gäller att den stokastiska variabeln ( n 1) s σ har en s.k. χ -fördelning (chitvåfördelning) med n-1 frihetsgrader. Vad är en χ -fördelning? Hur ser en χ -fördelning ut? Följande diagram ger ett exempel: Chitvåfördelning med 10 frihetsgrader 0,10 0,08 f(x) 0,06 0,04 0,0 0,00 0 5 10 15 x 0 5 30 15

I Tabell 7 (sid. 869) i NCT kan vi för vissa värden på α finna den punkt, χ, som är sådan att ytan α ν,α under täthetsfunktionen ligger till höger om punkten, när vi har en χ -fördelning med ν frihetsgrader. Se illustration till Tabell 7 i boken. Ex.: Ett slumpmässigt stickprov av storlek n = 0 skall dras från normalfördelad population med medelvärde 100 och varians 5. Ange två gränser inom vilka stickprovsvariansen s med sannolikheten 0,95 kommer att ligga. Eftersom (n-1)s /σ är χ -fördelat med n-1 frihetsgrader, så är alltså 19s /5 χ -fördelat med 19 frihetsgrader. Från Tabell 7 får vi 19s 0,95 = P (8,91 3,85) 5 8,91 5 3,85 5 = P ( s ) 19 19 = P(11,7 s 43,) Med 95% sannolikhet kommer vi att få en stickprovsvarians mellan 11,7 och 43,. 16