Föreläsning 4. Kapitel 5, sid Stickprovsteori

Relevanta dokument
Föreläsning 5. Kapitel 6, sid Inferens om en population

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsningsanteckningar. Grundläggande statistik 732G01/732G40

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

FÖRELÄSNING 7:

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Samplingfördelningar 1

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning G60 Statistiska metoder

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

FÖRELÄSNING 8:

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

F3 Introduktion Stickprov

Urvalsmetoder: Stratifierat urval (kap 9.5)

Mer om konfidensintervall + repetition

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 7. Statistikens grunder.

Studietyper, inferens och konfidensintervall

F9 Konfidensintervall

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Grundläggande matematisk statistik

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Föreläsning 11: Mer om jämförelser och inferens

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Introduktion till statistik för statsvetare

Repetitionsföreläsning

TMS136. Föreläsning 7

Exempel i stickprovsteori

Föreläsning G70 Statistik A

Föreläsning G60 Statistiska metoder

Föreläsning 1: Introduktion. Vad är statistik?

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Tidigare exempel. Några beteckningar. Stratifierat urval

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

732G01/732G40 Grundläggande statistik (7.5hp)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Laboration 3: Urval och skattningar

Föreläsning 7: Punktskattningar

TMS136. Föreläsning 10

Föreläsning 7: Punktskattningar

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 12: Regression

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Introduktion till statistik för statsvetare

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Något om sannolikheter, slumpvariabler och slumpmässiga urval

SF1901 Sannolikhetsteori och statistik I

Laboration 3: Urval och skattningar

Diskussionsproblem för Statistik för ingenjörer

Grundläggande matematisk statistik

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Föreläsning 8: Konfidensintervall

Föreläsning 12: Linjär regression

TMS136. Föreläsning 13

Tentamen i Matematisk statistik Kurskod S0001M

TMS136. Föreläsning 4

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

F10 Problemlösning och mer om konfidensintervall

9. Konfidensintervall vid normalfördelning

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Föreläsning G04: Surveymetodik

Föreläsning G70 Statistik A

, s a. , s b. personer från Alingsås och n b

TMS136. Föreläsning 11

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Formel- och tabellsamling i matematisk statistik

Kap 3: Diskreta fördelningar

Tentamen i Statistik, STA A10 samt STA A13 9p 24 augusti 2005, kl

Forskningsmetodik 2006 lektion 2

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

F22, Icke-parametriska metoder.

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen i Matematisk statistik Kurskod S0001M

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Summor av slumpvariabler

Föreläsning G60 Statistiska metoder

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Några extra övningsuppgifter i Statistisk teori

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Transkript:

Föreläsning 4 Kapitel 5, sid 127-152 Stickprovsteori

2 Agenda Stickprovsteori Väntevärdesriktiga skattningar Samplingfördelningar Stora talens lag, Centrala gränsvärdessatsen

3 Statistisk inferens Population: Den grupp av enheter (ofta individer) vi vill undersöka Urvalsram: Förteckning över enheter i populationen Urval: De enheter som blivit utvalda i stickprovet Konsten att dra slutsatser om en population baserat på ett stickprov är en av grundpelarna inom statistiken! Det är också vad merparten av denna kurs kommer att handla om.

4 Obundet slumpmässigt urval (OSU) Urvalet är draget på ett sätt att alla enheter i populationen har samma sannolikhet att bli valda, nämligen: n N Ex: Vår population är alla studenter i ett klassrum, och vi vill undersöka genomsnittsvikten i klassen. Att väga alla skulle ta lång tid, och man vill därför dra ett stickprov om 20 personer. Det enklaste sättet att göra ett OSU skulle då vara att skriva ned allas namn på lappar, lägga dem i en låda och dra 20 lappar ur lådan. Då har slumpen valt ut 20 personer åt oss och alla har lika stor chans att bli utvalda.

5 På-stan urval Praktisk tillämpning av OSU: Aktivt söka upp respondenterna Ta hjälp av slumpen! Tillfråga var tionde som passerar Syftet är att göra ett urval bland alla individer inte bara de som ser vänliga ut

6 Stratifierat urval När vi vill dra slutsatser om en heterogen population En population som kan delas in i homogena undergrupper som vi tror kan påverka undersökningen (t.ex. kön) Varje undergrupp kallas för stratum och ett OSU dras ur varje strata Stratifierade urval, för en heterogen population, ger normalt mindre standardavvikelse och därmed säkrare slutsatser om populationen

7 Stratifierat urval Ex: Vi delar upp populationen i kvinnor och män, och lägger sedan lapparna med namn i en låda för kvinnor och en för män. Sedan drar vi 10 lappar ur varje låda.

Felkällor vid stickprovsundersökningar 8 Övertäckning: när det finns enheter i urvalsramen som egentligen inte tillhör målpopulationen Ex: Vid studie av vikter bland studenter i ett klassrum används klasslistan som urvalsram. Men vissa studenter har hoppat av utbildningen sedan klasslistan trycktes de tillhör inte längre målpopulationen utan utgör övertäckning.

Felkällor vid stickprovsundersökningar 9 Undertäckning: när det finns enheter i målpopulationen som saknas i urvalsramen Ex: Vissa studenter har påbörjat sin utbildning sedan klasslistan trycktes. De tillhör därför målpopulationen men har ingen chans att bli utvalda och utgör därför undertäckning.

Felkällor vid stickprovsundersökningar 10 Bortfall: när enheter inte vill (eller kan) mätas. Skilj på Slumpmässigt bortfall Systematiskt bortfall Ex: Socialstyrelsen utsänder en enkät om tobaks- och alkoholvanor. Man kan då tänka sig att nykterister och icke-rökare är mer benägna att besvara enkäten än andra. Slutsatser dragna från enkäten riskerar att bli snedvridna eftersom bortfallet inte är slumpmässigt.

11 Relation mellan population och stickprov Populationsparametrar Okända Vi vill dra slutsatser om Stickprovsstatistikor Skattningar av parametrarna Parameter Väntevärdesriktig skattning Medelvärde μ = x x ҧ = x N n Varians σ 2 s 2 Andel π p

12 Väntevärdesriktighet Ex: Låt X vara en slumpvariabel med en fördelning. Varje observation i stickprovet, X 1,, X n, är också slumpvariabler med E X i = μ Var X i = σ 2

13 Väntevärdesriktighet Genom att utnyttja räkneregler för linjära variabeltransformationer blir då E തX = E n 1 n i=1 X i = 1 n E X 1 + + X n = = 1 n μ + + μ = 1 n n μ = μ Det förväntade värdet av stickprovsmedelvärdet är populationsmedelvärdet

Väntevärdesriktighet 14 Vi visar därmed att skattningen är väntevärdesriktig det vill säga inga systematiska fel görs när stickprovsstatistikan används för att uppskatta populationsparametern.

15 Medelfel En väntevärdesriktig skattning av en parameter har också en osäkerhet Var തX = Var 1 n X i = = 1 n 2 Var X 1 + + Var X n = = 1 n 2 σ2 + + σ 2 = 1 n 2 n σ2 = σ2 n

16 Medelfel Variansen av stickprovsmedelvärdet påverkas av variansen av slumpvariabeln men också storleken av stickprovet Ju större stickprov, desto mindre varians Medelfelet σ xҧ blir då σ ҧ x = σ n Medelfelet är en skattning av den genomsnittliga osäkerheten när vi använder en stickprovsstatistika för att skatta en parameter

17 Egenskaper hos stickprovsstatistikorna Lägesmått Spridning Medelfel Medelvärde Summa E തX = μ Var തX = σ2 n σ തX = σ n E X = n μ Var X = n σ 2 σ X = n σ Andel E P = π Var P = π 1 π n σ P = π 1 π n

18 De stora talens lag Ju större stickprov vi drar, desto mer lika blir stickprovsstatistikorna populationsparametrarna

19 Samplingfördelning Hur ofta kommer stickprovsmedelvärdet att överensstämma med populationsmedelvärdet om vi skulle dra många OSU ur samma population? 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 7 8 8 9 9 9 9 9 10 10 11 11 12 13 13 13 14 14 15 16 16 16 17 18 18 19 19 20 22 23 23 24 27 28 28 29 29 29 30 30 32 32 34 36 37 40 40 44 45 50 54 57 59 59 68 81 83 87 91 94 97 100 0 25 μ = 21.5 M = 11.5 50 75 100

20 Samplingfördelning Från populationen vet vi att μ = 21.5 M = 11.5 Vi drar ett stickprov om n = 10 1 3 3 5 5 13 14 22 40 81 Vi drar ett till stickprov x ҧ = 18.7 2 3 3 3 16 19 22 30 50 100 x ҧ = 24.8

21 Samplingfördelning Om vi drar 100 oberoende stickprov om storleken n = 10, beräknar de 100 stickprovsmedelvärdena och visualiserar mätningarna i ett histogram fås följande diagram x ҧҧ = 22.7 10 15 20 25 30 35 40

22 Samplingfördelning Experimentet upprepas för 100 oberoende stickprov om storlek n = 20 x ҧҧ = 22.0 10 15 20 25 30 35 40

23 Samplingfördelning Slutligen upprepas experimentet för 100 oberoende stickprov om storlek n = 30 x ҧҧ = 21.7 10 15 20 25 30 35 40

24 Samplingfördelning Stickprovsmedelvärdena följer en fördelning Vi kan betrakta denna fördelning som en uppskattning av den fördelning som skulle fås om vi åskådliggjorde stickprovsmedelvärdena för samtliga möjliga stickprov av en viss storlek ur populationen, vilket kallas för en samplingfördelning.

25 Centrala gränsvärdessatsen Samplingfördelningen för summor eller medelvärden av n oberoende slumpvariabler med samma fördelning är approximativt normalfördelad om n är tillräckligt stort

26 Centrala gränsvärdessatsen Samplingfördelningen blir mer och mer lik (konvergerar) mot normalfördelningen när stickprovsstorleken ökar Detta gäller även om populationen stickproven dras ifrån inte är normalfördelad Vanlig tumregel är n 30

27 Exempel Ett flygbolag räknar med att medelvikten på en passagerare är 80kg med en standardavvikelse om 5kg. Vikten för en passagerare är dock inte normalfördelad. En viss flygplanstyp rymmer 290 passagerare.

28 Linjära variabeltransformationer Linjära variabeltransformationer av normalfördelade slumpvariabler är alltid normalfördelade

29 Linjära variabeltransformationer Innebörden blir att medelvärden, summor och andelar beräknade på normalfördelade observationer, genom att de dragits ur en population som är normalfördelad, är också normalfördelade oavsett stickprovets storlek Ex: Felet hos hastighetsmätaren på en slumpmässigt vald bil av ett visst märke kan ses som normalfördelat och överskattar i medel den sanna hastigheten med 3km/h, med en standardavvikelse på 2km/h. Beskriv fördelningen för hur långt bilen hinner köra på 5 timmar om mätaren visar 100km/h.

30 Stickprovsstatistikors fördelning Om n 30 gäller, p.g.a. centrala gränsvärdessatsen, att തX N μ ത X = μ; σ ത X = σ n X N μ x = n μ; σ x = n σ Om n < 30 krävs att populationen som stickprovet dragits ur är normalfördelad.

31 Stickprovsandelens fördelning Om np 1 p > 5 gäller: P N μ P = π; σ P = π 1 π n Detta p.g.a. normallapproximation om n är tillräckligt stort

32 Exempel Vikten av en jordgubbe har väntevärde 13 gram och standardavvikelse 5 gram. En låda innehåller 35 jordgubbar. Vad är sannolikheten för att den sammanlagda vikten av lådan överstiger 500 gram om lådan själv väger 50 gram?