Föreläsning 4. 732G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin



Relevanta dokument
Urvalsmetoder: Stratifierat urval (kap 9.5)

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Tidigare exempel. Några beteckningar. Stratifierat urval

Laboration 3: Urval och skattningar

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

Föreläsning G60 Statistiska metoder

Laboration 3: Urval och skattningar

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Exempel i stickprovsteori

Introduktion till statistik för statsvetare

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Föreläsning 5. Kapitel 6, sid Inferens om en population

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning G60 Statistiska metoder

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald

F9 SAMPLINGFÖRDELNINGAR (NCT

Systematiskt urval, gruppurval, val mellan metoderna (kap , 9.10)

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval

Föreläsning G04: Surveymetodik

Lektionsanteckningar 11-12: Normalfördelningen

Ytterligare urvalsmetoder och skattningsmetoder

Föreläsning G70 Statistik A

Föreläsning G60 Statistiska metoder

Studietyper, inferens och konfidensintervall

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 4 mars 2006, kl

Samplingfördelningar 1

Föreläsning G60 Statistiska metoder

Kommun och landsting 2016

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

732G01/732G40 Grundläggande statistik (7.5hp)

Föreläsning 1: Introduktion. Vad är statistik?

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning G60 Statistiska metoder

Tentamen Tillämpad statistik A5 (15hp)

, s a. , s b. personer från Alingsås och n b

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Börja med att ladda ner Kommuner2007.xls från kursens hemsida.

F3 Introduktion Stickprov

Hur skriver man statistikavsnittet i en ansökan?

TMS136. Föreläsning 7

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

LMA521: Statistisk kvalitetsstyrning

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer. Thommy Perlinger

Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik

1. INLEDNING. I avsnitt 5 beskrivs resultatvariablerna procent rätt, nationell rashpoäng och internationell rashpoäng samt deras användningsområden.

732G70, 732G01 Statistik A 7hp

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Teknisk beskrivning av undersökning av deltagare i Jobb- och utvecklingsgarantins Fas3. Maj-juni 2011.

Föreläsning 8: Konfidensintervall

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

TMS136. Föreläsning 10

Läs noggrant informationen nedan innan du börjar skriva tentamen

Föreläsning G70, 732G01 Statistik A. Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

LMA522: Statistisk kvalitetsstyrning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsningsanteckningar. Grundläggande statistik 732G01/732G40

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Attityder kring SBU:s arbete. Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning

Föreläsning 11: Mer om jämförelser och inferens

Repetitionsföreläsning

Population. Antal tänder. Urval

Tentamen i Statistik STG A01 (12 hp) Fredag 16 januari 2009, Kl

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

TENTAMEN I MATEMATISK STATISTIK

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Deltagare i svenskundervisning för invandrare (sfi) 2008

Parade och oparade test

Grundläggande matematisk statistik

Urvalsökningar. Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken

Statistik och epidemiologi T5

FÖRELÄSNING 8:

Föreläsning 6. Kapitel 7, sid Jämförelse av två populationer

Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig (ej fackspråklig) ordbok utan kommentarer. Formelsamling lånas i tentamenslokalen.

Teknisk Rapport En beskrivning av genomförande och metoder

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

När gör hjälpinformation mest nytta - vid urval eller estimering?

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Sannolikheter och kombinatorik

Föreläsning 12: Repetition

Dataanalys kopplat till undersökningar

TENTAMEN I STATISTIKENS GRUNDER 2

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Tentamen i Matematisk statistik Kurskod S0001M

Inferensstatistik. Hypostesprövning - Signifikanstest

2 Dataanalys och beskrivande statistik

FACIT (korrekta svar i röd fetstil)

Transkript:

Föreläsning 4 732G19 Utredningskunskap I Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

Dagens föreläsning Systematiskt urval Väntevärdesriktiga skattningar Jämförelse med OSU Stratifierat urval Punktskattningar Konfidensintervall Allokeringar 2

Systematiskt urval Förutsätter en mycket bra urvalsram (register) Istället för att helt slumpmässigt dra element (exempelvis individer) ur rampopulationen som vid OSU tas elementen med slumpmässigt val av det första elementet periodiskt ur urvalsramen enligt: Om N t, t + k, t + 2 k,, t + n 1 k n är ett heltal har alla element chans att bli utvalda, men om kvoten inte blir ett heltal har de N n k sista elementen ingen chans att bli utvalda. Korrigera genom cyklisk urvalsram! 3

Systematiskt urval Stickprovsmedelvärde, stickprovsandel och stickprovsvarians beräknas som vanligt. Stickprovsmedelvärdets varians skattas Var x sy (1 + n 1 ρ) n Om korrelationen bedöms vara liten beräknas skattningen enligt = σ2 Var x sy = σ2 N n n N 1 varpå vi kan räkna med formlerna från ett vanligt OSU. Resultatet blir dock ej väntevärdesriktigt. 4

Väntevärdesriktiga skattningar vid systematiskt urval Vi har dragit g systematiska urval med olika startpunkter. För varje urval j (j = 1, 2,, g) beräknas Stickprovsmedelvärde x sy,j Stickprovsvarians 2 s sy,j Vi kan då beräkna en punktskattning av populationsmedelvärdet: g x sy = 1 g j=1 x sy,j 5

Väntevärdesriktiga skattningar vid systematiskt urval Vi kan även beräkna ett konfidensintervall för populationsmedelvärdet: x sy ± z α/2 2 s x sy g 1 g G där G = totala antalet möjliga systematiska urval om storlek n ur populationen och 2 s x sy = 1 g g 1 j=1 x sy,j 2 g xsy 2 6

Systematiskt urval jämfört med OSU Slumpmässigt ordnad urvalsram: när ordningen i urvalsramen inte har någon betydelse för det som ska undersökas. Jämförelse: Systematiskt urval får i genomsnitt samma precision som OSU Urvalsram med linjär trend: när elementen i urvalsramen är storleksordnade med avseende på den egenskap som vi vill undersöka. Jämförelse: Precisionen blir i genomsnitt högre än för OSU, eftersom chansen är större att vi får med enheter från hela spektrat av element Periodisk urvalsram: när elementen i urvalsramen förekommer i homogena delgrupper som återkommer med jämna mellanrum. Jämförelse: Systematiskt urval är olämplig urvalsdesign 7

Stratifierat urval (engelska Stratified Random Sample) När vi vill dra slutsatser om en heterogen population (en population som kan delas in i delpopulationer med avseende på någon egenskap som vi tror påverkar det vi vill undersöka). Varje sådan grupp kallas för ett stratum, och vi drar ett OSU ur varje stratum och väger ihop resultaten. Fördelar mot OSU Ger bättre precision genom att hänsyn tas till undergrupper i populationen Nackdelar mot OSU Beräkningsmässigt mer komplicerat Exempel: För vår population med studenter i ett klassrum bland vilka vi vill undersöka genomsnittsvikten delar vi upp populationen i kvinnor och män, och lägger sedan lapparna med namn i en låda för kvinnor och en för män. Sedan drar vi 10 lappar ur varje låda.

Beteckningssystem N i : storleken hos stratum i (i = 1, 2,, ) n i : antal element som väljs ut från stratum i x i S : stickprovsmedelvärde från stratum i p i : stickprovsandel från stratum i 2 s i S : stickprovsvarians från stratum i Stickprovsmedelvärde, stickprovsvarians och stickprovsandel beräknas inom respektive stratum med de vanliga formlerna. 9

Punktskattningar vid stratifierat urval Storhet Väntevärdesriktig skattning Populationsmedelvärde μ = x st = W i x i i=1 Populationstotalmängd τ = N x st Populationsandel P P = p st = i=1 W i p i Vikterna bestäms enligt: W i = N i N 10

Dubbelsidiga konfidensintervall vid stratifierat urval Populationsparameter Populationsmedelvärde Formel för konfidensintervall x st ± z α/2 i=1 W i 2 s i 2 n i 1 n i N i Populationstotal N x st ± z α/2 N 2 i=1 W i 2 s i 2 n i 1 n i N i Populationsandel P p st ± z α/2 i=1 W i 2 p i (1 p i ) n i 1 1 n i N i 11

Exempel Vi betraktar en population om 1000 företag och är intresserade av hur stora investeringar som har gjorts det senaste året. Bakgrundsstudier har visat att populationen består av en grupp företag inom tillverkningsindustrin som har mycket höga investeringar, medan övriga företag verkar inom servicesektorn och har relativt låga investeringar. Närmare bestämt har vi med hjälp av bakgrundsinformationen kunnat dela upp populationen i två strata, där N 1 = 800 företag inom servicesektorn N 2 = 200 företag inom tillverkningsindustrin Vi har tid och ekonomi för att dra ett stickprov om 150 företag. Stratum Medelvärde Standardavvikelse Stickprovsstorlek Stratumstorlek Service Tillverkn x 1 = 15,54 s 1 = 8,93 n 1 = 120 N 1 = 800 x 2 = 438,85 s 2 = 18,92 n 2 = 30 N 2 = 200 Bestäm ett 95% konfidensintervall för de genomsnittliga investeringarna i populationen. 12

Exempel En kommun består av två kommundelar med 10000 respektive 15000 innevånare. Från varje kommundel väljer man slumpmässigt 2000 personer och för varje utvald person undersöker man om denna har förvärvsarbete eller ej. I den första kommundelen har 400 personer förvärvsarbete och i den andra 640 personer. Bestäm ett 95% konfidensintervall för andelen personer med förvärvsarbete i kommunen. 13

Allokering Allokering innebär att man bestämmer hur stora stickprov som ska dras från de olika strata. Vi kommer att diskutera dessa allokeringar: Proportionell allokering Neymannallokering Optimal allokering 14

Proportionell allokering Stickprovsstorleken i respektive stratum väljs proportionellt mot stratumstorleken i förhållande till populationsstorleken enligt n i = n N i N Stickprovsstorleken bestäms enligt följande. För medelvärden För andelar n 0 4 z α 2 2 i=1 B 2 W i σ i 2 n 0 4 z α 2 2 i=1 B 2 W i P i 1 P i Om n 0 N > 5% korrigeras n enligt n = n 0 1+ n 0 1 N 15

Proportionell allokering Vi återgår till den kommunen vi undersökte i ett tidigare exempel. Anta att vi inte har någon förhandsuppfattning om andelen förvärvsarbetande i de två kommundelarna och vi vill skatta totala andelen förvärvsarbetande i kommunen. Ett 95 % konfidensintervall ska skapas och den maximala bredden som accepteras är 3 procentenheter. Kommundel N i 1 10 000 2 15 000 16

Neymanallokering Används när man vill ta hänsyn till (och har kännedom om) standardavvikelsen i varje stratum. För medelvärden: För andelar: n i = n n i = n N i σ i N j σ j j=1 N i P i (1 P i ) Stickprovsstorleken bestäms enligt: n B 2 4 z α 2 j=1 N j P j (1 P j ) i=1 W i σ i 2 Om andelar sätts σ i = P i (1 P i ) 2 + 1 N 2 i=1 W i σ i 17

Neymanallokering Exempel: Man vill skatta medelvärdet i en population som redovisas enligt nedanstående tabell. Vi accepterar en bredd om 7 enheter för ett 95% konfidensintervall. Hur stort stickprov bör dras, och hur ska stickprovet allokeras? i Stratum N i 1 700 20 2 300 50 18

Optimal allokering Används när man vill ta hänsyn till (och har kännedom om) spridningen och kostnaden i olika strata. För medelvärden: För andelar n i = n N i σ i N j j=1 σ j c i c j n i = n N i j=1 N j P i (1 P i ) P j (1 P j ) c i c j 19

Optimal allokering Stickprovsstorleken bestäms enligt: Fixerad kostnad i=1 n C max C 0 N i N i σ i c i i=1 σ i c i Fixerad precision n i=1 W i σ i c i i=1 B 2 4 z α 2 W i σ i 2 + 1 N 2 i=1 W i σ i c i Om andelar sätts σ i = P i 1 P i 20

Exempel Vid en undersökning kring vanor i att använda kollektivtrafiken (mätt som antal resor per år) i en kommun har man delat in kommunen i tre strata: centrum (13350 individer), förort (29960 individer) samt landsbygd (4810 individer). Man uppskattar initialkostnaden till 5000 kr och utöver det är kostnaden 100 kronor för att uppsöka en person i centrum, 150 kronor för att uppsöka en person i förorten och 250 kronor för att uppsöka en person på landsbygden. Man har uppskattat att standardavvikelsen för antalet gjorda resor per år och person är 58 i centrum, 76 i förorterna och 31 på landsbygden. Vi har en total budget på 30000 kr. Hur stort stickprov bör dras, och hur ska urvalet allokeras? 21

Tack för idag! Nästa tillfälle: Datorövning, torsdag 8 maj, 15-17, sal PC2 PC5 22