Tillämpad statistik (A5), HT15 Föreläsning 2: Obundet slumpmässigt urval 1

Relevanta dokument
Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval

Föreläsning 11: Mer om jämförelser och inferens

Planeringen av en statistisk undersökning

Lektionsanteckningar 11-12: Normalfördelningen

Vem ska undersökas? Vem ska undersökas? Planeringen av en statistisk undersökning. Tre huvudfrågor: Vad ska undersökas? Hur ska undersökningen göras?

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Introduktion till statistik för statsvetare

Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin

Studietyper, inferens och konfidensintervall

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen

Föreläsning 7. Statistikens grunder.

, s a. , s b. personer från Alingsås och n b

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 8: Konfidensintervall

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald

Föreläsning G60 Statistiska metoder

Föreläsning 1: Introduktion. Vad är statistik?

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Vad är officiell statistik? Föreläsning 2

Urvalsmetoder: Stratifierat urval (kap 9.5)

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

F9 Konfidensintervall

Samplingfördelningar 1

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

MVE051/MSG Föreläsning 7

Systematiskt urval, gruppurval, val mellan metoderna (kap , 9.10)

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Population. Antal tänder. Urval

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

Planering av en undersökning Olika datainsamlingsmetoder Olika slag av variabler. Förra gången (F1) Siffror i tabeller och diagram Metoder Begrepp

KVALITETSDEKLARATION. IT bland individer. Statistiska Centralbyrån (12) Ämnesområde Levnadsförhållanden

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Föreläsning 12: Regression

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Hur gör de egentligen?

Kvantitativa metoder del 2. Kandidatprogrammet i folkhälsovetenskap, HT -11

F3 Introduktion Stickprov

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Föreläsning G60 Statistiska metoder

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

SF1901 Sannolikhetsteori och statistik I

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval

FÖRELÄSNING 7:

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Sannolikheter och kombinatorik

FÖRELÄSNING 8:

Enkätmetodik felkällor. Kandidatprogrammet i folkhälsovetenskap, HT -11

Repetitionsföreläsning

Kommun och landsting 2016

IT bland individer 2006

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning 12: Repetition

Statistikens betydelse och nytta för samhället

Slumpmässiga resp ickeslumpmässiga. urval. Olika feltyper i en undersökning. Förra gången (F6)

Vad tycker de äldre om äldreomsorgen? Metodbeskrivning

Några begrepp. Vad är statistik? Data. Grundläggande begrepp Olika slag av undersökningar

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Tidigare exempel. Några beteckningar. Stratifierat urval

Statistiska centralbyråns författningssamling

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

TMS136. Föreläsning 10

IT bland individer 2005

Konsten att fånga, sammanfatta och tolka resultat och mätningar. Marie Lindkvist Epidemiologi och global hälsa

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 7: Punktskattningar

Föreläsning 5. Kapitel 6, sid Inferens om en population

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Hushållens icke-vinstdrivande organisationer 2005

F22, Icke-parametriska metoder.

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Grundläggande matematisk statistik

Vad är officiell statistik? Föreläsning 1

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Bilaga 2: Teknisk beskrivning av ULF. Bilaga 2: Teknisk beskrivning av ULF 225

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 3: Urval och skattningar

Föreläsning 5: Att generalisera

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

TENTAMEN I STATISTIKENS GRUNDER 2

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i Matematisk statistik Kurskod S0001M

STATISTIKENS FRAMSTÄLLNING

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 7: Punktskattningar

Mer om konfidensintervall + repetition

Transkript:

Tillämpad statistik (A5), HT15 Föreläsning 2: Obundet slumpmässigt urval 1 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-03

Syfte För många frågeställningar finns data inte tillgängligt. Datainsamling är kostsamt. Vi måste på ett bra sätt samla in tillförlitlig data som kan besvara vår fråga. Exempel: Literary Digest År 1936 kämpade USA med efterverkningar från depressionen. Det var valår och kandidaterna var president Roosevelt och republikanen Landon. Med 2,4 milj individer i undersökningen förutsade The Literary Digest att Roosvelt skulle få 44% av rösterna. I valet fick Roosevelt 62% av rösterna (inte långt efteråt gick tidningen i konkurs). I samma val lyckades George Gallup med endast 50 000 individer förutsäga att Roosevelt skulle vinna valet (56%). Vad gick snett för the Literary Digest och varför lyckades Gallup?

Målet med en surveyundersökning Mål för inferens (Se Föreläsning 1) Designbaserad ansats: Målet är att beskriva en hel (ändlig) population (t ex skatta ett medelvärde, median eller variation). Om hela populationen vore känd så skulle det inte finnas någon osäkerhet! Populationens värden betraktas som fixa (ej slumpmässiga). Modellbaserad ansats: Målet är att skatta en parameter i en teoretiskt modell. Mål: Öka kunskapen om ett fenomen och ge en förklaring.

Populationen? Populationen är en mängd objekt (element) som en undersökning ska uttala sig om. Intressepopulation - den mängd objekt man idealt vill uttala sig om. Målpopulation - den mängd objekt man väljer att rikta sig till i undersökningen. Rampopulation - den mängd objekt som kan nås med hjälp av information i en ram. (Ramen är ofta en förteckning eller lista) Undersökningspopulation - den delmängd av rampopulationen som faller inom målpopulationen, det vill säga de objekt vi faktiskt kan nå och som ingår i målpopulationen.

Populationen? Exempel: Strukturundersökning för lantbruket I undersökningen av lantbrukets struktur av Statens jordbruksverk är intressepopulationen samtliga åkrar och husdjur inom svenskt lantbruk. Målpopulationen är bl a lantbruksföretag med minst 2,1ha åkermark eller tillräckligt stor djurbesättning. Företagen är våra objekt, definierade som lantbruksverksamhet med en och samma ledning. Rampopulationen är företag som ingår i den senaste versionen av Lantbruksregistret.

Populationen? Källa: - från teori till praktik (SCB, 2008)

sram sramar är förteckningar, register eller kartor som urvalet baseras på. När rampopulation och målpopulation inte sammanfaller uppstår ett täckningsproblem: Övertäckning innebär att rampopulationen innehåller objekt som inte ingår i målpopulationen. Undertäckning innebär att det finns objekt i målpopulationen som vi inte kan nå. I regel är undertäckning allvarligare eftersom det är svårare att identifiera och kan leda till allvarliga systematiska fel.

sramen Andra krav som man ställa på en bra är: Hög aktualitet. Information om objekten så att de går att identifiera och lokalisera. Dels så dubbletter kan identifieras, dels så att objekten kan nås med olika metoder. Gör det även möjligt att samköra register om tillstånd finns. Hjälpinformation, dvs information om hur objekten är ordnade i listan eller variabler som ger extra information om objekten. Ramproblem uppstår om populationen är rörlig över tid och/eller rum.

Ej listbara ar Ibland är målpopulationens bara teoretiskt listbar. undersökningen IBIS 1 intervjuas var n:te person vid relevanta gränsövergångar. För att spegla det verkliga passagerarflödet från en gränsstation tilldelas varje intervju sedan en vikt. IBIS definierar bort: Anställda i Sverige, Ambassad- och militärpersonal, Yrkesförare, Besättningspersonal, Transit på flygplats, De som vistats i landet mer än 365 dagar kommer inte med som respondenter eftersom de per definition inte gör ett besök. De är definierade som boende. 1 Resultat från den nationella gränsundersökningen IBIS 2014, inkommande besökare i Sverige, Tillväxtverket

Ej listbara ar Mabunda et al 2 hade inte tillgång till en med barn. Mål: This study aims to characterize the malaria transmission intensities and to estimate the disease burden that may help guide control programme. Intressepopulation: Barn Målpopulation: Barn under 10 år : 24 slumpmässigt valda distrikt. Totalt undersöktes of 8816 barn under 10 år. Datainsamling: Besöksintervjuer mellan feb 2002 april 2003. 2 Mabunda, Samuel, et al. Ä country-wide malaria survey in Mozambique. I. Plasmodium falciparum infection in children in different epidemiological settings.malaria journal 7.1 (2008): 216

Begreppen i NTU Från Nationella trygghetsundersökningen (NTU) 2014, BRÅ Mål: Undersöka utsatthet för brott, de utsattas erfarenheter och kontakter med rättsväsendet samt allmänhetens trygghet och förtroende för rättsväsendet. Intresse: Boende i Sverige

Begreppen i NTU Målpopulation: Personer stadigvarande bosatta i Sverige, 16 79 år. Bosatt i Sverige är den som är folkbokförd i Sverige och inte vistas utomlands långvarigt. Personer som är folkbokförda i Sverige men saknar adress (exempelvis bostadslösa) och personer som vistas på institution (exempelvis fängelse) ingår. Asylsökande ingår ej. Personer under 18 år ingår i undersökningen eftersom ungdomar är en intressant grupp att studera när det gäller utsatthet för brott. Den nedre åldersgränsen valdes då det i den registerbaserade statistiken över anmälda brott i vissa delar särredovisas om offret är 15 år eller äldre. Skälet till en övre åldersgräns är att erfarenheter visar att en stor del av de äldsta inte vill, eller har möjlighet, att delta i denna typ av undersökningar och att bortfallet i de äldsta åldersgrupperna därför blir särskilt stort

Begreppen i NTU sram: registret över totalbefolkningen (RTB), 16 79 år. Varje år identifieras ett mindre antal individer i urvalet som övertäckning personer som flyttat utomlands, avlidit eller har skyddad identitet. Registret över totalbefolkningen (RTB) täcker Sveriges stadigvarande befolkning på ett bra sätt. Enligt SCB:s förändras Sveriges befolkning sakta vad beträffar det totala antalet personer och befolkningens struktur, att täckningsfelet är försumbart. Man bör dock notera att det är befolkningens utseende vid undersökningens genomförande som ligger till grund för urvalet, trots att undersökningen för frågeområdet utsatthet för brott belyser utsatthet under året före undersökningen sstorlek: 20 000 personer Datainsamlingsmetod: telefonintervjuer, kompletterade med post- och webbenkäter för dem som avböjer telefonintervju och personer som ej kunnat nås per telefon. Datainsamlingsperiod: januari maj

Objekt i population och Om uppgiftskällan är en person kallas individen uppgiftslämnare eller respondent. Populationsobjekten (enheter i målpopulationen som vi vill utala oss om) och observationsobjekten (enheterna i en och urvalet) sammanfaller oftast, men det finns undantag. Ett exempel är undersökningar av hushåll. Man är intresserad av variabeln hushållsinkomst, som för ett hushåll är summan av hushållsmedlemmarnas inkomster. Observationsobjekten utgörs då av hushållsmedlemmar medan populationsobjekten är hushåll.

Begrepp i Mängd mat och dryck via avloppet en enkätundersökning i svenska hushåll, Naturvårdsverket Målet med denna studie var att få reda på hur mycket mat och dryck som hushållen häller via avloppet i Sverige totalt under ett år och per person. Ytterligare mål var att ta reda på vilken typ av mat och dryck som hälls, anledningar till att det hälls samt skillnader i mängder mellan olika typer av hushåll Därför genomfördes en enkätundersökning.

Begrepp i Mängd mat och dryck via avloppet en enkätundersökning i svenska hushåll sram: RTB, 30/9-13. 18 år eller äldre för att undvika att skicka ut enkäter till för unga individer. sramen bestod av ungefär 7 711 000 individer. RTB består av individer, ej hushåll. Finns inget hushållsregister. Eftersom tillgång enbart finns till individregister och inte hushållsregister dras urvalet genom ett så kallat nätverksurval. Det innebär att ett urval av individer dras ur RTB och individerna kopplas sedan ihop med ett hushåll genom svaren. : sstorleken var 2050 individer, inkl. beräknad övertäckning på ca 50 individer. Brukligt på SCB att dra urval med övertäckning då det kan hända att någon dör eller flyttar från Sverige från tiden man drar urvalet till att enkäten skickas ut

Den ändliga populationen Populationen består av N element. Beteckna k:te elementet med sitt nummer k. Den ändliga populationen U kan då skrivas som U = {1,..., k,..., N}. Låt x beteckna en variabel och låt x k vara värdet x för element k i populationen.

Vad ska undersökas? En parameter är en konstant som beskriver en variabel i populationen U och om hela populationen är känd ges det aritmetiska medelvärdet för en variabel i populationen av: µ = x 1 + x 2 + + x N N = 1 N N i=1 Notera att observationerna i det här fallet inte är slumpvariabler, utan fixa. Andra vanliga parametrar är totalen och variansen: x i τ = N x i = Nµ σ 2 = 1 N N (x i µ) 2 i=1 i=1

Vad ska undersökas? Exempel: Inkomstfördelningen i en kommun En kommun planerar budget och vill veta invånarnas inkomster. Populationen är kommuninvånarna, inkomst är variabeln och värdena erhålls via inkomstdeklarationerna. Total inkomst τ, medelinkomst µ samt inkomstvarians σ 2 kan enkelt beräknas. Måtten beskriver inkomstfördelningen och ger ev. all information som kommunen behöver. Om kommunen har 14 590 skattebetalare är µ = x 1 + x 2 + + x 14590 14590 = 1 14590 14590 i=1 x i och σ 2 = 1 14590 (x i µ) 2. 14590 i=1

Vad är ett urval? Vi betecknar ett urval s. Ett urval är vilken delmängd som helst av populationen U. Låt S beteckna mängden av de 2 N möjliga urvalen från U (inklusive hela U och den tomma mängden ), dvs S = {s 1,..., s l..., s 2 N} Exempel Låt U = {1, 2, 3}. Det finns 2 N = 2 3 = 8 möjliga mängder från U: s 1 = {1, 2, 3}, s 2 = {1, 2}, s 3 = {1, 3}, s 4 = {2, 3} s 5 = {1}, s 6 = {2}, s 7 = {3}, s 8 = { }

Varför urval? Motiv för urvalsundersökning: Snabbare, billigare, bättre mätmetoder, fler frågor, ibland enda alternativet. Motiv för totalundersökning (census): Redovisning av resultaten i delgrupper eller en liten population som inte motiverar ett urval.

Vad är ett sannolikhetsurval? Ett sannolikhetsurval innebär att man tilldelar sannolikheter till de möjliga urvalen, Pr(S = s). Notera att för många av urvalen är sannolikheten noll, Pr(S = s) = 0. Dessutom innebär ett sannolikhetsurval att varje element i populationen har en känd inklusionssannolikhet (sannolikhet att komma med i urvalet) och denna ska vara större än 0.

Varför sannolikhetsurval? Genom att göra ett slumpmässigt urval: undviker man systematiska fel. Att utöka stickprovsstorleken hjälper inte. erhålls en samplingfördelning som kan användas för att generalisera resultaten till den ändliga populationen. Samplingfördelningen bygger på vår stickprovsdesign, där alla sannolikheter är kända. Eftersom vi själva har designat randomiseringen behöver vi därför inte göra några modellantaganden!

Därför sannolikhetsurval En av 1900-talets främsta statistiker, Jerzy Neyman, presenterade 1934 On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection. Artikeln jämförde sannolikheturval och subjektiva urval och slog definitivt hål på idén med subjektiva urval (även om det skulle dröja innan sannolikhetsurval verkligen fick genomslag i praktiken). I artikeln presenterades även Neyman-allokeringen. Dessutom, i en bilaga, presenterades teorin för konfidensintervall...

Exempel på stora urvalsundersökningar med sannolikhetsurval Arbetskraftsundersökningen, SCB Survey of Income and Living Conditions, Eurostat Undersökningen av levnadsförhållanden, SCB National Crime Victimisation Survey, EU, BRÅ European health interview survey, EU Time use survey, EU Företagens investeringsplaner, SCB World value Survey Inköpschefsindex Nöjd Kund Index Trafikflödesmätningar, Vägverket Omnibusundersökningar, SIFO

Hur avgör vi om en metod är bra eller dålig? Utgångspunkten: Från ett slumpmässigt urval skattar vi värdet på en okänd parameter, θ. Det blir alltid (i princip) en differens mellan skattning och parametervärde: ˆθ θ. Tänk nu (hypotestiskt) att vi upprepade gånger drar nya stickprov och att vi i varje stickprov gör en skattning ˆθ 1, ˆθ 2, ˆθ 3, ˆθ 4.... Värdet på ˆθ och differensen ˆθ θ beror på vilket stickprov som dragits. ˆθ och differensen är slumpvariabler. Genom att studera ˆθ θ kan vi få en uppfattning om en metod är bra eller dålig.

Hur avgör vi om en metod är bra eller dålig? Exempel: Stickprovsmedelvärdet som en estimator för µ Vi vill skatta populationsmedelvärdet µ. Vi drar ett slumpmässigt urval och använder stickprovsmedelvärdet. Differensen blir: x µ Om vi (hypotetiskt) upprepar undersökningen många gånger får vi många stickprovsmedelvärden: x 1, x 2, x 3, x 4,.... För att se om en metod är bra eller dålig studerar vi slumpvariabeln x µ.

Kriterium 1: Bias Medelvärdet för ˆθ 1, ˆθ 2, ˆθ 3, ˆθ 4... betecknas som väntevärdet E(ˆθ). En estimator är väntevärdesriktig (vvr, unbiased) om följande gäller E(ˆθ) θ = 0 dvs E(ˆθ) = θ Det innebär att avvikelserna mellan skattningarna och det sanna parametervärdet i genomsnitt är 0. Om E(ˆθ) θ har estimatorn en bias (ett systematiskt fel).

Kriterium 2: Precision (Varians) Det är vidare önskvärt att estimatorn ger en god precision (liten osäkerhet). Variansen för ˆθ mäter hur de olika värdena på ˆθ varierar från stickprov till stickprov. ] V (ˆθ) = E [(ˆθ E(ˆθ)) 2 Om estimatorn är väntesvärdesriktig kan vi skriva detta som ] V (ˆθ) = E [(ˆθ θ) 2 = E(ˆθ 2 ) θ 2. En väntevärdesriktig estimator är effektivare om den har lägre varians än en annan vvr estimator.

Bias och precision

Läsanvisningar för F2 D: 4, 11.1-11.3 + relevanta delar i tekniska bilagor i rapporter i föreläsningsmaterialet

Övningsuppgifter för F2 D: 11:23