Tillämpad statistik (A5), HT15 Föreläsning 2: Obundet slumpmässigt urval 1 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-03
Syfte För många frågeställningar finns data inte tillgängligt. Datainsamling är kostsamt. Vi måste på ett bra sätt samla in tillförlitlig data som kan besvara vår fråga. Exempel: Literary Digest År 1936 kämpade USA med efterverkningar från depressionen. Det var valår och kandidaterna var president Roosevelt och republikanen Landon. Med 2,4 milj individer i undersökningen förutsade The Literary Digest att Roosvelt skulle få 44% av rösterna. I valet fick Roosevelt 62% av rösterna (inte långt efteråt gick tidningen i konkurs). I samma val lyckades George Gallup med endast 50 000 individer förutsäga att Roosevelt skulle vinna valet (56%). Vad gick snett för the Literary Digest och varför lyckades Gallup?
Målet med en surveyundersökning Mål för inferens (Se Föreläsning 1) Designbaserad ansats: Målet är att beskriva en hel (ändlig) population (t ex skatta ett medelvärde, median eller variation). Om hela populationen vore känd så skulle det inte finnas någon osäkerhet! Populationens värden betraktas som fixa (ej slumpmässiga). Modellbaserad ansats: Målet är att skatta en parameter i en teoretiskt modell. Mål: Öka kunskapen om ett fenomen och ge en förklaring.
Populationen? Populationen är en mängd objekt (element) som en undersökning ska uttala sig om. Intressepopulation - den mängd objekt man idealt vill uttala sig om. Målpopulation - den mängd objekt man väljer att rikta sig till i undersökningen. Rampopulation - den mängd objekt som kan nås med hjälp av information i en ram. (Ramen är ofta en förteckning eller lista) Undersökningspopulation - den delmängd av rampopulationen som faller inom målpopulationen, det vill säga de objekt vi faktiskt kan nå och som ingår i målpopulationen.
Populationen? Exempel: Strukturundersökning för lantbruket I undersökningen av lantbrukets struktur av Statens jordbruksverk är intressepopulationen samtliga åkrar och husdjur inom svenskt lantbruk. Målpopulationen är bl a lantbruksföretag med minst 2,1ha åkermark eller tillräckligt stor djurbesättning. Företagen är våra objekt, definierade som lantbruksverksamhet med en och samma ledning. Rampopulationen är företag som ingår i den senaste versionen av Lantbruksregistret.
Populationen? Källa: - från teori till praktik (SCB, 2008)
sram sramar är förteckningar, register eller kartor som urvalet baseras på. När rampopulation och målpopulation inte sammanfaller uppstår ett täckningsproblem: Övertäckning innebär att rampopulationen innehåller objekt som inte ingår i målpopulationen. Undertäckning innebär att det finns objekt i målpopulationen som vi inte kan nå. I regel är undertäckning allvarligare eftersom det är svårare att identifiera och kan leda till allvarliga systematiska fel.
sramen Andra krav som man ställa på en bra är: Hög aktualitet. Information om objekten så att de går att identifiera och lokalisera. Dels så dubbletter kan identifieras, dels så att objekten kan nås med olika metoder. Gör det även möjligt att samköra register om tillstånd finns. Hjälpinformation, dvs information om hur objekten är ordnade i listan eller variabler som ger extra information om objekten. Ramproblem uppstår om populationen är rörlig över tid och/eller rum.
Ej listbara ar Ibland är målpopulationens bara teoretiskt listbar. undersökningen IBIS 1 intervjuas var n:te person vid relevanta gränsövergångar. För att spegla det verkliga passagerarflödet från en gränsstation tilldelas varje intervju sedan en vikt. IBIS definierar bort: Anställda i Sverige, Ambassad- och militärpersonal, Yrkesförare, Besättningspersonal, Transit på flygplats, De som vistats i landet mer än 365 dagar kommer inte med som respondenter eftersom de per definition inte gör ett besök. De är definierade som boende. 1 Resultat från den nationella gränsundersökningen IBIS 2014, inkommande besökare i Sverige, Tillväxtverket
Ej listbara ar Mabunda et al 2 hade inte tillgång till en med barn. Mål: This study aims to characterize the malaria transmission intensities and to estimate the disease burden that may help guide control programme. Intressepopulation: Barn Målpopulation: Barn under 10 år : 24 slumpmässigt valda distrikt. Totalt undersöktes of 8816 barn under 10 år. Datainsamling: Besöksintervjuer mellan feb 2002 april 2003. 2 Mabunda, Samuel, et al. Ä country-wide malaria survey in Mozambique. I. Plasmodium falciparum infection in children in different epidemiological settings.malaria journal 7.1 (2008): 216
Begreppen i NTU Från Nationella trygghetsundersökningen (NTU) 2014, BRÅ Mål: Undersöka utsatthet för brott, de utsattas erfarenheter och kontakter med rättsväsendet samt allmänhetens trygghet och förtroende för rättsväsendet. Intresse: Boende i Sverige
Begreppen i NTU Målpopulation: Personer stadigvarande bosatta i Sverige, 16 79 år. Bosatt i Sverige är den som är folkbokförd i Sverige och inte vistas utomlands långvarigt. Personer som är folkbokförda i Sverige men saknar adress (exempelvis bostadslösa) och personer som vistas på institution (exempelvis fängelse) ingår. Asylsökande ingår ej. Personer under 18 år ingår i undersökningen eftersom ungdomar är en intressant grupp att studera när det gäller utsatthet för brott. Den nedre åldersgränsen valdes då det i den registerbaserade statistiken över anmälda brott i vissa delar särredovisas om offret är 15 år eller äldre. Skälet till en övre åldersgräns är att erfarenheter visar att en stor del av de äldsta inte vill, eller har möjlighet, att delta i denna typ av undersökningar och att bortfallet i de äldsta åldersgrupperna därför blir särskilt stort
Begreppen i NTU sram: registret över totalbefolkningen (RTB), 16 79 år. Varje år identifieras ett mindre antal individer i urvalet som övertäckning personer som flyttat utomlands, avlidit eller har skyddad identitet. Registret över totalbefolkningen (RTB) täcker Sveriges stadigvarande befolkning på ett bra sätt. Enligt SCB:s förändras Sveriges befolkning sakta vad beträffar det totala antalet personer och befolkningens struktur, att täckningsfelet är försumbart. Man bör dock notera att det är befolkningens utseende vid undersökningens genomförande som ligger till grund för urvalet, trots att undersökningen för frågeområdet utsatthet för brott belyser utsatthet under året före undersökningen sstorlek: 20 000 personer Datainsamlingsmetod: telefonintervjuer, kompletterade med post- och webbenkäter för dem som avböjer telefonintervju och personer som ej kunnat nås per telefon. Datainsamlingsperiod: januari maj
Objekt i population och Om uppgiftskällan är en person kallas individen uppgiftslämnare eller respondent. Populationsobjekten (enheter i målpopulationen som vi vill utala oss om) och observationsobjekten (enheterna i en och urvalet) sammanfaller oftast, men det finns undantag. Ett exempel är undersökningar av hushåll. Man är intresserad av variabeln hushållsinkomst, som för ett hushåll är summan av hushållsmedlemmarnas inkomster. Observationsobjekten utgörs då av hushållsmedlemmar medan populationsobjekten är hushåll.
Begrepp i Mängd mat och dryck via avloppet en enkätundersökning i svenska hushåll, Naturvårdsverket Målet med denna studie var att få reda på hur mycket mat och dryck som hushållen häller via avloppet i Sverige totalt under ett år och per person. Ytterligare mål var att ta reda på vilken typ av mat och dryck som hälls, anledningar till att det hälls samt skillnader i mängder mellan olika typer av hushåll Därför genomfördes en enkätundersökning.
Begrepp i Mängd mat och dryck via avloppet en enkätundersökning i svenska hushåll sram: RTB, 30/9-13. 18 år eller äldre för att undvika att skicka ut enkäter till för unga individer. sramen bestod av ungefär 7 711 000 individer. RTB består av individer, ej hushåll. Finns inget hushållsregister. Eftersom tillgång enbart finns till individregister och inte hushållsregister dras urvalet genom ett så kallat nätverksurval. Det innebär att ett urval av individer dras ur RTB och individerna kopplas sedan ihop med ett hushåll genom svaren. : sstorleken var 2050 individer, inkl. beräknad övertäckning på ca 50 individer. Brukligt på SCB att dra urval med övertäckning då det kan hända att någon dör eller flyttar från Sverige från tiden man drar urvalet till att enkäten skickas ut
Den ändliga populationen Populationen består av N element. Beteckna k:te elementet med sitt nummer k. Den ändliga populationen U kan då skrivas som U = {1,..., k,..., N}. Låt x beteckna en variabel och låt x k vara värdet x för element k i populationen.
Vad ska undersökas? En parameter är en konstant som beskriver en variabel i populationen U och om hela populationen är känd ges det aritmetiska medelvärdet för en variabel i populationen av: µ = x 1 + x 2 + + x N N = 1 N N i=1 Notera att observationerna i det här fallet inte är slumpvariabler, utan fixa. Andra vanliga parametrar är totalen och variansen: x i τ = N x i = Nµ σ 2 = 1 N N (x i µ) 2 i=1 i=1
Vad ska undersökas? Exempel: Inkomstfördelningen i en kommun En kommun planerar budget och vill veta invånarnas inkomster. Populationen är kommuninvånarna, inkomst är variabeln och värdena erhålls via inkomstdeklarationerna. Total inkomst τ, medelinkomst µ samt inkomstvarians σ 2 kan enkelt beräknas. Måtten beskriver inkomstfördelningen och ger ev. all information som kommunen behöver. Om kommunen har 14 590 skattebetalare är µ = x 1 + x 2 + + x 14590 14590 = 1 14590 14590 i=1 x i och σ 2 = 1 14590 (x i µ) 2. 14590 i=1
Vad är ett urval? Vi betecknar ett urval s. Ett urval är vilken delmängd som helst av populationen U. Låt S beteckna mängden av de 2 N möjliga urvalen från U (inklusive hela U och den tomma mängden ), dvs S = {s 1,..., s l..., s 2 N} Exempel Låt U = {1, 2, 3}. Det finns 2 N = 2 3 = 8 möjliga mängder från U: s 1 = {1, 2, 3}, s 2 = {1, 2}, s 3 = {1, 3}, s 4 = {2, 3} s 5 = {1}, s 6 = {2}, s 7 = {3}, s 8 = { }
Varför urval? Motiv för urvalsundersökning: Snabbare, billigare, bättre mätmetoder, fler frågor, ibland enda alternativet. Motiv för totalundersökning (census): Redovisning av resultaten i delgrupper eller en liten population som inte motiverar ett urval.
Vad är ett sannolikhetsurval? Ett sannolikhetsurval innebär att man tilldelar sannolikheter till de möjliga urvalen, Pr(S = s). Notera att för många av urvalen är sannolikheten noll, Pr(S = s) = 0. Dessutom innebär ett sannolikhetsurval att varje element i populationen har en känd inklusionssannolikhet (sannolikhet att komma med i urvalet) och denna ska vara större än 0.
Varför sannolikhetsurval? Genom att göra ett slumpmässigt urval: undviker man systematiska fel. Att utöka stickprovsstorleken hjälper inte. erhålls en samplingfördelning som kan användas för att generalisera resultaten till den ändliga populationen. Samplingfördelningen bygger på vår stickprovsdesign, där alla sannolikheter är kända. Eftersom vi själva har designat randomiseringen behöver vi därför inte göra några modellantaganden!
Därför sannolikhetsurval En av 1900-talets främsta statistiker, Jerzy Neyman, presenterade 1934 On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection. Artikeln jämförde sannolikheturval och subjektiva urval och slog definitivt hål på idén med subjektiva urval (även om det skulle dröja innan sannolikhetsurval verkligen fick genomslag i praktiken). I artikeln presenterades även Neyman-allokeringen. Dessutom, i en bilaga, presenterades teorin för konfidensintervall...
Exempel på stora urvalsundersökningar med sannolikhetsurval Arbetskraftsundersökningen, SCB Survey of Income and Living Conditions, Eurostat Undersökningen av levnadsförhållanden, SCB National Crime Victimisation Survey, EU, BRÅ European health interview survey, EU Time use survey, EU Företagens investeringsplaner, SCB World value Survey Inköpschefsindex Nöjd Kund Index Trafikflödesmätningar, Vägverket Omnibusundersökningar, SIFO
Hur avgör vi om en metod är bra eller dålig? Utgångspunkten: Från ett slumpmässigt urval skattar vi värdet på en okänd parameter, θ. Det blir alltid (i princip) en differens mellan skattning och parametervärde: ˆθ θ. Tänk nu (hypotestiskt) att vi upprepade gånger drar nya stickprov och att vi i varje stickprov gör en skattning ˆθ 1, ˆθ 2, ˆθ 3, ˆθ 4.... Värdet på ˆθ och differensen ˆθ θ beror på vilket stickprov som dragits. ˆθ och differensen är slumpvariabler. Genom att studera ˆθ θ kan vi få en uppfattning om en metod är bra eller dålig.
Hur avgör vi om en metod är bra eller dålig? Exempel: Stickprovsmedelvärdet som en estimator för µ Vi vill skatta populationsmedelvärdet µ. Vi drar ett slumpmässigt urval och använder stickprovsmedelvärdet. Differensen blir: x µ Om vi (hypotetiskt) upprepar undersökningen många gånger får vi många stickprovsmedelvärden: x 1, x 2, x 3, x 4,.... För att se om en metod är bra eller dålig studerar vi slumpvariabeln x µ.
Kriterium 1: Bias Medelvärdet för ˆθ 1, ˆθ 2, ˆθ 3, ˆθ 4... betecknas som väntevärdet E(ˆθ). En estimator är väntevärdesriktig (vvr, unbiased) om följande gäller E(ˆθ) θ = 0 dvs E(ˆθ) = θ Det innebär att avvikelserna mellan skattningarna och det sanna parametervärdet i genomsnitt är 0. Om E(ˆθ) θ har estimatorn en bias (ett systematiskt fel).
Kriterium 2: Precision (Varians) Det är vidare önskvärt att estimatorn ger en god precision (liten osäkerhet). Variansen för ˆθ mäter hur de olika värdena på ˆθ varierar från stickprov till stickprov. ] V (ˆθ) = E [(ˆθ E(ˆθ)) 2 Om estimatorn är väntesvärdesriktig kan vi skriva detta som ] V (ˆθ) = E [(ˆθ θ) 2 = E(ˆθ 2 ) θ 2. En väntevärdesriktig estimator är effektivare om den har lägre varians än en annan vvr estimator.
Bias och precision
Läsanvisningar för F2 D: 4, 11.1-11.3 + relevanta delar i tekniska bilagor i rapporter i föreläsningsmaterialet
Övningsuppgifter för F2 D: 11:23