R-indikatorer, räddningen för surveyer? En litteraturstudie av R-indikatorers egenskaper, funktioner och användningsområden

Storlek: px
Starta visningen från sidan:

Download "R-indikatorer, räddningen för surveyer? En litteraturstudie av R-indikatorers egenskaper, funktioner och användningsområden"

Transkript

1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics R-indikatorer, räddningen för surveyer? En litteraturstudie av R-indikatorers egenskaper, funktioner och användningsområden R-indicators, survey saviors? A litterature study of the properties, functions and uses of R-indicators Nima Khodabandeh och Cajsa Krabbe Självständigt arbete, 15hp, HT-2012 Statistik III Handledare: Dan Hedlin Examinator: Michael Carlson

2 Sammanfattning Syftet med denna uppsats är att ge en översikt över R-indikatorer, deras funktioner och användning samt hur de indikerar representativitet i surveyer. Genom att använda en litteraturstudie som metod, tillsammans med ett empiriskt test av ett data-set i SAS, så visar uppsatsen de olika R-indikatorernas styrkor och svagheter. Det faktum att R-indikatorer baseras på beroende variabler, hjälpvariabler och även urvalsstorlek, gör att de kan manipuleras för att få ett önskvärt resultat. För de partiella R-indikatorerna är det enkelt att se hur hjälpvariabler interagerar och vilka av dem som påverkar resultatet mest. R-indikatorer är alltså beroende av hjälpvariabler för att kunna beräknas, och resultatet visar att representativitet i form av ett högt värde på en R-indikator inte nödvändigtvis är ett bevis för representativitet.

3 Innehållsförteckning 1. Inledning Syfte Metod Avgränsning Disposition Definitioner Representativitet MAR, MCAR och NMAR Den generella R-indikatorn Bakgrund R-indikatorns funktion Estimering av R-indikatorn Estimering med logistisk regression Insamlingsmetodens betydelse Partiella R-indikatorer Bakgrund Partiella R-indikatorernas funktion Ovillkorade partiella R-indikatorer Villkorade partiella R-indikatorer Hjälpvariablernas betydelse Vilka hjälpvariabler har störst effekt? Vad indikerar hjälpvariablerna? Empiriskt test Diskussion och slutsats Litteratur. 33 Bilaga Bilaga Bilaga Bilaga

4 1. Inledning Surveyer, eller undersökningar, har genom tiderna förekommit i olika former: från statsöverhuvuden som undersökt befolkningen för att estimera den potentiella skatteintäkten, till dagens företag som vill undersöka marknaden för olika produkter. Från att ha gjort stora totalundersökningar, så är vi i dagens samhälle vana vid att det istället görs urval av målpopulationen eftersom det är mer resurseffektivt. Proportionen som svarar i en survey har länge varit central för många företag och organisationer, som en form av kvalitetsindikator för representativiteten och som ett sätt att uttala sig om huruvida undersökningen är tillförlitlig eller inte (Paul P. Biemer & Lars E. Lyberg, 2003:95). Ett av antagandena har bland annat varit att register för urvalen är kompletta samt att bortfall är slumpmässiga. Det har även varit vanligt med krav på ett förutbestämt antal svarande för att på så sätt säkra surveyers tillförlitlighet och representativitet. Dock har studier på senare tid visat att trots högt bortfall så kan representativiteten vara väldigt god, något som alltså motsäger antagandet om att låg svarsfrekvens per automatik ger ett icke-representativt resultat. Länder i västvärlden har under en lång tid upplevt en stadig minskning i proportionen respondenter i olika typer av surveyer. Svaret till varför denna utveckling har skett kan endast spekuleras i. Följderna av bortfallsproblemet är att det är svårare att bedöma representativiteten: även om en obalans, eller snedvridning, mellan respondenter och bortfall inte enbart beror på bortfallsfrekvensen, så återstår frågan när surveyer trots ett högt bortfall kan hålla en hög kvalitet. Frågan som är intressant i detta avseende är möjligheten att avgöra om surveyer är representativa: vilka empiriska indikatorer 1

5 finns det att tillgå för att bedöma surveyers representativitet och kvalitet? Forskare har på senare tid tagit fram olika representativitetsindikatorer, så kallade R-indikatorer, för att med hjälp av dessa kunna bedöma kvaliteten och representativiteten på en survey utifrån andra kriterier än bortfallsfrekvensen. I dagens läge så har forskningen inom detta område inte kommit så långt, och relativt lite är känt om indikatorernas förmåga att upptäcka obalans till följd av bortfall i olika situationer. Vi har valt detta ämne på grund av att kunskapsläget ännu inte är så utvecklat och att det därför gör det extra intressant att se hur indikatorerna fungerar. Men också för att undersöka vad det finns för olika teorier om deras förmåga och funktion hittills, eftersom de ännu inte används i praktiken på ett utbrett plan Syfte Syftet med arbetet är att se hur bra R-indikatorerna är på att förklara representativiteten. Våra frågeställningar är följande: är R- indikatorerna ett bra mått på representativitet, utifrån olika aspekter? Hur kan man se på relationen mellan bortfall och representativitet? Hur framtiden ser ut för indikatorerna: vilka potentiella användningsområden finns och vilket är utgångsläget för fortsatt forskning? 1.2. Metod För att kunna svara på våra frågeställningar så har vi utfört en litteraturstudie, på grund av att det är en bra metod för att få överblick över de olika R-indikatorerna och deras funktioner. Ytterligare ett skäl till att en litteraturöversikt har valts som metod är att R-indikatorerna ännu inte används i praktiken på ett mer utbrett plan än i studiesyfte. Vi har använt oss av ett flertal olika akademiska artiklar som skrivits av en handfull forskare under 2000-talet. Ambitionen har varit att använda så dagsaktuell forskning som möjligt, eftersom forskningen på området är 2

6 förhållandevis ny och hela tiden gör framsteg och utvecklas. Vi har som primärkällor använt oss av två artiklar och en bok av de holländska statistikerna Jelke Bethlehem, Fannie Cobben och Barry Schouten, eftersom de ger en god överblick över området. Vi har bland annat kompletterat med artiklar av den amerikanske statistikern James Wagner och Chris Skinner, vars forskning främst behandlar problem inom surveymetodologi, samt Natalie Shlomo, som forskar på University of Southhampton. Vi har jämfört tre typer av R-indikatorer med varandra, och definierat modellantaganden, för att visa på skillnader och likheter, liksom för- och nackdelar. De tre typerna är den generella R-indikatorn samt två partiella R- indikatorer, en ovillkorad och en villkorad. För att konkretisera våra frågeställningar så har vi även genomfört ett empiriskt test på ett data-set i SAS. Av konfidensskäl så kunde vi inte utföra ett test på data från Statistiska centralbyrån, som var tanken från början. På grund av detta är data-setet, innehållande observationer, istället hämtat från RISQ:s hemsida (Representativity Indicators for Survey Quality). Det är ett EUfinansierat projekt för forskning om R-indikatorer. Modellen har manipulerats genom att inkludera och exkludera ett antal variabler, för att se hur R-värdet förändras utifrån vilka förutsättningar som modellen har. SAS-koden är även den hämtad från RISQ:s hemsida, men för att till fullo kunna utföra vårt test så har vi varit tvungna att själva modifiera delar av koden. Dessa delar finns i bilaga Avgränsning R-indikatorer är inte de enda indikatorerna för att indikera representativitet, till exempel så har Goodman och Kruskal (1979), Bentler (1990) och March, Balla och McDonald (1988) forskat inom detta område. Dessa övriga indikatorer som kan användas har en stark relation till R-indikatorer. Den avgörande skillnaden är att R- indikatorer mäter i en multivariat miljö (Jelke Bethlehem et al., 3

7 2009a). Vi har valt att inte inkludera dessa i vår uppsats på grund av att de har andra förutsättningar än R-indikatorerna. Vi har valt att inrikta oss på relativt aktuell forskning, och således omfattar uppsatsen inte forskning innan 2000-talets början. Bethlehem, Cobben och Schoutens arbeten har använts i större utsträckning än de andra artiklarna och böckerna. Detta beror främst på att deras forskning har lämpat sig väl för att få en bättre förståelse för R-indikatorer, men även för att de har varit delaktiga i det omfattande RISQ-projektet, varifrån vi bland annat har fått tillgång till data. Data-setet som vi har använt i vårt empiriska test kan ifrågasättas: vi har inte kännedom om varifrån och hur urvalet har dragits på grund av konfidensskäl. Dock är källan till datan, det vill säga RISQprojektet, tillförlitlig. Vidare så antar vi att data-setet är manipulerat, och/eller standardiserat, då fördelningen inom olika kategorier är väldigt jämn. Skälet till detta är antagligen pedagogiskt, eftersom det endast används för att belysa R-indikatorers syfte. Av utrymmesskäl så har en del längre matematiska uttryck och ekvationer uteslutits, vilket dock inte påverkar förståelsen av innehållet. För att förenkla förståelsen av ämnet så har vi också uteslutit exempel på estimation genom viktning av enheter i en survey. Viktning görs på grund av ojämn urvalssannolikhet, bortfall och täckningsfel (Biemer & Lyberg, 2003: ). Hur viktningen beräknas kan skilja sig från fall till fall och är således ett omdebatterat ämne, vilket är ytterligare ett skäl till att vi inom ramen för denna uppsats inte har utrymme nog att behandla denna aspekt Disposition Innan uppsatsens huvudsakliga ämne avhandlas så finns ett avsnitt som beskriver olika definitioner på ett antal relevanta begrepp som används genomgående i uppsatsen. Detta görs för att läsaren ska få 4

8 en grundläggande förståelse för resten av innehållet. Avsnitten som följer är: den generella R-indikatorn, partiella R-indikatorer och ett empiriskt test. Avsnitten är indelade i ett flertal underrubriker för att förtydliga de olika aspekterna av R-indikatorer. Diskussion, slutsats och litteraturförteckning är de avslutande avsnitten. 2. Definitioner 2.1. Representativitet Representativitet är ett relativt vagt och luddigt begrepp, som trots det ofta används inom surveyområdet. De tre forskarna Bethlehem, Cobben och Schouten menar att den generella betydelsen av representativitet är graden av likhet mellan ett set av respondenter och det kompletta urvalet, med avseende på vissa sociodemografiska och socioekonomiska karakteristika (Bethlehem et al., 2011:178). Matematikern och statistikern William Henry Kruskal och statistikern Frederick Mosteller har sammanställt nio användningar av innebörden av representativt urval. Dessa lyder som följer: som ett allmänt erkännande av data, avsaknad av selektiva krafter, en miniatyr av populationen, typiska eller ideala fall, täckning av populationen, en vag term som bör preciseras, representativt urval som en specifik urvalsmetod, en term som tillåter en god uppskattning och slutligen representativt urval som något som är tillräckligt bra för ett särskilt ändamål (Bethlehem et al., 2008a). Kruskal och Mosteller rekommenderar inte att använda ordet representativitet, utan istället specificera innebörden av ordet. Statistikern Ineke Stoop går ett steg längre och hävdar att det inte finns något som kan kallas representativitet, i likhet med samhällsvetaren Rainer Schnell som menar att 5

9 [r]epresentative sampling is an immeasurable, nonscientific concept without any specific meaning. (Bethlehem et al., 2008b). Två definitioner finns dock för representativitet för att underlätta förståelsen för uttrycket. En survey är starkt representativ, med avseende på urvalet, om sannolikheten för alla element i populationen att bli utvalda är samma och om varje svar från ett element är oberoende av alla andra svarselement. Detta medför också att definitionen avsaknad av selektiva krafter gäller som definition för en stark representativitet eftersom det inte finns selektiva krafter om alla svarssannolikheter är lika. Stark representativitet motsvarar Missing Completely at Random (se rubrik 2.2). Eftersom det i praktiken inte är möjligt att jämföra individuella svarssannolikheter, så är konsekvensen att det inte går att fastställa om surveysvaret är starkt representativt (Bethlehem et al., 2008a). En närmare förklaring och ett förtydligande av detta begrepp återfinns senare i uppsatsen. Ekvation (2.1) syftar till att matematiskt förtydliga det första villkoret för stark representativitet: ( ) (2.1) Där ekvation (2.1) visar en svarsdelmängd som är representativ med hänsyn till ett urval då svarsbenägenheten, även kallad svarspropensitet,, är densamma för alla enheter i populationen. Det antas att observationerna, eller objekten, är oberoende av varandra. Där { (2.2) (2.2) är en urvalsindikator, där 1 indikerar att individen dragits ur urvalet. 6

10 { ortfall (2.3) (2.3) visar på hur respondenten svarar förutsatt att personen i fråga är dragen ur urvalet. Ekvation (2.1) visar att svarsbenägenheten,, är sannolikheten att individ i svarar när personen dragits ur urvalet. (Bethlehem et al., 2009a). På grund av svårigheterna med att fastställa om surveysvaret är starkt representativt så har en svagare definition av representativitet utvecklats för att lösa problemet. Ett svar till en survey är svagt representativt, med avseende på urvalet, för hjälpvariabeln X om den genomsnittliga svarssannolikhet är samma i varje grupp som definieras av hjälpvariabeln X. Detta betyder att det inte är möjligt att se någon skillnad mellan respondenter och bortfall genom att endast använda informationen med avseende på X. Antagandet om svag representativitet kan därför kontrolleras för i praktiken genom att uppskatta medelvärdena av svarssannolikheterna i gruppen (Bethlehem et al., 2008a). (2.4) Där är populationsstorleken för kategori h, är svarsbenägenheten för en enhet k i kategori h (Bethlehem et al., 2009a) MAR, MCAR och NMAR MAR, MCAR och NMAR är termer som är relaterade till misslyckandet med att observera delar av önskvärda y-data, undersökningsvariabeln, och används som antagande när R- indikatorer ska beräknas. MAR och MCAR refererar till en svarsmekanism gällande bortfall, som till sin natur är sådan att den är försumbar (Sixten Lundström & Carl-Erik Särndal, 2005:103). 7

11 Försumbart bortfall betyder enligt amerikanska statistikern Sharon L. Lohr att en modell kan förklara bortfallsmekanismen och bortfallet kan således ignoreras i detta fall. Dock betyder det inte att bortfall kan ignoreras helt och hållet och att kompletta datametoder kan användas (Lundström & Särndal, 2005:104). MAR (Missing At Random) uppstår när sannolikheten för ett saknat värde för y kan vara beroende av x-värdet men är oberoende av y-värdet. Då formar inte y-värdena något delurval av urvalet, men däremot ett slumpmässigt delurval inom klasserna som är definierade av x- värdena (Bethlehem et al., 2009a). MCAR (Missing Completely At Random) uppstår när sannolikheten för ett saknat värde för y är oberoende av y-värdet och oberoende av x-värdet. Då formar de observerade värdena på y ett slumpmässigt delurval av urvalet (Bethlehem et al., 2009a). James Wagner uttrycker det såhär: [ ] the respondents are a random sample of the sample, without respect to any subgroupings. (James Wagner, 2012). Om svarssannolikheten är beroende av y-värden som saknas, så kallas mekanismen för NMAR (Not Missing At Random) (Bethlehem et al., 2009a). 3. Den generella R-indikatorn 3.1. Bakgrund A measure of the similarity between the response to a survey and the sample or the population under investigation. (Wagner, 2012). 8

12 Citatet ovan är beskrivningen av en R-indikator enligt Wagner. R- indikatorer representerar närheten till ett representativt svar som en funktion av fullt observerbar hjälpinformation, som exempelvis ålder, kön och så vidare (Ana Marujo, 2009). Kännedomen om olika indikatorers förmåga att upptäcka obalans mellan respondenter och bortfall vid flertalet varierande omständigheter är väldigt begränsad. R-indikatorerna grundas på standardavvikelsen av svarssannolikheterna och idén bakom R- indikatorn är att ju bättre bortfallsmekanismen kan förklaras, alltså ju bättre skillnader i svarsbenägenhet kan särskiljas, desto längre är svaret från representativitet (Wagner, Bethlehem et al., 2011:184). Bethlehem, Cobben och Schouten baserar R-indikatorn på en avståndsfunktion, där det euklidiska avståndet används. Anledningen till att avståndet används är av matematiska skäl, eftersom det innebär en enklare tolkning av indikatorerna (Bethlehem et al., 2009a). Forskarna gör en distinktion mellan R- indikatorer och avståndsfunktioner, där avstånd är symmetriska medan R-indikatorer mäter avvikelser med hänsyn till en specifik punkt där svarsbenägenheten är densamma. Skulle vektorn ändras för olika individuella benägenheter så skulle även denna punkt skifta i de flesta fall (Bethlehem et al., 2009a). Indikatorernas uppgift är att kunna jämföra undersökningar över tid, jämföra olika strategier för datainsamlingsmetoder samt övervaka och kontrollera datainsamling (Bethlehem et al., 2008b + Bethlehem et al., 2011:205). R-indikatorer uppmuntrar jakten på en ättre urvalsram och bättre paradata, det vill säga information eller data om (survey)processen (Biemer & Lyberg, 2003:372). De används som en guide för datainsamlingen: ju mer prediktiva dessa data är, desto bättre blir riskbedömningen för bortfallsobalans (Wagner, 2012). När R-indikatorer används som ett slags kvalitetsindikatorer under datainsamling behövs funktioner för svarsrepresentativiteten, 9

13 där dessa beskriver relationerna mellan svarsfrekvenser, R- indikatorer och kvalitetströsklar. Dessa antagna trösklar används för att bestämma om ett svar är acceptabelt i termer av kvalitet. Ett förbehåll är dock att samma urvalsram och samma paradata används (Bethlehem et al., 2008b + Bethlehem et al., 2011:205 + Wagner, 2012). Detta leder till att preferenser för metoder som jämnar ut svarsfrekvensen över alla delgrupper kan upptäckas. Dock kan inte estimeringar inom en survey jämföras eftersom det endast finns en modell för R-indikatorns estimeringar (Wagner, 2012). Då svarsbeteende är en oberoende faktor i en surveysituation så hamnar också mycket fokus på det, vilket gör att vikten av hjälpinformation och paradata understryks för att kunna estimera dessa indikatorer (Betlehem et al., 2008b). Målet blir slutligen att balansera svarsfrekvensen mellan grupperna som är definierade av hjälpvariablerna, istället för att exempelvis intervjua objekten som har högst sannolikhet att svara. Wagner menar att en av de största svagheterna är att indikatorerna existerar på survey-nivå, och således beräknar risken för bortfallsbias väldigt generellt på den nivån. Indikatorerna kräver ett antagande om att det finns en mekanism som genererar liknande obalans, för alla estimat som är produkten av en survey (Wagner, 2012). Användningen av R-indikatorer kräver också en implicit modell som antar att urvalsdata och paradata, som används för att skapa indikatorerna, är korrelerade med alla survey-estimat. Wagner menar att detta dock inte alltid behöver vara sant. Modellantagandet kan också innebära problem för det sanna värdet på R-indikatorn, dess värde beror till stor utsträckning på vilken modell som väljs: svarssannolikheterna kan modelleras på olika sätt (Wagner, 2012). Ytterligare en svaghet enligt honom är att data är av skiftande kvalitet från survey till survey: till exempel finns mer data att tillgå vid en survey som använt sig av myndighetsregister än en Random Digit Dialing (RDD), där endast uppgifter om geografiskt läge finns. 10

14 På grund av detta skiftar även R-indikatorernas kvalitet (Wagner, 2012). Wagner poängterar att för uttalanden om kvaliteten på surveyer måste antagandet att en korrekt modell har skapats gälla. Han menar att konsekvenserna av en felspecificerad modell kräver mer forskning, liksom MAR-antagandet, eftersom det inte är känt vad som händer om bortfallet inte är missing at random (Wagner, 2012). För att indikatorerna ska kunna användas i realiteten krävs att R- indikatorerna utvärderas tillsammans med ett konfidensintervall. Vilken vektor X som används ska anges, liksom att samma X ska användas när olika surveyer jämförs. Vid jämförelse över tid används, liksom vid andra jämförelser, ett fixt X på förhand för att underlätta utvärderingen. Vid jämförelser mellan olika surveyer så är partiella R-indikatorer ett supplement till R-indikatorerna (Bethlehem et al., 2011:195). Modellerna för estimeringar av svarsbenägenheten bör vara okomplicerade och endast inkludera generella hjälpvariabler. Men även vid jämförelser mellan olika surveyer över tid, så gäller likväl att partiella R-indikatorer är supplement till R-indikatorerna. Modeller för estimeringar av svarsbenägenheterna kan vara mer komplexa och därför kan paradata användas som komplement till hjälpvariablerna. Vid förbättring av svarsrepresentativiteten så ska målet alltid vara att öka svarsfrekvensen och minska variationen i svarsbenägenheten (Bethlehem et al., 2011:195) R-indikatorns funktion Den generella R-indikatorn gäller i de fall där den individuella svarsbenägenheten är känd. I ekvation (3.1) är antagandet att hjälpvariabler för bortfallet är kända. R-indikatorn undersöker avståndet mellan de två grupperna. Detta är proportionerligt till standardavvikelsen för svarsbenägenhet. 11

15 ( ) ( ) (3.1) Från ekvation (3.1) antas att: ( ) ( ) (3.2) För ytterligare matematiskt förtydligande, se bilaga 2. Ekvation (3.2) visar att standardavvikelsen ligger i ett intervall mellan 0 och 0.5. R-indikatorn ska istället vara på en skala från 0 till 1, där 1 är stark representativitet och 0 dess motsats. R-indikatorn är definierad som: ( ) ( ) (3.3) Ju större standardavvikelsen är, desto lägre är representativiteten från svaret. Följaktligen så är indikatorns värde 1 när standardavvikelsen är 0 (Bethlehem et al., 2011:184). När indikatorvärdet motsvarar 1, visar det att någon variation mellan respondenter i form av svarsbenägenhet inte existerar Estimering av R-indikatorn R-indikatorn kan inte beräknas direkt, eftersom svarsbenägenheterna är okända. Därför måste R-indikatorn bli estimerad, genom att exempelvis använda en logistisk eller probit regressionsmodell. Vidare så måste populationsvariansen ersättas av en urvalsvarians. R-indikatorn blir ersatt av en estimator,, och svarsbenägenheterna av estimerade svarsbenägenheterna ( ) ( ) (3.4) 12

16 Med ( ) ( ( ) ) (3.5) (Bethlehem et al., 2011:184f). Till följd av att R-indikatorn är en estimerad svarsbenägenhet så är den en slumpmässig variabel. Med detta antagande så menas att R- indikatorn har en viss noggrannhet och möjligtvis bias. Detta resulterar i att storleken på urval är en viktig faktor när R-indikatorn ska bedömas. Små urval kommer inte tillåta att korrekta slutsatser om representativiteten kan dras på grund av bortfallet (Bethlehem et al., 2009a) Estimering med logistisk regression Benägenheterna estimeras med hjälp av en logistisk regressionsmodell, där β representerar vektorn med regressionskoefficienten och X den motsvarande vektorn för förklarande variabler. Svarsbenägenhet definieras genom: ( ) ( ) (3.8) [ ( ) ] ( ) ( ) (( ) ) (3.9) Den logistiska regressionsmodellen, för att skatta R-indikatorn, är befäst med ett set av hjälpvariabler som är tillgängliga för hela urvalet, både för respondenter och för bortfall. Dessa hjälpvariabler kan dras från urvalsramen eller från paradata (Bethlehem et al., 2011:184). 13

17 3.3. Insamlingsmetodens betydelse Studien som används som belysande exempel på insamlingsmetodens betydelse för värdet på R-indikatorn är baserad på surveyn Statistics Netherlands Labour Force Survey (LFS), från perioden juli till december Surveyn tar två urval av bortfall som kontaktades ytterligare en gång, antingen genom återuppringning (call-back) eller med basic question approach. Återuppringningsförsöken använde sig av de ursprungliga frågorna i CAPI, Computer Assisted Personal Interviewing, medan basic question approach använde sig av förkortade frågeformulär i en mixed-mode setting. Mixed-mode använder sig av webb, papper och CATI, Computer Assisted Telephone Interviewing (Biemer & Lyberg, 2003:189 + Bethlehem et al., 2009a). Tabell 3.1 visar att svarsandelen ökar när de två metoderna används för att minska bortfallet. Men i LFS + basic question approach så sjunker R-indikatorn från 80.1% till 78%. Dock så minskar biastermen, vilket kan bero på att svarsandelen har ökat. Tabell 3.1. n= urvalsstorleken, andelen=svarsandelen, =estimerade R-indikatorn, = konfidensintervallet för, = maximala snedvridningen, =maximala RMSE. Response N Andel LFS % 80.1% ( ) 8.0% 8.0% LFS+call-back % 85.1% ( ) 4.8% 4.9% LFS+Basic-question % 78.0% ( ) 7.3% 7.3% Tabell 3.1 visar också konfidensintervallen för de olika metoderna. LFS har en R-indikator på 80.1% med konfidensintervall LFS + call-back har en R-indikator på 85.1% med 14

18 konfidensintervall Bethlehem hävdar att R-indikatorn således är signifikant skild från den vanliga LFS på alphanivån 0.05 (Bethlehem et al., 2009a). Från tabell 3.1 utläses att en högre svarsandel leder till en minskning av risken för obalans mellan respondenter och bortfall. Men det slutgiltiga resultatet behöver dock inte, som tidigare nämnt, resultera i en mer balanserad svarsfördelning (Bethlehem et al., 2009a). 4. Partiella R-indikatorer 4.1. Bakgrund Partiella R-indikatorer mäter effekten av hur hjälpvariabler indikerar avvikelser från representativa svar (Marujo, 2009). Partiella R- indikatorer används för att signalera om hjälpvariablerna är tillräckligt bra för att se avvikelser i representativt svar. Två typer av partiella R-indikatorer definieras: ovillkorade och villkorade. Ovillkorade partiella R-indikatorer mäter hur mycket en enskild hjälpvariabel bidrar till att visa bristen av representativt svar. De villkorade partiella R-indikatorer mäter hur mycket en enskild hjälpvariabel bidrar till att visa bristen på representativt svar, givet andra hjälpvariabler. De ovillkorade partiella indikatorerna är designade för jämförelser av olika surveyer, eller surveyer över tid. Villkorade partiella indikatorer är särskilt lämpliga för datainsamlingsövervakning. Vidare så kan både villkorade och ovillkorade partiella R-indikatorer beräknas på variabel- och kategorinivå. Kategorinivån är endast tillämplig när variabeln ifråga är kategorisk. På variabelnivå så representerar de inflytandet av variabeln som helhet, även om inflytandet beror på klassificeringen och kategorierna som används (Bethlehem et al., 2011:189f). 15

19 Partiella indikatorer är användbara för att testa surveymetoder men även för att vikta de olika klasserna. De används också för att identifiera variabler som bidrar till representativitet (Marujo, 2009). Olika delmängder som är under- eller överrepresenterade kan då upptäckas. Detta gör att insamlingen kan styras så att urvalet blir mer balanserat (Barry Schouten et al., 2011) Partiella R-indikatorernas funktion Svarsbenägenheten är definierad som det villkorliga förväntade R- värdet givet hjälpvariabel x, för vektorn X av hjälpvariablerna: ( ) ( ) ( ) (4.1) Här antas att alla x-värden är kända för både respondenter och bortfall. Vidare så kan specificerade variabler och fältarbetsvillkor inkluderas. Svarsbenägenhet är således villkorligt definierad på designvalen i surveyn (Schouten et al., 2011). I definitionen av en partiell R-indikator så är Z en kategorisk hjälpvariabel, som exempelvis kön. Antalet kategorier= k. För det totala bidragandet av variabeln Z så benämns den partiella indikatorn ( ) samt ( ) för en enskild kategori av variabeln Z. I de båda fallen så beräknas indikatorerna på svarsbenägenheten med hänsyn till X, som är hjälpvariabelvektorn (Schouten et al., 2011). Det är önskvärt att dela upp variansekvationen i två olika delar: en som representerar variansen inom variablerna och en som representerar variansen mellan dem. ( ) ( ) ( ) (4.2) 16

20 ( ) ( ) ( ) (4.3) ( ) ( ) ) (4.4) Där är antalet enheter i kategori k, är storleken av och är den genomsnittliga svarsbenägenheten i. Ekvation (4.3) visar variansen mellan variablerna och (4.4) visar variansen inom dem (Schouten et al., 2011) Ovillkorade partiella R-indikatorer Ovillkorade partiella R-indikatorer använder sig av euklidiskt avstånd för att indikera representativt svar. Den ovillkorade partiella R-indikatorn för Z definieras som: ( ) ( ) (4.5) Ekvation (4.5) visar att detta är kvadratroten av variansen för svarsbenägenheten mellan grupper definierade av variabeln Z. Den har egenskapen att vara ickenegativ. Ju större värde på (4.5) desto mer bidrar Z till att se brist på representativitet. Om ( ) ( ) så står variabeln Z för all brist i representativitet från X (Schouten et al., 2011). Den ovillkorade partiella R-indikatorn för kategori k av Z definieras som: ( ) ( ) (4.6) 17

21 ( ) är kvadratroten av det kvadrerade ( ) över k. Därför kan ( ) användas för att undersöka bristen på representativitet som kan uppstå från Z (Schouten et al., 2011). Ekvation (4.6) kan anta värden mellan -0.5 och 0.5 där 0 betyder att variabeln inte har någon effekt Villkorade partiella R-indikatorer För villkorade partiella indikatorer så antas Z finnas med i en vektor av variabler för att definiera svarsbenägenhet. Den del som exkluderar variabeln Z så att ( ) benämns. Antagandet är att endast utgörs av kategoriska variabler bestående av ett set av stratum,. Definitionen för villkorat representativt svar definieras på följande sätt: svaret i en survey benämns som villkorat representativt för Z givet då den villkorade svarsbenägenheten är densamma för alla val av. Detta leder till att när svaret är villkorligt representativt, så är benägenheten för X densamma som. Denna definition tillåter analyser i effekten av variabler på ickerepresentativt svar, justerat för andra variabler. I detta fall beräknas även euklidiskt avstånd mellan och (Schouten et al., 2011). Indikatorer på variabelnivå: ( ) (( ) (( ) (4.7) Indikatorer på kategorisk nivå ( ) [ ( ) ] (4.8) I ekvation (4.7) så byts stratumet ut mot delmängden, som definieras av kategori k av Z. Ju högre värde på (4.7) desto större är 18

22 variationen av svarsbenägenheten inom stratumet. Då variationen endast kan förklaras av Z, så tolkas (4.7) som ett mått på hur mycket Z bidrar till R-indikatorn efter att ha kontrollerat för effekten av de variabler som finns kvar,. Ekvation (4.7) kan anta värden mellan 0 och 0.5, där 0 betyder att det inte finns någon effekt. Om det antas att Z är kategorisk, där är en 0-1 dummyvariabel som är lika med 1 då Z=k och 0 annars, så definieras den partiellt villkorade R-indikatorn för kategori Z= k som (4.8). Ekvation (4.8) är inom standardavvikelsen av ( ) begränsad till antalet enheter, u, i denna kategori. Från ekvation (4.8) definieras som den genomsnittliga svarsbenägenheten ( ) i stratum l av. Ekvation (4.8) tillåter att bristen på representativitet som reflekteras av ( ) förklaras. Indikatorn på kategorisk nivå har ett intervall mellan 0 och 0.5, där 0 betyder att det inte finns något villkorat bidragande av kategorin (Schouten et al., 2011) Hjälpvariablernas betydelse Hjälpvariablernas betydelse belyses här genom exempel som är baserade på hushållssurveyn Dutch Labour Force Survey (LFS) och företagssurveyn Dutch Short Term Statistics Survey, från år 2006 respektive 2008 (Schouten et al., 2011). Det som surveyerna vill ta reda på är vilka variabler som har störst påverkan på svarsrepresentativiteten. Fokus finns också på en anpassningsbar undersökningsdesign (Schouten et al., 2011). Dutch Labour Force Survey görs varje månad med face-to-faceintervjuer för olika hushåll. Målet med surveyn är att estimera andelen som har arbete och andelen arbetslösa för olika sociodemografiska delpopulationer. Målpopulationen är individer mellan 15 år och äldre. LFS jämförs mellan 2006 och

23 Vilka hjälpvariabler har störst effekt? Tabell 4.1 visar att svarsandelarna för de två åren approximativt är desamma, vilket också kan sägas om R-indikatorn. Skillnaden är att de enskilda variablernas effekter har varierat: effekten av ålder är lägre och värdet på hus är större 2008 jämfört med Mellan 2006 och 2008 så förändrades mönstret för LFS:s svarande. Tabell 4.1 Kontakt och svarsandelar för R-indikatorerna och partiella indikatorer på variabel nivå ( = ovillkorad, = villkorad ). Kontakt Svar Andel 94.1% 94.9% 63.2% 63.4% R-indikator Ålder Värdet på hus Ålder Värdet på hus Short Term Statistics Survey görs på två sätt: genom postenkäter och genom webbenkäter där företagen rapporterar varje månad. Tre hjälpvariabler är inkluderade: affärsgren, storlek på företaget och mervärdesskatt. Storleken på företaget och mervärdesskatten antas ha ett starkt samband och slås därför ihop (Schouten et al., 2011). Frågeställningen är huruvida svaren är tillräckligt representativa efter 25 dagar med hjälp av partiella R-indikatorer. Om inte, vilka typer av företag behöver mer resurser? Samt: är det värt att förlänga databehandlingstiden? 20

24 Vad indikerar hjälpvariablerna? Figur 4.1 visar de partiellt ovillkorade indikatorerna på kategorisk nivå på affärsgren för industrin över tid. Figur 4.1 visar att efter 30 dagar så har NACE 29, kemikalieindustri, det mest signifikanta värdet. Detta indikerar att de är underrepresenterade. Från dag 25 till dag 30 så minskar dessa indikatorer och Schouten, Shlomo och Skinner menar därför att det är värt att vänta 30 dagar. Tabell 4.2 visar att skillnaden mellan ovillkorade och villkorade indikatorer är små. Schouten, Shlomo och Skinner menar att effekten av affärsgren inte försvinner genom att kontrollera för storleken för företaget och mervärdesskatten. Tabell 4.2 visar även att värdena för industri är avsevärt större. Givet att R-indikatorerna är liknande till storlek och således har samma variation i svarsbenägenhet, så utläses att affärsgren har en större påverkan på representativitet för industri jämfört med detaljhandel. Denna effekt minskar dock med tiden. Till följd av detta så påverkar storleken på företaget och mervärdesskatten detaljhandeln mer i form av representativitet. Detta resulterar i att det finns utrymme för förbättring av representativitet inom industrin genom att försöka skynda på svar för olika affärsgrenar. På samma sätt så kan fokus ligga på storleken på företag och mervärdesskatt för att öka representativitet för detaljhandeln. 21

25 Figur 4.1 partiellt ovillkorade indikatorerna på kategorisk nivå för affärsgrenen industri över tid. Tabell 4.2. Ovillkorade och villkorade partiella indikatorer för detaljhandel och industri över tid. Detaljhandel Industri Dagar Ovillkorad Villkorad Ovillkorad Villkorad

26 För detaljhandel så är det inte någon större skillnad mellan dag 25 och dag 30, därför bör man inte vänta längre än 25 dagar för att behandla erhållna data (Schouten et al., 2011). 5. Empiriskt test Ett data-set bestående av anonymiserade observationer har tagits från RISQ:s hemsida (RISQ, 2012b). Variablerna är följande: ålder, kön, etnicitet, grad av urbanisering, civilstånd, typ av hushåll, har arbete/har inte arbete och innehav av telefon/inte innehav av telefon. Utifrån vetskapen om att färre variabler ökar R-indikatorns värde så har ett test utförts för att påvisa hur antalet variabler i modellen förändrar R-indikatorns värde. Eventuella mönster för detta kan dock vara väldigt olika (Bethlehem et al., 2009b). I modellerna 1-4 hålls urvalsstorleken konstant på 35455, det vill säga att modellerna är totalundersökningar. Modell 1-4 undersöker olika hjälpvariablers påverkan på R-indikatorn. Modell 5-7 tar ett urval på , med samma hjälpvariabler som modell 1-4. Modell 1-7 håller svarsandelen konstant, medan modell 8-10 undersöker en varierande svarsandels påverkan på R-indikatorn. Tabell 5.1. En totalundersökning med hjälpvariablerna ålder och kön. Modell 1 Urval Variabler Ålder och kön R- indikatorn R-indikator Svarsandel Standardavvikelse Undre gräns Övre gräns

27 Modell 1 visar att R-indikatorn har ett värde på med två huvudsakliga hjälpvariabler: ålder och kön. R-indikatorn har ett konfidensintervall på (0.891; 0.912). Tabell 5.2. En totalundersökning med hjälpvariabeln kön. Modell 2 Urval Variabler Kön R- indikatorn R-indikator Svarsandel Standardavvikelse Undre gräns Övre gräns Vidare så används ett test för att påvisa att färre hjälpvariabler ger ett högre värde på R-indikatorn. Modell 2 visar att R-indikatorn har ett värde på med hjälpvariabeln kön. Konfidensintervallet på (0.905; 0.926) visar att detta resultat inte är signifikant skilt från modell 1 på alphanivån Tabell 5.3. En totalundersökning med hjälpvariabeln etnicitet. Modell 3 Urval Variabler Etnicitet R-indikator R-indikatorn Svarsandel Standardavvikelse Undre gräns Övre gräns

28 Modell 3 visar att R-indikatorn har ett värde på med hjälpvariabeln etnicitet. Resultatet kan påvisa att olika hjälpvariabler påverkar R-indikatorn på olika sätt: kön relaterar starkare till svarsbenägenhet än etnicitet till exempel. Modell 4 visar en R-indikator med värdet för hjälpvariablerna kön, ålder, etnicitet, innehav av telefon samt om de har ett arbete. Konfidensintervallet är (0.849; 0.869). Modell 4 visar att den är signifikant skild från modell 1, eftersom konfidensintervallen inte överlappar varandra. Resultatet visar att modeller med fler hjälpvariabler har lägre värden på R-indikatorn jämfört med modeller med färre hjälpvariabler. Tabell 5.4. En totalundersökning med hjälpvariablerna kön, ålder, etnicitet, innehav av telefon och arbete. Modell 4 Urval Variabler Kön, ålder, etnicitet, innehav av telefon och arbete R-indikator R-indikatorn Svarsandel Standardavvikelse Undre gräns Övre gräns I modellerna 5-7 tas ett obundet slumpmässigt urval på , motsvarande 70.5% av målpopulationen. Modellen testar inte hjälpvariabeln etnicitet då det redan påvisats att olika hjälpvariabler påverkar modellen i olika grad. 25

29 Tabell 5.5. Ett urval på med hjälpvariablerna ålder och kön. Modell 5 Urval Variabler Ålder och kön R-indikator R- indikatorn Svarsandel Standardavvikelse Undre gräns Övre gräns Modell 5 visar en R-indikator med ett värde på med hjälpvariablerna ålder och kön, med konfidensintervallet (0.440; 0.446). Modell 5 har ett lägre värde på R-indikatorn jämfört med modell 1, där samma hjälpvariabler används. Resultatet tyder på att mindre urval påverkar R-indikatorn negativt. Tabell 5.6. Ett urval på med hjälpvariabeln kön. Modell 6 Urval Variabler Kön R-indikator R- indikatorn Svarsandel Standardavvikelse Undre gräns Övre gräns

30 Modell 6 visar en R-indikator på 0.446, med konfidensintervallet (0.444; 0.449). Modell 6 belyser, liksom modell 2, att R-indikatorn ökar då antalet hjälpvariabler reduceras i modellen. Modell 6 har ett högre värde på R-indikatorn jämfört med modell 6, där två hjälpvariabler används. Resultatet är dock inte signifikant. Från modell 7 utläses ett värde på för R-indikatorn, med konfidensintervallet (0.426; 0.434). Modell 7 har ett statistiskt signifikant lägre värde på R-indikatorn än modell 5, som har färre hjälpvariabler. Med ett mindre urval så tenderar R-indikatorn, återigen, att få ett lägre värde då fler variabler finns i modellen. Författarna till RISQ-kompendiet How to use R-indicators? menar dock att urvalsstorleken har större betydelse för R-indikatorns värde än antalet hjälpvariabler i modellen, även om en av deras slutsatser är att valet av hjälpvariabler också har en betydande roll (Bethlehem et al., 2009b). Tabell 5.7. Ett urval på med hjälpvariablerna ålder, kön, etnicitet, innehav av telefon, arbete. Modell 7 Urval Variabler Ålder, kön, etnicitet, innehav av telefon, arbete R-indikator R- indikatorn Svarsandel Standardavvikelse Undre gräns Övre gräns Modell 8-10 håller hjälpvariablerna och urvalet konstant medan svarsandelen är den exogena variabeln. Från modell 8 utläses att 70.9 % svarar. I modellen så sjunker R- indikatorn till jämfört med modell 1. 27

31 Tabell 5.8. En totalundersökning där svarsandelen är 70%. Med hjälpvariablerna ålder och kön. Modell 8 Urval Variabler Kön, ålder R-indikator R- indikatorn Svarsandel Standardavvikelse Undre gräns Övre gräns Tabell 5.9. En totalundersökning där svarsandelen är 12.4%. Med hjälpvariablerna ålder och kön. Modell 9 Urval Variabler Kön, ålder R-indikator R- indikatorn Svarsandel Standardavvikelse Undre gräns Övre gräns Modell 9 har en svarsandel på 12.4%. Även här så har R-indikatorn sjunkit till jämfört med modell 1. En intressant iakttagelse är att modell 8 och 9 har snarlika värden på R-indikatorn, detta trots att svarsandelen är väldigt annorlunda. Detta beror troligtvis på att R- indikatorn är baserad på en avståndsfunktion med standardavvikelse. 28

32 Tabell En totalundersökning där svarsandelen är 0.09%. Med hjälpvariablerna ålder och kön. Modell 10 Urval Variabler Kön, ålder R-indikator R- indikatorn Svarsandel Standardavvikelse Undre gräns Övre gräns Modell 10 visar att svarsandelen är 0.9% med en R-indikator på Denna modell har ett högre värde på R-indikatorn jämfört med modell 1, trots att svarsandelen är väldigt låg. Detta resultat visar att urvalet är representativt, trots att väldigt få har svarat. Återigen grundas detta på att modellen är baserad på standardavvikelsen mellan respondenter och bortfall. Teoretiskt sett så är modell 10 korrekt då variationen är väldigt liten mellan respondenter och bortfall. Men i praktiken så är den inte felfri om hänsyn endast tas till R-indikatorns värde. En praktisk, och paradoxal, nackdel är att när svarsbenägenheten sjunker från 0.5 till 0 så ökar R-indikatorn. Detta är rent teoretiskt troligt då 0 i svarsbenägenhet betyder att inga personer svarat och att det då inte finns någon variation (Bethlehem et al., 2009a). Då svarsfrekvensen är 0 så får R-indikatorn ett värde på 1. R-indikatorn börjar på 1 för att sedan få ett lägsta möjliga värde, det vill säga 0, då svarsfrekvensen är 0.5. Det är endast då svarsfrekvensen är 0.5 som R-indikatorn kan få ett värde mellan 0 och 1. Det går därför att argumentera för att den optimala nivån på svarsfrekvensen är 0.5 eftersom lägre eller högre värden kan vara missvisande (Bethlehem et al., 2009a). 29

33 6. Diskussion och slutsats Uppsatsens syfte är att undersöka hur väl R-indikatorn förklarar representativitet, huruvida det ett bra mått om alla förutsättningar för en god estimering finns tillgängliga, hur relationen bortfall och representativitet kan tolkas samt hur framtiden för R-indikatorerna ser ut. Detta med hjälp av en litteraturstudie. Artiklarna visar att även då bortfallet minskar så ökar inte nödvändigtvis representativiteten. Ett minskat bortfall gör dock att risken för obalans mellan respondenter och bortfall minskar: med en minskad risk så är ett mer representativt svar mer troligt. Det vill säga att om bortfallet skiljer sig markant från respondenterna, men endast utgör en procent, blir obalansen mindre betydelsefull än om bortfallet är femtio procent och har samma obalans. Att använda bortfall som enda kvalitetsindikator är inte ett tillräckligt bra alternativ, men det bör tas i beaktning att ett minskat bortfall som sagt minskar risken för obalans. Vidare så visar resultatet att R-indikatorn kan förklara representativitet på ett bra sätt då den använder olika hjälpvariabler för att beräkna svarsbenägenheten. Men vi fann även att det finns en del brister: representativitet i form av ett högt värde på en R- indikator behöver inte nödvändigtvis vara ett bevis för representativitet. Det faktum att R-indikatorn baseras på beroende variabler, hjälpvariabler och urvalsstorlek gör att den kan manipuleras för att få ett önskvärt resultat. Från det empiriska testet så såg vi att modell 1 med två relativt bra hjälpvariabler, ålder och kön, gav en R-indikator på När vi istället adderade fler hjälpvariabler i modellen så minskade R-indikatorn. På samma sätt så ökade R-indikatorn när vi endast hade en hjälpvariabel i modellen. Detta resultat påvisar att ett selektivt urval av hjälpvariabler ger en hög R-indikator. En viktig faktor i skapandet av R-indikatorn är som sagt dess hjälpvariabler, den andra faktorn är 30

34 urvalsstorleken: vi såg att för ett mindre urval så minskade R- indikatorn, ceteris paribus. För de partiella R-indikatorerna såg vi att olika hjälpvariabler och deras effekter kan urskiljas. Det är enkelt att se hur de interagerar och vilka variabler som påverkar resultatet mest. På en kategorisk nivå är det tydligt vilka grupper som är under- eller överrepresenterade. Denna egenskap är väldigt attraktiv eftersom med hjälp av den kan resurser fördelas på ett sådant sätt så att fokus kan ligga på underrepresenterade grupper. En annan aspekt som är positiv är att det går att urskilja huruvida man ska fortsätta med datainsamlingar eller inte. Vi ställer oss frågan om antagandet om att hjälpinformationen är intakt och inte har något systematiskt fel håller i realiteten. I länder som Sverige, som har breda register över befolkningen, finns det goda förutsättningar för ett sådant antagande. Men risken finns att användningen av R-indikatorer är begränsad till länder med relativt bra register för olika hjälpvariabler. Paradata kan användas för att få en god estimering, men detta faktum gör att det blir en variation från survey till survey. Att använda R-indikatorer som ett index är troligtvis väldigt svårt då det finns för många faktorer som påverkar resultatet. Att ha fullständiga register är alltså a och o, och att samma hjälpvariabler används. Den senare faktorn går att styra, men den första kräver tid och granskning. Är det överhuvudtagen möjligt att jämföra R-indikatorer mellan I-länder och U-länder? Eventuellt kan denna metod endast appliceras i länder med liknande socioekonomisk struktur, eftersom olika variabler påverkar en survey på olika sätt. I frågan om R-indikatorn är ett bra mått så vet vi att jämförelser mellan olika surveyer med hjälp av R-indikatorer inte har gjorts i någon större omfattning. Att jämföra samma survey över tid kan däremot visa på vilken datainsamlingsmetod som är att föredra, vilket gör R-indikatorn väldigt informativ i den aspekten. 31

35 R-indikatorn är lämplig att använda vid jämförelser av olika insamlingsmetoder inom samma survey. För detta ändamål så finns det en framtid för dem. Men det faktum att det ännu inte är möjligt att jämföra med andra surveyer på ett okomplicerat och lättillgängligt sätt gör att det finns fortsatta utvecklingsmöjligheter för indikatorerna. Det är tänkbart att ett framtida krav i en specifik survey kan vara att öka R-indikatorns värde till en viss nivå, istället för att försöka öka svarsandelen till en förutbestämd nivå, eftersom de sista procentenheterna kan kosta mycket att samla in men ändå inte ge ett mer representativt resultat. I västvärlden finns behov av en ny kvalitetsindikator för surveyer eftersom bortfallet har ökat, men att påstå att R-indikatorn ska vara den nya lösningen är svårt att se: den största orsaken till det är att vi förmodar att den antagligen inte kan tillämpas i länder som inte har fullständiga register av hjälpvariabler på grund av att det då är svårare att uttala sig om bortfallet eftersom det inte finns tillräcklig information om dessa personer. Men även för att modellen kan påverkas genom att urvalen som tas är homogena och är korrelerade med hjälpvariablerna. R-indikatorn är baserad på en enkel modell, men den har i dagsläget sina begränsningar, bland annat för att hjälpvariablerna och urvalsstorleken påverkar olika surveyer på olika sätt. Om R-indikatorerna ska kunna användas på ett mer allmängiltigt och adekvat vis så bör de olika variablerna och metoderna standardiseras på något sätt. Riktlinjer för användning och beräkning av R-indikatorerna är en viktig komponent och förutsättning för ett bredare och mer användbart användande. Det skulle vara av intresse i framtiden att se om det är möjligt att finna ett optimalt eller standardiserat sätt att använda olika hjälpvariabler för att göra R-indikatorn mer användbar internationellt. 32

36 7. Litteratur Bethlehem, Jelke- Cobben, Fannie- Schouten, Barry, 2008a. Indicators for the Representativeness of Survey Response. Proceedings of Statistics Canada Symposium Data Collection: Challenges, Achievements and New Directions. RISQ:s hemsida december Bethlehem, Jelke- Cobben, Fannie- Schouten, Barry, 2008b. The history of the R-indicator. First RISQ Meeting, Statistics Netherlands, 7-8 April RISQ:s hemsida december Bethlehem, Jelke- Cobben, Fannie- Schouten, Barry, 2009a. Indicators for the representativeness of survey response. Survey Methodology 35(1): Bethlehem, Jelke- Morren, Mattijn- Schouten, Barry- Shlomo, Nathalie- Skinner, Chris, How to use R-indicators?. Work package 4, deliverable 3. RISQ:s hemsida december Bethlehem, Jelke- Cobben, Fannie- Schouten, Barry, Handbook of Nonresponse in Household Surveys. West Sussex: John Wiley-Blackwell. Biemer, Paul P.- Lyberg, Lars E., Introduction to Survey Quality. New Jersey: Wiley Interscience. Lundström, Sixten- Särndal, Carl-Erik, Estimation in Surveys with Nonresponse. West Sussex: John Wiley & Sons, Ltd. Marujo, Ana, Representativity Indicators for Measuring Survey Quality. Siena, Italy, juni 2009: ITACOSM09. 33

Att välja statistisk metod

Att välja statistisk metod Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...

Läs mer

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB Konsekvenser av Bortfall Introduktion Illustration av hur bortfall påverkar resultaten i en statistisk

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer

Läs mer

Ekonomisk statistik 2 Economic statistics 2. Imputering

Ekonomisk statistik 2 Economic statistics 2. Imputering Ekonomisk statistik 2 Economic statistics 2 Imputering Masterkurs Daniel Thorburn Höstterminen 2008 Stockholms Universitet Ekonomisk statistik Höstterminen 2008 Stockholms Universitet Saknade värden Totalt

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare

Läs mer

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018 Kvantitativa metoder en introduktion Mikael Nygård, Åbo Akademi, vt 2018 Vad är kvantitativ metod? Kvantitativa (siffermässiga) analyser av verkligheten: beskrivning och förklaringar av fenomen i fokus!

Läs mer

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald F11 Repetition Undersökningar Olika slag av undersökningar Syftet Beskrivande Förklarande/utredande Framåtblickande Undersökningsplanering Vem ska undersökas? Målpopulation Rampopulation Vad ska undersökas?

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Bortfall i longitudinella undersökningar

Bortfall i longitudinella undersökningar Bortfall i longitudinella Silke Burestam, doktorand Statistiska institutionen Stockholms Universitet Projekt: Moderna statistiska undersökningsmetoder ett nätverkn Finansieras av Hemsida: Riksbankens http://www.statistics.su.se/

Läs mer

Bortfallsproblematik ur ett metodperspektiv

Bortfallsproblematik ur ett metodperspektiv Bortfallsproblematik ur ett metodperspektiv Daniel Thorburn Surveyföreningen 2011-05-27 Olika metodaspekter Bortfall versus andra fel Psykologi varför svarar man? (inte?) Åtgärder vid insamling (förebygg!)

Läs mer

EXAMINATION KVANTITATIV METOD vt-11 (110204)

EXAMINATION KVANTITATIV METOD vt-11 (110204) ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110204) Examinationen består av 11 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Inträdet på arbetsmarknaden efter gymnasieskolan

Inträdet på arbetsmarknaden efter gymnasieskolan Bortfallsanalys Inträdet på arbetsmarknaden efter gymnasieskolan Förord Bortfallsanalys Inträdet på arbetsmarknaden efter gymnasieskolan SCB, Stockholm 08-506 940 00 SCB, Örebro 019-17 60 00 www.scb.se

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare och enkäter "Det finns inget så praktiskt som en bra teori" September 2011 och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag

Läs mer

Implementering av listpriser som mätvariabel för nya bilar i KPI

Implementering av listpriser som mätvariabel för nya bilar i KPI ES/PR-S PM till Nämnden för KPI Erik Hauer, Miykal Tareke 2015-10-16 1(6) Implementering av listpriser som mätvariabel för nya bilar i KPI För beslut Prisenheten föreslår att samla in rekommenderade listpriser

Läs mer

Bakgrund. Frågeställning

Bakgrund. Frågeställning Bakgrund Svenska kyrkan har under en längre tid förlorat fler och fler av sina medlemmar. Bara under förra året så gick 54 483 personer ur Svenska kyrkan. Samtidigt som antalet som aktivt väljer att gå

Läs mer

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare

Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare MIKROEKONOMETRI Data på individ/hushålls/företags/organisationsnivå Tvärsnittsdata och/eller longitudinella data o paneldata Idag större datamänger än tidigare Tekniska framsteg erbjuder möjligheter till

Läs mer

Sökaktivitet inom olika arbetsmarknadspolitiska program

Sökaktivitet inom olika arbetsmarknadspolitiska program Sökaktivitet inom olika arbetsmarknadspolitiska program Petra Nilsson 20 maj 2011 Working Paper 2011:1 Arbetsförmedlingens Working Paper serie presenterar rapporter som rör analys av arbetsmarknadens funktionssätt

Läs mer

Obligatorisk uppgift, del 1

Obligatorisk uppgift, del 1 Obligatorisk uppgift, del 1 Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling. 1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten

Läs mer

Studietyper, inferens och konfidensintervall

Studietyper, inferens och konfidensintervall Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär

Läs mer

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen F1 Introduktion. Statistisk undersökning. Leif Ruckman och Christina Andersson Avdelningen för Nationalekonomi och Statistik Karlstads universitet Vad är statistik? 1. Statistiska uppgifter. T ex som underlag

Läs mer

Attityder kring SBU:s arbete. Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning

Attityder kring SBU:s arbete. Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning Attityder kring SBU:s arbete Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning Hösten 2010 Innehållsförteckning INNEHÅLLSFÖRTECKNING ANALYSRAPPORT Sammanfattning... 1 Inledning...

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 20 mars 2015 9 14

Tentamen för kursen. Linjära statistiska modeller. 20 mars 2015 9 14 STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 20 mars 2015 9 14 Examinator: Anders Björkström, bjorks@math.su.se Återlämning: Fredag 27/3 kl 12.00, Hus 5,

Läs mer

Checklista för systematiska litteraturstudier 3

Checklista för systematiska litteraturstudier 3 Bilaga 1 Checklista för systematiska litteraturstudier 3 A. Syftet med studien? B. Litteraturval I vilka databaser har sökningen genomförts? Vilka sökord har använts? Har författaren gjort en heltäckande

Läs mer

Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet

Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet Proaktiv datainsamling med mått som beskriver svarsmängdens kvalitet SUREC-kurs, Stockholms universitet, 20/4-2015 Peter Lundquist och Carl-Erik Särndal SCB och Stockholms universitet Version 2015-04-18

Läs mer

Statsvetenskapliga metoder, Statsvetenskap 2 Metoduppgift 4

Statsvetenskapliga metoder, Statsvetenskap 2 Metoduppgift 4 Problemformulering Högerpopulistiska partier får mer och mer inflytande och makt i Europa. I Sverige är det sverigedemokraterna som enligt opinionsundersökningar har fått ett ökat stöd bland folket. En

Läs mer

Hur går en statistisk undersökning till?

Hur går en statistisk undersökning till? Hur går en statistisk undersökning till? Gången i en statistisk undersökning framgår av bilden och är i stort sett densamma i en verklig undersökning, t ex folk- och bostadsräkningen, som i en miniundersökning.

Läs mer

Business research methods, Bryman & Bell 2007

Business research methods, Bryman & Bell 2007 Business research methods, Bryman & Bell 2007 Introduktion Kapitlet behandlar analys av kvalitativ data och analysen beskrivs som komplex då kvalitativ data ofta består av en stor mängd ostrukturerad data

Läs mer

Vad tycker de äldre om äldreomsorgen? Metodbeskrivning

Vad tycker de äldre om äldreomsorgen? Metodbeskrivning Vad tycker de äldre om äldreomsorgen? 2018 Metodbeskrivning Innehåll Metodbeskrivning... 3 Statistikens innehåll... 3 Målpopulation... 3 Rampopulation... 3 Mätinstrumentet... 4 Datainsamling... 5 Insamlingsperiod...

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

Föreläsning 1: Introduktion. Vad är statistik?

Föreläsning 1: Introduktion. Vad är statistik? Föreläsning 1: Introduktion Vad är statistik? 1 Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet att

Läs mer

Metod1. Intervjuer och observationer. Ex post facto, laboratorie -, fältexperiment samt fältstudier. forskningsetik

Metod1. Intervjuer och observationer. Ex post facto, laboratorie -, fältexperiment samt fältstudier. forskningsetik Metod1 Intervjuer och observationer Ex post facto, laboratorie -, fältexperiment samt fältstudier forskningsetik 1 variabelbegreppet oberoende variabel beroende variabel kontroll variabel validitet Centrala

Läs mer

Är icke-sannolikhetsurval aldrig representativa?

Är icke-sannolikhetsurval aldrig representativa? Surveyföreningens webbpanelseminarium 2011-02-03 Är icke-sannolikhetsurval aldrig representativa? Jan Wretman Webbpanelkommittén 1 Det kommer att handla om: Begreppet representativitet. Bedömning av skattningars

Läs mer

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Litteraturstudie Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Vad är en litteraturstudie? Till skillnad från empiriska studier söker man i litteraturstudier svar på syftet

Läs mer

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial? MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se Översikt 1. Introduktion till problemet 2.

Läs mer

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp Extra övningssamling i undersökningsmetodik HT10 till kursen Regressionsanalys och undersökningsmetodik, 15 hp Författad av Karin Dahmström 1. Utgå från en population bestående av 5 personer med följande

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Checklista för systematiska litteraturstudier*

Checklista för systematiska litteraturstudier* Bilaga 1 Checklista för systematiska litteraturstudier* A. Syftet med studien? B. Litteraturval I vilka databaser har sökningen genomförts? Vilka sökord har använts? Har författaren gjort en heltäckande

Läs mer

Föreläsning 5: Att generalisera

Föreläsning 5: Att generalisera Föreläsning 5: Att generalisera Pär Nyman par.nyman@statsvet.uu.se 25 januari 2016-1 - Generaliseringar Generalisering innebär att vi drar slutsatser om någonting annat än det vi har studerat. Vi använder

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

POPULATION OCH BORTFALL

POPULATION OCH BORTFALL RAPPORT POPULATION OCH BORTFALL En teknisk rapport om populationen och bortfallet i den internetbaserade Örebro-undersökningen om mobbning vid mätningarna 2012 och 2013. Björn Johansson Working Papers

Läs mer

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval

F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval F10 Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval Anta att man vill göra ett urval som täcker ett stort geografiskt område vill använda besöksintervju som insamlingsmetod

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Föreläsning 5: Att generalisera

Föreläsning 5: Att generalisera Föreläsning 5: Att generalisera Pär Nyman par.nyman@statsvet.uu.se 4 september 2015-1 - Generaliseringar Generalisering innebär att vi drar slutsatser om någonting annat än det vi har studerat. Vi använder

Läs mer

Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik

Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik F2 Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik Planeringen av en statistisk undersökning Tre huvudfrågor: Vem ska undersökas? Vad ska undersökas? Hur ska

Läs mer

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Statistikens grunder. Mattias Nilsson Benfatto, Ph.D Statistikens grunder Mattias Nilsson Benfatto, Ph.D Vad är statistik? Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information.

Läs mer

Tentamen Metod C vid Uppsala universitet, , kl

Tentamen Metod C vid Uppsala universitet, , kl Tentamen Metod C vid Uppsala universitet, 170503, kl. 08.00-12.00 Anvisningar Av rättningspraktiska skäl skall var och en av de tre huvudfrågorna besvaras på separata pappersark. Börja alltså på ett nytt

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-06 En stratifierad sundersökning: NTU2014 Från NTU2014 Från NTU2014 Dellens

Läs mer

Kodbarometern för allmänheten 2010

Kodbarometern för allmänheten 2010 Kodbarometern för allmänheten 2010 Rapport av Hallvarsson & Halvarsson för Kollegiet för svensk bolagsstyrning den 13 december 2010 November 2010 HALLVARSSON & HALVARSSON SVEAVÄGEN 20 P.O. BOX 3666 SE-103

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Avdelning för hälsofrämjande - www.ltdalarna.se/folkhalsa

Avdelning för hälsofrämjande - www.ltdalarna.se/folkhalsa Avdelning för hälsofrämjande - www.ltdalarna.se/folkhalsa Innehållsförteckning Inledning... 1 Metod... 1 Svarsfrekvens... 1 Variabelförklaring... 3 Statistik och tolkning... 4 Kalibreringsvikt... 4 Stratifiering

Läs mer

Urvalsmetoder: Stratifierat urval (kap 9.5)

Urvalsmetoder: Stratifierat urval (kap 9.5) F4 Urvalsmetoder: Stratifierat urval (kap 9.5) Tidigare exempel Vi undersökte tidigare medellönen i ett företag med N = 500 anställda. Vi fick ett konfidensintervall: Vi vet att några förklaringsvariabler

Läs mer

Kursens syfte. En introduktion till uppsatsskrivande och forskningsmetodik. Metodkurs. Egen uppsats. Seminariebehandling

Kursens syfte. En introduktion till uppsatsskrivande och forskningsmetodik. Metodkurs. Egen uppsats. Seminariebehandling Kursens syfte En introduktion till uppsatsskrivande och forskningsmetodik Metodkurs kurslitteratur, granska tidigare uppsatser Egen uppsats samla in, bearbeta och analysera litteratur och eget empiriskt

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Vad tycker de närstående om omvårdnaden på särskilt boende?

Vad tycker de närstående om omvårdnaden på särskilt boende? Omvårdnad Gävle Vad tycker de närstående om omvårdnaden på särskilt boende? November 2017 Markör AB 1 (15) Uppdrag: Beställare: Närstående särskilt boende Omvårdnad Gävle Kontaktperson beställaren: Patrik

Läs mer

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14 STOCKHOLMS UNIVERSITET MT4003 MATEMATISKA INSTITUTIONEN LÖSNINGAR Avd. Matematisk statistik 3 maj 013 Lösningar Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 3 maj 013 kl. 9 14 Uppgift 1 a Eftersom

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Hushållens icke-vinstdrivande organisationer 2005

Hushållens icke-vinstdrivande organisationer 2005 STATISTISKA CENTRALBYRÅN 1(8) Hushållens icke-vinstdrivande organisationer 2005 1 Inledning Emma-projektet, eller paraplyprojektet för förbättring av den ekonomiska statistiken, omfattar i huvudsak förbättringsförslagen

Läs mer

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989

1989, Statistiska centralbyrån ISSN Printed in Sweden Garnisonstryckeriet, Stockholm 1989 Från trycket April 1989 Producent Statistiska centralbyrån, Utvecklingsavdelningen Ansvarig utgivare Staffan Wahlström Förfrågningar Lennart Nordberg, tel. 019-17 60 12 1989, Statistiska centralbyrån ISSN

Läs mer

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.

Läs mer

Nationella prov, Uppdrag granskning

Nationella prov, Uppdrag granskning Stockholm 15 februari 2017 Nationella prov, Uppdrag granskning Undersökningen visar: Att lärarna anser att de nationella proven är ett viktigt stöd för bedömningen och betygsättningen. o 9 av 10 lärare

Läs mer

Anvisningar till rapporter i psykologi på B-nivå

Anvisningar till rapporter i psykologi på B-nivå Anvisningar till rapporter i psykologi på B-nivå En rapport i psykologi är det enklaste formatet för att rapportera en vetenskaplig undersökning inom psykologins forskningsfält. Något som kännetecknar

Läs mer

Vad tycker de närstående om omvårdnaden på särskilt boende?

Vad tycker de närstående om omvårdnaden på särskilt boende? Omvårdnad Gävle Vad tycker de närstående om omvårdnaden på särskilt boende? November 2015 Markör AB 1 (19) Uppdrag: Beställare: Närstående särskilt boende Omvårdnad Gävle Kontaktperson beställaren: Patrik

Läs mer

Teknisk Rapport En beskrivning av genomförande och metoder

Teknisk Rapport En beskrivning av genomförande och metoder Teknisk Rapport En beskrivning av genomförande och metoder Attityder till skolan Föräldrar 2012-09-10 Inledning Enheten för Utbildning och arbete vid Statistiska centralbyrån (SCB) genomförde under våren

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Fakta om undersökningen

Fakta om undersökningen Medborgarnas attityder 2017 Fakta om undersökning Fakta om undersökningen Population och urval Populationen, d.v.s. de objekt som man vill kunna dra slutsatser om, utgjordes av samtliga invånare i åldern

Läs mer

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE Innehåll Vad är en bra uppsats? Söka, använda och refera till litteratur Insamling

Läs mer

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR 2014-05-21

Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR 2014-05-21 Missing data och imputation eller Får man hitta på data? Lars Lindhagen, UCR 2014-05-21 Inledning Saknat data finns alltid, åtminstone i stora registerstudier. Ett problem som måste hanteras på något sätt.

Läs mer

Metoduppgift 4 - PM. Barnfattigdom i Linköpings kommun. 2013-03-01 Pernilla Asp, 910119-3184 Statsvetenskapliga metoder: 733G02 Linköpings universitet

Metoduppgift 4 - PM. Barnfattigdom i Linköpings kommun. 2013-03-01 Pernilla Asp, 910119-3184 Statsvetenskapliga metoder: 733G02 Linköpings universitet Metoduppgift 4 - PM Barnfattigdom i Linköpings kommun 2013-03-01 Pernilla Asp, 910119-3184 Statsvetenskapliga metoder: 733G02 Linköpings universitet Problem Barnfattigdom är ett allvarligt socialt problem

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Dataanalys kopplat till undersökningar

Dataanalys kopplat till undersökningar Dataanalys kopplat till undersökningar Seminarium om undersökningsmetoder för förorenade områden, Malmö 6-7 maj Jenny Norrman, SGI, Chalmers FRIST På säker grund för hållbar utveckling Innehåll Inledning

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

Bilaga 6 till rapport 1 (5)

Bilaga 6 till rapport 1 (5) till rapport 1 (5) Bilddiagnostik vid misstänkt prostatacancer, rapport UTV2012/49 (2014). Värdet av att undvika en prostatabiopsitagning beskrivning av studien SBU har i samarbete med Centrum för utvärdering

Läs mer

Vad beror benägenheten att återvinna på? Annett Persson

Vad beror benägenheten att återvinna på? Annett Persson Vad beror benägenheten att återvinna på? Annett Persson 12 mars 2011 Innehåll 1 Inledning 2 1.1 Bakgrund............................... 2 1.2 Syfte.................................. 2 1.3 Metod.................................

Läs mer

Hur skriver man statistikavsnittet i en ansökan?

Hur skriver man statistikavsnittet i en ansökan? Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det

Läs mer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer

Läs mer

Slumpmässiga resp ickeslumpmässiga. urval. Olika feltyper i en undersökning. Förra gången (F6)

Slumpmässiga resp ickeslumpmässiga. urval. Olika feltyper i en undersökning. Förra gången (F6) F7 Slumpmässiga resp ickeslumpmässiga urval. Förra gången (F6) Standardiseringsmetoder När vi vill jämföra medelvärden i olika grupper/populationer och standardisera dessa utifrån kända faktorer Standardpopulationsmetoden

Läs mer

Bilaga Unga med attityd 2019 Arbete och arbetsmarknad

Bilaga Unga med attityd 2019 Arbete och arbetsmarknad Bilaga Unga med attityd 2019 Arbete och arbetsmarknad Det här är bilagan till den andra delrapport som Myndigheten för ungdoms- och civilsamhällesfrågor (MUCF) har tagit fram inom ramen för regeringsuppdraget

Läs mer

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa. Betrakta kopparutbytet från malm från en viss gruva. Anta att budgeten för utbytet är beräknad på att kopparhalten ligger på 70 %. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten

Läs mer

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11

REGRESSIONSANALYS. Exempel från F6. Statistiska institutionen, Stockholms universitet 1/11 1/11 REGRESSIONSANALYS Exempel från F6 Linda Wänström Statistiska institutionen, Stockholms universitet 2/11 Datamaterial Amerikanskt datamaterial från 1970 "Income guarantees and the working poor" där

Läs mer

Undersökningens resultat för enkäten till vårdnadshavare sammanfattas i sex

Undersökningens resultat för enkäten till vårdnadshavare sammanfattas i sex 2017-01-16 1 (5) Kvalitetsdeklaration Nedan följer en kvalitetsdeklaration för Förskoleenkäten, Skolinspektionens enkät riktad till vårdnadshavare med barn i förskolan samt till pedagogisk personal i förskolan.

Läs mer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. Tony Pansell, optiker Universitetslektor Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp

Läs mer

Stockholms Universitet Statistiska institutionen Termeh Shafie

Stockholms Universitet Statistiska institutionen Termeh Shafie Stockholms Universitet Statistiska institutionen Termeh Shafie TENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2011-10-28 Skrivtid: 9.00-14.00 Hjälpmedel: Miniräknare utan lagrade formler eller text, bifogade

Läs mer

Kvalitetsstandarder inom statistikproduktionen. 2011-10-19 Lilli Japec, Dr Utvecklingschef SCB lilli.japec@scb.se

Kvalitetsstandarder inom statistikproduktionen. 2011-10-19 Lilli Japec, Dr Utvecklingschef SCB lilli.japec@scb.se Kvalitetsstandarder inom statistikproduktionen 2011-10-19 Lilli Japec, Dr Utvecklingschef SCB lilli.japec@scb.se 1 Inledning Vad är kvalitet? Vilka ramverk finns? Några exempel från SCB:s kvalitetsarbete

Läs mer

Handisam. Beräkningsunderlag för undersökningspanel

Handisam. Beräkningsunderlag för undersökningspanel Beräkningsunderlag för undersökningspanel Kund Mottagare Ann Dahlberg Författare Johan Bring Granskare Gösta Forsman STATISTICON AB Östra Ågatan 31 753 22 UPPSALA Wallingatan 38 111 24 STOCKHOLM vxl: 08-402

Läs mer

- Bakgrundsuppgifter om förskolorna (kommun, driftsform, totalt antal barn, totalt antal pedagogisk personal)

- Bakgrundsuppgifter om förskolorna (kommun, driftsform, totalt antal barn, totalt antal pedagogisk personal) 1 (6) Kvalitetsdeklaration Nedan följer en kvalitetsdeklaration för Förskoleenkäten, Skolinspektionens enkät riktad till vårdnadshavare med barn i förskolan samt till pedagogisk personal i förskolan. Undersökningen

Läs mer

Kritiskt tänkande HTXF04:3 FTEB05. Induktiv argumentation

Kritiskt tänkande HTXF04:3 FTEB05. Induktiv argumentation Kritiskt tänkande HTXF04:3 FTEB05 Induktiv argumentation En svaghet med deduktiv argumentation Vi har sagt att de bästa argumenten är de sunda argumenten, dvs de logiskt giltiga deduktiva argument med

Läs mer

Jämförelse av olika mått

Jämförelse av olika mått Fokus på näringsliv och arbetsmarknad Polarisering och ojämnhet Lönefördelningen 1997 2006, analys av polarisering och ojämnhet Jan Selén 35 Ibland kan man höra uttalanden som att det sker en polarisering

Läs mer

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar) 1. a) F1(Sysselsättning) F2 (Ålder) F3 (Kön) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar) nominalskala kvotskala nominalskala ordinalskala ordinalskala b) En möjlighet är att beräkna

Läs mer

Olika datainsamlingsmetoder

Olika datainsamlingsmetoder Olika datainsamlingsmetoder F6 Datainsamlingsmetoder för primärdata, datorstöd (kap 2.2, 3, 7.2) Ursprung: Linda Wänström Definition: Respondent = person (eller dylikt) som ska besvara en enkät/intervju/observeras

Läs mer

Reflektioner från Enheten Forskning och utvärdering. - Angående Rambölls slututvärdering av Ung komp.

Reflektioner från Enheten Forskning och utvärdering. - Angående Rambölls slututvärdering av Ung komp. Reflektioner från Enheten Forskning och - Angående Rambölls slut av Ung komp. Af 00009_2.0_(2017-10-11, AF5000) Arbetsförmedlingen Författare: Johan Egebark och Gülay Özcan Datum: 2018-03-06 Diarienummer:

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

Bilaga 3. Varselstatistik, bortfallsanalys och statistiska beräkningar

Bilaga 3. Varselstatistik, bortfallsanalys och statistiska beräkningar bilaga till granskningsrapport dnr: 31-2013-0722 rir 2014:27 Bilaga 3. Varselstatistik, bortfallsanalys och statistiska beräkningar Arbetsförmedlingens arbete vid varsel Ett bidrag till effektiva omställningsinsatser?

Läs mer