Vad är officiell statistik? Föreläsning 2 Dan Hedlin Statistiska institutionen Stockholms universitet
Inferens Observation/mätning Dan Hedlin, Statistiska institutionen 2
Accuracy of an estimate is achieved by minimizing total survey error Ŷ Y Distance between the target population parameter and its estimate Error also known as survey error Measured by the mean squared error Dan Hedlin, Statistiska institutionen 3
Hur får man kontakt med det objekt som ska observeras? Exempel 1. Demographic and Health Survey i Nigeria. Vi ska dra ett slumpmässigt urval av kvinnor och intervjua dem om deras liv och barn. Exempel 2. I Sverige, sysselsättning/arbetslöshet/utanför arbetskraften? Ram (eng. frame), rampopulation Dan Hedlin, Statistiska institutionen 4
Tio steg att tänka igenom 1. Bestämma sig för Population, t.ex. folkbokförda, 15-74 år (AKU). Målpopulation. Variabel, t.ex. partisympati, val till Riksdagen 2. Ram, t.ex. RTB, rikets totalbefolkning 3. Typ av urval och hur många som ska ingå. Urvalsdesign. Dan Hedlin, Statistiska institutionen 5
4. Datainsamlingssätt (mode), t.ex. telefon eller webbenkät 5. Formulera frågor 6. Formulera frågealternativ, om inte öppen fråga 7. Skapa hela blanketten/formuläret Dan Hedlin, Statistiska institutionen 6
8. Protokoll, t.ex. trisslott, antal kontaktförsök, missiv, tack- och påminnelsekort 9. Vilka beräkningar som ska göras. Inferens 10. Hur statistiken ska redovisas Dan Hedlin, Statistiska institutionen 7
Partisympatiundersökningen, PSU, förenklat Målpopulation: röstberättigad vid ett hypotetiskt riksdagsval Ram: svenska medborgare som är folkbokförda i Sverige och fyller minst 18. Själva listan på folk, RTB, sköter SCB med dagliga uppdateringar från Skatteverket Variabel: bl.a. partisympati Dan Hedlin, Statistiska institutionen 8
PSU Panelurval. Tre paneler, varje individ med tre gånger En ny panel varje gång. 3000 personer Systematiskt urval Informationsbrev inför undersökningen Inloggningsuppgifter Dan Hedlin, Statistiska institutionen 9
Telefon till dem som inte svarat på webbenkäten Fältarbetsperiod 4 veckor Om vi tänker oss att det vore riksdagsval de närmaste dagarna: skulle du då rösta, skulle du kanske rösta eller skulle du inte rösta. Röstar Röstar kanske Gå till fråga 9A Dan Hedlin, Statistiska institutionen 10
1. Vilket parti skulle du rösta på? 2. Om du trots allt skulle bestämma dig för att rösta, vilket parti skulle du då rösta på? Riksdagspartierna + PP, FI, Junilistan, annat parti (vilket), blankt, vet ej (maj 2016) Riksdagspartierna i bokstavsordning Dan Hedlin, Statistiska institutionen 11
Kvalitet 1. Kvalitet för den officiella statistiken en handbok. SCB, utgiven 2016. 2. Föreskrift, SCB-FS 2016:17. Det som står i handboken ska användas när man producerar och publicerar officiell statistik. Jag kommer inte att ta upp precis allt. Det skulle bli väldigt mycket. Dan Hedlin, Statistiska institutionen 12
Statistikens byggstenar Urvalsundersökningar och registerbaserad statistik 1. Målpopulation 2. Objekt 3. Variabler Alla har tid knutet till sig. Referenstid, speciellt om variabler Skillnad mellan variabel och variabelvärde Slutligt observationsregister Dan Hedlin, Statistiska institutionen 13
Parameter Parameter (Statistisk storhet) 1. Statistiskt mått 2. Objekt 3. Värden på variabler 4. Referenstid Ex 1: Medellängd, 20-åriga män under 2016 Ex 2: Andel arbetslösa, folkbokförda, 20-25 år under en referensvecka Dan Hedlin, Statistiska institutionen 14
Målet med en undersökning är att skaffa kunskap om parametrar (fritt från kvalitetsdokumentet) Vad betyder jag/vi har kunskap om x? 1. Jag/vi har en övertygelse om x 2. Är sant 3. Finns evidens för att det är sant (fritt från Åsa Wikforss) Dan Hedlin, Statistiska institutionen 15
mål och intresse Används som prefix. Intressevariabel, målvariabel Skillnad mellan vad man skulle önska sig och vad som är möjligt att nå (nästan) Dan Hedlin, Statistiska institutionen 16
Varför skillnad mellan mål och intresse? Om variabler, till exempel: För många men likartade frågor För stor uppgiftslämnarbörda För svårt att svara på (man får inga bra svar) Dan Hedlin, Statistiska institutionen 17
Om objekt och population, till exempel: För stor uppgiftslämnarbörda Svårt eller omöjligt att kontakta Språksvårigheter Oetiskt Dan Hedlin, Statistiska institutionen 18
Tillförlitlighet Urval Ramtäckning Mätning Bortfall Bearbetning Modellantaganden Dan Hedlin, Statistiska institutionen 19
Target population, frame population, sample Frame population Overcoverage Sample Response set Target population Undercoverage Dan Hedlin, Statistiska institutionen 20
Finns mer att säga om kvalitet än bara tillförlitlighet Exempel 1: tidsserie Exempel 2: varför får vi olika bild från SCB:s skattning av arbetslöshet och Arbetsförmedlingens statistik? Exempel 3: Nationella trygghetsundersökningen rapporterar om gamla brott Är dokumentationen del av statistikens kvalitet? Dan Hedlin, Statistiska institutionen 21
Aktualitet och punktlighet Framställningstid Frekvens Punktlighet Timeliness Dan Hedlin, Statistiska institutionen 22
Tillgänglighet och tydlighet Tillgång till statistiken Presentation Dokumentation Dan Hedlin, Statistiska institutionen 23
Jämförbarhet och samanvändbarhet Jämförbar över tid och mellan grupper Samanvändbar. Kan användas tillsammans med annan statistik Dan Hedlin, Statistiska institutionen 24
Relevans och innehåll Relevans: i vilken utsträckning statistiken kan användas för bestämda syften Innehåll: utöver bild 6, även redovisningsgrupper (eng. domains) Dan Hedlin, Statistiska institutionen 25
Finns ofta konflikt mellan kvaliteten i olika komponenter Dan Hedlin, Statistiska institutionen 26
Registerstatistik Administrativa register statistikregister Skatteverket: taxeringsdata Försäkringskassan: barnbidrag, pensioner etc CSN Lägenhetsregistret Kontrolluppgiftsregistret: löner Etc I Sverige underlättas detta av personnummer Men olika sorters objekt ovan Dan Hedlin, Statistiska institutionen 27
Härledda objekt och variabler Exempel på objekt: familj. Gifta och sammanboende med barn förs samman i familjer Exempel på variabel: arbetsinkomst. Löner för samma individ men från olika kontrolluppgifter. Dan Hedlin, Statistiska institutionen 28
statistikregister Vad är det man gör? Dan Hedlin, Statistiska institutionen 29
Typiska arbetsmoment Avgränsa mängden av objekt Avgränsa själva objekten Matcha objekt från olika register Hantera dem som inte matchar Härleda objekt och variabler Koda Granska objekt och variabelvärden Skapa longitudinella register Inferens Dan Hedlin, Statistiska institutionen 30
Varför skillnad mellan urvalsundersökningar och registerbaserad statistik? Dan Hedlin, Statistiska institutionen 31
Vem är arbetslös? Arbetslös i AKU: 1. är utan arbete och 2. kan ta ett arbete och 3. aktivt sökt arbete eller avvaktar ett arbete som börjar inom 3 månader. Arbetssökande i Af: 1. Inskriven och 2. Arbetslös (arbetar < 8 timmar/vecka) eller har arbete Dan Hedlin, Statistiska institutionen 32
Vem är sysselsatt? Sysselsatt i AKU: har arbetat minst 1 timme under referensveckan eller hade ett arbete under refveckan som han eller hon var frånvarande från. Dan Hedlin, Statistiska institutionen 33
Tre kategorier i AKU: arbetslös, sysselsatt och utanför arbetskraften Definitionerna av arbetslöshet och sysselsättning är i enlighet med de riktlinjer som ges av International Labour Organization (ILO) och följer EU:s förordningar Jag har inte återgett de fullständiga definitionerna Dan Hedlin, Statistiska institutionen 34
Dessutom olika målpopulationer. AKU 15-74 år, Af 16-64 år Olika referenstider: AKU en månad (medelvärde över referensveckor), Af den sista i månaden Man ställer inte frågan i AKU är du arbetslös Dan Hedlin, Statistiska institutionen 35
Skillnad mellan AKU och Af Enligt utredning 2011 Båda ungefär 400 000 arbetslösa Men bara 250 000 av dem är samma personer AKU 400 Även i Af 250 Bara i AKU 150 Återfinns i Af:s register, dock ej som arbetslösa 20 Heltidsstuderande eller avvaktar jobb 130 Dan Hedlin, Statistiska institutionen 36
Skillnad mellan AKU och Af åt andra hållet Af 400 Även i AKU 250 Endast i Af 150 Sysselsatta i AKU (jobbade 1-7 timmar under refveckan) 75 Ej arbetslösa i AKU (inte sökt jobb på 4 veckor) 75 Dan Hedlin, Statistiska institutionen 37
Jag vill understryka att skillnaderna inte beror på att myndigheterna gör fel De har olika syften I AKU har samanvändbarhet och jämförbarhet hög prioritet Dan Hedlin, Statistiska institutionen 38
Polis och åklagare löser fler brott 3600 fler brott klarades upp under 2011 jämfört med 2010. Framgång? Ett enda ärende om dopningsbrott bokfördes som 10 990 lösta brott Örstadius (2012). Ett enda åtal vände på brottssiffrorna. Dagens Nyheter 120928 Dan Hedlin, Statistiska institutionen 39
Många dör på nyårsafton (Hagman och Thyni, 2013). Varför gör de det? Hagman och Thyni fann tre toppar i dödsorsaksregistret: Estonia Tsunamin och nyårsaftnar varje år??? Dödsfall utan rapporterad dödsdag bokförs på nyårsafton Dan Hedlin, Statistiska institutionen 40
Frågor till er 1. Redogör för följande termer: a) Ram och rampopulation b) Mål- och intressepopulation c) Under- och övertäckning d) Parameter 2. Varför kan det vara skillnad på mål- och intresseobjekt? På mål- och intressevariabel? Dan Hedlin, Statistiska institutionen 41
3. Vilka sex komponenter består tillförlitlighet av och vad betyder de? 4. Vad är jämförbarhet och samanvändbarhet? 5. Vilka andra kvalitetskomponenter finns det? 6. Varför kan olika kvalitetskomponenter stå i konflikt mot varandra? 7. Vilka typiska arbetsmoment finns det när man framstället ett statistikregister? 8. Nämn några skäl till att SCB:s statistik över arbetslöshet skiljer sig från Arbetsförmedlingens. Dan Hedlin, Statistiska institutionen 42