Handbok i statistisk röjandekontroll Jörgen Brewitz Ordförande i samarbetsgruppen för röjandekontroll jorgen.brewitz@scb.se ROS-seminarium den 26 mars 2015 facebook.com/statisticssweden @SCB_nyheter
ROS-handbok
Samarbetsgruppen för röjandekontroll Jörgen Brewitz, Statistiska centralbyrån (ordförande) Cathy Krüger, ROS-sekretariatet (sekreterare) Emma Luukka, ROS-sekretariatet (sekreterare) Olle Håkanson, Försäkringskassan Mats Wiklund, Trafikanalys Per Gillström, Universitetskanslersämbetet Jimmie Enhäll, Jordbruksverket Klas Unger, Energimyndigheten Jenny Johansson, Energimyndigheten Henrik Nordin, Socialstyrelsen Charlotta Sandström, Socialstyrelsen Anton Färnström, Brottsförebyggande rådet/försäkringskassan Saadia Aitattaleb, Brottsförebyggande rådet Henrik Sundström, Skolverket Helena Svensson, Skolverket Michael Carlson, konsult åt Statistiska centralbyrån
Handbok för vem och för vad? Målgrupp Alla som arbetar direkt med statistikframställning (ämnesstatistiker, metodstatistiker m.fl.) Övriga berörda (jurister, kommunikatörer m.fl.) Användningsområde Officiell statistik Övrig statistik från statistikansvariga myndigheter Övrig statistik från myndigheter Vägledning (inte absoluta krav) Konsekvent mellan myndigheter Konsekvent inom myndigheter
Vad är röjandekontroll? Röjande när en utomstående med hjälp av statistiskt material, egen bakgrundskunskap och logiska slutledningar får ny kunskap om en egenskap hos ett enskilt objekt i en population av individer, företag eller motsvarande Röjandekontroll (statistisk) metoder för att se till att inte uppgifter om enskilda individer eller företag ska gå att utläsa ur redovisad statistik eller statistiska material Behövs till följd av lagens krav och för statistikens kvalitet!
Röjandekontroll höjer kvaliteten! Statistikens tillgänglighet förbättras Uppgiftslämnarnas förtroende bevaras Borgar för god svarsfrekvens Borgar för god svarskvalitet
Statistikproduktionsprocessen
Röjandekontrollsprocessen Skadeprövning Bedömning av röjanderisk Bedömning av skaderisk Krävs skydd? Ja Nej Skyddande av data (ev. samtycke) Bedömning av kvalitet Godtagbar kvalitet? Nej Ja Åtgärd krävs Överlämna
Skadeprövning
Handbokens disposition, 1 1. Inledning 2. Röjandekontrollsprocessen 3. Juridiska förutsättningar 4. Metodmässiga förutsättningar 5. Metoder för bedömning av röjanderisk 6. Bedömning av risk för skada eller men 7. Metoder för skydd av tabeller och kartor
Handbokens disposition, 2 8. Samtycke till att efterge sekretess 9. Metoder för bedömning av informationsförlust 10. Introduktion till röjandekontroll av mikrodata 11. IT-verktyg 12. Exempel med råd om hantering 13. Förklaring av några begrepp 14. Svensk-engelsk ordlista 15. Referenser Bilaga: Begäran om samtycke till att efterge sekretess
Juridiska förutsättningar Statistiksekretessen (24 kap. 8 OSL) Sekretess gäller i sådan särskild verksamhet hos en myndighet som avser framställning av statistik för uppgift som avser en enskilds personliga eller ekonomiska förhållanden och som kan hänföras till den enskilde. Uppgift som behövs för forsknings- eller statistikändamål och uppgift som inte genom namn, annan identitetsbeteckning eller liknande förhållande är direkt hänförlig till den enskilde får dock lämnas ut, om det står klart att uppgiften kan röjas utan att den enskilde eller någon närstående till denne lider skada eller men. Straffbart att röja en uppgift Producenten (20 kap. 3 brottsbalken) Angriparen (26 lagen om den officiella statistiken)
Metodmässiga förutsättningar Objekt Typ av objekt Relaterade objekt Hierarkiska objekt Variabler Nyckelvariabler Målvariabler Totalräknade data eller urvalsdata Typ av tabeller, diagram eller kartor Frekvenstabeller Magnitudtabeller Länkade tabeller Osäkerhet Bortfall Mätfel
Glesa frekvenstabeller Kräver ofta skydd Varierar beroende på geografisk nivå Svårt och tidskrävande bedöma skaderisk Behov av enkla regler Meningsfulla? Mikrodata? Bokföring? Relevant information? Andra osäkerhetskällor? Överblick?
Metoder för bedömning av röjanderisk Tröskelvärdesregeln p %-regeln Dominansregeln (n, k)-regeln Summa lika med noll Skuggvariabler För index och förändringstal För kartdata För länkade tabeller
Bedömning av skaderisk Typ av uppgift Känslighet Detaljeringsgrad Tidsaspekter Rumsaspekter Typ av användare Användarens avsikt Offentlighet eller sekretess vid myndighet Förbehåll mot enskild
Skyddsmetoder Icke-perturbativa ( tar bort data ) Aggregering (sammanslagning) Undertryckning (primär och sekundär) Perturbativa ( ändrar data ) Avrundning Deterministisk avrundning Stokastisk avrundning Kontrollerad avrundning ABS-metoden för modifiering med slumpnycklar
Översikt över skyddsmetoder Benämning (och avsnitt) Principer Fördelar Nackdelar Aggregering (7.1) Slår ihop celler Kan enkelt skydda bra En del problem i glesa tabeller Undertryckning (7.2) Prickar celler Lättfattligt Informationsförlusten kan bli stor Avrundning (7.3) Avrundar till multipel av vald bas Begränsar informationsförlusten Konsistent endast med särskild metod Barnardisering (7.4) För frekvenstabeller. Ökar/ minskar antal med 1 Lättfattligt, konsistent inom tabeller Mindre säkert skydd, ej konsistent mellan tabeller ABS: slumpnycklar (7.4) För frekvenstabeller. Lägger på brus Konsistent mellan tabeller och mellan uttagstillfällen Nyckeln behöver passa alla tabeller; ej konsistent inom tabeller CTA: skyddsgränser (7.4) För magnitudtabeller, även frekvenstabeller. Utgår från känslighetsklassning av celler Flexibelt, minimerar informationsförlusten, konsistent inom tabeller Beror av klassningen; ej konsistent mellan tabeller PRAM, dataväxling (10.3) Ändrar i mikrodata Välkontrollerad informationsförlust; konsistent inom och mellan tabeller, och mellan uttagstillfällen Mindre lättfattligt; ändringen i mikrodata behöver anpassas till tabellplanen
Bedömning av informationsförlust
Informationsförlust vid undertryckning Antalet undertryckta celler Antalet undertryckta objekt Summan av undertryckta cellvärden Summan av undertryckta cellvärden för någon annan variabel än den för vilken värden undertrycks Transformationer av ovanstående mått, t.ex. genom att cellvikten ersätts med dess logaritm, kvadrat eller kvadratrot Cellerna får olika vikt värderade utifrån hur det kan bedömas att användarna värderar innehållet i de olika cellerna
Mera lästips
Fortsättning följer Viktigt att handboken hålls aktuell SCB gör mindre uppdateringar Arbetsgruppen för metod- och kvalitetsfrågor (MoK) har ansvaret för det fortsatta ROS-arbetet Seminarier? Annat?