Statistisk röjandekontroll att visa skogen men inte träden. Qun Wang, metodstatistiker SCB Stockholm qun.wang@scb.se



Relevanta dokument
Handbok i statistisk röjandekontroll

Röjandekontroll av regional statistik om järnvägstransporter PM 2018:5

Skydd för statistikuppgifter

Statistisk röjandekontroll

Återbetalning av studiestöd 2010

24 kap. 8 offentlighets- och sekretesslagen (2009:400)

Pass 6: Forskningsjuridik

Handbok i statistisk röjandekontroll

Personuppgifter i forskning - vilka regler gäller? Eva Nilsson chefsjurist vid SCB Victoria Söderqvist jurist vid DI

Kvalitetsdeklaration Statistik om kommunala hälso- och sjukvårdsinsatser 2017

Beskrivning av statistik. Återbetalning av studiestöd 2004

Kvalitetsdeklaration Statistik om kommunala hälso- och sjukvårdsinsatser 2016

KVALITETSDEKLARATION

Kommunala hälso- och sjukvårdsinsatser till äldre personer och personer med funktionsnedsättning 2013 HS0116 och HS0117

KVALITETSDEKLARATION

Skogsentreprenörer 2011 JO0504

Skogsentreprenörer 2007 JO0504

Statistik om hälso- och sjukvårdspersonal antal legitimerade och arbetsmarknadsstatus

KVALITETSDEKLARATION. Företagsregister och individdatabas, FRIDA. Statistiska centralbyrån (7) Ämnesområde Hushållens ekonomi

STATISTIKENS FRAMSTÄLLNING

PITEÅ KOMMUNS ANVISNINGAR FÖR KVALITETSARBETE

Uppföljningsundersökning. Lärare. Teknisk rapport

POLICY FÖR HANTERING AV ETISKA FRÅGOR

Sekretesspolicy

Statistik om kommunala hälso- och sjukvårdsinsatser Innehållsförteckning. Beskrivning av statistiken HS0116 1(7) HS0116

Skogsentreprenörer 1999

KVALITETSDEKLARATION

Föreläsning G60 Statistiska metoder

Skogsentreprenörer 2006

Sysselsättningsstatistik för det storskaliga skogsbruket 2012 JO0501

Avverkningsanmälningar 2012 JO0314

Sysselsättningsstatistik för det storskaliga skogsbruket 2014 JO0501

Yttrande över utredningen Visselblåsare - Stärkt skydd för arbetstagare som slår larm om allvarliga missförhållanden, SOU 2014:31

Piteå kommuns anvisningar för undersökningar i kvalitetsarbetet

Äldre och personer med funktionsnedsättning - regiform 2014 SO0311

Kvalitetsdeklaration Statistik om socialtjänstinsatser till personer med funktionsnedsättning 2018

KVALITETSDEKLARATION Ohälsomått

Biotopskydd och naturvårdsavtal på skogsmark 2012 JO1402

Biotopskydd och naturvårdsavtal på skogsmark 2015 JO1402

STATISTIKENS FRAMSTÄLLNING

Kvalitetsdeklaration Statistik om socialtjänstinsatser till äldre 2017

Microsoft Office Excel, Grundkurs 2. Funktioner

Biotopskydd och naturvårdsavtal på skogsmark 2013 JO1402

MÄNSKLIGA RÄTTIGHETER i vår egen verksamhet

HÖGSTA FÖRVALTNINGSDOMSTOLENS DOM

Nationell lagstiftning, EU och ny teknik för utlämnande av data

Företagets primäruppgifter. Företagets kontaktinformation. Företagets kontaktperson för denna enkät

Finansiärer och utförare inom vård, skola och omsorg 2014 OE0112

Kvalitetsdeklaration Statistik om socialtjänstinsatser till äldre och personer med funktionsnedsättning efter regiform 2016

Statistik om sjukdomar behandlade i sluten vård 2015

Statistiska centralbyråns författningssamling

Hälso- och sjukvårdens verksamhet statistik om vårdtillfällen, vårdtid, operationer, läkarbesök

8 Sekretess. 8.1 Allmänt. Sekretess, Avsnitt 8 125

Användandet av E-faktura inom den Summariska processen

STATISTIKENS FRAMTAGNING

KVALITETSDEKLARATION. Studieförbund. Myndigheten för kulturanalys (7) Ämnesområde Kultur och fritid. Statistikområde Studieförbund

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Fordonsgas 2012-månadsstatistik EN0120

Omförhandling och byten av elavtal 2011 EN0305

Skogsentreprenörer 2013 JO0504

KVALITETSDEKLARATION

Kvalitetsdeklaration Statistik om vuxna personer med boendeinsatser och anhörigstöd 2016

Kvalitetsdeklaration Statistik om sjukdomar behandlade i slutenvård 2017

STATISTIKENS FRAMSTÄLLNING

Fordonsgas 2011-månadsstatistik EN0120

Förskolan Älgen, Älghagsstigen 50

Biotopskydd och naturvårdsavtal på skogsmark 2011 JO1402

Kvalitetsdeklaration Statistik om socialtjänstinsatser till personer med funktionsnedsättning 2017

Gruppenkät. Lycka till! Kommun: Stadsdel: (Gäller endast Göteborg)

Pysslingen Förskolor - Skogen, Petrejusvägen

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Skogsentreprenörer 2015 JO0504

Avverkningsanmälningar 2013 JO0314

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Automatiserad fukthaltsmätning vid bränslemottagning

Lektionsanteckningar 11-12: Normalfördelningen

JURIDIKEN SOM MÖJLIGGÖR REGISTERBASERAD FORSKNING

Företagsregister och individdatabas, FRIDA 2008 HE0105

KVALITETSDEKLARATION

Energipriser på naturgas och el 2008 EN0302

Bortfall Konsekvenser Varför det kan vara allvarligt med bortfall. Ann-Marie Flygare Metodstatistiker, SCB

Intjänad pensionsrätt i den allmänna pensionen 2015 SF0302

DOM Meddelad i Stockholm

Från: Kent Sangmyr och Charlene Holmström Datum: 9 maj 2012 Angående: Utredning angående regelverket kring vårdens intyg till Försäkringskassan

Utökad bibliotekssekretess

Svensk författningssamling

Övergång gymnasieskola högskola

Linjärprogramming. EG2205 Föreläsning 7, vårterminen 2015 Mikael Amelin

STATISTIKENS FRAMSTÄLLNING

DOM Meddelad i Stockholm

Kommunal familjerådgivning - mängduppgifter Referensår 2009 SO0206

Anmälan av personuppgiftsincident

Användandet av E-faktura inom verksamheten betalningsföreläggande

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Gruppenkät. Lycka till! Kommun: Stadsdel: (Gäller endast Göteborg)

A Allmänna uppgifter... 5

Förskolan Månen, Loviselundsvägen

Skador och förgiftningar behandlade i sluten vård HS0112

Bromma Enskilda skola förskola, Mossvägen

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE

Transkript:

Statistisk röjandekontroll att visa skogen men inte träden Qun Wang, metodstatistiker SCB Stockholm qun.wang@scb.se

Statistisk Röjandekontroll Vad? Varför? Hur?

Vad är problemet Individ/ Företag Lämna Samla Data ägare Pulicera mottar Data Masking Process Skyddad Data Konfidentialitet av Individ Data användbarhet Röjande Risk Information förlust Samhället External Data Forskare Använda data för att göra analys Angripare identifiera enskild röja kofidentiella information REF: Traian Marius Truta DIMACS Tutorial 3

Varför är det ett problem? Etiska aspekter Uppgiftslämnarnas förtroende --Kvalitet av data --Svarsfrekvens Juridiska skäl 4

Juridiska Bakgrunder Tryckfrihetsförordningen -- allmänhetens rätt att få tillgång till offentliga handlingar -- del av den svenska grundlagen sedan 1766 Offentlighets- och sekretesslagen (2009:400) -- regelverk som styr om hur uppgifter får lämnas ut Lagen (2001:99) och förordningen (2001:100) om den officiella statistiken --Sekretess gäller i sådan särskild verksamhet hos myndighet som avser framställning av statistik för uppgifter som avser enskilds personliga eller ekonomiska förhållanden och som kan hänföras till den enskilde 2015-11-25 5

Statistisk röjandekontroll av tabeller

Definition Ett röjande föreligger när en angripare med hjälp av statistiskt material t.ex. tabeller eller avidentifierade filer egen bakgrundskunskap och logiska slutledningar, med eller utan maskinell hjälp, får ny kunskap säker eller med viss sannolikhet om känsliga egenskaper hos enskilda objekt.

Olika typer av röjande Röjande av identitet Om man med säkerhet kan säga att en viss individ motsvaras av just denna uppgiftslämnare. Själv-identifiering Röjande av attribut Att med säkerhet få reda på något nytt om någon individ/företag Attributröjande följer av identitetsröjande förutsatt att det finns något nytt i data 8

Olika typ av tabeller Frekvenstabell

Magnitudtabell Total investment No.of emp NACE code A B C Total 10-49 12 477 34 346 1 135 47 958 50-249 34 547 41 231 1 312 77 090 250+ 7 598 2 314 987 10 899 Total 54 622 77 891 3 434 135 947

Magnitudtabell Total investment No.of emp NACE code A B C Total 10-49 12 477 34 346 1 135 47 958 50-249 34 547 41 231 1 312 77 090 250+ 7 598 2 314 987 10 899 Total 54 622 77 891 3 434 135 947 Företag A med värde 29 452 >85% av celltotal Företag B Med värde 3 876 34 547 3 876 = 30 671

Riskmått Risken bedöms för varje enskild cell: Frekvenstabeller Tröskelvärdesregler Magnitudtabeller Dominansregler: (n,k) -regeln p % -regler Summa = 0 12 12

Tröskelvärdesregler Risk för identifiering eller självidentifiering: 1. Cellen är inte säker om 0 < frekvens < t I där tröskelvärdet t I är minst lika med 3 Risk för attributröjande: 2. Marginalen är inte säker om 0 < summa < t IA där tröskelvärdet t IA är minst lika med 3 och kan vara lika med t I 13 13

Exempel med t I = 3

Dominansregeln (n,k) -regeln En cell där summan av bidragen från n eller färre objekt tillsammans står för mer än k procent av cellvärdet betraktas som osäker x( 1)... x( n) där X är celltotalen. k 100 X 15 15

Dominansregeln: exempel Två celler med vardera 3 objekt. Cell 1: {59,40,1} = 100 Cell 2: {61,20,19} = 100 Om t.ex. n = 1 och k = 60 används så är (enligt regeln) cell 2 en riskcell, men inte cell 1. Om t.ex. n = 2 och k = 90 används så är cell 1 en riskcell, men inte cell 2. Kombination av båda (eller fler) krävs typiskt.

p %-regeln Det ska inte gå att göra en alltför exakt uppskattning av ett enskilt objekts värde. Objekt som tillhör samma cell har störst chans att röja varandras värden. I synnerhet har objektet med det näst största värdet störst möjlighet att röja det största värdet. En cell betraktas som känslig om bidraget från ett objekt kan uppskattas närmre än p procent av objektets värde, dvs. X x (2) x (1) p 100 x (1) 17 17

p % -regeln: exempel Hur nära kan objekt nr 2 uppskatta objekt nr 1? Cell 1: {59,40,1} = 100 Cell 2: {61,20,19} = 100 Övre gräns som ligger för nära det sanna värdet Cell 1: 100 40 = 60; värdet för objekt nr 1 60 Motsvarar p = 1/59 = 1.7 % Cell 2: 100 20 = 80; värdet för objekt nr 1 80 Motsvarar p = 19/61 = 31.1 % Övre gräns som ligger tillräckligt långt bort från det sanna värdet

Summa = 0 Antag att responsvariabeln är icke-negativ. Om summan i en cell är noll (0) då måste samtliga objekt som tillhör cellen ha värdet noll. Alltså behövs en kompletterande regel, Zero unsafe rule: Om cellvärdet = 0 så är cellen osäker 19 19

Skydd mot röjande - metoder Non-perturbative : - Slå ihop redovisningsnivåer - Dölja cellvärden Perturbative : - Avrunda cellvärden - Addera brus

Dölja cellvärden Primärundertryckning: undertryck riskceller. Sekundärundertryckning: undertryck ytterligare celler för att undvika härledning med hjälp av marginalerna. Ofta kombineras undertryckning och aggregering 21

Exempel Undertryckning Omsättning netto, mkr Antal anställda Näringsgren 1 2 3 Totalt 0-19 64 209 12 518 4 414 81 141 20-49 3 071 11 679 2 257 17 007 50-99 1 391 9 677 1 994 13 062 100-249 4 967 14 022 2 941 21 930 250-26 916 83 009 2 999 112 924 Totalt 100 554 130 905 14 605 246 064

Exempel Undertryckning Omsättning netto, mkr Antal anställda Näringsgren 1 2 3 Totalt 0-19 64 209 12 518 4 414 81 141 20-49 [1077,4462] 3 071 11 679 [866,4251] 2 257 17 007 50-99 [0,3385] 1 391 9 677 [0,3385] 1 994 13 062 100-249 4 967 14 022 2 941 21 930 250-26 916 83 009 2 999 112 924 Totalt 100 554 130 905 14 605 246 064 Primär undertryckning Sekundär undertryckning

Undertryckning och aggregering 24

Undertryckning och aggregering Slå ihop kategorierna 1-5 till en kategori -5 25

Avrunda cellvärden Okontrollerad (unrestricted) avrundning Deterministisk Slumpmässig Kontrollerad (controlled) avrundning 26

Okontrollerad avrundning Inget villkor att avrundade cellvärden i tabellens innanmäte ska summeras till avrundade marginalvärden Deterministisk: cellvärden avrundas till närmsta multipel av en vald bas b Slumpmässig: cellvärden avrundas uppåt med sannolikhet p och neråt med sannolikhet 1-p proceduren göras väntevärdesriktig: låt p bero av cellvärdet välj p så att väntevärdet för en cell = originalvärdet 27

Deterministisk avrundning Cellvärden avrundas till närmaste multipel av lämpligt vald bas b. Ex. b = 5: avrundade värden (originalvärden) Ålder Kvinnor Män Totalt 16-29 0 (1) 10 (8) 10 (9) 30-49 25 (27) 25 (26) 55 (53) 50-15 (16) 20 (22) 40 (38) Totalt 45 (44) 55 (56) 100 (100) -Tabellerna är inte garanterat additiva 28 28

Okontrollerad slumpmässig avrundning Väntevärdesriktigt sannolikhetsschema för slumpmässig avrundning av små värden: Sannolikhet Ursprungligt värde 0 1 2 3 p(avrunda till 0) 1 2/3 1/3 0 p(avrunda till 3) 0 1/3 2/3 1 - Tabeller blir inte nödvändigtvis additiva 29 29

Kontrollerad avrundning Tabellerna garanterat additiva Komplexa metoder syftet är att minimera informationsförlusten Kräver särskild programvara 30

Skadebedömning Det måste bedömas i vilken utsträckning ett röjande medför skada eller men för de berörda objekten - Vilka kan röjas? - Vad är det som röjs? - Hur ska det exponeras? - Kan vi mäta skadan?

Behöver uppgiften skyddas? Värdering av den nya, känsliga informationen ålder, inkomst för 5 år sedan, sexuell läggning Vad är precisionen i informationen? exakt, intervall, sannolikheter Vilka kommer att ta del av informationen? enstaka forskare, journalist, offentlig handling Hur stor skada/men kan drabba den som röjs? ett företag missade en stor affär en person blir utpekad som skattefuskare

Exempel Jag känner en manlig läkare som är runt 30 i kommun A Av en händelse ser jag följande tabell: Tabell x: Läkare i Kommun A Ålder Kön 25-39 40-59 60+ Män 1 4 3 Kvinnor 2 3 2 Identifiering! Jag ser alltså att det bara finns en manlig läkare som är runt 30 i hela kommun A. Jaha 33

Än sen då? En vecka senare får jag tag i annan tabell: Tabell x: Snittlön för läkare i Kommun A Ålder Kön 25-39 40-59 60+ Män 40 tkr 54 tkr 63 tkr Kvinnor 43 tkr 53 tkr 57 tkr Två veckor senare läser jag i tidningen att en 32-årig manlig läkare i kommun A misstänks för narkotikabrott. 34

Informationsförlust Hur användbart är ett skyddat material? Varje åtgärd som avser att minska röjanderisken medför att informationen minskar!

Informationsförlust Ex. med undertryckning (även andra metoder) Riskceller identifieras och skyddas Måste skydda ytterligare celler. Vilka? Optimeringsproblem: välj den lösning som kostar minst information (kräver mjukvara) 37

Informationsförlust baserad på cellvikter vid undertryckning Antal celler: 162 Antal icke-tomma celler: 119 - Riskceller: 14 - Sekundärundertryckta: 25 Totalt undertryckta: 39 (33 %) Återstår (säkra): 80 (67 %) 38

Informationsförlust baserad på cellvikter vid undertryckning Antal individer: 256 338 - Antal i riskceller: 61 - Sekundärundertryckta: 40 328 Totalt undertryckta: 40 389 (16 %) Återstår (säkra): 215 944 (84 %) Responssumma: 520 203 558 - Summa i riskceller: 55 376 - Sekundärundertryckta: 54 036 342 Totalt undertryckt: 54 091 718 (10 %) Återstår (säkra): 466 111 840 (90 %) 39

Undertryckning och aggregering Slå ihop kategorierna 1-5 till en kategori -5 Antal celler: 126 (162) Antal icke-tomma celler: 105 (119) - Riskceller: 1 - Sekundärundertryckta: 3 Totalt undertryckta: 4 (4 %) Återstår (säkra): 101 (96 %) 40

Tack för att ni lyssnade!