Statistisk röjandekontroll att visa skogen men inte träden Qun Wang, metodstatistiker SCB Stockholm qun.wang@scb.se
Statistisk Röjandekontroll Vad? Varför? Hur?
Vad är problemet Individ/ Företag Lämna Samla Data ägare Pulicera mottar Data Masking Process Skyddad Data Konfidentialitet av Individ Data användbarhet Röjande Risk Information förlust Samhället External Data Forskare Använda data för att göra analys Angripare identifiera enskild röja kofidentiella information REF: Traian Marius Truta DIMACS Tutorial 3
Varför är det ett problem? Etiska aspekter Uppgiftslämnarnas förtroende --Kvalitet av data --Svarsfrekvens Juridiska skäl 4
Juridiska Bakgrunder Tryckfrihetsförordningen -- allmänhetens rätt att få tillgång till offentliga handlingar -- del av den svenska grundlagen sedan 1766 Offentlighets- och sekretesslagen (2009:400) -- regelverk som styr om hur uppgifter får lämnas ut Lagen (2001:99) och förordningen (2001:100) om den officiella statistiken --Sekretess gäller i sådan särskild verksamhet hos myndighet som avser framställning av statistik för uppgifter som avser enskilds personliga eller ekonomiska förhållanden och som kan hänföras till den enskilde 2015-11-25 5
Statistisk röjandekontroll av tabeller
Definition Ett röjande föreligger när en angripare med hjälp av statistiskt material t.ex. tabeller eller avidentifierade filer egen bakgrundskunskap och logiska slutledningar, med eller utan maskinell hjälp, får ny kunskap säker eller med viss sannolikhet om känsliga egenskaper hos enskilda objekt.
Olika typer av röjande Röjande av identitet Om man med säkerhet kan säga att en viss individ motsvaras av just denna uppgiftslämnare. Själv-identifiering Röjande av attribut Att med säkerhet få reda på något nytt om någon individ/företag Attributröjande följer av identitetsröjande förutsatt att det finns något nytt i data 8
Olika typ av tabeller Frekvenstabell
Magnitudtabell Total investment No.of emp NACE code A B C Total 10-49 12 477 34 346 1 135 47 958 50-249 34 547 41 231 1 312 77 090 250+ 7 598 2 314 987 10 899 Total 54 622 77 891 3 434 135 947
Magnitudtabell Total investment No.of emp NACE code A B C Total 10-49 12 477 34 346 1 135 47 958 50-249 34 547 41 231 1 312 77 090 250+ 7 598 2 314 987 10 899 Total 54 622 77 891 3 434 135 947 Företag A med värde 29 452 >85% av celltotal Företag B Med värde 3 876 34 547 3 876 = 30 671
Riskmått Risken bedöms för varje enskild cell: Frekvenstabeller Tröskelvärdesregler Magnitudtabeller Dominansregler: (n,k) -regeln p % -regler Summa = 0 12 12
Tröskelvärdesregler Risk för identifiering eller självidentifiering: 1. Cellen är inte säker om 0 < frekvens < t I där tröskelvärdet t I är minst lika med 3 Risk för attributröjande: 2. Marginalen är inte säker om 0 < summa < t IA där tröskelvärdet t IA är minst lika med 3 och kan vara lika med t I 13 13
Exempel med t I = 3
Dominansregeln (n,k) -regeln En cell där summan av bidragen från n eller färre objekt tillsammans står för mer än k procent av cellvärdet betraktas som osäker x( 1)... x( n) där X är celltotalen. k 100 X 15 15
Dominansregeln: exempel Två celler med vardera 3 objekt. Cell 1: {59,40,1} = 100 Cell 2: {61,20,19} = 100 Om t.ex. n = 1 och k = 60 används så är (enligt regeln) cell 2 en riskcell, men inte cell 1. Om t.ex. n = 2 och k = 90 används så är cell 1 en riskcell, men inte cell 2. Kombination av båda (eller fler) krävs typiskt.
p %-regeln Det ska inte gå att göra en alltför exakt uppskattning av ett enskilt objekts värde. Objekt som tillhör samma cell har störst chans att röja varandras värden. I synnerhet har objektet med det näst största värdet störst möjlighet att röja det största värdet. En cell betraktas som känslig om bidraget från ett objekt kan uppskattas närmre än p procent av objektets värde, dvs. X x (2) x (1) p 100 x (1) 17 17
p % -regeln: exempel Hur nära kan objekt nr 2 uppskatta objekt nr 1? Cell 1: {59,40,1} = 100 Cell 2: {61,20,19} = 100 Övre gräns som ligger för nära det sanna värdet Cell 1: 100 40 = 60; värdet för objekt nr 1 60 Motsvarar p = 1/59 = 1.7 % Cell 2: 100 20 = 80; värdet för objekt nr 1 80 Motsvarar p = 19/61 = 31.1 % Övre gräns som ligger tillräckligt långt bort från det sanna värdet
Summa = 0 Antag att responsvariabeln är icke-negativ. Om summan i en cell är noll (0) då måste samtliga objekt som tillhör cellen ha värdet noll. Alltså behövs en kompletterande regel, Zero unsafe rule: Om cellvärdet = 0 så är cellen osäker 19 19
Skydd mot röjande - metoder Non-perturbative : - Slå ihop redovisningsnivåer - Dölja cellvärden Perturbative : - Avrunda cellvärden - Addera brus
Dölja cellvärden Primärundertryckning: undertryck riskceller. Sekundärundertryckning: undertryck ytterligare celler för att undvika härledning med hjälp av marginalerna. Ofta kombineras undertryckning och aggregering 21
Exempel Undertryckning Omsättning netto, mkr Antal anställda Näringsgren 1 2 3 Totalt 0-19 64 209 12 518 4 414 81 141 20-49 3 071 11 679 2 257 17 007 50-99 1 391 9 677 1 994 13 062 100-249 4 967 14 022 2 941 21 930 250-26 916 83 009 2 999 112 924 Totalt 100 554 130 905 14 605 246 064
Exempel Undertryckning Omsättning netto, mkr Antal anställda Näringsgren 1 2 3 Totalt 0-19 64 209 12 518 4 414 81 141 20-49 [1077,4462] 3 071 11 679 [866,4251] 2 257 17 007 50-99 [0,3385] 1 391 9 677 [0,3385] 1 994 13 062 100-249 4 967 14 022 2 941 21 930 250-26 916 83 009 2 999 112 924 Totalt 100 554 130 905 14 605 246 064 Primär undertryckning Sekundär undertryckning
Undertryckning och aggregering 24
Undertryckning och aggregering Slå ihop kategorierna 1-5 till en kategori -5 25
Avrunda cellvärden Okontrollerad (unrestricted) avrundning Deterministisk Slumpmässig Kontrollerad (controlled) avrundning 26
Okontrollerad avrundning Inget villkor att avrundade cellvärden i tabellens innanmäte ska summeras till avrundade marginalvärden Deterministisk: cellvärden avrundas till närmsta multipel av en vald bas b Slumpmässig: cellvärden avrundas uppåt med sannolikhet p och neråt med sannolikhet 1-p proceduren göras väntevärdesriktig: låt p bero av cellvärdet välj p så att väntevärdet för en cell = originalvärdet 27
Deterministisk avrundning Cellvärden avrundas till närmaste multipel av lämpligt vald bas b. Ex. b = 5: avrundade värden (originalvärden) Ålder Kvinnor Män Totalt 16-29 0 (1) 10 (8) 10 (9) 30-49 25 (27) 25 (26) 55 (53) 50-15 (16) 20 (22) 40 (38) Totalt 45 (44) 55 (56) 100 (100) -Tabellerna är inte garanterat additiva 28 28
Okontrollerad slumpmässig avrundning Väntevärdesriktigt sannolikhetsschema för slumpmässig avrundning av små värden: Sannolikhet Ursprungligt värde 0 1 2 3 p(avrunda till 0) 1 2/3 1/3 0 p(avrunda till 3) 0 1/3 2/3 1 - Tabeller blir inte nödvändigtvis additiva 29 29
Kontrollerad avrundning Tabellerna garanterat additiva Komplexa metoder syftet är att minimera informationsförlusten Kräver särskild programvara 30
Skadebedömning Det måste bedömas i vilken utsträckning ett röjande medför skada eller men för de berörda objekten - Vilka kan röjas? - Vad är det som röjs? - Hur ska det exponeras? - Kan vi mäta skadan?
Behöver uppgiften skyddas? Värdering av den nya, känsliga informationen ålder, inkomst för 5 år sedan, sexuell läggning Vad är precisionen i informationen? exakt, intervall, sannolikheter Vilka kommer att ta del av informationen? enstaka forskare, journalist, offentlig handling Hur stor skada/men kan drabba den som röjs? ett företag missade en stor affär en person blir utpekad som skattefuskare
Exempel Jag känner en manlig läkare som är runt 30 i kommun A Av en händelse ser jag följande tabell: Tabell x: Läkare i Kommun A Ålder Kön 25-39 40-59 60+ Män 1 4 3 Kvinnor 2 3 2 Identifiering! Jag ser alltså att det bara finns en manlig läkare som är runt 30 i hela kommun A. Jaha 33
Än sen då? En vecka senare får jag tag i annan tabell: Tabell x: Snittlön för läkare i Kommun A Ålder Kön 25-39 40-59 60+ Män 40 tkr 54 tkr 63 tkr Kvinnor 43 tkr 53 tkr 57 tkr Två veckor senare läser jag i tidningen att en 32-årig manlig läkare i kommun A misstänks för narkotikabrott. 34
Informationsförlust Hur användbart är ett skyddat material? Varje åtgärd som avser att minska röjanderisken medför att informationen minskar!
Informationsförlust Ex. med undertryckning (även andra metoder) Riskceller identifieras och skyddas Måste skydda ytterligare celler. Vilka? Optimeringsproblem: välj den lösning som kostar minst information (kräver mjukvara) 37
Informationsförlust baserad på cellvikter vid undertryckning Antal celler: 162 Antal icke-tomma celler: 119 - Riskceller: 14 - Sekundärundertryckta: 25 Totalt undertryckta: 39 (33 %) Återstår (säkra): 80 (67 %) 38
Informationsförlust baserad på cellvikter vid undertryckning Antal individer: 256 338 - Antal i riskceller: 61 - Sekundärundertryckta: 40 328 Totalt undertryckta: 40 389 (16 %) Återstår (säkra): 215 944 (84 %) Responssumma: 520 203 558 - Summa i riskceller: 55 376 - Sekundärundertryckta: 54 036 342 Totalt undertryckt: 54 091 718 (10 %) Återstår (säkra): 466 111 840 (90 %) 39
Undertryckning och aggregering Slå ihop kategorierna 1-5 till en kategori -5 Antal celler: 126 (162) Antal icke-tomma celler: 105 (119) - Riskceller: 1 - Sekundärundertryckta: 3 Totalt undertryckta: 4 (4 %) Återstår (säkra): 101 (96 %) 40
Tack för att ni lyssnade!