Statistics from databases, visualization and new media December 2 kl 5-7 Stockholm University Master Program in Statistics http://gauss.stat.su.se/master/statdatabaser.shtml Alf Fyhrlund Mailto: Independent Consultant CV: http://www.linkedin.com/in/alffyhrlund
Data Mining definition "the nontrivial extraction of implicit, previously unknown, and potentially useful information from data" /many examples of definitions, e.g in Wikipedia
Ma nu sc rip ts es t i s eb W CDs Spreadsheets Ch ar ts Pri nt & PD Fs
Cube of dissemination Statistics databases Publications Depth Production database Width
Dataterminologi Makrodata: statistik Metadata beskrivningar och förklaringar som man behöver för att förstå och använda statistiken på rätt sätt Mikrodata: enskilda observationer som kan summeras till statistik enligt användarens önskemål inom ramen för gällande sekretessregler
SCB: registersystem (mikrodata) Registersystemet och olika Statistikansvariga Myndigheter Personregister utanför SCB t.ex. Lagfördaregistret, Brottsförebyggande rådet (BRÅ) Patientregistret, Socialstyrelsen Barnregistret Ekonomiskt bistånd Fordon - privatägda Förmögenhetsregistret Utbildningsregistret Inkomst- och taxering Folk och Bostadsräkningar Sysselsättningsregistret Befolkningens studiedeltagande Linda, longitudinellt inkomstregister Lisa, longitudinellt välfärdsregister Lucas, utb.-arbete, longitudinellt Flergenerationsregistret Fruktsamhetsregistret Geografidatabas Fastighetsprisregistret Moderniseringsregistret Nybyggnadsregistret Småhusregistret Hyreshusregistret Industrifastigheter Lantbruksfastigheter Lägenhetsregistret Fastighetsregister utanför SCB t.ex. Lantmäteriverkets register Aktivitetsregister utanför SCB t.ex. Arbetsskaderegistret register på Riksförsäkringsverket och Arbetsmarknadsstyrelsen Befolkningsregistret Fastighetsregistret Aktivitetsregistret Företagsregistret Svenska för invandrare Komvux Gymnasieskolan Årskurs 9-registret Lärarregistret Universitets- och högskoleregistret Kontrolluppgifter Privatanställda, löner Landstingspersonal, löner Kyrkokommunal personal, löner Primärkommunal personal, löner Statsanställda, löner Yrkesregistret Stand. räkenskapsutdrag, FRIDA Skattedeklarationer Mervärdesskatteregistret Utrikeshandelsregistret Fordon - organisationsägda Lantbrukets företagsregister Registret för företagsstatistik Skolregistret-utbildningsställen Kommunregistret Företagsregister utanför SCB t.ex. Patentverkets register och register hos Statens jordbruksverk
Varför statistikdatabas? Allt på ett ställe Strukturerad lagring Lätt att hitta tabeller Flexibla uttagsmöjligheter Redigeringsmöjligheter Koppling till metadata Kontaktperson för varje tabell
OECD.stat
Data Mining on the Internet Statistics Sweden Database United Nations Database OECD Statistics OECD.stat Eurostat Database Google Advanced
Uppgifter. 2. 3. Ta fram konsumentprisändring och BNPtillväxt för Sverige från FN:s, OECD:s, Eurostat och Sveriges statistikdatabaser eller annan publicering för de senaste fem åren Jämför de olika källornas resultat och diskutera orsaker till eventuella skillnader Ge exempel på fördelar och nackdelar med de olika databaserna utifrån ett användarperspektiv
Hur överför vi statistik till kunskaper?. Mikrodata
Exempel på källa:
Pnr Födelseår Kön Födelse DispInk9 ForvInk9 SyssStat9 DispInk9 ForvInk9 SyssStat9 DispInk92 ForvInk92 SyssStat92 land 948 8 2 98 2 3 974 2 4 985 2 5 978 2 979 7 974 8 978 9 983 9 2 985 2 935 3 93 2 4 972 2 5 98 977 7 977 2 8 98 2 9 958 9 2 979 2 947 2 22 982 2 23 984 24 97 25 92 2 924 74 245 5 975 77 399 2 59 55 742 895 577 55 72 48 983 4 2 75 42 54 94 74 27 88 73 84 33 5 799 9 829 274 238 5 8 35 28 5 5 5 5 842 34 3 99 7 475 3 48 72 833 27 8 98 97 3 53 85 9 778 52 859 92 2 745 72 9 79 5 892 57 43 97 87 7 5 5 5 5 89 327 4 8 752 75 479 9 758 84 9 74 745 87 932 5 527 72 92 783 732 92 952 22 759 82 9 3 25 987 2 58 39 55 3 3 5 25 5 5 5 5
Hur överför vi statistik till kunskaper?. Mikrodata 2. Tabeller som redovisar fakta
83 Folkmängd efter kön, civilstånd och ålder i ettårsklasser den 3 december 24 Population by sex, civil status and age by single years Gifta Married Ålder Ogifta Age Single Män Men Kvinnor Women Män Kvinnor Änklingar, änkor2 Widowed 2 Skilda3 Divorced 2 Män Män Kvinnor Hela antalet Total Kvinnor Levande födda Live births År Year Antal Number 25 2 27 28 29 5 95 48 39 48 45 47 885 47 954 45 28 42 34 4 8 39 7 39 4 3 248 4 9 5 885 7 3 9 953 834 8 225 3 2 892 5 8 3 4 3 8 9 4 2 29 42 285 394 52 73 999 749 959 77 49 935 7 25 4 79 7 495 375 5 88 979 978 977 97 975 9 255 93 248 9 57 98 345 3 32 3 3 32 33 34 47 2 44 485 42 4 45 3 995 37 973 34 94 32 99 3 84 28 75 3 94 5 479 8 25 2 445 2 455 9 387 2 824 24 225 25 952 2 9 7 8 4 23 28 48 44 74 5 4 2 589 953 2 382 2 934 2 5 2 894 3 5 4 4 4 2 9 2 237 23 57 24 9 2 237 974 973 972 97 97 9 874 9 3 2 273 4 484 5 35 3 37 38 39 34 587 34 35 28 34 238 32 55 2 92 2 354 2 2 25 24 242 23 27 25 47 28 3 29 7 3 447 27 39 29 275 3 4 32 54 32 43 39 37 7 83 7 27 22 22 293 3 432 4 5 44 5 772 48 5 39 328 7 2 7 927 8 989 2 357 2 274 33 3 35 5 35 72 99 98 97 9 95 7 22 3 87 2 3 23 354 22 8
Hur överför vi statistik till kunskaper?. Mikrodata 2. Tabeller som redovisar fakta 3. Tabeller som visar mönster
Tvåvägsindelade Befolkningen -4 år efter tabeller utbildning och kön, tusental Utbildning Kön Kvinnor Män Grundskola Gymnasium Högskola 824 93 573 9 95 578 Medellön efter utbildning och kön Tusentals kronor per månad Utbildning Kön Kvinnor Män Grundskola Gymnasium Högskola 9.2 2. 2.3 22.3 24. 34.8
Hur överför vi statistik till kunskaper?. Mikrodata 2. Tabeller som redovisar fakta 3. Tabeller som visar mönster 4. Diagram som visar mönster
Bild 5. Medellön efter kön och utbildning 25 Tvåvägsindelade Befolkningen -4 år efter Medellön efter utbildning och kön tabeller utbildning och kön, tusental Tusentals kronor per månad Utbildning Kön Utbildning Kön Kvinnor Män Kvinnor Män Grundskola Gymnasium Högskola 824 9 Grundskola 93 95 Gymnasium 573 578 Högskola 9.2 22.3 2. 24. 2.3 34.8 Tusentals kronor per månad 4 Kvinnor Män 3 2 Grundskola Gymnasium Högskola Utbildning
Bild 5. Medellön efter kön och utbildning 25 Tvåvägsindelade Befolkningen -4 år efter tabeller utbildning och kön, tusental Medellön efter utbildning och kön Tusentals kronor per månad Utbildning Kön Utbildning Kvinnor Män Grundskola Gymnasium Högskola 824 9 Grundskola 93 95 Gymnasium 573 578 Högskola Kön Kvinnor Män 9.2 22.3 2. 24. 2.3 34.8 Tusentals kronor per månad 4 Kvinnor Män 3 2 Grundskola Gymnasium Högskola Utbildning Detta är statistisk grafik mönster i data visualiseras Stillbilder: Diagram Rörliga bilder: Animeringar Syfte: Att överföra statistik till kunskaper Statistik metodik för detta? Statistisk kvalitet?
Hur överför vi statistik till kunskaper? Statistik metodik för detta? Det finns etablerad metodik men hur många känner till metodiken? Statistisk kvalitet?
Hur överför vi statistik till kunskaper? Statistik metodik för detta? Darrel Huff: Hur man ljuger med statistik Diagram viktigt, du får inte ljuga! Edward Tufte:The Visual Display of Quantitative Information Ingenting får störa, ta bort allt onödigt: Above all else show the data! William Cleveland: The Elements of Graphing Data Perception, vad uppfattar ögat? Trellis Displays (multivariat) Make the data stand out! Wallgren et al: Statistikens bilder Bygger på Tuftes och Clevelands principer Datamaterialets (tabellens) struktur avgör val av diagramtyp
Malta Ungern Luxemburg Litauen Lettland Cypern Italien Frankrike 25-74 år Sverige Finland Slovakien Slovenien Rumänien Portugal Polen Österrike Nederländerna 5-24 år Spanien Grekland Irland Estland Tyskland Danmark Tjeckien Bulgarien Belgien Euro området EU-27 Diagram utan budskap Bild 7. Andel arbetslösa 2 för olika åldersgrupper Procent 35 3 25 2 5 5
Diagram med budskap
Gapminder
Google Public Data Explorer From:The Mathematics Blog Google Public Data Explorer is really a great tool of practice and exploration if you are doing a course in descriptive statistics. It is a sort of Google Maps plus. Plus data. It does certain things that WolframAlpha does but interactive and with more data. You can even embed data that you created with this tool in your own webpages or reports. The Google Public Data Explorer makes large datasets easy to explore, visualize and communicate. As the charts and maps animate over time, the changes in the world become easier to understand. You don't have to be a data expert to navigate between different views, make your own comparisons, and share your findings. Try it yourself here:http://www.google.com/publicdata/home
Updating through blog and RSS Weblog Sweden Statistics Google Reader Blog about Stats
Bloggen Sweden Statistics är ett exempel på hur man kan extrahera och visualisera statistik Information och data ansluter till sociala medier-funktionalitet Informationsflödet i blogglistan är konstruerat med Google Blogger widgets "Senaste sökresultat om Eurostat och Sverige" finns fördefinierade söktermer Universell sökning är kombinerad med snävare sökning av destinationer beroende på hur bloggen är organiserad Rulla och visa information från olika nyhetsmedia kontinuerligt genom en widget. Omfattningen och funktionalitet kommer att testas och utvecklas. Se även http://blogstats.wordpress.com/?s=sponsorship och http://www.scb.se/pages/standard 39.aspx
Blogging exercise http://maststat.blogspot.com/