BIG DATA Myran i Skogen Magnus Wåhlberg SAVE (Sektionen för AudioVisuella och Elektroniska handlingar) 2014-10-21---22
Exempel CERN LHC (1 promille av 300 GB/s ger 25 PB/år) Google Translate (EU-språk Engelska)
Vad är Big Data? (1) 1. Maskinell analys av gigantiska ostrukturerade datamängder. 2. Visar samband som hittas i data. 3. Visar inte varför samband finns. Myran i skogen Roboten i luftballongen
Vad är Big Data? (2) Allt bygger på sannolikheter. Inget absolut rätt eller fel. Fuzzy data och sannolika sammanhang. Ger möjlighet att ge prognoser. Det är sannolikt med 67% att... Big Data är en del i ett pågående paradigmskifte (Thomas Kuhn). En effekt av en pågående teknikmässig singularitet.
AI + Data Samples = Big Data AI Stora ostrukturerade data samples Korrelationsanalys Genetiska algoritmer (Neurala nätverk) M2M Maskiner skapar data som analyseras av andra maskiner! Big Data Beslutsträd
Analogt skapad data Digitalt skapad data Kunskapstillväxt inom teknik + naturvetenskap Paradigmskifte 1: Datamässig singularitet ca. 2000 1960 2014 Paradigmskifte 2: Teknikmässig singularitet (ex. digitalteknik, nano, robot, AI, genteknik, internet, cyborg, virtual reality, rymdteknik,...)
Exempel på andra pågående paradigmskiften (1) Paradigmskifte 3: Minskade jordbruksarealer pga GW och överutnyttjande. Paradigmskifte 4: Resursbrist för vatten, jordartsmetaller... Paradigmskifte 5: Energiomställning från fossila energislag till fusion, vätgas, solceller, geotermisk och vindkraft.
Exempel på andra pågående paradigmskiften (2) Paradigmskifte 6: Den uppkopplade cybernetiska människan. Paradigmskifte 7: Nya material, kemikalier och ämnen tillförs ekosystemen pga okontrollerad teknisk singularitet. Paradigmskifte 8: Förändringar av matproduktionen. Lokalt producerad ekologisk mat? Mindre konsumtion av kött.
Paradigmskifte 2 Den pågående tekniska singulariteten Övergång från analog lagring till digital. Papper och analog film blir museiföremål. Virtualisering. Distansering via sociala medier. Ständig uppkoppling. Den digital skuggan av personen. Exponentiell datatillväxt. Ökad data sampling Artificiell Intelligens. Big Data!
Kan man långtidslagra gigantiska ostrukturerade datamängder? - Det ursprungliga datat är ett urval från verkligheten. - Därefter urval ur det ursprungliga datat. - Tillförande av metadata (för presentation, förvaltning, återsökning). - Tvätta? Konvertera? Transformera? Parallell lagring? (Jmf idén om ursprungligt skick ) - Kontextuell information? (Parallella språk, dokumentation...)
Exempel: En gigantisk hemsida med kopplingar till en blandning av system... Gör ett a) urval eller b) lagra en ostrukturerad röra? Tillför metadata för a) förvaltning, tolkning och återsökning eller b) använd AI för återsökning? Datatvätt? Informationskvalitet? Ursprungligt skick? Kan kontextuell information tillföras?
Hur påverkas arkivsektorn av Big Data och den digitala epoken? Papper slutas att produceras/levereras. Arkivkonsumenten förväntar sig att allt finns på nätet. Förskjutning från gallring till bevarande. Ursprungligt skick är en fiktion. Att välja bilden av verkligheten. Integritetsfrågor blir mer komplexa. Ex. samkörning av data. Lagstiftning är inte anpassad för teknologisk singularitet. Ex. Utgivningsbevis från Myndigheten för radio och tv sätter PUL ur spel.
Den personliga integriteten och Big Data Möjlighet att statiskt förutsäga människors och människogruppers beteende... Försäkring. Kreditvärdighet. Bostad. Kriminalitet. Åsikter. Religion, filosofi, facklig tillhörighet, sexuella preferenser.. Konsumtionsmönster. Vem samlar och skapar personliga data? Har staten, transnationella företag och globala ägare samma intressen som dig?
Vad skulle hända om de globala finansiella och handelsmässiga förbindelserna kollapsar under säg 10 år... IT-hårdvara och mjukvara? Vad händer då med den digitalt lagrat information? Rester på papper, pergament, sten, mikrofilm... Utskrift av kunskap på metallskivor, sten, placera på månen, skriv ut på mikrofilm eller papper?