Jonas Gustavsson BigData Infrastructure
Big data Fresh data Data lake
När blir data «BigData»? Är 10 GB «BigData»? Prova att maila en 10GB fil! 10GB film I ett mail
Några definitioner på «BigData» När traditionella systemen inte kan hantera datat på ett effektivs sätt»när data kommer in med hög hastighet - Velocity»När datamängderna inte kan hanteras - Volume»När datatyperna är varierande - Variety
SOM EN NÅL I EN HÖSTACK 3% of the data is identified, and only 0.5% was analyzed in 2012, leaving 97% that was ignored, but 23% has business value, Spara allt för man vet inte vad man letar efter? Getting the data you need from the data you have
External Data Lake
Hadoop for Beginner 5 Minuter kurs
BigData/Hadoop Det handlar om skalbarhet Från Google ->Yahoo ->Apache Open Source Sökning av ostrukturerad data. Write once Read Many, batchorienterat Stora mängder information som vanliga databaser inte kan hantera Lagra eller processa Måste paralelliseras! Både lagring och analys sprids ut I klustret, från 1 nod till 1000-tals Körs på std. servrar med valfritt OS ska kunna köra Java Hadoop skrivet i Java Man identifierar data (Map) och bryter det till mindre enheter (Reduce) och lagrar allt I ett gemensamt filsystem (HDFS)
De olika delarna HDFS-klient Master Node Job Tracker Name node Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS
De olika delarna Master Node Job Tracker Name node HDFS-klient HDFS NameNode Håller reda på data - Metadataserver Data Node Lagrar data -64MB Chunk - Replikerar 3 kopior Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS
De olika delarna Master Node Job Tracker Name node MapReduce Job Tracker Håller reda på jobben -Köhantering -Delar ut till rätt nod -Syncroniserar Task Tracker Utför jobbet -MapReduce -Lokalt Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS
Hadoop projects Skapat av användare som tröttnat på att skriva MapReduce kod Zookeeper Flume Hive PIG/Latin HBase Scoop MapReduce HDFS
Utmaningar OpenSource eller Enterprise Hadoop?»Extremt snabb utveckling och förändring»pivotal, Cloudera, Hortonwoorks Support, konsulting, Second opinion
Kunderna Några kundexempel BigData
Ett exempel på Big data från externa källor BigData@Hoodin
External Data lake Data lake www Input www Output www Quering Analysis
BigData@Hoodin»Analyserar andras data Lokala och Globala»Skapar ett nyhetsflöde med lokal anknytning
Hoodin - Stay in touch with you favorite places 2133 geografiska områden i Sverige (Geografiskt område är stadsdel, förort, mindre stad/by) Ca 2000 källor som screenas 24/7 Lokala och Globala Ca 500 000 sidor som screenas per dygn, Över 10 000 000 ord som analyseras Allt för att genomföra en semantisk analys i en del av vår sökalgoritm för att matcha data (artikeltext) med en geografi (något eller flera av de 2133 områdena i Sverige).
Ett exempel på Big data från interna källor BigData@Spotify
Internal Data lake Quering Analysis Output input Data lake
BigData @ Spotify Its all about Scale 40 Miljoner dagliga användare»4 Miljarder spelistor ( 4.7M heter Love )»2-3 tusen album adderas varje dag ( 2-3TB ) Rätt musik vid rätt tillfälle
BigData @ Spotify Its all about Scale 70TB logdata/dag»- Användar aktivitet, stremas via Kafka, DB-snapshots»- Indexerar nya album»- System aktivitet, syslog, servrar, nätverk, m.m 30PB totalt i Hadoopkluster 900 Servrar Casandra DB ( spellista, rekommendationer m.m )
Exempel på musikrekommendation»hadoopkörning var 3 dag, tar 24h»Användare clustras, Lyssnar på samma musik, vad lyssnar de andra på?»echo Nest DNA av Musiken»Resultat till Casandra DB Du har din egen rad
Vad gör Proact på Spotify?
Proact @ Spotify Infrastruktur Lagring och Nätverk EMC Isilon Scale Out NAS Arista Networks
Varför Isilon på Spotify? Isilon ger mycket hög nyttjandegrad (+80%) = Låg kostnad per användbar GB Enkel administration, bara OneFS inga LUNar, RAID-grupper o s v Storage admin (5% of ONE resource) HTTP, NFS, CIFS, FTP och HDFS access Prestanda skalar linjärt med antalet noder Snabb och enkel expansion
+200 Record companies Upload 2-3TB/day Amazon NFS/CIFS Ftp Ftp Stockholm HTTP 2-3000 New Albums Per day London Users NFS/CIFS 3 PB (5) HTTP Transcoding San José New York Stockholm
Arista Networks Spotify har växt snabbt, nätet har blivit en röra»rullar ut Arista Switchar i fyra DC»Densitet, prestanda/no Blocking, Bufferdjup och öppen Linuxplatform
Arista Networks @ Spotify DC-Edge 2 x 7280 100Gb/10Gb DC Edge Layer3/ECMP design Mis. Services DC Leaf Spine 3 x 7508 100Gb/40Gb/10Gb TOR Leaf 7050 10Gb/40Gb Storage & Servers
Proact BigData Infrastruktur
Analytics Pivotal Labs Hadoop/DB s - Pivotal Network- Arista Compute SuperMicro Lagring EMC Isilon
Analyser mera!