Jonas Gustavsson. BigData Infrastructure

Jonas Gustavsson BigData Infrastructure

Big data Fresh data Data lake

När blir data «BigData»? Är 10 GB «BigData»? Prova att maila en 10GB fil! 10GB film I ett mail

Några definitioner på «BigData» När traditionella systemen inte kan hantera datat på ett effektivs sätt»när data kommer in med hög hastighet - Velocity»När datamängderna inte kan hanteras - Volume»När datatyperna är varierande - Variety

SOM EN NÅL I EN HÖSTACK 3% of the data is identified, and only 0.5% was analyzed in 2012, leaving 97% that was ignored, but 23% has business value, Spara allt för man vet inte vad man letar efter? Getting the data you need from the data you have

External Data Lake

Hadoop for Beginner 5 Minuter kurs

BigData/Hadoop Det handlar om skalbarhet Från Google ->Yahoo ->Apache Open Source Sökning av ostrukturerad data. Write once Read Many, batchorienterat Stora mängder information som vanliga databaser inte kan hantera Lagra eller processa Måste paralelliseras! Både lagring och analys sprids ut I klustret, från 1 nod till 1000-tals Körs på std. servrar med valfritt OS ska kunna köra Java Hadoop skrivet i Java Man identifierar data (Map) och bryter det till mindre enheter (Reduce) och lagrar allt I ett gemensamt filsystem (HDFS)

De olika delarna HDFS-klient Master Node Job Tracker Name node Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS

De olika delarna Master Node Job Tracker Name node HDFS-klient HDFS NameNode Håller reda på data - Metadataserver Data Node Lagrar data -64MB Chunk - Replikerar 3 kopior Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS

De olika delarna Master Node Job Tracker Name node MapReduce Job Tracker Håller reda på jobben -Köhantering -Delar ut till rätt nod -Syncroniserar Task Tracker Utför jobbet -MapReduce -Lokalt Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS

Hadoop projects Skapat av användare som tröttnat på att skriva MapReduce kod Zookeeper Flume Hive PIG/Latin HBase Scoop MapReduce HDFS

Utmaningar OpenSource eller Enterprise Hadoop?»Extremt snabb utveckling och förändring»pivotal, Cloudera, Hortonwoorks Support, konsulting, Second opinion

Kunderna Några kundexempel BigData

Ett exempel på Big data från externa källor BigData@Hoodin

External Data lake Data lake www Input www Output www Quering Analysis

BigData@Hoodin»Analyserar andras data Lokala och Globala»Skapar ett nyhetsflöde med lokal anknytning

Hoodin - Stay in touch with you favorite places 2133 geografiska områden i Sverige (Geografiskt område är stadsdel, förort, mindre stad/by) Ca 2000 källor som screenas 24/7 Lokala och Globala Ca 500 000 sidor som screenas per dygn, Över 10 000 000 ord som analyseras Allt för att genomföra en semantisk analys i en del av vår sökalgoritm för att matcha data (artikeltext) med en geografi (något eller flera av de 2133 områdena i Sverige).

Ett exempel på Big data från interna källor BigData@Spotify

Internal Data lake Quering Analysis Output input Data lake

BigData @ Spotify Its all about Scale 40 Miljoner dagliga användare»4 Miljarder spelistor ( 4.7M heter Love )»2-3 tusen album adderas varje dag ( 2-3TB ) Rätt musik vid rätt tillfälle

BigData @ Spotify Its all about Scale 70TB logdata/dag»- Användar aktivitet, stremas via Kafka, DB-snapshots»- Indexerar nya album»- System aktivitet, syslog, servrar, nätverk, m.m 30PB totalt i Hadoopkluster 900 Servrar Casandra DB ( spellista, rekommendationer m.m )

Exempel på musikrekommendation»hadoopkörning var 3 dag, tar 24h»Användare clustras, Lyssnar på samma musik, vad lyssnar de andra på?»echo Nest DNA av Musiken»Resultat till Casandra DB Du har din egen rad

Vad gör Proact på Spotify?

Proact @ Spotify Infrastruktur Lagring och Nätverk EMC Isilon Scale Out NAS Arista Networks

Varför Isilon på Spotify? Isilon ger mycket hög nyttjandegrad (+80%) = Låg kostnad per användbar GB Enkel administration, bara OneFS inga LUNar, RAID-grupper o s v Storage admin (5% of ONE resource) HTTP, NFS, CIFS, FTP och HDFS access Prestanda skalar linjärt med antalet noder Snabb och enkel expansion

+200 Record companies Upload 2-3TB/day Amazon NFS/CIFS Ftp Ftp Stockholm HTTP 2-3000 New Albums Per day London Users NFS/CIFS 3 PB (5) HTTP Transcoding San José New York Stockholm

Arista Networks Spotify har växt snabbt, nätet har blivit en röra»rullar ut Arista Switchar i fyra DC»Densitet, prestanda/no Blocking, Bufferdjup och öppen Linuxplatform

Arista Networks @ Spotify DC-Edge 2 x 7280 100Gb/10Gb DC Edge Layer3/ECMP design Mis. Services DC Leaf Spine 3 x 7508 100Gb/40Gb/10Gb TOR Leaf 7050 10Gb/40Gb Storage & Servers

Proact BigData Infrastruktur

Analytics Pivotal Labs Hadoop/DB s - Pivotal Network- Arista Compute SuperMicro Lagring EMC Isilon

Analyser mera!