Jonas Gustavsson. BigData Infrastructure

Relevanta dokument
Jonas Gustavsson. Leverans av 10PB Isilon

Big Data för Fordon och Transport! Vår Digitala Framtid, Trafikverket!! Björn Bjurling, SICS Swedish ICT, !

Klarna och Big Data. Erik Zeitler

Big Data i spelbranchen

Data Domain. Världens snabbaste Backup.

Molntjänster och molnteknologi: En ordlista

Administration / Disk Management. EC Utbildning AB

Windowsadministration II, 7.5hp, 1DV424 MODUL 6 EXCHANGE SERVER 2013 FÖRELÄSNING 2

Smarter Analytics med rätt infrastruktur

DIG IN TO Nätverksadministration

Introduktion till molntjänster Tekniken bakom molntjänster och legala utmaningar

FANS Network Meeting. SAS Platform 25/10-18

Support Manual HoistLocatel Electronic Locks

Introduktion till migrering till molnet. PART 5: Infrastruktur för molntjänster

BIG DATA FORSKNINGSCENTER

Aditro Our focus benefits yours Molnet -- Presentation

F1 SBS EC Utbildning AB

Tentamen, Distribuerade System/Programvaruarkitektur

DATAKVALITET AUTOMATISERAD. Vad händer med avvikelserna när mängden data växer exponentiellt?

Filsystem. Varför? Hur? För att kunna lagra data mer permanent än i RAM. Vettig organisation Vettiga namn

Lär dig sälja framtidens trådlösa. idag

Introduktion till migrering till molnet. PART 4: Plattformar för molntjänster

Nya möjligheter med M3 Technology. Björn Svensson, Björn Torold

Styrteknik 4.5/7.5 hp distans: Tidskretsar, räknare

FOSS4G Denver 2011 Peking 2012

ORCID medlemskap och implementering vid Chalmers

Ny skalbar och öppen OLAP-teknologi, SAS OLAP server

Låt oss ta hand om din utveckling, medan du själv utvecklar ditt företag

EVRY One Outsourcing Linköping AB. Erfaranheter av daglig drift och nyttjande av IFS Applications 8.

Vägen till det Hybrida molnet Hur byggde vi vårt hybrida moln och vad säger kunderna som har tagit steget? Jonas Emilsson Anders Jansson

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, Internet började med ARPANET


Arrow - Cloudification. Niklas Akerö Hosting/Cloud Sales Manager

F2 Exchange EC Utbildning AB

Följ med till Sri Lanka i mitten av oktober en växande hubb med många möjligheter för svenska företag.

vattenweb.smhi.se Esa Falkenroth, SMHI Molntjänster för GIS, Stockholm

Två resor till molnet. Per Sedihn CTO Proact IT Group

Styrteknik: Binära tal, talsystem och koder D3:1

Självständigt arbete på grundnivå

WooCommerce at scale

Hur utforma en strategi för användande av sociala medier? Skapa nytta och nå fram i bruset

Design Collaboration Suite

TEKNISK SPECIFIKATION. för TIDOMAT Portal version 1.7

Spara papper! Skriv inte ut sammanfattning utan ladda ner PDF!

Förändrade förväntningar

Retrieve a set of frequently asked questions about digital loans and their answers

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

Metadata och Säkerhet i SAS miljön Frida Säfström

SAS VIYA JOHAN ELFMAN ROLAND BALI

Taking Flight! Migrating to SAS 9.2!

IT för personligt arbete F2

Michael Q. Jones & Matt B. Pedersen University of Nevada Las Vegas

Nya möjligheter med extern disk

SAST Väst Prestanda test : Leverera högt verksamhetsvärde på kort tid

Lagringssystem. server. arbetsstationer. Katalog Öppettider: 09:00-17:00 alla vardagar.

Nå fler kunder och utöka ditt IT-tjänsteutbud med HPE och Ingram Micro

WWW. Exempel på klientsidan. Överföring av en html-fil. Snyggare variant. Verkligt format. Meddelandeformat för begäran HTTP

Om Apple & iphone. Pelle Snickars, KB. söndag 6 november 11

System arbetssystem informationssystem

Nyttjande av kartor och kartteknik hur ser framtiden ut? Jonas Bäckström, Sokigo AB

SharePoint 2010 licensiering Wictor Wilén

Windowsadministration II, 7.5hp, 1DV424 MODUL 5 EXCHANGE SERVER 2013 FÖRELÄSNING 1

Morgondagens arbetsplats Användarnas syn på trenderna och teknologierna som skapar den. Annsofie Petersson IDC

Intro icore Cloud Services. What about the cloud!

Datacentertjänster PaaS

Systemkrav Bilflytt 1.3

Join the Quest 3. Fortsätt glänsa i engelska. Be a Star Reader!

SOA One Year Later and With a Business Perspective. BEA Education VNUG 2006

DNSSEC Våra erfarenheter

Amazon Cloud Computing Joakim Lindbom CTO, Capgemini Sverige. Who am I? Jobbat inom Capgemini sedan 1985

Sustainable engineering and design

EFFEKTIVA PROJEKT MED WEBBASERAD PROJEKTLEDNING

Webbservrar, severskript & webbproduktion

F6 Exchange EC Utbildning AB

Daniel Akenine, Teknikchef, Microsoft Sverige

DC ++ o allt annat runt om! (en kom-i-gång guide..) Klicka på File Settings. Färdigt med konfigureringen!

GIS -en trendspaning. John Smaaland

Molntjänster för administration, utbildning och forskning. Projektplan för 2017

Inkvarteringsstatistik. Göteborg & Co

TCP/IP och Internetadressering

STADSTRENDER. Framtidens städer INTRO TRENDS THE CITY OF DESIRE DIVERSITY COLLABORATION THE CITY SOUL SUMMARY SHORT STORIES FROM BIG CITIES

Evodev AB web epost Telefon Fax

Vad är molnet? Vad är NAV i molnet? Vem passar NAV i molnet för? Fördelar med NAV i molnet Kom igång snabbt...

Övning 5 ETS052 Datorkommuniktion Routing och Networking

Övning 5 EITF25 & EITF Routing och Networking. December 5, 2017

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Swedish National Data Service

22 Användarnas hemmamappar

Designdiscipliner. Tjänstedesigner, vad gör man

OFFERT Innovativ Upphandling av Innovativ Teknik

IPTABLES från grunden. Anders Sikvall, Sommarhack 2015

LIBRIS - framtidsfrågor

Hur du utvecklar ditt företag med Unified Communications Per Björklund, Efftel,

Information Big Data Stores Machine Learning Intelligence Management and Analytics Dashboards & Visualizations

1. Revisionsinformation

Trender inom BI och analys Johan Elfman & Erik Strömgren, SAS Institute

Lösenordsportalen Hosted by UNIT4 For instructions in English, see further down in this document

1. Log on to the system using the user ide and password ide. 2. Copy the file /etc/ca-certificates.conf to the home directory of the user.

JAVASCRIPT-POWERED LOADRUNNER CHRISTIAN GERDES PERFORMANCE ENGINEER LIGHTS IN LINE AB

Psykosocial enkät. 191 svar av 354 möjliga: 54% 2014: 172 av 333 = 52% 2011: 68%

Transkript:

Jonas Gustavsson BigData Infrastructure

Big data Fresh data Data lake

När blir data «BigData»? Är 10 GB «BigData»? Prova att maila en 10GB fil! 10GB film I ett mail

Några definitioner på «BigData» När traditionella systemen inte kan hantera datat på ett effektivs sätt»när data kommer in med hög hastighet - Velocity»När datamängderna inte kan hanteras - Volume»När datatyperna är varierande - Variety

SOM EN NÅL I EN HÖSTACK 3% of the data is identified, and only 0.5% was analyzed in 2012, leaving 97% that was ignored, but 23% has business value, Spara allt för man vet inte vad man letar efter? Getting the data you need from the data you have

External Data Lake

Hadoop for Beginner 5 Minuter kurs

BigData/Hadoop Det handlar om skalbarhet Från Google ->Yahoo ->Apache Open Source Sökning av ostrukturerad data. Write once Read Many, batchorienterat Stora mängder information som vanliga databaser inte kan hantera Lagra eller processa Måste paralelliseras! Både lagring och analys sprids ut I klustret, från 1 nod till 1000-tals Körs på std. servrar med valfritt OS ska kunna köra Java Hadoop skrivet i Java Man identifierar data (Map) och bryter det till mindre enheter (Reduce) och lagrar allt I ett gemensamt filsystem (HDFS)

De olika delarna HDFS-klient Master Node Job Tracker Name node Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS

De olika delarna Master Node Job Tracker Name node HDFS-klient HDFS NameNode Håller reda på data - Metadataserver Data Node Lagrar data -64MB Chunk - Replikerar 3 kopior Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS

De olika delarna Master Node Job Tracker Name node MapReduce Job Tracker Håller reda på jobben -Köhantering -Delar ut till rätt nod -Syncroniserar Task Tracker Utför jobbet -MapReduce -Lokalt Slave Nodes Task Tracker Data node Task Tracker Data node Task Tracker Data node HDFS HDFS

Hadoop projects Skapat av användare som tröttnat på att skriva MapReduce kod Zookeeper Flume Hive PIG/Latin HBase Scoop MapReduce HDFS

Utmaningar OpenSource eller Enterprise Hadoop?»Extremt snabb utveckling och förändring»pivotal, Cloudera, Hortonwoorks Support, konsulting, Second opinion

Kunderna Några kundexempel BigData

Ett exempel på Big data från externa källor BigData@Hoodin

External Data lake Data lake www Input www Output www Quering Analysis

BigData@Hoodin»Analyserar andras data Lokala och Globala»Skapar ett nyhetsflöde med lokal anknytning

Hoodin - Stay in touch with you favorite places 2133 geografiska områden i Sverige (Geografiskt område är stadsdel, förort, mindre stad/by) Ca 2000 källor som screenas 24/7 Lokala och Globala Ca 500 000 sidor som screenas per dygn, Över 10 000 000 ord som analyseras Allt för att genomföra en semantisk analys i en del av vår sökalgoritm för att matcha data (artikeltext) med en geografi (något eller flera av de 2133 områdena i Sverige).

Ett exempel på Big data från interna källor BigData@Spotify

Internal Data lake Quering Analysis Output input Data lake

BigData @ Spotify Its all about Scale 40 Miljoner dagliga användare»4 Miljarder spelistor ( 4.7M heter Love )»2-3 tusen album adderas varje dag ( 2-3TB ) Rätt musik vid rätt tillfälle

BigData @ Spotify Its all about Scale 70TB logdata/dag»- Användar aktivitet, stremas via Kafka, DB-snapshots»- Indexerar nya album»- System aktivitet, syslog, servrar, nätverk, m.m 30PB totalt i Hadoopkluster 900 Servrar Casandra DB ( spellista, rekommendationer m.m )

Exempel på musikrekommendation»hadoopkörning var 3 dag, tar 24h»Användare clustras, Lyssnar på samma musik, vad lyssnar de andra på?»echo Nest DNA av Musiken»Resultat till Casandra DB Du har din egen rad

Vad gör Proact på Spotify?

Proact @ Spotify Infrastruktur Lagring och Nätverk EMC Isilon Scale Out NAS Arista Networks

Varför Isilon på Spotify? Isilon ger mycket hög nyttjandegrad (+80%) = Låg kostnad per användbar GB Enkel administration, bara OneFS inga LUNar, RAID-grupper o s v Storage admin (5% of ONE resource) HTTP, NFS, CIFS, FTP och HDFS access Prestanda skalar linjärt med antalet noder Snabb och enkel expansion

+200 Record companies Upload 2-3TB/day Amazon NFS/CIFS Ftp Ftp Stockholm HTTP 2-3000 New Albums Per day London Users NFS/CIFS 3 PB (5) HTTP Transcoding San José New York Stockholm

Arista Networks Spotify har växt snabbt, nätet har blivit en röra»rullar ut Arista Switchar i fyra DC»Densitet, prestanda/no Blocking, Bufferdjup och öppen Linuxplatform

Arista Networks @ Spotify DC-Edge 2 x 7280 100Gb/10Gb DC Edge Layer3/ECMP design Mis. Services DC Leaf Spine 3 x 7508 100Gb/40Gb/10Gb TOR Leaf 7050 10Gb/40Gb Storage & Servers

Proact BigData Infrastruktur

Analytics Pivotal Labs Hadoop/DB s - Pivotal Network- Arista Compute SuperMicro Lagring EMC Isilon

Analyser mera!