Klarna och Big Data. Erik Zeitler erik.zeitler@klarna.com



Relevanta dokument
Jonas Gustavsson. BigData Infrastructure

Jonas Gustavsson. Leverans av 10PB Isilon

Big Data i spelbranchen

Kvalitetsarbete I Landstinget i Kalmar län. 24 oktober 2007 Eva Arvidsson

Information Big Data Stores Machine Learning Intelligence Management and Analytics Dashboards & Visualizations

SAS VIYA JOHAN ELFMAN ROLAND BALI

Analysverktyg för Data Science Oberoende utvärdering

Ankarmodellering L A R S R Ö N N B Ä C K

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

Inkvarteringsstatistik. Göteborg & Co

Affärsmodellernas förändring inom handeln

Country presentations of Big data and analytics

Mis/trusting Open Access JUTTA

HÅLLBAR STADSBYGGNAD. Hur gör man - och var gör man vad?

Kvalitetssäkra ditt projekt med kontinuerlig integration

Artificiell Intelligens den nya superkraften

DNSSEC Våra erfarenheter

Förskola i Bromma- Examensarbete. Henrik Westling. Supervisor. Examiner

Enterprise App Store. Sammi Khayer. Igor Stevstedt. Konsultchef mobila lösningar. Teknisk Lead mobila lösningar

App analytics TDP028


Flervariabel Analys för Civilingenjörsutbildning i datateknik

GÖRA SKILLNAD. om vikten av hållbar produktion och om hur den kan skapas. Bengt Savén Södertälje Science Park,

Swerea IVFs erbjudande med fokus på stora datamängder. Linda Olofsson

Protokoll Föreningsutskottet

Faster time to action and more accurate pre-studies using Agile tooling

Adding active and blended learning to an introductory mechanics course

Mutability och State. Objekt-orienterad programmering och design (DIT953) Niklas Broberg / Johannes Åman Pohjola, 2018

DI Studio nyheter

Flytta din affär till molnet

Utveckla samarbete inom avdelningen. Utveckla samarbetet. mini workshop! i butikens ledningsgrupp. Grid International AB. Grid International AB

Taking Flight! Migrating to SAS 9.2!

SweLL & legal aspects. Elena Volodina

Webbplats analys cite4me.org

Välkommen in på min hemsida. Som företagsnamnet antyder så sysslar jag med teknisk design och konstruktion i 3D cad.

Implementationsstrategier för PLCS

SCRATCH är ett nytt programmeringsspråk som gör att du kan skapa dina egna interaktiv historier, animationer, spel, musik och konst.

Smart Industri Digitaliseringens möjligheter - Investering i Kompetens Göteborg Torsten Nordgren Director Future Factory and Business

Tomas Borg, konsult, SAS Institute Elin Rydell, konsult, SAS Institute Copyright 2003, SAS Institute Inc. All rights reserved.

Från extern till intern på tre dagar Erfarenheter från externa lärares pedagogiska kompetensutveckling

FANNY AHLFORS AUTHORIZED ACCOUNTING CONSULTANT,

Om oss DET PERFEKTA KOMPLEMENTET THE PERFECT COMPLETION 04 EN BINZ ÄR PRECIS SÅ BRA SOM DU FÖRVÄNTAR DIG A BINZ IS JUST AS GOOD AS YOU THINK 05

Arkitektur. Den Röda Tråden

SOA One Year Later and With a Business Perspective. BEA Education VNUG 2006

Eternal Employment Financial Feasibility Study

Big Data för Fordon och Transport! Vår Digitala Framtid, Trafikverket!! Björn Bjurling, SICS Swedish ICT, !

Linköpings universitet 1 TDP029. Systemutveckling. Systemutveckling. Vanliga faser. Fler faser. Systemutvecklingsmetod

OPEN NETWORKED LEARNING EN ÖPPEN KURS FÖR KOLLABORATIVT LÄRANDE ONLINE I SAMVERKAN MELLAN LÄROSÄTEN

Workplan Food. Spring term 2016 Year 7. Name:

Kanban är inte din process. (låt mig berätta varför) #DevLin Mars 2012

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

Scaled Agile Framework

Flytta din affär till molnet

2.1 Installation of driver using Internet Installation of driver from disk... 3

DevOps i Verkligheten

Immigration Bank. Bank - General. Bank - Opening a bank account. Can I withdraw money in [country] without paying fees?

Fokus Yrkesutbildning VO

The present situation on the application of ICT in precision agriculture in Sweden

PDM Implementation & Change Management /FRN

Presentation. Fredrik Runnsjö 1996 Utvecklare 2004 Testare ~2006 Scrum/Canban

Hur utforma en strategi för användande av sociala medier? Skapa nytta och nå fram i bruset

Trender inom BI och analys Johan Elfman & Erik Strömgren, SAS Institute

Creo Customization. Lars Björs

The road to Recovery in a difficult Environment

DATAKVALITET AUTOMATISERAD. Vad händer med avvikelserna när mängden data växer exponentiellt?

Varför gör vi det här?

strategiskkommunikation-ability-sthlm

Tekniskt system för Lean Startup

Beijer Electronics AB 2000, MA00336A,

Senaste trenderna från testforskningen: Passar de industrin? Robert Feldt,

Tänder din grill på sextio sekunder. Lights your grill in sixty seconds.

Politikerdag 2013 Från GIS till Geografisk förståelse. Lars Backhans

What Is Hyper-Threading and How Does It Improve Performance

CHEMICAL KEMIKALIER I MAT. 700 miljoner på ny miljöteknik. Rester i mer än hälften av alla livsmedel

BIG DATA ARKITEKTURER

Copyright 2003, SAS Institute Inc. All rights reserved.

Förändrade förväntningar

D-RAIL AB. All Rights Reserved.

Open Source - Utmaningar och fördelar

Användning av modeller som ett verktyg för dialog i vattenförvaltning. Lotta Andersson, Svenska IHP kommittén (SMHI)

Läkemedelsverkets Farmakovigilansdag

TRENDERNA SOM FORMAR DIN VERKLIGHET 2014 ÅRETS IT AVDELNING

Kunskapsbank ICARUS DB

Problem som kan uppkomma vid registrering av ansökan

Materialplanering och styrning på grundnivå. 7,5 högskolepoäng

Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.

8% 6% 4% 2% 0% -2% -4% -6% -8% p. BNP IT-budget

COPENHAGEN Environmentally Committed Accountants

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Smarter Analytics med rätt infrastruktur

Testdriven utveckling. Magnus Jonsson Siemens Medical Solutions

Intellektuell )llgångsinventering En bra start på EU- projekt. Anna Aspgren & Lena Holmberg Innova)onskontor Väst

PROCESSUTVECKLING IT ITIL FÖRBÄTTRAT ÄRENDEHANTERINGSSYTEM ANVÄNDARANVISNING

Chapter 1 : Who do you think you are?

GADD Software en introduktion

LÖNEN ETT EFFEKTIVT SÄTT FÖR ÖNSKAD PRESTATION - ENDA FÖRUTSÄTTNINGEN FÖR KONKURRENSKRAFT I EN GLOBAL VÄRLD!

Transkript:

Klarna och Big Data Erik Zeitler erik.zeitler@klarna.com

Innehåll Presentation Klarna och Big Data Klarnas data infrastructure team Lambdaarkitekturen

Erik Zeitler Disputerade på dataströmhanteringssystem 2011 scsq-plr: Linear Road Benchmark 600 500 400 300 200 100 0 1 1.5 2.5 5 64 512 Google 2007 Sedan 2012 tech lead på Klarna

Volume Velocity Variety Veracity How many TB?

Volume Velocity Variety Veracity How many MB per second? How fast must we respond on new data?

Volume Velocity Variety Veracity How many data sources? How is data represented? How do we need to process the data?

Volume Velocity Variety Veracity Har informationen tillräcklig kvalitet? Can I trust the data? Fraud, Typo, Measurement error, data model violations

Big Data-tillämpningar på Klarna Hur vi använder big data för att skapa enkla och trygga betalningar Ett par exempel: Säkerhetsbedömning vid köp Förbättra conversion rate Vad leder till köpbeslut? Målet: win-win för konsument och e-handlare

Automatisk säkerhetsbedömning vid köp

Conversion rate A/B-testning Hur interagerade e-handlaren med Klarna Checkout? Förlorade vi konsumenter? När? Kan vi förhindra det? Hur informerar vi bäst konsumenterna om våra villkor?

Automatisera insikterna

Klarna Data Infrastructure Team Startade hösten 2012 På min inrådan: Förbättra Klarnas datahantering Analyserbart Skalbart Automatiserbart Bygger, underhåller och anpassar Data Vault Cloudera Hadoop i produktion sedan december 2012 En av Klarna Internal Core Services 9 pers (1 DM, 1 SE/SM, 2 SE/TL, 5 SE) Handleder exjobb regelbundet Aktiva i Klarnas Technical Advisory Board Assisterar med data science, bygga transformationer Aktiviteter utanför Klarna: open source-bidrag, föredrag

HDFS MapReduce Ecosystem Hive Hadoop: Open Source-system för hantering av Big Data Data warehouse: Extended subset of SQL Batch SQL execution Pig: Data flow language eats all Hadoop streaming: Massively parallel shell script HBase: distributed k/v store with versioning and Time-To-Live Oozie: scheduler of batch jobs Flume: distributed, reliable, and available data collection + aggregation Sqoop: Batch input/output of RDBMS data Mahout: Machine Learning Hadoop Security: Kerberos! Google GFS + MapReduce publicerades 2004 Yahoo byggde open source Hadoop 2005

Plan Hadoop är ett stort ekosystem Struktur? Krav och arkitektur ger form Skalbart Klarna har aggressiva tillväxtambitioner Robust Användarfel, hårdvarufel Spårbart Lätt att felsöka undvik mörk materia Lättanvänt Analytiker ska själva snabbt kunna utveckla och produktionssätta Compliant Följa lagar och avtal för datahantering

Data Vault: Klarnas Hadoopsystem RDBM S Data Modellers Risk Analysts Business Analysts Data Scientists MQ MQ > 2 år i produktion > 100 TB flera diskkrascher 0 problem!

Data Vault: Klarnas Hadoopsystem RDBM S MQ MQ transformation DB

Data Vault: Klarnas Hadoopsystem RDBM S DB MQ MQ

1. Lambdaarkitektur Robust. Brutalt robust! En förutsättning för 2...6 2. Versionshantering av indata Evolution hos datakällorna Implementation 3. Versionshantering av transformationer Spårbarhet, jämförbarhet 4. Paketering av transformationer Enkelhet i utveckling 5. Testning av transformationer Analytikerna felsöker själva, tar bättre ansvar för felfri kod 6. Fortlöpande leverans av transformationer Snabbt i produktion med uppdateringar Produktivitet, kvalitetssäkring, kontinuerlig förbättring

λfundamenta

Mutability Ändringar i data är tillåtet Risk för fel Kund Skuld Kund Skuld Erik 1000 Pelle 500 Erik 10000 Pelle 500

Immutability CRUD Bara Create och Read Ändringar är inte tillåtna. Bara Händelser! Fånga alla händelser i en logg Varje händelse motsvarar en förändring Kan alltid återställa Feltolerans! Kund Tidpunkt Köp Erik 1337328000 1000 Pelle 1337522000 500 Kund Tidpunkt Köp Erik 1337328000 1000 Pelle 1337522000 500 Erik 1354796000 9000

Mutable: tabell Immutable: händelselogg

Mutable: tabell Immutable: händelselogg + materialiserade vyer!

Mutable: tabell Immutable: händelselogg + materialiserade vyer!

Indatasilor Indata är källan till sanning Varje indatahändelse är oföränderlig!

Recomputation Räkna alltid om allt från början. Då blir det lättare att bygga transformationer. Då blir det färre fel! Transformation = funktion(all data)

Transformation Materialiseradvy transformation Materialiserad vy Varje materialiserad vy räknas regelbundet om från början över oföränderliga händelser

Immutability + Recomputation Oföränderliga händelser + Räkna alltid om allt från början Inga transformationer skadar indata Jättelätt att skriva transformationer, lätt att felsöka!

Versionshanterade transformationer + λ flera transformationer parallellt!

Kapacitetsproblem? Köp fler datorer!

Immutability + Recomputation + Versioning + Distributed Infrastructure 1. Oföränderliga händelser 2. Räkna alltid om allt från början 3. Versionshanterade transformationer 4. Stor datorkapacitet Inga transformationer skadar indata Jättelätt att skriva nya transformationer, lätt att felsöka Blir det fel i den nya transformationen, återanvänd den gamla Tunga transformationer över stora datamängder går snabbt Klarnas analytiker kan obehindrat produktionssätta nya transformationer. Utan vår inblandning!

Integritetsfrågor för Klarna Avtal Inte ge bort eller sälja vidare data Regler Persondata, riskbedömningar, köpdata Bokföringslagen m.m. Datainspektionen, Finansinspektionen Privacy By Design Data Vault har Retention policy för varje datakälla HBase: Time To Live för varje rad Pågående arbete: Storskaligt syntetiskt data för utveckling

Teamet igen 9 pers (1 DM, 1 SE/SM, 2 SE/TL, 5 SE) Handleder exjobb regelbundet Svårt hitta arbetskraft Måste lära upp juniora Aktiva i Klarnas Technical Advisory Board Data Vault interagerar med alla Klarnas avdelningar och tjänster Assisterar med data science, bygga transformationer Icke-trivial verksamhet Fortlöpande arbete: Automatisera och underlätta för användarna Aktiviteter utanför Klarna: open source-bidrag, föredrag Ny teknik vi har allt att vinna på idéutbyte

Var står vi nu? Really motivates me to do even more with Hadoop at Klarna. We are in the best possible spot to make our data work. It is super awesome that our risk team releases new versions of the transformations themselves.