Analysverktyg för Data Science Oberoende utvärdering Helena Ahlin Senior Data Scientist & Konsult Ferrologic Business Intelligence
Helena Ahlin Senior Data Scientist & Konsult Analytical Lead
R&D Många nya verktyg kopplat till Big Data Hadoop/Spark + Numpy (Python) Logistisk regression
Agenda Verktyg för analys Hadoop för Big Data analys SAS R Python Jämförelser och slutsatser
Verktyg för avancerad analys, globalt Den 16:e årliga KDnuggets Software-undersökningen, ca 2 800 svarande. Deltagargrad per region: USA/Kanada (41,5%), Europa (38,4%), Asien (8,2%), Latinamerika (6,3%), Australien/NZ (3,1%), Afrika/Mellanöstern (2,5%).
Verktyg för avancerad analys, lokalt Lokal undersökning: Avancerad Analys 2014/2015 Ferrologics årliga undersökning Totalt deltog 80 respondenter under perioden novemberdecember 2014
Hadoop för Big Data analys SAS Python R Hadoop
Marknadsledande inom commercial analytics space Erbjuder mängder av statistiska och analytiska funktioner Grafiskt användarsnitt (GUI) Support I detta case avser vi SAS Enterprise Miner SAS Enterprise Guide SAS Base / Stat
Open Source-mjukvara för databearbetning, statistiska beräkningar och grafisk visualisering Programmeringsbaserat Traditionellt använt inom forskning och den akademiska världen Community
Open source programspråk med stöd för bland annat objektorienterad och funktionell programmering Enkelt och intuitivt programspråk IPython Notebook Community
Fördelar med respektive program Det grafiska gränssnittet Visualisering IPython Notebook Färdiga algoritmer, noggrant testade Många olika funktioner för analys Avancerad datamanipulering i verktyget Ekosystem av färdiga moduler och paket Open source Snabb implementation av ny metodik Enkelt och intuitivt programmeringsspråk Open source Snabb implementation av ny metodik Supporten Community Community
Nackdelar med respektive program Inte Open source Skalbarhet Visualisering Ny release krävs för implementation av ny metodik Brant inlärningskurva Många komponenter för att få ihop ett helt system Användarbaserad dokumentation Tidskrävande att hitta rätt modul Utmanare till R, innehåller inget som inte redan finns i R Många komponenter för att få ihop ett helt system Användarbaserad dokumentation
Det är viktigt att frigöra tid för värdeskapande analys Teknik Värdeskapande analys Base/Stat EG/EM
Olika verktyg passar olika typer av användare Analytiker Data Scientist Tekn. DS
Mycket snabb utveckling inom avancerad analys, alla vill vara med på tåget SAS integrerar mot Hadoop och in-memory execution SAP, Oracle, IBM satsar på R just nu Ekosystemet för Hadoop står under utveckling - Spark och Ibis(Python/Cloudera) Microsoft köper Revolution Analytics och implementerar stöd för R i MS SQL Server och Azure Alla stora mjukvaruföretag finns med - vad kommer hända i framtiden?
Och vinnaren är... upp till dig och din organisation att utse! Vi på Ferrologic anser ur ett analytikerperspektiv att Man ska frigöra tid för värdeskapande analys Man ska frigöra tid för uppföljning av analysmodeller Databearbetning och integration mot produktionsmiljöer är viktigt, inte bara analysfunktionalitet Vår rekommendation är att man ser på sin organisation utifrån:
Vill du veta mer? Vi har runda-bords-samtal i Stockholm den 17 november. Anmäl dig i vår monter. Helena Ahlin, Senior Data Scientist & Konsult Helena.Ahlin@ferrologic.se