Visual Analytics från en SAS-programmerares perspektiv Niklas Schulman, Customer Care 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Huvudpunkter Visual Analytics och SAS-format Peka-klicka, programmera eller mittemellan SAS Stored Process i VA-rapporter Nyhet: IMSTAT for Hadoop 2 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
SKRIVBORDSKLIENTER SAS Management Console WEBBASERADE KLIENTER Hub Explorer Designer Viewer Data Builder Administrator METADATA- SERVER MIDTIER- SERVER WORKSPACE- SERVER BLADMILJÖ IN-MEMORY STORE SAS LASR ANALYTIC SERVER Hadoop HDFS MOBILA KLIENTER ipad Android Hadoop RDBMS Icke-relationellClick Stream PC Files 3 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Visual Analytics och SAS-format + Snabbare laddning till HDFS + Minskning av diskanvändning i HDFS + Snabbare laddning till LASR + Enorm minskning av minnesanvändning (ibland) + Alltså, snabbare analys - Längre tid för dataprepp 4 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Visual Analytics och SAS-format Ett exempel: Tabelloperation Utan användardefinerat format Kopiera till HDFS 60 minuter 8 minuter Ladda till LASR (från HDFS) 45 minuter 20 sekunder Filstorlek i HDFS 263 GB 41 GB Minnesanvändning på arbetarnoder 37 GB 6 GB med användardefinerade format (efter dataprepp) 5 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Visual Analytics och SAS-format Formaten laddas till en XML-fil när de upptäcks av SASIOLA-engine och PROC LASR Fokusera på kolumner med låg kardinalitet (< 5.000) Högre kardinalitet kommer att göra XML-filen otymplig och orsaka seghet Fokusera även på kolumner med bredd > 4 6 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Visual Analytics och SAS-format Den dåliga nyheten för SAS-programmerare detta kan (såklart) automatiseras med egenbyggda uppgifter och transformationer i EG och DI Studio. 7 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Peka-klicka, programmera eller mittemellan Visual Analytics Designer Visual Analytics Explorer SAS-programmering Kraftfullt Kontroll/flexibilitet Mer overhead Kräver större kunskap Svårunderhållet LASR Server (HDFS etc) EG/DI Studio Bekant Lättunderhållet Kräver större kunskap Visual Data Builder Lättanvänt Något begränsat Källdata 8 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Peka-klicka, programmera eller mittemellan 9 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Peka-klicka, programmera eller mittemellan libname sasiola proc lasr proc hplogistic proc imstat Etc 10 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Peka-klicka, programmera eller mittemellan 11 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
SAS Stored Process i VA-rapporter 12 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
SAS IMSTAT* for Hadoop * Namn ej klart GUI PROGRAMMERING SAS Visual Analytics (Analytiker) SAS Visual Statistics (Statistiker) IMSTAT* for Hadoop (Statistiker, programmerare, databehandlare/data scientists, analysexperter) Dataprepp Visualisering Modellering Deployment 13 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
SAS IMSTAT* for Hadoop * Namn ej klart Data Management SAS Data Step BALANCE COLUMINFO COMPUTE DELETEROWS DISTINCT DROPTABLE FETCH GROUPBY PARTITION PROMOTE PURGETEMPTABLES SCHEMA SCORE SET TABLE UPDATE Deployment SCORE MODEL DEPLOYMENT DATA MANAGEMENT & EXPLORATION ANALYTICAL LIFECYCLE MICS. EXTERNAL (C API) FREE REPLAY SAVE STORE MODEL DEVELOP- MENT Data Exploration BOXPLOT CORR CROSSTAB DISTRIBUTIONINFO FREQUENCY HISTOGRAM KDE MDSUMMARY PERCENTILE SUMMARY TOPK Predictive Modeling ASSESS DECISIONTREE FORECAST GENMODEL GLM LOGISTIC OPTIMIZE RANDOMWOODS Text Analytics Parsing SVD Topic generation Document projection Recommender CLUSTER KNN Associations SVD Descriptive Modeling CLUSTER Associations 14 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
SAS IMSTAT* for Hadoop 15 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
SAS IMSTAT* for Hadoop LASR Analytic Server på Hadoop SAS Server ~ BASE, ODS, Access to Hadoop,LASR IMSTAT, RECOMMEND SAS WebOne/SAS Studio HTML 5, modern kodmiljö 16 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
SAS IMSTAT* for Hadoop proc imstat; tableinfo; run; table lasr.test; columninfo; partitioninfo; table lasr.test; fetch / from=1 to=5 format; data test; set... run; proc imstat data=lasr.test2; boxplot temp1 / tn=(temp1); boxplot temp1 temp2 / tn=(temp1 temp2); run; quit; run; table lasr.test2; distinct _all_ / save=tab1; 17 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE
Det var allt! Niklas Schulman 18 2 DECEMBER 2013 2013 COPYRIGHT SAS INSTITUTE