Johan Södergren & Nicklas Ahlroth 2012-10-09
Innehåll Detta är ICA Detta är ICA IT Services Event och monitoring en bakgrund Eventprocessen och roller Verktyg, integrationer och anpassningar Hur mäter vi och utvecklar Eventprocessen Utvecklingsplan Event och verktyg 2
Detta är ICA 3
Vision Vi ska göra varje dag lite enklare. Mission Vi ska bli det ledande detaljhandelsföretaget med fokus på mat och måltider. 4
Affärsmodellen ger intäkter från flera håll ICA Sverige Leveranser till ICA-butikerna Försäljning av tjänster till ICA-butikerna ICA Sverige Royalty och/eller vinstdelning Från slutkunderna genom MAXI Special Bank Varu- och tjänsteförsörjning 56,5% ICA Sverige ICA Sverige ICA Norge ICA Norge 0,7% 2,4% 40,4% Butiker Rimi Baltic Fastigheter ICA Norge Leveranser till franchisebutikerna Försäljning av tjänster till franchisebutikerna Bank Försäljning av finansiella tjänster Andra aktörers nyttjande av bankens infrastruktur Fastigheter Fastighetsförvaltning Fastighetsförsäljning Rimi Baltic Via helägda butiker ICA Norge Franchiseavgifter och via helägda butiker 5
Stort butiksnät i fem länder Region Antal butiker 31 december 2011 Sverige 1 334 Norge 550 Estland 82 Lettland 111 Litauen 46 TOTALT 2 123 6
Två ägare med gemensamt inflytande Hakon Invest AB Royal Ahold N.V. 40% 60% ICA AB 9
Detta är ICA IT Services 10
ICA IT Services Personal 500 anställda och 100 konsulter Stockholm, Västerås och Borås Plattformar och miljöer: IBM System z (driftas av Volvo IT) IBM System i (driftas av Logica) Unix servers ~ 600 st Windows servers ~ 1400 st Oracle och MSSQL DB ~ 1500 st IBM WAS och Oracle WebLogic ~ 600 st Egenutvecklade affärssystem skall bytas ut mot Larger Footprint Oracle 11
Applications ICA Sweden Service Management Service Availability Center Organisation Operations Operational Security Conny Richardsson Service Availability Center Timo Iso SAC Processes Joakim Anuell Incident Management Change Management Release Management Problem Management Configuration Management Handover Event Management Availability Management SAC Tools Joakim Anuell HP Tools - Monitoring - CMS - APM - ITSM Service Availability 24/7 Kristina Johansson Skift 1 Skift 2 Skift 3 Skift 4 Skift 5 Skift 6 12
Event och monitoring - en bakgrund 13
Event och monitoring -Vad har gjorts? IBM Tivoli implementation 24/7 organisation etablerad Monitoring and Event projekt startas Eventgenomgång för infrastrukturkomponenter Djupare eventgenomgång för 11 utvalda kritiska applikationer 2000 2008 2009 2010 2011 HP Operations implementation HP OMW HP BAC EUM/SLM HP NNM HP SiteScope Event process implementerad Generell eventgenomgång för 223 applikationer Events uppdaterade för 80 applikationer 14
Related processes Asignee Monitoring tool 24/7 Eventprocessen och roller 15
Event management - roller Process manager Har ett direkt, hands-on ansvar för den detaljerade processdesignen, uppföljning av processen och det dagliga arbetet med processen. Arbetar också med processförbättringar. Group manager/förvaltningsledare Följer upp arbetet med events och är ansvarig för att processen implementeras och efterlevs i sin respektive grupp/förvaltningsorganisation. Event owner Technical Owner/Product Owner Beställer och äger eventspecifikationen, bidrar därmed med input till aktiviteten Event configuration. Är ansvarig för att förvalta event och tillhörande instruktioner så att övervakningen och informationen alltid är korrekt. Är ansvarig för att följa upp kvaliteten på eventet och förbättra om nödvändigt. Event coordinator 24/7 First line för alla events, mottar och utför en första analys av eventet. Vidarebefordrar till rätt resurs för lösning. Assignee Löser events enligt instruktioner och följer upp om åtgärden var effektiv. Vidarebefordrar event till annan åtgärdsgrupp om det inte går att lösa. Har ett stort ansvar att logga vilka åtgärder som utförs i Service Manager! Stänger eventet när det är löst. Rollen innehas av diverse resurser i organisationen. Event configuration manager Tar fram och underhåller event configuration policies och guidelines. Faciliterar granskningsmöten och är ansvarig för att övervakning implementeras. Agerar som stöd till Event owner. 16
Eventflödet 24/7 24/7 Assignee Assignee Event uppstår Event fångas och bearbetas av HP OM Event mottas och analyseras av Event coordinator PM skapas i Service Manager Event löses enligt instruktion eller egen analys Event stängs 17
Beställningsflödet Event owner Gå igenom incidenter som har inträffat den senaste tiden. Skulle några ha kunnat undvikas mha event? Finns det manuella rutiner och kontroller som man förlitar sig på för att kontrollera systemets status? Kan några av dessa flyttas över till HP OM? Gå igenom inofficiella larm, dvs hur blir man notifierad idag om något är fel i applikationen? Kan exempelvis vara mail, sms, loggfil osv. Kan något av detta flyttas över till HP OM? Gå igenom tidigare Problems för att hitta idéer till nya events. Gå igenom krav inför kommande releaser, kan något krav innebära en risk för incidenter när det implementeras? Behövs det då sättas upp en övervakningspunkt? Gå igenom befintliga loggfiler för att se om det finns något felmeddelande som kan vara lämpligt att skapa events på. Gå igenom eventuella BAC-mätningar och fundera på om något larm skulle kunna generas därifrån. Gå igenom befintlig övervakning i HP OM med syfte att kontrollera relevans, severity, prioritering och att instruktioner finns och är tydliga. Event owner Event Event embryo embryo Event Event embryo embryo Event owner Gransknings protokoll Event configuration manager 24/7 Event owner Tool administrator Idéer till och ej klara event beställningar Pågående arbete med event beställningar Förgranskning av event beställningar Kvalitetssäkring av event beställning Implementation av events i produktionsmiljö Event implementerat och färdigt Service Order Event beställning (OPS instruktion) (BAC -> HP OM beställning) Intern beställning Event beställning (OPS instruktion) Granskningsprotokoll 18
Verktyg, integrationer och anpassningar 19
Verktyg Produkt HP Operations Manager Server - Windows 2 servers varav en är fokalpunkt för alla larm HP Operations Manager Agents ~2000 st HP SiteScope HP BAC HP NNM HP ucmdb 1 server ~ 200 points 2 servers (1 GW och 1 DP) ~ 80 st applikationer ~300 st EUM transaktioner 2 servers ~ 5000 noder 1 server 20
Monitoring modell och lager HP Operations Manager Server & Console HTTPS agent Incident WS SNMP HP Agents HP NNM HP SiteScope HP BAC HP SIM Oracle EM Microsoft SCOM ICA Incident WS webmethods Applications Web and Application servers IBM WAS, Oracle WebLogic etc Integration webmethods, Oracle SOA etc Databases MS SQL, Oracle and MySQL OS Windows, Solaris, AIX and Linux Storage IBM Tapelibraries, EMC, IBM TSM Backups etc Network routers and switches 21
HP OM Integrationer och anpassningar HP Service Manager Incident CMDB Open incident Incident Info ICA Event Knowledge Database Acknowledge Message Event enrichment with CI-information Additional event information and ops-instructions HP Operations Manager Server & Console 22
HP OM Event Enrichment Vi berikar HP OM larm med följande CMDB CI-information om hosten: Environment type (Production, Test, Development, Verification) Status (Active, Planned, Retired) Area (Mat, Bank) Servertype (Unix, Windows) Applikationslarm är idag hårdkodade med namnet på den applikation som larmet berör. Läggs in som CMA attribut 23
ICA Event Knowledge DB Berikar larmet med information: Varför vi har denna övervakning Vad som hänt Första åtgärd för operatören Andra åtgärd för operatören Möjlighet att kunna skapa HP ServiceManager ticket Ändra Prio-nivå Assignement group Operator Text Hämta 24
ICA Event Knowledge Database Launch Tool ICA Event Knowledge DB 25
ICA Event Knowledge Database - exempel 26
Hur mäter vi och utvecklar Eventprocessen 29
Event management Hur vi mäter Implementerade mätningar Täckningsgrad Hur stor del av alla hostar och applikationer övervakas. Lösningstider event kontra användarrapporterade Antal öppnade / stängda varningar Procentuell del av prioritet 1 samt prioritet 2 incidenter som initieras från events. Antal dubblettregistreringar 30
Event management Vad kan vi se? 31
Procentuell fördelning prio 1 och 2 incidenter Event vs. användarinitierade incidenter 4 mån. Åtgärdsgrupp Fördelning Network 47,62% Storage 100% Microsoft 10,34% Integration 93,26% AOB 82,14% EMS 96,3% Total 66,42% 32
Hur utvecklar och driver vi Event framåt Problemutredningar Vilka larm fick vi? Vilka borde vi fått? Rätt instruktioner? Handover och projekt Säkerställa larm och instruktioner Möten med 24/7 Kommande produktionssättningar Förbättringsförslag på larm, rutiner, instruktioner, verktyg Avstämningar mellan 24/7 och åtgärdsgrupper Regelbundna förvaltningsmöten med plattformsgrupper Förbättringsförslag på larm, rutiner, instruktioner, verktyg Event genomgångar med applikationsförvalntningar 33
Event management review 34
Event management review 35
Event management review 36
Event management EMS Assortment 37
Goda exempel ICA.se Vad vi övervakar och mäter Plattformsövervakning MS Windows server MS IIS MS SQL Network Teknisk applikationsövervakning Portping Windows Services NAS konnektivitet GSA funktionalitet Windows Eventlog Funktionell applikationsövervakning (HP BAC) 37 EUM transaktioner varav 25 går förbi lastbalanserare HP BAC HP OM larm på felande transaktioner 39
Goda exempel ICA.se Procentuell fördelning event vs. användarrapporterade incidenter 24/7 lösningsandel Prio 1: 50% Prio 2: 42% Prio 3:18% Prio 4: 70% 40
ICA.se ICA.se är: 74% snabbare än medelapplikationen på att lösa prio 1 incidenter 58% snabbare än medelapplikationen på att lösa prio 2 incidenter 22% långsammare än medelapplikationen på att lösa prio 3 incidenter 74% snabbare än medelapplikationen på att lösa prio 4 incidenter Hur kom de dit? Relevant monitorering Goda instruktioner till 24/7 Kontinuerlig utveckling av events & instruktioner BAC larm 41
Utvecklingsplan Verktyg och process 42
Utvecklingar Impact on. Impaktanalys av event ( och change) Symptom & Cause Impact & Urgency Mer stöd av SLA:er vid arbete med events Ny version av ICA Event Knowledge DB Mätning av hur stor del av alla middleware (databaser, WAS etc) övervakas 43
HP Roadmap Integration diagram No. of Open Incidents, Change and Problems KPI BSM Incidents Exchange OMi and SM Launch capabilites SM CI Sync 1 Applications to BSM9 CI Sync AppResources to HP SM 2 4 CI Sync Servicemodels to BSM9 ucmdb 3 CI Sync Servicemodels to ucdmb Events and CIs OMW Measurements EUM Discovered CIs & Topologies NNMi DDMA 3rd party 44