INCIDENTRAPPORT FÖR DRIFTSTÖRNING VÄSTBERGA DATACENTER, ZON 1



Relevanta dokument
Tekniskt driftdokumentation & krishantering v.1.0

Bilaga 3 Säkerhet. Bilaga 3 Säkerhet. Dnr Fasta och mobila operatörstjänster samt transmission -C

Innehållsförteckning Introduktion Samtal Kvalitetsproblem Felsökning av terminal Fakturering Brandvägg

Handbok Remote Access TBRA

Att införa IPv6 internetprotokoll version 6 En praktisk vägledning

SOLUTION BRIEF. Varför backup som tjänst från Savecore?

Kvalitetssäkring av nätverk och iptelefoni för operatörer och tjänsteleverantörer

SURFTOWNS SÄKERHETSMILJÖ. Databehandlingsavtal - Bilaga 1

Datacentertjänster IaaS

eldata.se - Drifthistorik Skrivet av Erik Liljencrantz :50 - Senast uppdaterad :47

En felsökningsguide för rcloud Office tjänsterna och lite manualer.

Checklista Identitetshanteringssystem för SWAMID 2.0. Utarbetad tillsammans med SUNET CERT och SUSEC

Att hantera överbelastningsattacker 1

SMS-larm L Version Gjutarevägen Stenkullen

Kontinuitetsplan IT. Bilaga till Informationssäkerhetspolicy

Information till kunderna

Viktig produktsäkerhetsinformation

Nyanskaffning av nätverksutrustning - Finansiering Ärende 5 KS 2018/200

Felsökningsguide för Windows XP

Robusta nät Just do IT! Mikael Westerlund, CTO

Capitex dataservertjänst

Bilaga KeyControl Felsökning

Användarmenyn. S k r i v d i n k o d...

BILAGA 3 - SUPPORT OCH KONTAKTER

Problemfri IT för verksamhet som inte får ligga nere.

IPv6 EN GOD BÖRJAN GER ETT GOTT SLUT. LÅT OSS BÖRJA.

Fast internet. Installationshandbok 5 enkla steg för att komma igång

Tillsyn om störningar och avbrott i elektroniska kommunikationsnät och - tjänster

Hur tar jag företaget till en trygg IT-miljö i molnet?

SMS-larm L Ver Gjutarevägen Stenkullen

Teknologin steg för steg 2. Snyggt grafiskt användargränssnitt 2. Trådlöst Bluetooth -infrastruktur 2. IPCS systemdiagram 3

Copyright 2017 HP Development Company, L.P.

Säkerhet vid konvergens av nät

IDE USB kabel Windows XP, Vista 7 löäzxcvbnmqwertyuiopåasdfghjklöäz [Version 1.4, ]

Handbok för installation av programvara

Bilaga, Definition av roller och begrepp, till policy för IT-säkerhet. Publiceringsdatum Juni 2007 ( rev. September 2011)

FEM FRÅGOR DU BÖR STÄLLA DIG INNAN DU KÖPER FÖRBINDELSER

1 Infrastruktur för RTJP RTJP är placerad i en virtuell miljö som i brist på bättre namn går under benämningen MVK-molnet

Ämnesintroduktion. Varför incidenthantering? Vårt mål? Incidenthantering - Datautvinning

Felsökningsguide för Asgari-kameror

Network Management Center (NMC) Mathias Forsman

Jimmy Bergman Ansvarig för utveckling och roliga skämt vid kaffemaskinen

Bilaga 9 Säkerhet Dnr: /2015 Förfrågningsunderlag

Konsten att göra uppgradering under skarp drift! En fallstudie om att framtidssäkra sitt bredbandsnät kostnadseffektivt och utan avbrott

Din guide till en säkrare kommunikation

CHECKFIRE 210 DETEKTERINGS- OCH AKTIVERINGSSYSTEM

Konceptutveckling Välfärdsbredband Arbetsdokument version 0.9

MILJÖFÖRVALTNINGEN MILJÖ- OCH HÄLSOSKYDDSAVDELNINGEN. Riskhantering. Systematiskt arbete med miljörisker

Stiftelsen MHS-Bostäder Instruktioner och felsökningsguide för Internetanslutning

SLA-nivåer. Landstings-IT Datum Version Erland Wernersson Servicenivåer SLA

Lärandelab 3 Patientsäkerhet - om resiliens och hur vi kan utveckla vårt arbete med patientsäkerhet. Berit Axelsson och Axel Ros Qulturum, RJL

Störningar och avbrott i elektroniska kommunikationsnät och -tjänster

Rapport Informationsklassning och riskanalys Mobila enheter Umeå Fritid

Guide till ett bättre wifi på kontoret

Handi version 3.10 Revisionshistorik

SkeKraft Bredband Installationsguide

Dok nr OSF/AV-15:003, ver E Inloggning till Treserva via extern dator

Det här dokumentet går kortfattat igenom registrerings- och ansökningsprocessen.

Allmänna villkor. för Mina meddelanden. Bilaga 4 Servicenivåer (SLA) version 1.0 (Gäller fr.o.m )

Video- och distansmöten. Webbenkät till beslutsfattare December 2012

En pekpinne för allas trevnad: INGEN ONÖDIG BILKÖRNING INNE PÅ GÅRDARNA!!

Så skyddar du ditt datacenter 5 Steg för att få strategi och tjänster på plats

ANGE ALLTID ANLÄGGNINGSNUMMER NÄR DU RINGER STAR ALARM AB

Inloggning till Treserva via extern dator

Så klarar vi krisen. Om krisberedskap och hotbilder i Kronobergs län


HP ProCurve SKA 3.1 Certifiering

INVEST LIVING WIFI C. Användarmanual IOS. Ver. 2

CHECKFIRE 110 DETEKTERINGS- OCH AKTIVERINGSSYSTEM

Internet. Information för er som tecknat fiberavtal med Telia

Felsökning-självhjälp. Punkt 1. Kontrollera bredbandsutrustningen.

Incident SIL

5 frågor som hjälper dig i valet av redundant lösning

Riskhantering för anmälningspliktiga företag

Tunnelgatan 2, Stockholm

Konfigurera en Net2 Entry Premium Monitor

SMS-larm L Version Gjutarevägen Stenkullen

VPN tjänst för Stockholm Stad

GIVETVIS. SKA DU HA INTERNET I DIN LÄGENHET! En guide till hur du installerar internet i ditt nya hem.

INVEST LIVING WIFI C. Användarmanual ANDROID. Ver. 2

Wexnet Green Data Center

RHOSS IDROWALL Fläktluftkylare/värmare Idrowall MPCB och MPCV

Novi Net handelsbolag. Produkter och tjänster

Beskrivning av inkoppling i Halmstads stadsnät

FAQ Frågor och svar, Mobilt arbetssätt i vård och omsorg

270 Volt mellan fas och noll Postad av John Svensson - 13 apr :46

C16-motorlåsmodul med stöd för Assa HiO 840- och 850-serierna. Redundans vid multipla domäncentraler i en domän

Operatörsrum rådgivning

Policy för användande av IT

Setup Internet Acess CSE-H55N

BRUKSANVISNING GSM-MODUL DBG5. Version 1.00 Utgåva 1

Handbok för installation av programvara

Sollentuna kommun. Generella IT kontroller Visma Affärslösningar. Detaljerade observationer och rekommendationer. November 2017

Rev AdmiQ Snabb Guide Uppdaterad version

Larmsändare sip86. Alla inställningar konfigureras enkelt upp med Windowsprogramvaran IP- Scanner. 2 Larmsändare sip22

Allt handlar om att kommunikationen måste fungera, utan avbrott.

Anvisningar för övervakare

IT-säkerhet Externt intrångstest Mjölby kommun April 2016

Krav på säker autentisering över öppna nät

RSC+ app for ios. AMAX panel 2100 AMAX panel 3000 AMAX panel 3000 BE AMAX panel Bruksanvisning

Transkript:

1/5 INCIDENTRAPPORT Falkenberg 2014-10-28 INCIDENTRAPPORT FÖR DRIFTSTÖRNING VÄSTBERGA DATACENTER, ZON 1 Nedan följer information om vad som orsakade det omfattande driftavbrottet i Zon 1 av Västberga Datacenter onsdagen den 22 oktober 2014 BAKGRUND Vårt datacenter i Västberga, Stockholm (fortsatt kallat VBDC) är planerat i flera olika delar, där vi än så länge endast har tagit Zon 1 i drift. Varje zon planeras med egen redundans för UPS, kyla och distributionsswitchar. För att kunna erbjuda full redundans ut till ett rackskåp används dubbla distributionsswitchar. Tillvägagångssättet för att bygga denna typ av redundans bygger på gängse branchstandard och det är så vi bygger nätverk i samtliga av våra datacenters respektive zoner. Driftstörningen drabbade endast Zon 1 i Stockholm, men fick stora konsekvenser då många kunder är placerade där.

2/5 INCIDENTRAPPORT 1 HÄNDELSEFÖRLOPP Fas 1 14:08 Vi får ett larm i vår övervakning om att tjänster slutar svara. Övervakningen visar tydligt att alla berörda larm är koncentrerade till VBDC, Zon 1. 14:11 Vi konstaterar att vi helt tappat kontakten med en av våra distributionsswitchar. 14:15 Tekniker är på plats och felsöker problemet fysiskt. 14:20 Switchen har hög CPU-belastning och vi misstänker DDoS-attack. 14:35 Switchen visar inga tecken på hårdvarufel, men mår väldigt dåligt och CPU-belastningen är forsatt hög. Inga tecken på DDoS kan upptäckas. Ett beslut fattas att starta om switchen. Tekniker väljer rutinenligt att spara switchens konfiguration innan omstart, detta visar sig vara fatalt. Då switchen har hög CPU-belastning, tar sparandet av nuvarande konfiguration väldigt lång tid (det tar normalt bara ett par sekunder). Eftersom läget är kritiskt, så väljer vi att starta om switchen när inget har hänt på 5 minuter. 14:40 När switchen ska starta upp, är hela konfigurationen trasig. Switcharna innehåller flera tusen rader med konfiguration. Den berörda switchen hade ca 110 aktiva portar, varje port med sin egen konfiguration. Varje natt tar vi därför backup på våra switchar. En återläsning av den senaste backupen påbörjas. 15:02 Switchen startar upp men något har gått fel vid återläsningen av backupen. All konfiguration har inte följt med. Vi beslutar att göra en ny återläsning och en ny omstart. 15:15 Switchen startas om igen efter att konfigurationen lästs in korrekt från backupen. 15:25 Omstart och återläsning har gått bra och tjänster börjar fungera igen som planerat. 1 En del tidsangivelser saknas i incidentens logg och är därför uppskattade.

3/5 INCIDENTRAPPORT Fas 2 15:36 Vi ser exakt samma händelseförlopp som tidigare, vi börjar tappa kontakten med tjänster igen. 15:40 Vi försöker begränsa vissa tjänster i switchen. Switchen indikerar även i vår felsökning att det är något med IPv6 som är orsaken till den höga belastningen, varvid vi börjar med att stänga ner IPv6-trafik. 15:50 Efter att ha begränsat flera tjänster, väljer vi att göra en ny omstart, då switchen inte visat några direkta tecken på att må bättre. 16:00 Efter omstart ser vi tecken på att switchen mår något bättre. Det är extremt svårt att hitta fel då den höga CPU-belastningen gör att vi inte kan felsöka normalt. En SUP är kontrollerkortet i en bladbaserad switch och de finns i olika versioner med olika kapacitet. Vi har kraftfullare SUP:ar på lager och då det verkar vara ont om CPU-kraft, väljer vi att ersätta nuvarande SUP:ar med den kraftfullaste vi har tillgänglig. 16:08 Switchen startar upp med en ny kraftfullare SUP. 16:25 Det tar längre tid för switchen att sluta fungera, men vi ser att samma problem som tidigare fortfarande existerar. 16:30 Vi håller ett kort möte, och påbörjar två parallella spår. Ett team jobbar på att försöka hitta problemet i switchen, och ett annat team jobbar på att sätta upp en helt ny switch som vi kan börja flytta över trafik till. Vi kallar även in mer arbetskraft som kan hjälpa till både fysiskt och med relaterade supportärenden. 16:50 Genom att stänga ner samtliga portar och VLAN i switchen kan vi få den att må bättre. Detta gör dock att samtliga tjänster som går genom switchen slutar att fungera helt. Vi börjar ett mödosamt arbete med att ta upp port för port i switchen, för att sedan mäta om CPU-belastningen blir högre än förväntat. Sakta men säkert börjar rack för rack i Zon 1 att komma tillbaka i normaldrift. 17:20 Nu har ca 80% av berörda kunder i Zon 1 fått tillbaka sin anslutning. Vi har dock inte hittat källan till problemet, men vi övervakar situationen hela tiden.

4/5 INCIDENTRAPPORT 17:45 Vid aktivering av en port, ser vi direkt att problemet börjar komma tillbaka. Vi stänger ner nätverksporten och kan se att CPU-belastningen långsamt sjunker igen. Direkt när vi aktiverar porten igen ser vi att problemet återkommer. Detta gör att vi känner oss säkra på att vi har hittat orsaken till hela driftstörningen. Vi isolerar porten och aktiverar övriga portar. 17:50 Trafik är tillbaka i normalläge, så när som på IPv6 som togs ner vid felsökningen. Vi har även mindre kapacitet till switchen, då vi även vid felsökning tagit ner en del länkar mot våra Core-routrar. SLUTSATS Själva orsaken till felet berodde på en felkonfigurerad port från vår sida. Vi hade missat att aktivera skyddet för rundgång vid redundanta vägar. Konfigurationen gjordes 3 veckor tidigare, men felet uppkom först när en kund till oss kopplade in utrustning i sitt Colocationskåp och skapade rundgång. Det långa gapet mellan när konfigurationen gjordes och när felet inträffade, samt att det inte var vi själva som anslöt utrustningen till vårt nät, gjorde att vi felsökte på fel ställen. Vi har nu undersökt alla våra konfigurationer, och felet har påträffats på 2 andra ställen, av totalt 158 möjliga. Felen är rättade, och vi har upprättat en ny tydligare rutin för hur portar ska konfigureras. I detta fallet ser vi inte att det är felkonfigureringen av porten i sig som är det största problemet i denna incident (även om det var den direkta orsaken). Vi måste alltid vara beredda på att den mänskliga faktorn kan orsaka fel. Vi anser dock själva att driftstörningen tog för lång tid att felsöka och åtgärda, samt att problemet fick för stor omfattning med många berörda kunder. Därför kommer vi att dela in vårt nätverk i varje Zon i mindre grupper, så att vi enklare vet vilket system som i framtiden kan vara orsaken till liknande problem. Hade vi haft detta upplägg idag hade troligtvis åtgärdstiden kunnat mer än halveras, samt att inte lika många kunder hade drabbats samtidigt. Beslut är taget och detta kommer rullas ut i serverhallen under Januari 2015. Vidare tror vi att om vi hade haft en bättre metodik i vår felsökningsprocess hade felsökningstiden kunnat kortas ner ytterliggare. Vi måste därför öva mer än vad vi gör idag på att felsöka liknande scenarier.

5/5 INCIDENTRAPPORT Tillsammans med de nya rutinerna för portkonfiguration, känner vi att vi tagit de åtgärder vi kan för att förhindra i största möjliga mån att detta ska hända igen. Om något liknande trots allt skulle hända, så kan vi idag begränsa skadan och lösa problemet snabbare. Avbrottet inträffade vid sämsta tänkbara tidpunkt, mitt under kontorstid. Vi vill passa på att be hemskt mycket om ursäkt för de problem och det merarbete som driftstörningen har orsakat er. Avslutningsvis är vi tacksamma för det stöd och det tålamod som många av er har visat. Om du som kund har några frågor eller kommentarer kring ovanstående händelse, kontakta oss gärna på support@glesys.se. Med vänliga hälsningar, Glenn Johansson, VD GleSYS Internet Services AB