srutiner IT-kommitten Åke Andreasson Per Fröjd 19 maj Ingår i serien "Värt att veta om IT"
Agenda Kontinuitetsrutiner * Katastrof - korta och långa avbrott * Orsaker till avbrott * Begrepp, tillgänglighetskrav * Förebyggande åtgärder * Backup metoder, olika reservsiter * Återläsning * Kontinuitetsplan, tester * Media * Granskningsuppslag 2
srutiner Katastrof - korta och långa avbrott En kund uppmärksammar idag omedelbart ett avbrott i företagets drift (t ex Hem sida, E-mail, Internetbanken, kortverksamheten, bankomater, biljettförsäljning, tidningssidor etc). Tidigare kunde ett avbrott på 4 timmar kunnat ske obemärkt, sett utifrån kundens perspektiv. Journalisterna bevakar även dessa incidenter. 3
Varför måste vi ha en kontinuitetsplanering? Avtal med kunder, leverantörer (ej råka ut för få skadestånd) Tillgänglighet (behålla kunder, annars väljer de andra alternativ Säkerhet (flyg, båt) Rykte (behålla kunder) Lagkrav (upprätthålla service) Ekonomi (lönsamhet, kostnadsbesparing, medelsförstörelse) Försäkringskrav (annars går det inte att teckna en viss försäkring) 4
srutiner Vad är en katastrof? Hur är skeendet vid ett katastrofalt avbrott? En katstrof inträffar alltid vid en olämplig tid: - på natten, under helgen, när det är kallt, mitt under produktionen Det är ej möjligt med mauella reservrutiner vid IT-stödsförlust 5
Former av avbrott - normala avbrott som löses av driften eller tekniker, t ex diskkraschar, programhängningar etc (Avbrottshantering) - katastrofer, en krisgrupp tar över, kontinuitetsplanen används ( Katastrofhantering, kontinuitetshantering) Vilka händelser har inträffat: Fellesdata i Norge, Kista avbrottet, 9/11, Estonia, flodvågskatastrofen i Thailand m fl länder, stormen i Småland, strömavbrottet i New York, 2000- tals buggen, e-handelsföretag (e-bombning), John Wall, virus Listan kan göras mer omfattande 6
Flodvågsproblematiken, två exempel Skapa register - Karl-Magnus Andreasson - Kalle Andreasson - Andreasson, Karl Magnus - Kalle Andersson - Magnus Andreasson - Andreasson Carl Telefonsamtal 18.000 personer i Thailand med 3 st anhöriga i Sverige 72 000 samtalsminuter ifall varje person ringer en gång och en minut (1.200 timmar eller 150 arbetsdagar) Ska vi lösa problemet krävs 1.200 personer för att klara av detta på 1 timme eller 150 personer på en dag. TESTA TESTA TESTA TESTA TESTA TESTA TESTA 7
KUND System A Göteborg Leverantör IT-avdelningen System B Södertälje System C Sundsvall 8
srutiner Orsaker till avbrott 9
Orsaker till avbrott - Vem/vad kan skapa ett avbrott och hur kan det ske Företaget tar stora risker (för att öka vinsten) Konsult (expert) - går ej att kontrollera (Fellesdata) Anställd - kan göra handhavarfel, brist på personal, hämnd, missuppfattningar Utrustrustning går sönder ( t ex hårddisk, materialfel) El- tele- eller datakommunikationsavbrott Terrorister, krig, sabotage, vandalism Naturkatastrofer (jordbävningar, storm, flodvågor, värme, kyla etc) Program-/systemfel. Kritisk tidpunkt är programsättningstillfället Elak kod (virus, mask, trojaner, spionprogram etc) 2000-tals buggen, sommar/vintertid, skottår, tidszoner etc Ta en gammal kopia eller produktionssätta testmaterial Brand, vattenskada, kyl- eller värme anläggningen ur funktion Dåliga rutiner (misskötta rutiner) 10
Begrepp, tillgänglighetskrav 11
Katastrofrutiner Krisplaner Kontinuitetsplaner Affärsverksamheten IT-verksamheten Miljöer - Försäljningsavdelningen - Stordator - Inköpsavdelningen - VMS - Lager - UNIX - Windows - utlandskontor 12
Vilken fas är mest kritisk? Förvaltning Utveckling Drift Avveckling Ett systems livscykel 13
Återstartstid Kontinuitet förstå att ett avbrott har uppkommit felsökningstid fatta beslut (samla krisgruppen) återläsning av operativsystem återläsning av applikationsprogram återläsning av data informera inom verkamhetenoch utanför Om Återstartstiden är 4 timmar, vad innebär detta? Avbrottstiden är oftast betydligt längre än återstartstiden 14
Förebyggande åtgärder 15
Kontinuitet är alltid tillgänglighetskriteriet Preventiva insatser (att det inte uppstår) - spegling av data, backup tagning - allmän försiktighet och utbildad personal - utrustning i beredskap (hårddiskar etc) - har en bra artitektur (hindrar programkonflikter etc) - redundans av el-, tele och datakablar - uppföljning av alarm, loggar, kapacitet etc - tester av driftmiljön samt penetrationstester Kompenserande åtgärder (när det har uppstått) - krisgrupper, kontinuitetsplan - restore (återläggning av backup) - reservarbetsplatser - övertid Prioritera prevention för kompenserande åtgärder 16
När ska backup tas? Klockan 0 6 12 18 24 Batchar xxxxxxx xxxxxxxx Online xxxxxxxxxxxxxxx Filöverföring x x x x 17
Backup rutiner (jfr incrementell backup) - Varje transaktion - Var 5:e minut - Varje dag (dags backup) - Varje vecka (vecko backup) - Varje månad (månads backup) - Varje årsslut (årsbackup 18
Lagring - RAID-teknik Disk 1 Disk 2 Disk 3 Disk 4 Disk 5 Disk 6 L o - f r ä ö r s ö a k s d k r s e e e a v - r n t - a s t Kontrolldisk Lösenordet ska förvaras säkert 19
srutiner Reserv elkraft - UPS - Uninterruptible Power Supply (ungefär batteri) - diesel generator Det ska finnas en UPS som klarar att generatorn startar upp (ca 30 sekunder) Oljetanken ska ha självrinning och även ha leveransavtal avseende löpande påfyllningar vid ett krisläge 20
srutiner El- och strömförsörjning Telenor, egen telestation Tele Datorhall Tele Telia, egen telestation El,ställverk a El Switcha om El El, ställverk b 21
srutiner Backup metoder, olika siter 22
srutiner Backup tekniker - backup band (per manuell rutin eller bandrobot) - data - omedelbart eller dagligen - program - före och efter ändringar, en gång per dygn/vecka - totalbackup - incrementell backup - arkivering (lagring) - dag, vecko, månad, år -backup diskar - spegling av data - kopiering av program, före och efter förändring, varje dygn, varje vecka 23
Incrementell backup Avbrott torsdag kl 13.45 Lösning: Backuper för : Söndag + Måndag + Tisdag + Onsdag Transaktionsregistret (logg) för torsdag fram till kl 13,45 Fredag Tisdag Måndag Torsdag Söndag Söndag Onsdag Incrementel => söndag+måndag+tisdag+onsdag+torsdag+fredag = ny söndagsbackup 24
Backuper Reservkopia på band/disk (vid ordinarie drift), förvaras hos IT-avdelningen) Säkerhetskopia på band/disk (vid katastrofer), förvaras på annan plats utanför datorhallen 25
Backup tagning av regionala verksamheter A B C D E F G H Bandbredd 128 Kbytes/1 MB Datahall Vid återläsning måste hela databasen återläsas. 26
Spegling (program och data) UPS Databas 1 Stockholm Transaktion B Databas 2 UPS Södertälje 27
Spegling - men ej totalbackup Produktion Databas Stockholm Program Utveckling och test Databas Södertälje Program Programkopia från bandrobot Databas Södertälje 28
Spegling - övergång till reservmaskinen UPS Transaktion A A Max 50 % A B Test Stockholm B B UPS Max 50 % A Utveckling Södertälje 29
SAN-tekniken (Storage Area Network) Nätet Nätet Windows lösning 30
Andra backup-lösningar Prod Data P Stockholm Produktionshall Data B Backup hall Södertälje Backup 31
Andra backup-lösningar A B C Data P Data P Prod Data P Prod Prod Data B Data B Backup Produktionshall (och Backup hall) Produktionshall (och Backup hall) Produktionshall (och Backup hall) 32
* Datakommunikation * Lokala nät * Active Driectory (AD) från Microsoft 33
Återläsning 34
srutiner Restore - återläsning (återläggning) - börja med operativsystemet, sedan applikationerna och sist datat om det är kapacitetsbrist, återlägg först de mest kritiska systemen (betalningar, order etc) - dessutom de system och data som har samband med de mest kritiska systemen - återläggningsordningen kan variera i tiden under dagen, under månaden - testa hur lång tid det tar att lägga tillbaka 35
Kontinuitetsplan, tester 36
srutiner Kontinuitetsplan - verksamhetens medel för överlevnad och kunna fortsätta verksamheten även efter att en katastrof har inträffat. Skydda väsentliga tillgångar - personer, lokaler, utrustning, telefonväxel, system, program, data, dokument, manualer, kundregister, låneregister Gör riskbedömningar och konsekvensbedömningar Kontinuitetsplan - organisation och ansvar, leverantörer, kunder, experter - ansvar för uppdatering av planen - var planen finns (hos vem, antal kopior etc) - beskrivning (schematiskt) av system, program etc - checklistor, larmlistor 37
srutiner Vem/vilka ska lösa ett allvarligt avbrott det ska finnas personer som svarar för följande: - krisledningsgrupp (leder och prioriterar) - upprättar en reservdatorhall som kan fungera under ett par dagar eller lite längre tid - transporter - datakommunikation, nätverk, elförsörjning, telefon, - operativsystem, databaser, applikationer och data i nämnd ordning - säkerhetsfrågorna - hårdvaru och utrustningsfrågor (datorer, kopiatorer, skrivare etc) -administrativ personal, skade- och försäkringsfrågor, kopiering, dokumentation - återlokaliseringsgrupp 38
srutiner Underhåll av kontinuitetsplanen - det ska finnas en koordinator som underhåller planen - efter varje förändring av program/system - efter varje test - när personer som slutat, börjat etc - ändring av adresser och telefonnummer - byte av leverantörer 39
srutiner Vad ska finnas i backup hallen - Utrustning (datorer, diskar, bandrobot etc) - Telefon, el, kopiator, mobiltelefon - Drift instruktioner - Instruktioner för speciella rutiner (t ex återstartsrutiner) - Operativsystem, applikations - Program (källkod, objektkod, kompilatorer m m) - Data på backup band, disk samt avtal m m - Kontinuitetsplanen (Business Continuity Plan, BCP) - System- och programdokumentation 40
srutiner Syftet med testerna - träna inblandade - sätta igång hela katastrofrutinen - träna ledande personer - beslutsordningen fungerar - träna olika scenarier - verifiera att rutinern fungerar inom fastställda tidsramar - larmlistor fungerar - system inte hänger sig - behörigheter fungerar - dokumentationen finns i tillräcklig omfattning - kringutrustning fungerar (telefoner, bandspelare, lokaler etc) 41
Tester - skrivbordstester - servertester - sambandstester (några system tillsammans) - total tester - test av en datorhall, land - med vissa stora kunder/leverantörer/myndigheter - med backupcentralen - planera testerna - inga oförberdda tester 42
Under år planeras följande katastroftester att genomföras (applikationer och teknisk miljö): januari februari mars april juni juli augusti september oktober november december Inköpssystemet samt stordatormiljön (IBM) Personalsystemet samt VMS -miljön Internet, Intranätet och hemsidorna (inkl penetrationstester) Betalningssystemet och OS/400-miljön UNISYS-miljön, planeringssystemet och UNIX-miljön Semester E-post Internt och Externt Internet, Intranätet och hemsidorna (inkl penetrationstester) Försäljningssystmetet samt Elavbrottstest och datakommunikationsavbrott Ett större sambandstest med många av ovanstående miljöer inräknade Inget test p g a förberedelser inför årskörningarna 43
För- och nackdelar med testtidpunkter - under normal arbetstid (dagtid) - under helger - vid månads- eller årsskiften - under sommarmånaden 44
srutiner Alternativ som reservhall/motsvarande (reservsite) - fullt utrustad hall ägd av företaget/myndigheten (inkl datorer) - lokal med endast enklare inredning, t ex el, telefonledning, hårddiskar - endast lokal (köper in standardprodukter) - hyra in sig hos ett företag med liknande datorutrustning (Reciprocal Agreements) (obs ej konkurrent) - Tredje parts leverantör ( Backup centralen ) ---- att tänka på när man inte är ensam om beslutet: konfiguration, försäkringar, återstartstider, testmöjligheter, användningstid, antal företag på en tredjepartsenhet (först till kvarn), kommunikation, ändringar i utrustning eller programuppdateringar 45
Sprida information (när det är ett avbrott) Det mesta fungerar inte och det är ofta total kaos och överbelastade linjer Alternativ - SMS - Hemsida - Intranätet - e-mail - mobil - telefon - fax - media (tidningar, radio/tv (i värsta fall)) 46
srutiner Media 47
srutiner Kontakter med media - var ärlig och sanningsenlig, svara snabbt och rask att svara - säg bara det du säkert vet, var trovärdig, berätta allt - visa känslor och var begriplig - prioritera akuta åtgärder - leta inte efter syndabockar - angrip inte media (förstå deras uppdrag) - mediakontakter ska tas om hand av fackfolk, etablera och bygg tillit - svara, var anträffbar - håll presskonferenser vid vissa fastställda tidpunkter 48
Granskningsuppslag 49
srutiner Granskning av kontinuitetsplanen - Innehållet i planen enlig Best Practies - backup hallen och backup program, data - tränad personal, är de på plats, finns på lista etc - har det skett test, när och vilka resultat, vidtagna åtgärder - ta en kopia av planen, finns planen hos de enligt förteckning - är den aktuell, alla system är med, telefonnummer, personer etc - fråga någon gruppdeltagare om vad de skall göra, har ansvar för etc - är checklistorna aktuella och användbara - finns utdatakapacitet - försäkringar 50
srutiner Mina erfarenheter - vid tester har vissa kritiska systems förändringar inte kommit med till säkerhetskopian - allt material förvaras inte i säkerhetsarkivet (även t ex kontinuiteshandboken (rutinen), aktuella checklistor, systemdokumentation) - backupanläggningen har inte blivit uppdaterad vad avser ny utrustning, nya operativsystem (även säkerhetspatchar) - problem att komma in med de normala behörigheterna - om alla system ska återställas på en gång inom fastställd återstartstid, räcker inte tiden till - lätt att testa enstaka applikationer, svårare med större tester 51
Slut Gå nu hem och planera och genomför i lugn och ro en granskning av kontinuitetsrutinerna. Lycka till! 52
srutiner 53
srutiner De som arbetar eller deltar i en kris - förändrar tidsuppfattningen - upplevelse av overklighet - apati/autopilot beteende - överaktiva - panik - förmågan till lojalt handlande minskar - fysiologiska stressituationer (hjärtat bankar, skakningar, torrhet i mun, andningsbesvär, svindel, hög puls) - en bra ledare är en utvilad ledare (arbeta i par) 54
srutiner Reaktioner i efterhand - ilska och irritation - svängningar i humöret - rycker till vid minsta ljud - sömnproblem och mardrömmar - rädsla för olycksplatsen - vill isolera sig - depressioner, känner sig nedtryckt 55
srutiner 56