Linköpings universitet Den dendritiska cellalgoritmen Ett artificiellt immunsystem Malin Eklund 2018-01-11
1 Sammanfattning Den dendritiska cellalgoritmen är ett artificiellt immunsystem baserad de dendritiska cellerna i det mänskliga immunförsvaret (Greensmith, 2007). Greensmith förklarar att de dendritiska cellerna samlar antigener i kroppens vävnader och migrerar sedan till lymfnoden för att presentera antigenerna för T-celler. De dendritiska cellerna bryter ned antigenerna och de kvarstående molekylerna analyseras av cellen för att avgöra hur farlig antigenen är. T- cellerna startar en reaktion hos immunförsvaret om antigenen har bedömts vara farlig. Dessa funktioner har Greensmith abstraherat för att sedan applicera i en algoritm för att upptäcka avvikelser. Algoritmen kan bland annat tillämpas på säkerhet i datorer för att upptäcka skadliga program.
2 Innehåll Sammanfattning... 1 Innehåll... 2 Inledning... 3 1. Bakomliggande teorier... 4 1.1. Faroteorin... 4 1.2. Dendritiska celler... 4 1.3. Signaler... 5 2. Artificiella immunsystem... 6 3. Modell av dendritiska celler... 7 3.1. Nyckelegenskaper... 7 3.2. Abstraherande... 8 3.3. Förenklingar och antaganden... 9 4. DCA... 10 4.1. Generell beskrivning... 10 4.2. Förarbete... 12 4.3. Steg för steg... 13 5. Diskussion... 16 Referenser... 18
3 Inledning Artificiella immunsystem är en samling algoritmer baserade på det mänskliga immunsystemet (Greensmith, 2007). Greensmith beskriver att två mycket använda algoritmer är negativ selektion och klonselektion. Hon menar att de både däremot är baserade på en äldre syn på immunsystemets funktion, nämligen central tolerans. När Ralph M. Steinman år 2011 fick nobelpriset i medicin för upptäckten av de dendritiska cellerna (Nobel Media AB, 2014) öppnades däremot nya möjligheter för artificiella immunsystem. Den dendritiska cellalgoritmen (DCA) är till skillnad från tidigare artificiella immunsystem baserad på den så kallade faroteorin (eng. danger theory) (Greensmith, 2007). Detta innebär att kroppen inte antas urskilja på den egna kroppen och kroppsfrämmande ämnen för att starta reaktioner, utan snarare signaler om fara (Matzinger, 1994). Följande rapport beskriver den bakomliggande biologin för att sedan abstrahera dessa teorier och avsluta med beskrivning och exempel på algoritmen. Slutligen presenteras några tillämpningsområden.
4 1. Bakomliggande teorier 1.1. Faroteorin Den dendritiska cellalgoritmen (DCA) är baserad på den så kallade faroteorin (eng. danger theory) (Greensmith, 2007). Teorin är ett nytt perspektiv på immunologi som innebär att immunförsvaret inte skiljer på det som är den egna kroppen och något kroppsfrämmande (Matzinger, 1994). Matzinger förklarar att det nya perspektivet innebär att kroppen snarare reagerar på signaler om fara med hjälp av olika celler, exempelvis de dendritiska cellerna. Matzinger menar att signalerna som startar reaktionen enligt det tidigare perspektivet, där immunförsvaret reagerar på kroppsfrämmande ämnen, kommer från de kroppsfrämmande ämnena. Vidare förklarar hon att denna skillnad även innebär att immunförsvaret enligt faroteorin tar hjälp av ett helt nätverk av celler och vävnad i kroppen. De dendritiska cellerna är en del av detta hjälpande nätverk, och är även den främsta inspirationen för DCA. 1.2. Dendritiska celler Dendritiska celler är en viktig del av immunförsvaret och är antigenpresenterande celler (Banchereau & Steinman, 1998). Antigen är ett ämne, exempelvis en molekyl eller ett protein, som framkallar en reaktion hos immunförsvaret (Alberts, et al., 2002). Alberts et al. menar att reaktionen gör att bland annat antikroppar produceras. De förklarar att antikropparna tillsammans med vita blodkroppar attackerar sedan antigenen. De dendritiska cellerna har receptorer som samlar antigen från vävnader medan de är i ett omoget tillstånd (Greensmith, 2007). Greensmith förklarar att de dendritiska cellerna sedan samlar signaler från de samlade antigenerna som sedan avgör om cellen övergår till ett moget tillstånd eller halvmoget tillstånd. Hon menar att cellens beteende alltså främst beror på styrkan av signalen och vilken typ av signal det är. Signalen samlas genom att cellen bryter ner antigenens protein som presenteras på ytan av cellen. Greensmith beskriver vidare att det mogna tillståndet innebär att signalen uppfattas som farlig av cellen och cellen migrerar till lymfnoden för att presenterar antigenen för T-cellen. Hon menar även att vid ett halvmoget tillstånd tolkas antigenen istället som säker och cellen migrerar till lymfnoden för att presentera detta för T-celler för att skapa tolerans mot antigenen. Informationen om huruvida antigenen tolkats som farlig eller säker presenteras även det för T-celler och brukar benämnas som kontexten (Greensmith, 2007). Greensmith förklarar att kontexten är mycket viktig för att kunna upptäcka och kombinera olika signaler. Hon menar att det är vid presentationen för T-cellerna som reaktionen hos immunförsvaret startas.
5 T-celler är en typ av vita blodkroppar som är en del av den adaptiva delen av immunförsvaret (Alberts, et al., 2002). Varje T-cell är specifikt designad för att aktiveras av en särskild typ av antigen och dendritiska celler är de enda som kan aktivera en T-cell som inte har aktiverats förut (Greensmith, 2007). 1.3. Signaler En del av de dendritiska cellernas receptorer är specialiserade för molekyler relaterade till bakterier (Janeway, 1989). Dessa molekyler är signaler som benämns som PAMP (Greensmith, 2007). Greensmith förklarar att PAMP står för pathogen associated molecular patterns och är en av de så kallade signalerna som cellerna får in, vilket cellen sedan baserar sin bedömning på huruvida antigenen är avvikande eller inte. Farosignalerna (eng. danger signal) är ytterligare en signal och uppstår istället när cellerna dör på ett okontrollerat sätt (Greensmith, 2007). Detta innebär att cellens innehåll bryts ned oregelbundet och bildar tillslut urinsyra (Shi, Evans, & Rock, 2003). På grund av oregelbundenheten frigörs cellernas innehåll och det är detta innehåll som formar farosignalen (Matzinger, 2002). Vid de säkra signalerna sker istället planerad celldöd, vilket är kontrollerat (Greensmith, 2007). Greensmith förklarar att celldöden då sker med hjälp av lysosomer som är ett enzym som förtär celler. Inflammation uppstår för öka resurser i den skadade vävnaden (Greensmith, 2007). Detta görs genom att blodkärlen vidgar sig och temperaturen ökar, vilket Greensmith menar bland annat ökar hastigheten hos de dendritiska cellerna och bindningen av de tre andra signalerna. Hon beskriver att inflammation inte på egen hand är känslig för de olika signalerna och kan med andra ord uppstå för både avvikande och normala miljöer, men skyndar istället på processen för de dendritiska cellerna. Med andra ord menar Greensmith att inflammationen gör att cellerna binder snabbare likväl som att de presenterar antigen för T- cellerna snabbare. Utsignalen CSM, som står för costimulatory molecules, produceras av de dendritiska cellerna när de reagerar med PAMP (Medzhitov & Janeway, 2002). Medzhitov och Janeway menar att denna utsignal är viktig för att starta den antigenpresenterande processen samt för att aktivera T-celler som inte tidigare aktiverats. PAMP och farosignalerna är även inblandad i produktionen av interleukin-12 (IL-12) som är en molekyl som produceras av de dendritiska cellerna när de är i moget tillstånd (Greensmith, 2007). Greensmith beskrivet att molekylen aktiverar T-celler och en reaktion i immunförsvaret startas. Vidare förklarar hon att interleukin-10 (IL-10) är den molekyl som
6 producerar av de dendritiska cellerna vid säkra signaler och vid presentation av antigenen för T-celler hämmar T-cellerna. Med andra ord menar Greensmith att IL-10 inte aktiverar T- celler, utan skapar tolerans för det presenterade antigenen. Hon menar alltså att IL-10 är den molekyl som produceras av de dendritiska cellerna när de är i halvmoget tillstånd. En säker signal hämmar även produktionen av IL-12 (Williams, Harry, & McLeod, 2008). Nedan illustreras relationerna mellan de olika in- och utsignalerna (Greensmith, 2007, Figur 1). Inflammationssignalen är inte illustrerad då den inte ensam kan påverka produktionen av en utsignal. 2. Artificiella immunsystem Figur 1. Illustration av relationerna mellan in- och utsignalerna. Artificiella immunsystem är en samling algoritmer som inspireras av det mänskliga immunsystemet (Greensmith, 2007). Med andra ord menar Greensmith att det inte finns någon specifik algoritm för ett artificiellt immunsystem. Hon förklarar att artificiella immunsystem inte heller är en exakt kopia av det mänskliga immunsystemets funktioner och syften, utan har enbart inspirerats av funktionerna för att sedan kunna implementeras i program med ett annat syfte. Greensmith menar att det är framförallt tre olika algoritmer baserade på funktionerna i det mänskliga immunsystemet som är framträdande. Dessa kallas för negativ selektion, klonselektion och nätverksmodeller. Framförallt är negativ selektion och klonselektion av intresse för denna rapport. Negativ selektion är inspirerad av den selektion som utförs i immunsystemet gällande T-celler (Greensmith, 2007). När T-cellerna mognar är de specialiserade till att binda med ett särskilt protein, beskriver Greensmith. I immunförsvaret menar hon att det då sker en urvalsprocess där T-celler som är ineffektiva i bindning avlägsnas. Denna process kallas för negativ selektion och detta har inspirerat till en algoritm huvudsakligen för att upptäcka
7 onormala data, exempelvis skadliga program eller problem i maskiner så som bankomater och kylskåp. Både negativ selektion och klonselektion är baserade på teorin om central tolerans (Greensmith, 2007). Central tolerans innebär kortfattat att bland annat T-celler i ett tidigt skede formas att urskilja den egna kroppen och kroppsfrämmande ämnen för att sedan ha tolerans mot den egna kroppen (Xing & Hogquist, 2012). De menar med andra ord att antikroppar enbart produceras i immunförsvaret som reaktion på kroppsfrämmande ämnen. Faroteorin menar istället att detta inte är fallet, utan att reaktionen snarare beror på särskilda farosignaler, som tidigare nämnts (Matzinger, 1994). Till skillnad från negativ selektion och klonselektion är det alltså faroteorin som DCA är baserad på (Greensmith, 2007). 3. Modell av dendritiska celler 3.1. Nyckelegenskaper För att skapa en algoritm baserat på dendritiska celler behöver dess funktioner abstraheras (Greensmith, 2007). Abstraherandet beror främst på cellernas nyckelegenskaper. Greensmith förklarar att nyckelegenskaperna som cellerna har bland annat är uppdelningen mellan olika områden och vad som sker var. Hon nämner att insamlingen av antigener och bearbetning av signaler sker i vävnaden, men vid mognad migrerar cellen till lymfnoden där den presenterar antigenen tillsammans med kontexten. Det finns med andra ord två huvudsakliga områden som cellerna arbetar i. Ytterligare en nyckelegenskap är de olika tillstånden som de dendritiska cellerna kan befinna sig i (Greensmith, 2007). Med andra ord menar hon att de kan vara omogna, halvmogna eller mogna. Förvandlingen från ett omoget tillstånd till ett annat menar Greensmith initialiseras vid bearbetningen av signalerna. De övriga nyckelegenskaperna är själva bearbetningen av antigener likväl som signalerna (Greensmith, 2007). Greensmith förklarar även att en viktig egenskap är att cellerna är en del av en större population. De arbetar med andra ord inte ensamma. Hon menar att för att immunförsvaret ska reagera krävs det att flera celler presenterar likadana antigener. Vidare förklarar Greensmith att populationen av dendritiska celler därför skyddar från falskt positiva responser eftersom reaktionen inte beror på en cell utan det bör finnas en liknande uppfattning av antigenen och dess kontext bland flera celler. Greensmith förklarar att en cell alltså kan göra ett klassificeringsfel utan att det påverkar immunförsvaret.
8 3.2. Abstraherande PAMP tolkas i DCA som en pålitlig signal för avvikelser (Greensmith, 2007). Med andra ord menar Greensmith att sannolikheten för en avvikelse är mycket hög om PAMPsignalen är stark. Hon beskriver vidare att likt det mänskliga immunförsvaret gör ökningen av PAMP-signalen i DCA att både utsignalen CSM samt utsignalen IL-12 ökar, det vill säga utsignalen vid ett moget tillstånd. Farosignalen är i det mänskliga immunförsvaret en signal för vävnadsdöd, som tidigare nämnt (Matzinger, 2002). Potensen för signalen är lägre än PAMP-signalen vilket innebär att en högre koncentration av farosignalen behövs för att den ska signalera med samma styrka som PAMP (Greensmith, 2007). Koncentrationen beskriver Greensmith som antalet molekyler av signalen. Vidare förklarar hon att likt PAMP signalerar farosignalen för avvikelser och ökar med andra ord utsignalen CSM och utsignalen för moget tillstånd. I DCA har Greensmith däremot tolkat farosignalen som en mindre pålitlig signal, på grund av den lägre potensen. Säkra signaler uppstår vid planerad celldöd, det vill säga när celler dör utan att skada omgivningen eller skapa inflammation (Greensmith, 2007). Planerad celldöd är med andra ord en normal och hälsosam cellfunktion. Greensmith menar att den säkra signalen är likt PAMPsignalen pålitlig och ökar utsignalen CSM samt IL-10, det vill säga utsignalen för ett halvmoget tillstånd. Hon förklarar att säkra signaler finns för att skapa tolerans för hälsosamt antigen. Om det i vävnaden där antigenen hittades däremot både sker vävnadsdöd och planerad celldöd förklarar Greensmith att den säkra signalen kommer att hämma IL-12 signalen som PAMP- och farosignalen genererar. Detta beskriv som en större reglering som utförs för att undvika falskt positiva reaktioner hos immunförsvaret, det vill säga när immunförsvaret reagerar även om det inte borde ha skett en reaktion. Som tidigare nämnt kan en inflammationssignal inte på egen hand initialisera mognad hos en dendritisk cell, men i immunförsvaret syns en ökning av antalet reaktioner vid inflammation (Greensmith, 2007). Detta menar Greensmith händer på grund av den ökade temperaturen i den inflammerade vävnaden samt de vidgade blodkärlen. I DCA har hon tolkat denna funktion som ökad styrka för samtliga ingående signaler, det vill säga PAMP-, farooch säker signal. Indirekt ökas även styrkan på utsignalen CSM samt utsignalerna för halvmoget tillstånd och moget tillstånd. Greensmith förklarar att inflammationssignalen alltså inte kan starta en reaktion eller skapa tolerans hos immunförsvaret på egen hand, utan fungerar i DCA endast som en förstärkare.
9 Hur utsignalen CSM fungerar i det mänskliga immunsystemet är mycket komplicerat, beskriver Greensmith (2007). Hon menar att en förenkling för DCA alltså har gjorts genom att införa vad som kallas för en migreringströskel. När signalstyrkan för CSM överstiger värdet för migreringströskeln migrerar cellen till lymfnoden. Med andra ord övergår cellen från omoget tillstånd till halvmoget eller moget och presenterar antigenen och kontexten. I det mänskliga immunsystemet förklarar Greensmith att antigenen presenteras för T-celler, men i den abstraherade modellen har T-cellerna eliminerats och kontexten bedöms istället efter proportionerna mellan IL-10 och IL-12. Är IL-10 är högre än IL-12 anses antigenen ha samlats från en säker miljö. Om IL-12 istället är högre är det en avvikelse. En molekyl signalerar genom att binda till receptorer på den dendritiska cellens yta (Greensmith, 2007). Greensmith förklarar att hur stark bindningen är kallas för potens. Efter bindningen reagerar cellen genom att ändra koncentrationen av molekyler inuti celler, vilket i sin tur leder till en förändring av produktionen av en viss molekyl av cellen. Omfattningen av förändringen beskriver Greensmith som effektiviteten av den ingående signalmolekylen. I DCA har Greensmith använt en förenklad version där potens och effektivitet används, men ändringen av koncentrationen modelleras inte i abstraktionen. Potensen modelleras i DCA med hjälp av vikter i en summeringsekvation och effektiviteten representeras med positivt eller negativt värde på samma vikt. Summeringsekvationen i helhet representerar övergången från de ingående signalerna till de utgående och diskuteras närmare i ett senare skede i denna rapport. Antigen är i DCA det data som ska klassificeras med grund från de tre ingående signalerna (Greensmith, 2007). Däremot menar Greensmith att det inte räcker med endast en antigen för att starta en reaktion hos immunförsvaret, utan en koncentration av identiska antigen behövs. Gällande datorer kan detta vara problematiskt och hon menar att en multiplicerare då kan användas för unika datastrukturer. 3.3. Förenklingar och antaganden Generellt har alltså en del förenklingar och antaganden gjorts i övergången mellan det mänskliga immunförsvaret och den abstraherade modellen. Bland annat har det antagits att det inte behövs några fler celler än de dendritiska cellerna för att immunförsvaret ska fungera (Greensmith, 2007). T-cellernas funktion har även förenklats som tidigare beskrivet. Greensmith menar även att det antas att ingen kommunikation sker mellan molekylerna i de dendritiska cellerna samt att cellerna inte kommunicerar med varandra. Enligt Greensmith antas även fyra olika kategorier av ingående signaler existera, med andra ord PAMP-, faro-,
10 inflammation- och den säkra signalen. Vidare beskriver hon att det antas även att de dendritiska cellerna inte reagerar på något annat än dessa fyra signaler. I det mänskliga immunförsvaret har cellerna en mängd olika receptorer för olika molekyler, förklarar hon, men i den abstraherande modellen har detta förenklats så att cellen enbart har de receptorer som ansvarar för immunförsvarets aktivering. Till sist nämner Greensmit även antagandet att det endast finns tre utgående signaler produceras av cellerna, närmare bestämt CSM, IL-12 och IL-10. Samtliga förenklingar och antaganden har gjorts för att algoritmen ska vara lättare att förstå samt för att den ska vara genomförbar (Greensmith, 2007). Likt tidigare beskrivit är DCA ett artificiellt immunsystem, vilket innebär att syftet inte är att skapa en exakt kopia av det mänskliga immunsystemet. 4. DCA 4.1. Generell beskrivning Den dendritiska cellalgoritmen är en algoritm för att upptäcka avvikelser i dataströmmar (Greensmith, 2007). Greensmith menar däremot att den inte är en klassificeringsalgoritm, även om den delar likheter med filtreringsalgoritmer. Hon menar att detta gäller eftersom DCA även tillhandahåller information om hur avvikande en viss grupp antigen är och inte enbart om de är avvikande eller inte. Graderingen, förklarar hon, sker med hjälp av MCAV som står för mature context antigen value. MCAV är alltså ett koefficientvärde för avvikelser. Greensmith menar att ju högre värdet är desto större är sannolikheten att det är en avvikelse. Hur MCAV beräknas visas i ett senare skede i rapporten. Informationen om en antigentyps avvikelse sker med hjälp av de fyra kategorierna av ingående signaler, som tidigare beskrivits (Greensmith, 2007). Hon menar att förekomsten av flera identiska antigener och styrkan på signalerna hos dessa avgör sedan graden av avvikelse hos antigentypen. I DCA representeras de dendritiska cellerna och dess funktioner med objekt som är en del av en större population av liknande objekt med liknande instruktioner (Greensmith, 2007). Greensmith förklarar att viss variation hos objekten förekommer för att göra algoritmen mer robust. Exempelvis avslutar cellerna datainsamlingen och migrerar vid olika tidpunkter då de samlar data på egen hand. Cellernas omogna tillstånd representeras av tre funktioner i algoritmen (Greensmith, 2007). Greensmith beskriver att de artificiella cellerna samlar data från externa källor och
11 förvarar detta i en individuell förvaringsstruktur. Därefter uppdateras cellens ingående signaler baserat på värdena från datan i förvaringen. Sedan beräknas tre tillfälliga utgående signaler ut baserat på de tidigare beräknade ingående signalernas värde. Greensmith förklarar avslutande att de utgående signalerna adderas till sist till ett ackumulerat värde. De tre utgående signalerna beräknas med hjälp av den viktade summeringsekvationen som tidigare nämndes (Greensmith, 2007). Ekvationen visas nedan där PW är vikten för PAMP-signalen, DW vikten för farosignalen, SW vikten för den säkra signalen och I är inflammationssignalen (Greensmith, 2007, Figur 2). P, D och S är de ingående värdena för PAMP-signalen, farosignalen och den säkra signalen för alla signaler i. Ekvationen utförs en gång för varje utgående signal och räknar ut den tillfälliga utgående signal. Figur 2. Viktad summeringsekvation för beräkning av utgående signaler. När CSM-utsignalen överstiger migreringströskeln jämförs de två resterande utsignalerna för att avgöra om en antigentyp är avvikande eller inte (Greensmith, 2007). Migreringströskeln, menar Greensmith, är randomiserad för varje cell från ett visst omfång som definieras av användaren. Om utsignalen för moget tillstånden sedan är större ges kontexten värde 1 och datan är avvikande. Om utsignalen för halvmoget tillstånd istället är större ges kontexten värde 0 och datan är normalt. Därefter kan MCAV beräknas för varje antigentyp, detta för att avgöra hur avvikande datan är (Greensmith, 2007). Greensmith beskriver att det görs genom att ta antalet data med kontext 1 dividerat med antalet data av samma typ. Hon menar att en tröskel däremot behöver definieras av användaren för att avgöra om MCAV värdet bör initialisera en reaktion för att eliminera datatypen. Tröskelvärdet kan även räknas ut (Greensmith, 2007), vilket visas i ett senare skede i rapporten. Vidare förklarar Greensmith att detta nödvändigtvis bör göras av en expert inom domänen som algoritmen implementeras i. Slutligen finns det olika cykler i algoritmen, bland annat för cellerna (Greensmith, 2007). I cellcykeln elimineras en cell från populationen efter att antigenen har presenterats och ersätts med en ny cell som startar i omoget tillstånd. Sedan menar hon att en vävnadsuppdatering även bör ske, detta för att uppdatera vilka antigener som finns tillgängliga. Greensmith förklarar att hur ofta uppdateringar sker anpassas vid implementationen.
12 4.2. Förarbete För att implementera algoritmen är en del förarbete nödvändigt (Greensmith, 2007). Hon förklarar att arbetet som utförs klassificerar olika attribut till de olika signaltyperna, det vill säga PAMP, fara eller säker. Detta medför att algoritmen sedan kan avgöra vad en antigen signalerar. I det andra steget räknas ett tröskelvärde ut för avvikelser, som sedan används för MCAV koefficienten. För beskrivning av förarbetet används ett exempel, närmare bestämt UCI Wisconsins dataset för bröstcancer (Greensmith, 2007, Figur 3). Nedan visas en del av datasetet där varje data-id formar ett antigen och varje attribut, exempelvis CT, representerar en signal. Figur 3. Del av UCI Wisconsins dataset för bröstcancer. CT = Clump thickness, CS = Cell size, CH = Cell shape, AD = Adhesion, EP = Epithelial cell size, BN = Bare nuclei, CO = Chromatin, NN = Normal nucleoli, MM = Mitoses. Figur 4. Statistik för UCI Wisconsins dataset för bröstcancer. CT = Clump thickness, CS = Cell size, CH = Cell shape, AD = Adhesion, EP = Epithelial cell size, BN = Bare nuclei, CO = Chromatin, NN = Normal nucleoli, MM = Mitoses. För enkelhetens skull används enbart de fem attribut i datasetet som har högst standardavvikelse (Greensmith, 2007). Greensmith förklarar att de med högst standardavvikelse används eftersom datasetet är statiskt till skillnad mot andra tänkta områden för algoritmen. Hon menar alltså att en hög standardavvikelse hos attributen medför större variation till exemplet. Standardavvikelsen visas ovan (Greensmith, 2007, Figur 4). De valde attributen är därför BN, NN, CS, CH och AD. Eftersom AD har lägst standardavvikelse används detta attribut som de mer pålitliga signalerna, alltså PAMP och säker signal. Resterande attribut, förklarar Greensmith, används för att ta fram farosignalen. För beräkning av PAMP och den säkra signalen beräknas medianen för det valda attributet, i detta fall är medianen 1 (Greensmith, 2007). Därefter beräknas det för varje
13 attributvärde huruvida det är en PAMP eller säker signal. Greensmith beskriver att om attributvärdet är större än medianen är det en säker signal. Signalstyrkan är då absolutvärdet av subtraktionen av medelvärdet för attributet med attributvärdet. Signalstyrkan för PAMP är i detta fall automatiskt 0. Om attributvärdet istället är mindre än medianen är signalen av typen PAMP och signalstyrkan är absolutvärdet av subtraktionen av medelvärdet för attributet med attributvärdet. Styrkan för den säkra signalen är då automatiskt 0. Beräkningen av PAMP och säker signal visas med pseudokoden nedan (Greensmith, 2007, Figur 5). Figur 5. Pseudokod för uträkning av PAMP och säker signal. När farosignalen ska räknas ut används de resterande fyra attributen (Greensmith, 2007). Greensmith beskriver att fyra attribut används eftersom farosignalen är en mer osäker signal och för denna implementation tolkas detta som en kombination av flera olika attribut. Hon förklarar att till en början beräknas medelvärdena för de fyra resterande attributen. Därefter beräknas absolutvärdet av subtraktionen av medelvärdet och attributvärdet. Summan av samtliga absolutvärden divideras sedan med antalet attribut, vilket ger farosignalen. För att räkna ut tröskelvärdet för avvikelser divideras antalet avvikande antigen med antalet antigen (Greensmith, 2007). Tröskelvärdet används sedan som tröskel för MCAV för att avgöra om ett försvar mot en antigentyp bör aktiveras. 4.3. Steg för steg Nedan visas fullständig pseudokod hämtad från Greensmith (2007, Figur 6) som beskriver processen för DCA. För ytterligare förklaring beskrivs sedan algoritmen steg för steg i med enkla exempel för ökad förståelse. Algorithm 6: Pseudocode of the processing performed by DCA Version 0.1 input : antigen and signals feature vectors output: antigen plus context values create DC population of size 100;
14 initialise DCs; for each feature vectors do randomly select 10 DCs from the population; for the 10 selected DCs do get antigen; store antigen; get signals; calculate interim output signals; update cumulative output signals; if CSM output signal > migration threshold then DC removed from population; DCs context is assigned; all DCs collected antigen and context is output for analysis; DC removed from population; new DC added to population; else DC returned to population for further sampling; end end end collate the 10 context per antigen ID; generate MCAV per antigen type; Figur 6. Pseudokod för DCA. Nedan förklaras algoritmen steg för steg för ökad förståelse. Samtliga steg och tabeller är hämtade från Greensmith (2007). För enkelhetens skull menar Greensmith att bara en cell används i varje cykel och tre celluppdateringar genomförs. Migreringströskeln har enligt Greensmith satts till 100 och tröskelvärdet för MCAV har satts till 0.5. 1. Nedan tabell visar de vikter som används vid de olika kombinationerna av in- och utsignaler. Då PAMP och den säkra signalen är mer pålitliga ges de större vikter. Det negativa viktvärdet för den säkra signalen reglerar för falskt positiva resultat. PAMP Fara Säker CSM 2 1 2 Halvmogen 0 0 1
15 Mogen 2 1-1.5 Tabell 1. Vikter för samtliga signaler. 2. Först uppdateras antigenvektorn med antigener, A = {Ag1, Ag1, Ag1, Ag1, Ag1, Ag2, Ag2, Ag2, Ag2, Ag3, Ag3, Ag3}. 3. DC1 samlar antigener slumpmässigt, DCA = {Ag1, Ag1, Ag1, Ag2, Ag2}. 4. DC1 samlar ingående signaler från de samlade antigenerna, DCi = {100, 100, 0} 5. DC1 beräknar utgående signaler enligt den viktade summeringsekvationen och vikttabellen i steg 1. PAMP Fara Säker Summa CSM 100*2 100*1 0*2 = 300 Halvmogen 100*0 100*0 0*1 = 0 Mogen 100*2 100*1 0*-1.5 = 300 Tabell 2. Uträkning av utgående signaler. 6. Givet migrationströskelvärdet t = 100 så överstiger CSM tröskelvärdet. Eftersom den mogna utsignalen är större än den halvmogna (300 > 0) ges DC1 kontexten 1. 7. Livstiden för DC1 är slut och en ny cykel påbörjas. Antigenvektorn uppdateras och består nu av A = {Ag1, Ag1, Ag2, Ag2, Ag3, Ag3, Ag3} efter att DC1 samlade antigener. 8. DC2 samlar antigener slumpmässigt, DCA = {Ag2, Ag2, Ag1} 9. DC2 samlar ingående signaler från de samlade antigenerna, DCi = {0, 0, 100} 10. DC2 beräknar utgående signaler enligt den viktade summeringsekvationen och vikttabellen i steg 1. PAMP Fara Säker Summa CSM 0*2 0*1 100*2 = 200 Halvmogen 0*0 0*0 100*1 = 100 Mogen 0*2 0*1 100*-1.5 = -150 Tabell 3. Uträkning av utgående signaler 11. Givet migrationströskelvärdet t = 100 så överstiger CSM tröskelvärdet. Eftersom den halvmogna utsignalen är större än den mogna (100 > -150) ges DC2 kontexten 0. 12. Livstiden för DC2 är slut och en ny cykel påbörjas. Antigenvektorn uppdateras och består nu av A = {Ag1, Ag3, Ag3, Ag3} efter att DC2 samlade antigener. 13. DC3 samlar antigener slumpmässigt, DCA = {Ag1, Ag3, Ag3, Ag3}. 14. DC3 samlar ingående signaler från de samlade antigenerna, DCi = {20, 50, 40}
16 15. DC3 beräknar utgående signaler enligt den viktade summeringsekvationen och vikttabellen i steg 1. PAMP Fara Säker Summa CSM 20*2 50*1 40*2 = 170 Halvmogen 20*0 50*0 40*1 = 40 Mogen 20*2 50*1 40*-1.5 = 30 Tabell 4. Uträkning av utgående signaler 16. Givet migrationströskelvärdet t = 100 så överstiger CSM tröskelvärdet. Eftersom den halvmogna utsignalen är större än den mogna (40 > 30) ges DC3 kontexten 0. 17. Tre celluppdateringar har genomförts och antigentyperna analyseras enligt tabellen nedan. Antal Mogna presentationer presentationer MCAV Ag1 5 3 5/3 = 0.6 Ag2 4 2 4/2 = 0.5 Ag3 3 0 3/0 = 0 Tabell 5. Uträkning av utgående signaler 18. Tröskelvärdet bestäms specifikt för varje implementation och kräver expertkunskap. I detta fall har 0.5 satts som tröskelvärdet, vilket innebär att antigentyperna Ag1 och Ag2 klassificeras som avvikelser medan Ag3 är normal. Det är nödvändigt att nämna att det i dessa steg inte visas samtliga detaljer. Exempelvis om CSM inte hade överstigit migreringströskeln. I det fallet hade cellen fortsatt samla antigener. Uträkningen av utsignalerna är alltså de tillfälligt beräknade värdena som sedan ackumulerats. 5. Diskussion Det främsta området för DCA menade Greensmith (2007) säkerhetsproblem för datorer. Eftersom algoritmen är baserad på det mänskliga immunförsvaret vars uppgift är att upptäcka avvikelser anser jag att det huvudsakliga tillämpningsområdet är väl anpassat för algoritmen. Det visar exempelvis en studie där algoritmen användes för upptäckandet av skadliga program som tar över en dator som sedan kan styras från annat håll (Al-Hammadi, Aickelin & Greensmith, 2008). De olika signalerna är i studien tre olika typer av funktionsanrop och antigenerna är identiteterna (ID) för de processer som utförde anropen.
17 Al-Hammadi et al. beskriver däremot att det i experimentet har antagits att det skadliga programmet redan är installerat på datorn. Algoritmen försöker med andra ord inte att förhindra detta från att ske, utan snarare begränsa programmet. Jag vill påstå att detta är en begränsning eftersom det även är viktigt att kunna förhindra installationen av de skadliga programmen. DCA kan däremot användas i ett antal fler olika områden, exempelvis kan algoritmen implementeras i robotar för att hantera säkerhetsproblem (Oates, Greensmith, Aickelin, Garibaldi, & Kendall, 2007). Algoritmen avgör då om beteendet är normalt eller avvikande. Från DCA har även en del andra algoritmer utvecklats, bland annat den deterministiska varianten ddca. Viss kritik har däremot riktats mot DCA, vilket är anledningen till att nyare varianter har utvecklats. Kritiken innefattar bland annat att det inte har funnits en formell definition av den samt att den har varit mycket svår att förstå (Gu, Greensmith, & Aickelin, 2013). Detta är en av anledningarna till att ddca har utvecklats. Det finns även mycket kritik mot algoritmen vad gäller dess stokastiska natur med de många slumpmässiga elementen, vilket är den främsta anledningen till utvecklingen av en deterministisk variant (Greensmith & Aickelin, 2008). Ralph M. Steinman fick år 2011 nobelpriset i medicin för upptäckten av de dendritiska cellerna (Nobel Media AB, 2014). Detta innebär att kunskapen om cellernas funktion är relativt ny. Många antaganden har exempelvis gjorts gällande dessa vid skapandet av algoritmen. Jag vill därför påstå att det finns mycket kvar att lära inom området där den nya kunskapen även skulle kunna förbättra den dendritiska cellalgoritmen.
18 Referenser Alberts, B., Johnson, A., Lewis, J., Raff, M., Roberts, K., & Walter, P. (2002). Molecular biology of the cell (4 ed.). New York (NY): Garland Science. Al-Hammadi, Y., Aickelin, U., & Greensmith, J. (2008, Juni). DCA for Bot Detection. Evolutionary Computation, 2008. CEC 2008.(IEEE World Congress on Computational Intelligence). IEEE Congress on (pp. 1807-1816). IEEE. doi:10.1109/cec.2008.4631034 Banchereau, J., & Steinman, R. M. (1998). Dendritic cells and the control of immunity. Nature, 392(6673), 245-252. doi:10.1038/32588 Greensmith, J. (2007). The dendritic cell algorithm. (Doktorsavhandling, University of Nottingham, Nottingham). Hämtat från https://pdfs.semanticscholar.org/8368/b433f255b35d09b5a09d20628c19dbe8b00a.pdf Greensmith, J., & Aickelin, U. (2008). The deterministic dendritic cell algorithm. Artificial Immune Systems, 291-302. Gu, F., Greensmith, J., & Aickelin, U. (2013). Theoretical formulation and analysis of the deterministic dendritic cell algorithm. Biosystems, 111(2), 127-135. doi:10.1016/j.biosystems.2013.01.001 Janeway, C. A. (1989). Approaching the asymptote? Evolution and revolution in immunology. Cold Spring Harbor Symposium on Quant Biology, 54(1), 1-13. doi:10.1101/sqb.1989.054.01.003 Matzinger, P. (1994). Tolerance, danger and the extended family. Annual Review of Immunology, 12(1), 991-1045. doi:10.1146/annurev.iy.12.040194.005015 Matzinger, P. (2002). The danger model: A renewed sense of self. Science, 296(5566), 301-305. doi:10.1126/science.1071059 Medzhitov, R., & Janeway, C. A. (2002). Decoding the patterns of self and nonself by the Innate immune system. Science, 296(5566), 298-300. doi:10.1126/science.1068883 Nobel Media AB. (2014). The Nobel prize in physiology or medicine 2011. Hämtad 2018-01- 11 från https://www.nobelprize.org/nobel_prizes/medicine/laureates/2011/. Oates, R., Greensmith, J., Aickelin, U., Garibaldi, J., & Kendall, G. (2007). The application of a dendritic cell algorithm to a robotic classifier. Artificial Immune Systems, (pp. 204-215). Springer, Berlin, Heidelberg.
19 Shi, Y., Evans, J. E., & Rock, K. L. (2003). Molecular identification of a danger signal that alerts the immune system to dying cells. Nature, 425(6957), 516-521. doi:10.1038/nature01991 Williams, C., Harry, R., & McLeod, J. (2008). Apoptotic cells induce dendritic cell-mediated suppression via interferon-y-induced IDO. Immunology, 124(1), 89-101. doi:10.1111/j.1365-2567.2007.02743.x Xing, Y., & Hogquist, K. A. (2012). T-cell tolerance: Central and peripheral. Cold Spring Harbor Perspectives in Biology, 4(6). doi:10.1101/cshperspect.a006957