SELF- ORGANIZING MAPS

LINKÖPINGS UNIVERSITET Kognitionsvetenskapliga Programmet Examinator: Arne Jönsson SELF- ORGANIZING MAPS - Ett fördjupningsarbete inom Artificiell Intelligens Fack 52 katwa676@student.liu.se

Sammanfattning Denna rapport beskriver en variant av artificiella neurala nät som kallas Self-Organizing Maps. Det som framför allt skiljer detta nät från andra typer av neurala nät är dess förmåga att klassificera och organisera data utan att ha tillgång till ett facit som det kan jämföra sina resultat med. Self-Organizing Maps kan organisera data i klasser som känns naturliga för människor utan att en människa på förhand informerat nätet om vilka klasser det skall sortera datan i. Ett område där denna teknik kan få stor betydelse är till exempel avancerad informationsanalys.

Innehållsförteckning 1. Inledning 1.1 Bakgrund 1.2 Syfte 1.3 Disposition 2. Neurala nät 2.1 Neurala nät i allmänhet 2.2 Biologiska neurala nät 2.3 Artificiella neurala nät 2.4 Den artificiella noden 3. Self-Organizing Maps 3.1 Introduktion 3.2 Strukturen 3.3 Inlärningsfasen 3.4 Tillämpningar 4. Käll och litteraturförteckning 4.1 Källor 4.2 Litteratur

1. Inledning 1.1 Bakgrund 1943 gick startskottet för såväl artificiell intelligens (AI) som artificiella neurala nät (ANN). 1 Inspirerade av funktionen hos neuroner i den mänskliga hjärnan, skapade McCulloch och Pitts en enkel logisk krets av ihopkopplade neuronlika element. De neuronlika elementen slogs av och på till följd av de stimuli de fick från de kringliggande elementen. McCulloch och Pitts visade att deras kretsar kunde utföra beräkningsbara funktioner. De föreslog även att dessa kretsar skulle ha förmågan att lära sig. 1949 introducerade Hebb en uppdateringsfunktion som kunde reglera kopplingarna mellan neuronerna för att på så sätt få nätet att lära sig. 2 1957 tog Rosenblatt forskningen kring ANN ett steg närmare de biologiska neurala nätverken genom att introducera den artificiella perceptronen. 3 Rosenblatt bevisade med perceptronkonvergensteoremet att perceptronen kunde lära sig representerbara linjära funktioner. 4 Att perceptronen enbart klarade av linjära funktioner utgjorde dock en stor begränsning, vilket Minsky & Paper visade 1969 i boken Perceptrons. 5 Under 1950- och 1960-talet var det flera forskare som undersökte flerlagrade ANN, men eftersom det ännu inte fanns en effektiv inlärningsalgoritm för flerlagrade nätverk koncentrerades forskningen kring perceptronen. Som en följd av nederlaget med perceptronens begränsningar avstannade forskningen kring ANN. Inte förrän på 1980- talet tog forskningen ny fart. Under denna tid återupptäcktes backpropagation (Bryson och Ho hade redan upptäckt algoritmen 1969), 6 en algoritm som används vid inlärning av flerlagrade ANN. För att ett ANN skall kunna lära sig med backpropagationalgoritmen krävs det att nätet, tillsammans med sin input, får den förväntade outputen. 7 Nätet behöver, med andra ord, ett facit att jämföra sitt eget resultat med. När nätet jämför sitt resultat med facit vet nätet hur stort fel det har gjort och kan sedan, med hjälp av backpropagationalgoritmen, uppdatera bindningarna mellan noderna. På så vis reduceras storleken på felet vid nästa körning. Termen för 1 www.neurosiences.com/technologies/nn_history.htm 2 Rusell & Norvig (1995), s. 16. 3 www.neurosiences.com/technologies/nn_history.htm 4 Rusell & Norvig (1995), s. 20. 5 Rusell & Norvig (1995), s. 577. 6 Rusell & Norvig (1995), s. 24. 1

denna typ av lärande är superviced. I kontrast till superviced learning finns unsuperviced learning 8 (även kallad self-organized 9 ). Genom unsuperviced learning kan nätverket självt, utan facit, upptäcka olika mönster i inputdata och sortera data i kluster med olika egenskaper. 1982 introducerade Teuvo Kohonen ett ANN som lär sig genom unsuperviced learning. Kohonens kallar detta nät för Self-Oganizing Map (SOM). 1.2 Syfte Syftet med denna fördjupningsuppgift är att studera ett område inom Artificiell Intelligens närmare. Jag har valt att studera Teuvo Kohonens SOM. 1.3 Disposition I avsnitt två förklaras hur ett biologiskt neuralt nät fungerar. Detta för att belysa varifrån skaparna av ANN har hämtat sin inspiration och sina idéer ifrån. I avsnitt två illustreras även hur en avskiljd del av ett ANN, neuronen, är uppbyggd och dess övergripande funktionalitet. Att förstå hur en neuron fungerar är en förutsättning för att kunna förstå Kohonens SOM som beskrivs i avsnitt tre. 7 Simpson et al (1996), Neural Networks Applications, s. 286. 8 www.neurosiences.com/technologies/nn_unsuperviced.htm 9 Simpson et al (1996) Neural Networks Applications, s. 286. 2

2. Neurala nät 2.1 Neurala nät i allmänhet Skapandet av ANN har i stor utsträckning inspirerats av de biologiska neurala nät som finns i den mänskliga hjärnan. Utgångspunkten är att man genom att simulera verkliga nervsystem bättre ska kunna förstå hur verkliga nervsystem fungerar. Ett annat motiv för att skapa ANN är att man genom simulering av hjärnans sätt att arbeta kan hitta mer effektiva problemlösningsmetoder än de som finns idag. 10 Till skillnad från dagens datorer, som i huvudsak arbetar sekventiellt, arbetar ANN parallellt. Denna skillnad i arbetssätt gör att artificiella neurala nät i många fall kan lösa problem där dagens datorer kommer till korta. Detta gäller i huvudsak okända funktioner, brusiga data och mönsterigenkänning. 11 2.2 Biologiskt neurala nät Den mänskliga hjärnan innehåller mer än 10 10 nervceller av olika slag och över 150 miljarder synapser där nervcellerna kommunicerar med varandra. 12 Figur 1 illustrerar en neuron och dess beståndsdelar. Fig. 1 visar hur information sprids från vänster till höger i ett biologiskt neuralt nät. Längst till vänster i bilden är synapsen. Det är där neuronens dendriter tar emot signaler från omgivande neuroner. Insignalerna skickas sedan till cellkärnan där signalerna slås ihop innan de skickas vidare genom axonen för att i synapsen nå ytterligare neuroner. 10 www.phil.gu.se.ann/annintr.html 11 Simpson et al (1996), Neural Networks Applications, s. 286. 12 www.neurosciences.com/technologies/nn_history.htm 3

Varje neuron består av en cellkropp med cellkärna, en axon och dendriter. Dendriterna tar emot inkommande signaler från andra celler. Dessa signaler slås ihop i cellkärnan och genererar en utgående signal. Denna signal skickas till andra neuroner eller organ via axonen. Längst ut på axonen sitter nervändsslut som är ihopkopplade med de omgivande cellernas dendriter. Denna ihopkoppling kallas synaps och det är i synapsen som informationsöverföringen mellan nervcellerna sker. Varje neuron kan vara ihopkopplad med upp till hundratusen andra neuroner, men i snitt är de ihopkopplade med cirka hundra andra neuroner. I biologiska neurala nät bildas det en kemisk substans i synapsen som ändrar den elektrokemiska laddningen i cellkärnan. Om denna laddning överstiger ett visst tröskelvärde skickas en elektrisk puls genom axonen till de kringliggande nervcellerna. 13 Det biologiska neurala nätet kan aktivera alla neuroner och synapser samtidigt, vilket gör det oerhört snabbt och effektivt. Det är detta parallella arbetssätt som gör det attraktivt att simulera artificiellt. Skulle man kunna implementera detta parallella arbetssätt i dagens datorer skulle deras kapacitet öka avsevärt. 14 2.3 Artificiella neurala nät ANN skulle kunna beskrivas enbart genom att ange de matematiska formler som används för att bearbeta signaler och hur denna bearbetning anpassas över tiden för att uppnå ett bättre resultat. En matematisk beskrivning kan dock bli tämligen abstrakt och svårbegriplig. Det är därför vanligt att åskådliggöra ANN mer konkret med skisser och termer lånade från biologiska neurala nät. Till skillnad från biologiska neurala nät kommunicerar noder i artificiella nät med siffervärden istället för med elektrokemisk puls. Man skiljer på tre typer av noder i ANN; inputnoder, dolda noder och outputnoder. 15 Noderna arbetar helt avskilt från varandra vilket ger ett system som är tolerant mot fel och som även fungerar trots att delar av systemet inte fungerar längre. 16 Inputnoderna är samlade i ett inputlager som tar emot information från omgivningen och skickar informationen vidare i nätet. De dolda noderna finns i ett varierande antal lager mellan inputlagret och outputlagret. Ett dolt lager tar emot information från inputlagret (eller ett dolt lager som ligger ett steg närmare inputlagret) och skickar informationen vidare till outputlagret (eller ett dolt lager som 13 Rusell & Norvig (1995), s. 564. 14 Rusell & Norvig (1995), s. 566. 15 www.neusciences.com/technologies/nn_history.htm 4

ligger ett steg närmare outputlagret). Noderna är inte ihopkopplade med andra noder i samma lager eller noder i icke angränsande lager. I figur 2 ser vi hur ett ANN är uppbyggt. INPUTLAGER DOLDA LAGER OUTPULLAGER Fig. 2 visar den generella strukturen för ett neuralt nätverk med fyra noder i inputlagret, två dolda lager med 3 noder vardera samt ett outputlager med fyra noder. Det bör nämnas att ovanstående förklaring av hur ett ANN är uppbyggt är en beskrivning av ett feed-forward nätverk. Det finns ANN som är uppbyggda på andra sätt men eftersom feed-forward nätverket är den vanligaste strukturen förklaras enbart den för att ge en inblick i hur ett ANN arbetar. 16 Simpson et al (1996), Neural Networks Applications, s. 286. 5

2.4 Den artificiella noden Varje nod X i har i varje ögonblick en aktivitetsgrad som betecknas x i. Noderna är ihopkopplade med förbindelser, som var och en har en viss vikt w. Hur förbindelserna tas emot av en nod illustreras i fig. 3. Fig. 3 illustrerar hur nod X 4 tar emot inputs från noderna X 1, X 2 och X 3. I förbindelsen mellan noderna multipliceras innodens aktiveringsgrad (x i ) med förbindelsens vikt (w ij ). Samtliga förbindelser summares och bildar nettoinput för nod X 4. Om nod X 4 aktiveras eller ej beror på det värde aktiveringsfunktionen returnerar. Vikten på förbindelsen mellan nod X i och nod X j betecknas w i,j. När en signal sänds från en nod till en annan förstärks signalen i proportion till förbindelsens vikt. Den signal som nod X j tar emot från nod X i är alltså x i w i,j. Eftersom en nod oftast tar emot fler än en signal summeras samtliga inkommande signaler till ett nettoinput (x_in j ) enligt följande formel: x_in j = 6 (x j w i,j ) Hur stor X j -nodens aktiveringsgrad blir efter nettoinputen är beroende av nodens aktiveringsfunktion, f. Hur aktiveringsgraden beräknas visas i formeln nedan. x j = f (x_in j )Det finns flera olika aktiveringsfunktioner som används i artificiella neurala nät. I SOM används aktivering genom konkurrens 17, vilket diskuteras närmare i avsnitt tre. 17 www.phil.gu.se/ann/annintr.html 6

3. Self-Organizing Maps 3.1 Introduktion Self-Organizing Maps har förmågan att klassificera data utan att användaren på förhand bestämt klasserna. 18 Idén bakom SOM är att rumsligt representera de likheter som finns i indatan. 19 Denna representation är i färre dimensioner, oftast två, än indatan. Noderna i nätverket har från början en rumslig närhetsrelation till varandra. Under träningsfasen ändras vikterna hos närliggande noder för att liknande inputs till slut ska representeras intill varandra. Kohonen förklarar Self-Organization så här: Self-Organization means that this net becomes oriented and adaptively assumes a form by which it best describes the input vectors in an ordered, structured fashion. 20 Inför skapandet av SOM blev Kohonen inspirerad av Templateteorin. 21 Templateteorin förklarar den mänskliga perceptionen med att det i hjärnan finns mängder av schabloner. Varje schablon är en förenklad beskrivning av mönster som vi eventuellt bör känna igen. Vi känner igen ett mönster genom att jämföra det mot schablonerna i hjärnan för att sedan välja den schablon som överensstämmer med mönstret. 22 På samma sätt kan en SOM ge en förenklad representation av en potentiellt oändlig mängd mönster. 18 Malmgren (2002), s. 89. 19 Simpson et al (1996), Neural Networks Theory Technology and Applications, s. 128. Uppgiften är hämtad ur Kohonens artikel Things you haven t heard about the Self-Organising Map. 20 Simpson et al (1996), Neural Networks Theory Technology and Applications, s. 128. Uppgiften är hämtad ur Kohonens artikel Things you haven t heard about the Self-Organising Map. 21 Malmgren (2002), s. 90. 22 Sternberg (1996), s. 129. 7

3.2 Strukturen Nätet i en SOM består endast av två lager. Ett inputlager och ett outputlager som i SOM kallas Competitive (Kohonen) lager. I fig. 4 visas hur ett SOM kan se ut. Fig. 4 visar en SOM med två inputnoder och 5*5 noder i Kohonenlagret Inputlagret har lika många noder som antalet inputvektorer det presenteras för. Varje inputnod är förbunden med varje nod i Kohonenlagret. Kohonenlagret består av m*m noder som är organiserade i ett tvådimensionellt rutsystem. 23 Inputnoderna har samma funktionalitet som inputnoder i ett Feed-forward nät, som beskrevs i avsnitt 2.3. Noderna i Kohonenlagret har däremot en helt annan funktionalitet än outputnoderna i Feed-forward nät. 24 nedan. Kohonenlagrets funktionalitet kommer att beskrivas utförligt 3.3 Inlärningsfasen Träningsmängden som presenteras för nätet består av inputmönster och eftersom SOM lär sig genom unsuperviced learning saknar träningsmängden givna mål för vad nätet skall returnera, givet ett visst mönster. När ett inputmönster slumpas fram för att påbörja inlärningsfasen antar noderna i inputlagret (I) motsvarande värde i inputmönstret. I = (I 1, I 2,..., I n ) (I är inputlagret, I j är den enskilda noden i inputlagret) 23 Simpson et al (1996), Neural Networks Applications, s. 287. 24 www.neusciences.com/technologies/nn_unsuperviced.htm 8

Vikterna (w) mellan inputlagret och Kohonenlagret (U) slumpas fram vid träningens start. U = (U 1, U 2,..., U m,) (U är Kohonenlagret, U j är den enskilda noden) Mellan varje nod i inputlagret finns, som tidigare nämnts, en viktad förbindelse med varje nod i Kohonenlagret. Vikten mellan nod I i och nod U j betecknas w ij. Det som utmärker SOM är att Kohonenlagret aktiveras genom konkurrens, det vill säga Kohonenlagret är competitive. 25 Det innebär i sin tur att endast en nod vinner i varje körning. Den vinnande noden får värdet 1 medan övriga noder får värdet 0. Vinnarnoden (U c ) är den nod som har det lägsta avståndsvärdet. Avståndsvärdet (D j ) räknas ut med hjälp av Euklidiska Avståndsformeln: n D j = [ (I i - w ij ) 2 ] 0.5 i=1 Det finns andra metoder att räkna ut vilken nod som har det lägsta avståndsvärdet, men den Euklidiska Avståndsformeln är den som vanligen används. 26 Vikterna hos förbindelserna till vinnarnoden uppdateras så att de makas närmare inputvektorn ifråga. Denna uppdatering leder till att vinnarnoden blir ännu bättre på att i efterkommande omgångar representera inputs som liknar den aktuella. När vinnarnoden har identifierats och uppdaterats skall även vinnarnodens grannar identifieras och uppdateras. Vinnarnodens grannar är de noder som befinner sig i Neighbourhood Area (H). Principen för Neighbourhood Area visas i fig. 5. 25 Malmgren (2002), s. 21. 26 Wechsler (1992), s. 43. 9

Fig. 5 illustrerar Neighbourhood Area kring vinnarnoden U c. Storleken på Neighbourhood Area kan variera mellan 0 och 1. I början av inlärningen är det dock vanligast att storleken på Neighbourhood Area är cirka halva Kohonenlagret. Storleken på Neighbourhood Area (H) minskar ju fler epoker av träningsmängden nätet gått igenom för att slutligen endast bestå av vinnarnoden. En epok innebär att nätet har kört igenom alla exemplen i träningsmängden en gång. Formeln för storleken på Neighbourhood Area skrivs: H t = H 0 (1- t/t) (t är den aktuella epoken, T är totala antalet epoker,h 0 betecknar storleken på Neighbourhood Area från start) Noderna i Neighbourhood Area uppdateras utifrån hur nära de är vinnarnoden. Ju närmare en nod ligger desto mer ändras vikterna i dess förbindelser. Summan med vilken en nods vikter skall ändras ( : ij ) beräknas med följande formel: : ij = D (I i - W ij ) [sin (d cj ) / 2d cj ] (d cj är avståndet från den aktuella noden U jb till vinnarnoden U c, α betecknar inlärningshastigheten) Allt eftersom fler epoket körs minskar inlärningshastigheten enligt följande formel: D t = D 0 (1- t/t) (α t är den aktuella inlärningshastigheten, a 0 är den ursprungliga inlärningshastigheten, t är den aktuella epoken, T är det totala antalet epoker.) 27 27 www.neusciences.com/technologies/nn_unsuperviced.htm 10

Det är genom denna uppdatering av vinnarnoden och dess Neighbourhood Area som kartan över inputdomänen uppkommer. Hur tillförlitlig kartan blir är beroende av vilken inlärningshastighet och vilken storlek på Neighbourhood Area man valde att starta med. Något som också påverkar kartans tillförlitlighet är hur snabbt inlärningshastigheten och storleken på Neighbourhood Area minskar. Båda dessa variabler är i sin tur beroende av hur många epoker som körs. Ju fler epoker desto långsammare minskning av inlärningshastigheten och storleken på Neighbourhood Area. Man har funnit att en långsam minskning leder till en bättre organiserad karta. Eftersom en långsam minskning av inlärningshastigheten och storleken på Neighbourhood Area kräver många epoker kräver den följaktligen längre inlärningstid. 28 3.4 Tillämpningar Få ANN har fått så många praktiska tillämpningar som SOM. 29 De klarar av att organisera data trots att datauppgifterna har låg exakthet (är brusig) 30 och kan göra kvalificerade prognoser genom att studera information som är lagrad i viktvektorerna. 31 Det huvudsakliga användningsområdet av SOM är dock klassificering av data för att få en tvådimensionell display av inputen som är enkel att visualisera. 32 SOM kan gruppera data i klasser som människor finner naturliga. Ett exempel på ett användningsområde där SOM används för att reda ut oregelbunden data är data cleaning. Antag att du har ett program som skall analysera information från en databas. Informationen är dock för oregelbunden för att programmet skall kunna göra en analys. En SOM används då för att organisera informationen i klasser och analysprogrammet kan som en följd av detta fokusera på en klass i taget istället för hela informationsmängden på en gång. 33 Ett annat exempel där man kan använda en SOM är riktad marknadsföring. För att höja sin försäljningen vill ett företag skicka ut reklam till potentiella köpare. För att hitta en potentiell köpare måste företaget veta vilka egenskaper en köpare har. För att se vilka egenskaper som utmärker köpare låter man en SOM klassificera data från en konsument undersökning med både köpare och 28 Simpson et al (1996), Neural Networks Applications, s. 288. 29 Malmgren (2002), s. 89. 30 Simpson et al (1996), s. 128. Uppgiften är hämtad ur Kohonens artikel Things you haven t heard about the Self-Organising Map. 31 Simpson et al (1996), Neural Networks Applications, s. 286. 32 www.nada.kth.se/~orre/snns-manual/usermanual/nod216.html 33 www.neusciences.com/technologies/nn_unsuperviced.htm 11

icke-köpare. Efter inlärningsfasen med dessa data kommer vissa kluster på kartan innehålla en hög andel köpare. När sedan SOM konfronteras med en mängd eventuella köpare kommer dessa att sorteras efter de klasser som skapades under inlärningsfasen. De eventuella köpare som hamnar på samma ställe på kartan får reklam hemskickad. De eventuella köpare som däremot hamnar där icke-köparna hamnade under träningsfasen bryr sig inte företaget om att skicka reklam till eftersom det troligtvis skulle vara slöseri med resurser. 12

4. Käll- och litteraturförteckning 4.1 Källor www.neusciences.com/technologies/nn_intro.htm www.phil.gu.se/ann/annintr.html www.nada.kth.se/~orre/snns-manual/usermanual/nod216.html 4.2 Litteratur Tryckt Russel, Stuart & Norvig, Peter (1995), Artificial Intelligens. A Modern Approach. Prentice Hall Inc, Upper Saddle River. Simpson, Patrick K, et al (1996), Neural Networks Applications. The Institute of Electrical and Electronics Engineers Inc, New York. Simpson, Patrick K, et al (1996), Neural Networks Theory, Technology and Applications. The Institute of Electrical and Electronics Engineers Inc, New York. Sternberg, Robert J. (1996), Cognitive Psychology. Second edition. Hardcourt Brace & Company, Orlando. Wechsler, Harry (1992), Neural Networks for Perception. Volume 2. Computing, Learning and Architectures. Academic Press Inc, San Diego. Otryckt Malmgren, Helge, Ett minne blott. Om inlärning i verkliga och artificiella neurala nätverk. Filosofiska Institutionen, Göteborgs Universitet 2002. 13