Konstruktion av modell och simulator

Konstruktion av modell och simulator En interaktiv och höggradigt visuell och audiell datorapplikation, Den Lilla Lyssnerskan, har konstruerats och datorimplementerats i programmeringsspråket C++ med hjälp av programutvecklingssystemet Visual C++ [Kruglinski 1997, Gregory 1998, Lippman 1991, Richter 1995, Thompson 1995] inkluderande Microsoft Foundation Classes (MFC) och DirectX. Programmeringsstruktur och implementering är gjorda så att det är lätt att modifiera och utöka funktionaliteten, t.ex. införa omlärning och härmningsdrift, modifiera SOMalgoritmer, införa konstruktörsskapade (medfödda) SOMorganisationer, införa nya filtreringar och att snabbt kunna testa nya idéer. De tidskritiska delarna är optimerade för god exekveringsprestanda. Applikationens C++klasshierarki utgörs av ca 75 klasser, designade för effektiv kodåteranvändning. Det totala antalet programrader är ca 25 000. Allt är skrivet från grunden av författaren, utom Fast Fourier Transformen (FFT) som hämtats från internet. Ljudinmatningen sker i realtid och ombesörjs av en separat buffringsprocess. Databehandling och visualisering sköts av en annan process. Klasserna för de neurala nätverken har pekarbaserade hopkopplingsprimitiver för hopkopplingsflexibilitet och snabb exekvering. Den Lilla Lyssnerskan är en simulator baserad på modeller för lärande på basal nivå. Syftet är att använda den exekverande modellen för att stimulera till sådana associationer som ökar förståelsen för lärandet. Den Lilla Lyssnerskan är baserad på stimulus och respons i form av ljud. Det är tal, pianomusik och pianotoner, och mer variationsfattiga sinussyntetiserade toner. Hennes beteenden utgörs av ljudresponser. Modellen används också för att studera uteffekter (responsen) av variationer i indata (stimulus) och inlärningsparametrar. Modellen är baserad på självorganiserande neurala nätverk (lärverk) av SOM-typ (Self-Organizing Map). Jag har använt Kohonens SOMalgoritm (KSOM) som min utgångspunkt för inspirationer, ändringar och utvidgningar mot mer generella och speciella SOM-strukturer. Modellen är idag baserad på två SOM:ar; en sensorisk SOM (INSOM) och en motorisk SOM (UTSOM) enligt dubbelkonsmodellen, se appendix A. Implementeringen består av modellcochlea, dataförbehandling, samt de båda seriekopplade SOM:arna INSOM och UTSOM. INSOM är tvådimensionell och består av 20x20 beräkningsenheter (specialister). Den får sina 127 insignaler från dataför- en datorexekverbar modell för lärande 21

behandlingen och ger 400 utsignaler, en från vardera beräkningsenhet. De 127 insignalerna är i princip de frekvenskomponenter som erhålls från modellcochleans spektralanalys (beräknad med FFT, Fast Fourier Transform). Det unika i detta arbete är att alla 400 utsignalvärdena och inte bara vinnaren i INSOM påverkar UTSOM både under inlärning och användning. UTSOM är en endimensionell SOM bestående av åtta beräkningsenheter (specialister). Modellcochlea lyssnar på ljudstimulus från mikrofon, CD-spelare eller datorns pianosynt, och UTSOM kan generera respons till pianosynt och talsyntes (talsyntes är prövad men ännu inte vidareutvecklad). Bilden som följer visar förenklat blockschema över Den Lilla Lyssnerskan och nästföljande bild visar Den Lilla Lyssnerskans användargränssnitt. Här har Den Lilla Lyssnerskan tränats med mamma, lampa och pippi. Dessa stimuli resulterar i responsen att hon skriver ned det avkodade ordet textligt såsom t.ex. MMMM MAM AAAAAAAAAMMMMMMMMMMAAAAAAAAAAAA, se raden längst ned till vänster i bilden. De följande avsnitten i detta kapitel beskriver mer ingående i tur och ordning: självorganisation, Kohonens SOM-algoritm, korrelation (överlappning) och dataförbehandling. Sedan beskrivs interaktionsoch visualiseringshjälpmedlen såsom pianogram, sonagram [Fant 1967], de visuella och interaktiva representationerna av SOM:arna samt kalibrering av SOM:arna. 22 en datorexekverbar modell för lärande

Frekvensanalys Fast Fourier Transform Dataförbehandling INSOM 20 x 20 beräkningsenheter (specialister) UTSOM 8 beräkningsenheter (specialister) Till pianosynt eller talsyntes Bild 5. Blockschema över Den Lilla Lyssnerskan. Bild 6. Användargränssnittet för Den Lilla Lyssnerskan. en datorexekverbar modell för lärande 23

S 11 U 11 S 12 U 12 Självorganisation Kohonens SOM-algoritm (KSOM) S 13 U 13 S 14 U 14 Det självorganiserande lärverket, en SOM (Self-Organizing Map), består av en tvådimensionell matris av beräkningsenheter. Dessa benämnes specialister eller avkodare då de under inlärningsfasen kommer att utvecklas att bli specialister på en viss aspekt av stimulus (insignalen), se vidstående bild. Bilden visar en SOM bestående av 16 specialister organiserade i fyra rader och fyra kolumner. S 21 U 21 S 22 U 22 S 23 U 23 S 24 U 24 De 127 insignalerna är alla anslutna till alla 16 specialisterna. Detta är en generell men inte särskilt biologiskt rimlig ansats eftersom ledningsdragningen i en fysisk implementering skulle förbruka orimligt mycket volym. Ansatsen täcker dock alla möjligheter: ändringen av en viktvektorkomponent motsvarar en synapsviktändring, och förbindningar läggs till eller tas bort beroende om en viktvektorkomponent blir skild från noll alternativt lika med noll. S 31 S 32 S 33 S 34 Det finns i detta exempel 16 utsignaler från denna SOM, en från vardera specialist. U 31 S 41 U 41 U 32 S 42 U 42 U 33 S 43 U 43 U 34 S 44 U 44 Självorganisationen, som sker helt utan lärare, går till så att specialister utbildas på bestämda aspekter av stimulus, och att specialister som ligger nära varandra på SOM:en blir specialister på aspekter av stimulus som ligger nära, t.ex. två närliggande toner i en durskala. Specialister som ligger långt ifrån varandra på SOM:en kommer att avspegla aspekter av insignalen som är långt ifrån varandra. Närhet på SOM:en motsvarar likhet genom nära avstånd i stimulus. Detta kallas att SOM:en är spatialt ordnad. Bild 7. SOM Self-Organizing Map. Om stimulus är uppdelad i distinkta grupper med variation inom gruppen, vilket gäller för de åtta tonerna i en C-durskala spelade på ett piano, kommer SOM:en att uppvisa en uppdelning i åtta delområden, en för varje ton i skalan. Inom varje delområde är specialisterna relativt lika. De representerar variationen inom en pianoton och variationen mellan samma pianoton vid olika tillfällen i tiden. Däremot är det ett större språng till specialisterna i ett grannområde och ännu större till ett grannområde längre bort. Observera 24 en datorexekverbar modell för lärande

att SOM:en själv finner de karakteristiska delområdena (kategorierna) i stimulus helt utan hjälp av någon lärare. Bilden nedan visar självorganisation med KSOM-algoritmen då stimulus har varit upprepade C-durskalor. Först urskiljs de åtta delområdena, avgränsade av blå linjer, det finns ett delområde för varje ton i skalan, ett resultat av den lärarlösa självorganisationsprocessen. Tjockleken på de blå linjerna motsvarar olikheten hos specialisterna på vardera sida om ett blått linjesegment. Vidare ses att tonsekvensen CDEFGAHc i C-durskalan framgår på SOM:en. C är grannområde med D, som är grannområde med E och så vidare till och med tonen c. Det går att dra en ormliknande kurva som följer skalans toner, se den gula ormen i bilden. Självorganisationen i bilden ovan visar en perfekt spatial ordning. Det finns kraftiga avgränsningar mellan de flesta delområdena, men avgränsningarna mellan E-F och H-c är tunnare, vilket förklaras av här är det bara ett halvt tonsteg mellan tonerna. Vidare avslöjas att dataförbehandlingen i detta exempel undertrycker pianotonernas övertoner. Om detta inte skett, hade C och tonen c, en oktav högre, troligen varit grannar på SOM:en, eftersom tonen c utgör första övertonen till C. Denna ton utgör överlappningen mellan de båda stimulustonerna. Bild 8. SOM:en har självorganiserat efter en C-durskala. Den gula ormen illustrerar den spatiala ordningen. Korrelation (överlappning) Självorganisationen i Kohonens SOM-algoritm bygger på att den finner olika typer av korrelationer i stimulus (insignalen). Korrelation ses här som likhet genom överlappning. Fyra typer av korrelationer som SOM-algoritmen utnyttjar kan urskiljas: amplitudkorrelation, frekvenskorrelation, övertonskorrelation och tidskorrelation. en datorexekverbar modell för lärande 25

Amplitudkorrelation Exempel här får utgöras av grundtonen för en pianoton som aktiverar samma frekvenskomponenter under hela tonens längd. Deras amplituder varierar emellertid över tonens livslängd. Denna typ av korrelation, amplitudöverlappning, utgör grunden för bildandet av de distinkta tonområdena och avspeglar variationerna inom varje ton. Bild 9 och 10. Amplitudöverlappning. I ovanstående bilder ses två spektrogram för pianotonen E, den övre under tidigt skede av tonen, och den undre under avklingningen av tonen. Amplitudöverlappningen för grundtonen syns tydligt. I första bilden syns också tonens första överton en oktav ovanför grundtonen. Frekvenskorrelation Frekvenskomponenter tillhörande närbelägna toner överlappar delvis. Denna korrelation bidrar till den spatiala ordningen: C överlappar D, D överlappar E o.s.v. I vidstående sonagram ses C-durskalan från vänster till höger, och alla granntoner överlappar varandra i frekvensplanet. I detta exempel har en dataförbehandling med låg selektivitet (lågt Q-värde) och övertonsundertryckning använts. Bild 11. Frekvensöverlappning. Övertonskorrelation Toner överlappar genom att de har gemensamma deltoner. Denna typ av korrelation fanns inte med i exemplet ovan. I vidstående sonagram ses tonerna C, G och c. C:s andra överton är gemensam med G:s första överton, och c:s grundton är gemensam med C:s första överton. Bild 12. Övertonsöverlappning. 26 en datorexekverbar modell för lärande

Tidskorrelation efterhörning Här sker överlappningen genom att en ton inte klingat ut förrän nästa ton ansätts, båda är under en begränsad tid aktiva samtidigt. Denna korrelation bidrar också till den spatiala ordningen. I bilden intill ses en C-durskala spelad med pianots fortepedal nedtryckt. Längst till höger där spektrumet för den åttonde tonen c visas kan man även urskilja aktiveringen från de tidigare spelade tonerna i skalan. Bild 13. Efterhörning. Specialisterna SOM:en är uppbyggd av beräkningsenheter specialister. Varje specialist består i sin enklaste implementering av ett modellneuron, se bilden nedan. Modellneuronet beräknar skalärprodukten: U = I. W. Varje element i insignalvektorn I i multipliceras med motsvarande element i viktvektorn W i och alla produkterna summeras och ger den skalära utsignalen U. Den aspekt av insignalvektorn I som varje beräkningsenhet är specialist på bestäms av dess specialistidentitet, viktvektorn W, som innehåller lika många element som insignalvektorn I. Båda vektorerna I och W är normaliserade till vektorlängden ett. Hos Den Lilla Lyssnerskan består vektorn I av 127 frekvenskomponenter skapade av dataförbehandlingens frekvensanalys. Bild 14. Modellneuronet. Beräkningsenheten ger en kontinuerlig utsignal, U, som har sitt största värde (= 1.0) då vektorerna I och W är lika (de pekar åt samma håll i den 127- dimensionella rymden), och sitt minsta värde (= 0.0) då de båda vektorerna är ortogonala (vinkelräta). Ett värde mellan 0.0 och 1.0 indikerar graden av likhet mellan vektorerna, d.v.s. hur nära insignalen stämmer överens med beräkningsenhetens specialitet. En specialist som bara har viktvektorkomponenter motsvarande dem i en bestämd ton svarar enbart på denna ton, men en specialist som har viktvektorkomponenter som motsvarar t.ex. två toner svarar på båda tonerna. I 1 I 2 I 127 W 1 W 2 W 127 + U en datorexekverbar modell för lärande 27

Kohonens SOM-algoritm Kohonens SOM-algoritm, som konstruerats med tydlig inspiration från biologiska Cortical Feature Maps, är en effektiv algoritm för självorganisation och är renodlad och generaliserad för att implementeras på en vanlig enprocessordator. SOM:en består i detta fall av 400 parallellt arbetande beräkningsenheter. Med tillgång till en 400- processordator hade alltså den effektivaste algoritmen varit en parallellalgoritm. Algoritmens grundsteg är: 1. Initieringsfas. Alla specialisternas viktvektorer initieras med slumpmässiga värden. 2. Organisationsfas (inlärningsfas 1): Under denna fas av inlärningen sker den grundläggande självorganisationen: uppdelningen och den spatiala ordningen grundläggs. Denna fas motsvarar ca 30 upprepade C-durskalor (eller 10 000 frekvensspektrumsampel). Det första stimulussamplet kommer att aktivera någon specialist mest. Denna specialist kallas vinnaren och det är slumpen att just denna specialist blev den första vinnaren. Nu lär sig specialisten att bli lite bättre på just denna stimulusaspekt genom att vrida sin viktvektor med ett litet inkrement, lärfaktorn (initialt satt till 10%) mot stimulusvektorn. Nästa gång en liknande stimulus uppträder kommer vinnarspecialisten att svara ännu bättre. Vinnaren vet att grannspecialisterna också bör svara på snarlika stimulusaspekter. Därför låter denne ett grannskap av specialister runt sig själv uppdateras genom att vrida deras viktvektorer mot aktuell stimulusvektor. Grannskapsstorleken är från början stor, täcker faktiskt hela SOM:en (100%). Ovanstående process upprepas för följande stimulussampel. Grannskapsfaktorn minskar under denna fas exponentiellt från 100% av SOM:en till att bara vinnaren och kanske de närmaste grannarna tillhör grannskapet. Lärfaktorn avtar på samma vis exponentiellt från 10% till 1%. Nu har den grundläggande självorganisationen utbildats. 3. Finjusteringsfas (inlärningsfas 2). Under denna fas finjusteras alla specialisternas värden så att de tillsammans representerar variationerna inom de olika tonerna. Denna fas motsvarar ca 120 upprepade C-durskalor (eller 40 000 frekvensspektrumsampel). Enbart viktvektorerna hos vinnaren med närmaste grannar justeras. Lärfaktorn är låg (0.1%), så justeringarna är små. Märk att algoritmen är den samma under både första och andra inlärningsfasen. 28 en datorexekverbar modell för lärande

4. Igenkänningsfas. SOM:en är färdiglärd för användning till att diskriminera mellan, känna igen, de olika kategorierna i stimulus. All inlärning (viktjustering) är avstängd, och algoritmen exekverar betydligt snabbare. Algoritmen är mest datorkrävande under inlärningsfas 1. Kommentar till 1: I de fall man har viss förkunskap om resultatet, t.ex. antalet delområden och den spatiala ordningen mellan dem, är det fördelaktigt att initiera alla specialisterna med lämpliga värden (istället för slumpmässiga) för att få snabbare och bättre självorganisation. Kommentar till 4: Naturligtvis kan man återgå till inlärningsfas igen, t.ex. för att lära om SOM:en att anpassa sig till eventuell ny stimulusvariation. en datorexekverbar modell för lärande 29

Dataförbehandling Dataförbehandlingen är de transformeringar av den fysiska insignalen, i detta fall ljudvågor, som utförs för att förse SOM:en med sådana insignaler att lämplig funktion erhålls. Förbehandlingen är helt avgörande för vilka egenskaper SOM:en självorganiserar efter och hur god självorganisationen blir. En av förbehandlingens viktigaste uppgifter är att undanröja oönskade variationer. SOM:en skall t.ex. helst reagera likadant för en bild som är translaterad några bildelement eller roterad några grader. I fallet ljud är det ofta önskvärt med intensitetsinvarians. Det kan även vara önskvärt med frekvensinvarians, och förbehandlingen ombesörjer detta, så att SOM:en inte självorganiserar efter absoluta frekvenser utan istället efter frekvensrelationer. God hjälp under konstruktionsarbetet av dataförbehandlingen har varit Musical Applications of Microprocessors [Chamberlin 1980], Audiologi [Lidén 1985] och Mathematics Handbook for Science and Engineering [Råde 1998]. I bilden på nästa sida visas den förbehandling Den Lilla Lyssnerskan använder: Ytterörat längst uppe till vänster motsvarar en virtuell mikrofon som är ansluten till datorns ljudkort. Med hjälp av ljudkortets mixer kan Den Lilla Lyssnerskan välja mellan olika ljudkällor: en äkta mikrofon, datorns CD-spelare eller ljudkortets synthesizer. Ljudkortet omvandlar den analoga ljudsignalen till digitala sampel, och dessa lagras i en kö (FIFO-buffert) för att utjämna variationer i datorbelastningen. En 256-punkters FFT (Fast Fourier Transform) genererar 127 användbara frekvenskomponenter och är första steget i Den Lilla Lyssnerskans modellcochlea. Sedan sker valbara filtreringar som påverkar selektiviteten hos modellcochlean. Olika skärpningsfiltreringar kan väljas för att höja Q-värdet, dämpa övertoner eller välja ut ett visst antal övertoner. Dessa operationer kan kombineras med lågpassfiltreringar för att simulera en lägre selektivitet hos modellcochlean. AGC-steget (Automatic Gain Control, automatisk förstärkningsreglering) minskar dynamiken så att svaga stimuli förstärks till en normalnivå. Det finns en valbar maxförstärkningsparameter som förhindrar att alltför låga nivåer (brus) förstärks oproportionerligt mycket. Det parametriserade tidslågpassfiltret kan filtrera bort oönskade transienter i stimuli. Logaritmeringssteget förstärker de svagare frekvenskomponenterna. En valbar tröskelnivå bestämmer hur mycket extra förstärkning de svagare komponenterna ges. 30 en datorexekverbar modell för lärande

Steget för lateral inhibering är valbart, applikationsberoende och programkodskonfigurerat. Till sist sker en normalisering av den resulterande 127- dimensionella insignalvektorn till SOM:en. En Start/Stopp-signal, beräknas efter FIFO-bufferten och används för att inhibera SOM-inlärningen under tystnad och därmed undvika överstimulering. Ljudkort med mixer Sound Blaster Live FIFO-buffert Val av ljudkälla FFT 256 punkter Selektivitetsfilter AGC Lågpassfilter över tid Selektivitetsstyrning Maximal förstärkning Filterstyrning Logaritmering Lateral inhibering Normalisering Insignal till SOM På/Av Tröskel På/Av Konfiguration Bild 15. Blockschema över dataförbehandlingen. en datorexekverbar modell för lärande 31

Visualiseringshjälpmedel Nedanstående exempel visar möjligheterna hos den parametriserade dataförbehandlingen och de visualiseringsmöjligheter som finns för att studera indata som SOM:en sedan kommer att självorganisera efter. Metoder för interaktiv kalibrering av SOM:en kommer också att beskrivas och exemplifieras. Bild 16. Ett pianogram visar ett C-durackord CEGc. Bild 17. Pianotonen C med de två första övertonerna c och g. Bild 18. Pianotonen C och påslagen logaritmering. Pianogram Pianogrammet är ett frekvensspektrogram med frekvensen längs den horisontella axeln och amplituden längs den vertikala axeln. Frekvensskalan illustreras av en pianoklaviatur och frekvensupplösningen är här 2048 frekvenskomponenter. I vidstående bild visas pianogrammet för ett C- durackord: CEGc. De blå staplarna är frekvenskomponenterna direkt efter FFT. De röda staplarna visar resultatet då dessa ursprungliga frekvenskomponenter omavbildats på 85 stycken pianotonsfrekvenskomponenter, en 85-toners pianotonscochlea. Att de högre blå frekvenskomponenterna inte avbildats på röda pianotonskomponenter beror på att de är övertoner till de lägre röda pianotonskomponenterna. Ett lateralt inhiberingssteg i dataförbehandlingen har filtrerat bort dessa så att de inte tolkas som ett pianotangentnedslag. Vidare ses röda markeringar på tangenterna i bilden för de fyra tonerna CEGc, Den Lilla Lyssnerskan har uppfattat dessa fyra toner som stimulus. I nästa pianogram är frekvensupplösningen 127 frekvenskomponenter. Frekvensupplösningen är låg i de lägre oktaverna, och först i de högre finns det åtminstone en spektrallinje per halvton. Bilden visar resultatet efter förbehandlingen då stimulus är pianotonen C. De båda första övertonerna c och g syns också. Logaritmeringen är inte aktiv. Vidstående bild visar samma stimulus men med påslagen logaritmering. De svagare övertonerna har förstärkts på bekostnad av de redan starka. Fler övertoner syns också. 32 en datorexekverbar modell för lärande

Förbehandlingens filtreringssteg är här aktiverat för att skapa låg selektivitet (lågt Q-värde). En lågselektiv modellcochlea har erhållits. Det finns en tydlig frekvensöverlappning till andra pianotoner. Filtreringen är här aktiverad för att skapa mycket hög selektivitet (högt Q-värde), en mycket högselektiv modellcochlea har erhållits. Endast den starkaste frekvenskomponenten släpps igenom. Bild 19. Låg selektivitet i förbehandlingen. Bild 20. Mycket hög selektivitet i förbehandlingen. Även här är filtreringen aktiverad för att skapa hög selektivitet. De fyra starkaste frekvenskomponenterna släpps igenom, här grundtonen och de tre starkaste övertonerna. Här är filtreringen aktiverad för att skapa hög selektivitet. Endast den starkaste frekvenskomponenten med sina närmaste grannar släpps igenom, och inget annat. Sonagram Sonagrammet är ett frekvensspektrogram där tiden visas längs den horisontella axeln, frekvensen längs den vertikala axeln och svärtningsgraden i diagrammet motsvarar amplituden hos respektive frekvenskomponent. Bildserien som följer visar sonagram som motsvarar de pianogram som nyss beskrivits. Notera att sonagrammet har en dimension mer än pianogrammet nämligen tiden, som gör att man kan följa ett ljuds dynamiska variationer i frekvensplanet. Bild 21. Hög selektivitet i förbehandlingen. Bild 22. Hög selektivitet i förbehandlingen. De starkaste frekvenskomponenten med sin omgivning släpps igenom. I vidstående sonagram är frekvensupplösningen 127 frekvenskomponenter. Bilden visar resultatet efter förbehandlingen då stimulus är pianotonen C. Sex övertoner är skönjbara och de varierar över tiden. Logaritmeringen är inte aktiv. Bild 23. Pianotonen C. Sex övertoner är skönjbara och varierar över tiden. en datorexekverbar modell för lärande 33

Logaritmeringen är påslagen. Övertonernas bidrag är klart starkare. Bild 24. Logaritmering är påslagen. Övertonernas bidrag är klart starkare. Bild 25. Frekvensöverlappningar mellan tonerna C och D. Filtreringen är aktiverad för att skapa låg selektivitet. Tonen C följd av D är stimuli. Frekvensöverlappningarna mellan tonernas frekvenskomponenter syns tydligt. Bild 26. Endast den starkaste frekvenskomponenten släpps. Bild 27. De fyra starkaste frekvenskomponenterna släpps igenom. Filtreringen är aktiverad för att skapa hög selektivitet och släpper endast igenom den starkaste frekvenskomponenten. En liten knyck syns där tonen C övergår till D. Filtreringen är aktiverad för att skapa hög selektivitet, och de fyra starkaste frekvenskomponenterna släpps igenom. Grundtonen och de båda första övertonerna finns med hela tiden men, märk hur den fjärde komponenten skiftar mellan högre övertoner. Detta sker på grund av att amplitudförhållandena mellan pianotonens frekvenskomponenter ändras under tonens livslängd. Bild 28. Den starkaste frekvenskomponenten med sin omgivning släpps igenom. Filtreringen är aktiverad för att skapa hög selektivitet och släpper endast igenom den starkaste frekvenskomponenten med sin omgivning, och inget annat. Märk att linjerna är tjockare än i förrförra bilden, tjockleken avspeglar att flera grannfrekvenskomponenter är aktiva. 34 en datorexekverbar modell för lärande

Sonagrammet är väl lämpat och används för att studera talets frekvenssammansättning som funktion av tiden. Nedan visas sonagrammet då författaren spontant utbrast Heja Certec! Bild 29. Det resulterande sonagrammet då författaren spontant utbrast Heja Certec! en datorexekverbar modell för lärande 35

SOM-visualiseringar och interaktion Representationerna för INSOM och UTSOM samt sonagrammet ritas ut på datorskärmen, och mycket av visualiseringshjälpen och interaktiviteten är baserad på dessa. Vidstående bild visar underst INSOM som består av 20x20 specialister. Dess insignaler, som ses i sonagrammet överst, kommer från förbehandlingen. INSOM:s utgångar är alla anslutna till UTSOM som består av 8 specialister i en rad. Bilden visar resultatet efter upprepad träning av talstimulus Heja Certec som ses i sonagrammet överst. Bild 30. INSOM, UTSOM och sonagram. De blå avgränsningslinjerna mellan specialister indikerar med linjebredd hur olika specialisterna på ömse sidor är. En bred blå linje anger att specialisterna är mycket olika. Avsaknad av linje, eller att den är så tunn att den inte syns, anger att specialisterna är lika varandra. I tidigare exempel sågs hur de blå linjerna avgränsade de åtta delområdena för C-durskalan. Här kan också ses tendenser till en uppdelning, inte alls lika tydligt som i fallet med åtta olika toner. Heja Certec har uppenbarligen inte ett fåtal distinkta delområden utan många fler och med mjukare övergångar. I mitten av varje vit specialistkvadrat syns en liten färgmarkering. Denna anger för INSOM vilken del av frekvensspektrum specialisten reagerar mest på. Färgerna är i tur och ordning och med start i lägsta frekvensbandet: blå, grön, gul, röd och vit. Det finns ett högfrekvent delområde (vit markering mot vit bakgrund) till vänster i mitten av nedre halvan, och en god gissning är att detta motsvarar s-ljudet i ordet Certec. För UTSOM gäller att färgmarkeringarna avspeglar vilken del av INSOM som UTSOM-specialisten är mest specialiserad på. De blå linjerna tillsammans med frekvensbandsindikationen ger en god vink om hur SOM:arna är organiserade. 36 en datorexekverbar modell för lärande

Sonagraminteraktion En av de intressantare frågorna är: Hur avbildas sonagrammets tidsvarierande frekvensspektrum på graden av aktivering i olika specialistområden i INSOM? Med hjälp av musen markerar användaren en tidsföljd av sampel i sonagrammet. Vidstående bild visar hur INSOM och UTSOM aktiveras för det utvalda området i sonagrammet. Här är s-ljudet utvalt. Det visade sig att den tidigare hypotesen var rätt, S- området befinner sig i det vitmarkerade högfrekventa området i INSOM. De gröna aktiveringsspåren anger vilka specialister i INSOM som varit aktiverade under sampelföljden. Grönt X motsvarar samplet längst till vänster, och grönt O motsvarar det längst till höger. Även UTSOM har organiserat ett delområde efter s-ljudet, specialisten längst till vänster. Detta delområde är det tydligaste i UTSOM. Bild 31. SOM-aktiveringar motsvarande med musen utvalt område i sonagrammet. en datorexekverbar modell för lärande 37

Bild 32. Färdigkalibrerad INSOM och aktiveringsspår motsvarande TEK. Kalibrering Nästa steg är att kalibrera SOM:arna med lämpliga textliga rubriker, t.ex. vanliga bokstäver för att fonetiskt beskriva de olika områdena i INSOM. Kalibreringen går till så att man studerar sonagrammet och identifierar vilka områden som motsvarar de olika statiska fonemen. Sedan markeras ett område i sonagrammet och därefter markerar man med musen specialisterna i det rödaktiverade området i INSOM (som motsvarar sampelutsnittet) med vald bokstavssymbol. Vidstående bild visar färdigkalibrerad INSOM. Ett sampelområde motsvarande ljudet tek i Certec är utvalt i sonagrammet. Det gröna aktiveringsspåret börjar med ett X i T -området, fortsätter sedan till E - området, gör en väg över omarkerat område, för att tills sist avsluta i K - området. Det omarkerade området motsvarar det ljudstopp som sker innan k-ljudet exploderar fram. Observera att aktiveringsspåret inte visar hur många gånger i följd en viss specialist blivit aktiverad, enbart specialistföljden. Ännu mer information Med musens hjälp kan man även klicka på en specialist och få information om aktuell aktivering, viktvektor och dominerande frekvenskomponentindex. Bild 33. Taligenkänningens utskrift som resultat av talstimulus Heja Certec. Även den text som motsvarar ålyssnat talstimulus skrivs ut. Detta görs automatiskt genom att kalibreringsbokstäverna för de specialister det gröna aktiveringsspåret genomlöper skrivs ut. I bilden nedan visas utskriften som resulterar av talstimulus Heja Certec. Bokstavsupprepningarna bestäms av hur stor tidsandel respektive bokstav upptar. H- och t-ljuden är nätt och jämnt avkodade, medan övriga är det med god marginal. 38 en datorexekverbar modell för lärande