Simulatoranvändning uppläggning och resultat

Relevanta dokument
Experiment med absolut gehör sinustoner och högselektiv modellcochlea

Diskussion och slutsatser

Konstruktion av modell och simulator

Appendix A. Dubbelkonsmodellen en datorexekverbar designprincip för hjärnan

Björn Breidegard. En datorexekverbar. modell för lärande

MEMORERINGSARK Ackord-typer och Beteckningar

Teori och metod. Teorier för mänskligt lärande (pedagogik) tas inte upp i denna uppsats.

Pianostudio 1.0. Anders Svedberg. Höstterminen Sida 1 av 17. rev 1.02

ACKORDSPEL PÅ PIANO av Lars Wallenäs

TDDB96 Projekt: Object priming med visuell stimuli

Mål med temat vad är ljud?

Innehållsförteckning. Installation Inledning Pedagogisk bakgrund Arbeta med Matematik Screening Basnivå Kalkylator Inställningar Namn Period.

Tema - Matematik och musik

Grundläggande signalbehandling

Grundläggande ljud- och musikteori

Inspelningen. Samplingsinfo

Ljudnivåmätare med frekvensanalysator Art.nr: 61508

Fönsterbeteende. Mike McBride Jost Schenck Översättare: Stefan Asserhäll

SML/FMF - Finlands musikläroinrättningars förbund. Piano. Nivåprovens innehåll och bedömningsgrunder

Manual. till. Cantor Madison Medri

Korttidsminne-arbetsminne

Neural bas för kognition

KALIBRERINGENS ABC. Korrekt kalibrering en förutsättning för bra utvärdering!

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

campus.borlänge Förstudie - Beslutsstöd för operativ tågtrafikstyrning

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till?

PlugInnovation.se verktyg för avbrottsstatistik

Inlärning utan övervakning

Elevguide till studieteknik

Skapa en direktsändning

Legorobot. Lär dig programmera en legorobot. Teknikåttan Ola Ringdahl Lena Kallin Westin

ENKEL Programmering 3

Att utveckla taluppfattning genom att dela upp tal är mycket vanligt i de

PowerPoint. Kapitel 1. Vasen

Digital signalbehandling Digitalt Ljud

Transforming Water. Kom i balans, låt dig stimuleras eller koppla helt enkelt av.

Programmeringsolympiaden 2012 Kvalificering

TENTAMEN I PROGRAMMERING. På tentamen ges graderade betyg:. 3:a 24 poäng, 4:a 36 poäng och 5:a 48 poäng

Slumpförsök för åk 1-3

Teoriboken praktisk musikteori

Minnet - begrepp och principer

Elevguide till studieteknik

Att fånga den akustiska energin

13.1 Matematisk statistik

Nya Medier. Gränssnitt, Interaktivitet och Digital kod

ALLMÄNT 2. Introduktion 2. Åtgärder vid driftsättning 2. Förklaring av termer och begrepp 3. Kommandosyntax 3 HANDHAVANDE 4. Kommandon 4.

X-Route Användarmanual Innehåll

Workshop PIM 2 - PowerPoint

D/A- och A/D-omvandlarmodul MOD687-31

Steglöst reglerbar ljudkänslighet i ett stort område. Digitalt ljudfilter med 4 förprogrammerade nivåer för att undvika felutlösning

Pausit version MAC 1.2 Användarmanual

behövs för enhetlighet, tala samma språk, så att användaren kan lära sig och använda det vidare.

Genetisk programmering i Othello

Specifikation av spelen i Rutiga Familjen

Manipulation med färg i foton

Selektiv uppmärksamhet. Klassiska teorier. Sidan 1. Översikt. Vad är uppmärksamhet? Människan har ansetts ha. Filtrering. Vad är uppmärksamhet?

UPPGIFT 1 V75 FIGUR 1.

Process- och metodreflektion. Grupp 3; Ida Gustafsson, Mikael Karlsson, Jonas Lind, Hanne Sundin, Maria Törnkvist

Guide till rockgruppens instrument

Signalkedjan i små PA-system. Illustrationen till vänster. Grundläggande signalflöde i ett PA-system. Delar i de gråmarkerade

Konstruktion av en radiostyrd legobil. Digitala projekt av Arbon Vata Leonardo Vukmanovic Amid Bhatia

Namn: Klass: Musikteori

2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit.

BESKRIVNING AV DISPLAY

Högskolebiblioteket vid Mälardalens högskola

Kognition. Kognition, interaktion och användare. Överblick - kognition. Data-information-kunskap. Nivåer av kognition. Dä ä bar å åk.

GRUNDLÄGGANDE MUSIKTEORI

Förberedande Sannolikhet DIAGNOS SAF

Långtidsminnekunskapsrepresentation

Copyright 2014 Pausit AB medföljer programvaran Pausit. Pausit version 1.9 Användarmanual

Prov i vågrörelselära vt06 Lösningsförslag

Bildbehandling i frekvensdomänen

Autism hos barn och unga Anders Hermansson Psykolog och Helén Kindvall Kurator. Psykiatriveckan 2016, BUP

Lättläst om Victor Classic X

Föreläsning 8: Aritmetik och stora heltal

REGIONSEMIFINAL 2019 LAGEN

Mätningar med avancerade metoder

C++ Slumptalsfunktioner + switch-satsen

Läslandet 2 Ord och meningar

Programmets startmeny ser ut så här. För att få fram menyerna Avsluta, Inställningar och Användare måste du föra markören upp till det blåa fältet.

Perception. Intonation och tonhöjd. Intrinsisk F0. Intonation och tonhöjd (ff) Akustiska och perceptoriska drag. Perception av prosodiska drag

Föreläsning 7: Kognition & perception

3FrontOffice Statistik Direkt

Neurovetenskap 30/08/2013. Kognitiv neurovetenskap. Lober. Olika färg, olika vävnadsstruktur. Hjärnbarken

CombiLock 200 Pro Snabbanvändarguide

Neurokognitiv arkitektur

Sirius II Installation och Bruksanvisning

FAKTAAVSNITT: ARBETSMINNE TEORETISK MODELL

Örat. Johnson, Kap 3. Basic audition

Din manual BLAUPUNKT NAVIRECHNER RGS 08

Shannon-Fano-Elias-kodning

Tentamen SSY 065, lördag 14/4, 08:30-12:30, M. Examinator: Martin Fabian, (772) 3716 Tider för lärarens närvaro: 09:30, 11:30

4 Kolumn Kalkylbladet är uppdelat i rader (horisontellt) och kolumner (vertikalt). Där dessa möts finns alltid en cell.

Tentamen. 2D4135 vt 2004 Objektorienterad programmering, design och analys med Java Torsdagen den 3 juni 2004 kl

International Olympiad in Informatics July 2011, Pattaya City, Thailand Tävlingsuppgifter Dag 2 Svenska 1.3. Papegojor

Grafisk Teknik. Rastrering. Övningar med lösningar/svar. Sasan Gooran (HT 2013)

Programmera i teknik - kreativa projekt med Arduino

Transkript:

Simulatoranvändning uppläggning och resultat Den Lilla Lyssnerskan har under hela konstruktionstiden använts för att utföra olika experiment rörande självorganisation, lärande och härmning. Syftet med experimenten har varit: att testa och felsöka programmet. att låsa en stor mängd parametrar till lämpliga standardvärden. att få idéer till och testa interaktion och visualiserings- och audialiseringshjälpmedel. att undersöka SOM-algoritmens förmåga till självorganisation (uppdelning och spatial ordning) för olika lärparametrar och stimuli. att konstruera dataförbehandlingen på lämpligt vis och utvärdera effekterna av variation av dataförbehandlingens parametrar. att utpröva och finavstämma hela konceptet med modellcochlea, dataförbehandling, INSOM och UTSOM. att pröva olika avvikelser och tillägg till Kohonens SOMalgoritm. att pröva Den Lilla Lyssnerskans användbarhet genom att utföra experiment med inspiration från Den lärande människan -domänen. att erhålla ny kunskap om lärandet. Flertalet av de utförda experimenten kommer att beskrivas i texten framöver. En omfattande experimentserie för att få fram de faktorer som påverkar självorganisationen i min två-som-struktur finns i appendix C. Vissa avvikelser kan förekomma i grafisk utformning av de bilder som är tagna från Den Lilla Lyssnerskans användargränssnitt, eftersom detta successivt modifierats. en datorexekverbar modell för lärande 43

Experimenten i den följande texten är uppdelade efter fem huvudområden: lärande, modellutvidgning, SOM-samspel, relativt gehör och taligenkänning. Huvudområdena är indelade i underområden enligt följande: A: Lärande 1: Inlärning och igenkänning 2: Förmågan att generalisera 3: Inlärning genom betingning 4: Variationens betydelse 5: Minne och glömska 6: Härmning B: Modellutvidgning 1: Införande av lateral inhibering 2: Införande av korttidsminne 3: Modifiering av dataförbehandlingen C: SOM-samspel 1: SOM-hopkoppling med bibehållen mångfald 2: Fler-SOM dubbelkonsmodellen D: Relativt gehör E: Taligenkänning Lärande: Inlärning och igenkänning I detta experiment visas förmågan till inlärning och igenkänning. Syftet med försöket var att undersöka huruvida Den Lilla Lyssnerskan kunde tränas att uppvisa relativt gehör. Den Lilla Lyssnerskan tränades upprepade gånger med fyra stycken intervaller (tvåklanger). Det var två intervaller baserade på C och F: de båda terserna CE och FA och de båda kvinterna CG och Fc. Träningen skedde med syntetiska sinustoner och igenkänningen med pianosynt. INSOM organiserade sig i fyra delområden, ett för var och ett av de fyra stimulusintervallerna. Bilden på nästa sida visar aktiveringen för kvinten CG. CG-området aktiveras mest, men även CE-området. Tonen C finns med här också. Märk att c i kvinten Fc som är märkt FC i bilden ligger en oktav ovanför och att den inte blev aktiverad. Även UTSOM som ju är kopplad till INSOM uppdelades automatiskt i fyra delområden, ett för varje stimulusintervall. Notering 1: Den Lilla Lyssnerskan uppvisade både förmåga till inlärning genom självorganisation och efter avslutad inlärning förmåga till igenkänning. Notering 2: Den Lilla Lyssnerskan uppvisade klart förmåga till absolut gehör. 44 en datorexekverbar modell för lärande

Bild 35. INSOM har självorganiserat efter de fyra stimulusintervallerna CE, FA, CG och Fc. Lärande: Förmågan att generalisera Följande två försök visar Den Lilla Lyssnerskans förmåga till generalisering, antingen genom interpolation eller genom rekonstruktion. Interpolationsförmåga Den Lilla Lyssnerskan, upplärd av den interna pianosynten, behärskade C-durskalan. Hon testades sedan, via mikrofonen, med ett F# spelat på en verklig synt. Trots att Den Lilla Lyssnerskan aldrig hört ett F#, placerade hon detta i F-området i den del som gränsade till G- området. Den Lilla Lyssnerskan hade generaliserat genom interpolation. en datorexekverbar modell för lärande 45

Rekonstruktionsförmåga Avsikten i detta experiment var att lära Den Lilla Lyssnerskan att svara med grundtonen om hon bara hörde två av dess övertoner, en variant av Problemet med den saknade grundtonen. Durtreklanger användes, t.ex. CEG, där C är grundtonen och E och G motsvarar övertonerna. Den Lilla Lyssnerskan tränades på tolv olika durtreklanger (ackord, t.ex. CEG spelade samtidigt) och kalibrering skedde efter grundtonen. Efter träning testades hon med enstaka pianotoner. Ett C gav träff i C-området (egentligen CEG-området), ett E i E-området, ett G i G-området o.s.v. Det intressanta här var att E spelat samtidigt som G gav aktivering i C-området, d.v.s. hon reagerade på den saknade grundtonen och inte på E- eller G- områdena. När Den Lilla Lyssnerskan fyllde i grundtonen själv uppvisades generalisering genom rekonstruktion. Lärande: Inlärning genom betingning I Kohonens SOM-algoritm är lärförmågan som störst i början och avtar sedan exponentiellt för att klinga av mot ett litet och konstant värde. Sedan är SOM:en fullärd och kommer inte att lära mer. För att efterlikna mänskligt lärande måste SOM:en kunna lära om och dess lärförmåga måste kunna höjas upprepade gånger i varierande grad. Inspirerad av rönen om hur hjärnfunktioner kan påverkas över ett större område av t.ex. kvävemonoxid (NO) och kolmonoxid (CO) har jag infört en virtuell gas LO 2 lärdioxid som kan utsöndras för att tillfälligt höja lärförmågan. I t.ex. Kohonens SOM-algoritm motsvaras detta av att höja lärfaktorn till ett lämpligt värde och sedan låta den klinga av igen. Omlärning betingning och avbetingning Genom att höja lärförmågan med en dusch lärdioxid, LO 2, över SOM:en och stimulera med en aldrig tidigare hörd ton tillsammans med en inlärd ton (med sitt eget delområde i SOM:en) kommer efter ett tag detta område även att reagera för den nya tonen. En betingning, en koppling eller association, har skett. Vidareträning med bara den nya tonen, tränger ut kunskapen om den gamla tonen. Det har därmed skett en avbetingning av den första tonen. 46 en datorexekverbar modell för lärande

Lärande: Variationens betydelse, minne och glömska Följande experiment demonstrerar variationens betydelse för att inlärning av ny kunskap inte skall resultera i glömska av tidigare inlärda likartade kunskaper. Den Lilla Lyssnerskan var upplärd på C-durskalan och fick sedan en dos LO 2, d.v.s lärparametrarna höjdes. Hon tränades på upprepade F#. Detta resulterade i att F#-området växte ohejdat i F-området och trängde ut den tidigare F-kunskapen. Den Lilla Lyssnerskan klarade inte att komma ihåg det som var för likt det nyinlärda hon glömde. Notering 1: Den Lilla Lyssnerskan uppvisar förmåga till både minne och glömska, och hennes minne representerar all hennes kunskap. Den Lilla Lyssnerskan tränades nu istället med den repetitiva sekvensen F F# G. Träningen gav plats åt den nya F#-kunskapen (i de tidigare F- och G-områdena på SOM:en), se vidstående bild, samtidigt som F- och G-kunskaperna behölls. Notering 2: Vid inlärning av ny kunskap är det viktigt med variation i stimulus för att förhindra glömska. Variationen skall ske kring det nya som skall inläras och innefatta tidigare inlärda och likartade kunskaper. Redan förvärvade kunskaper som är mer olikartade är dock inte i riskzonen för glömska och behöver inte repeteras. Bild 36. Aktiveringsspår för träningssekvensen F F# G. (bilden tagen från äldre version av Den Lilla Lyssnerskan) en datorexekverbar modell för lärande 47

Feedbacks: Bild 37. Den Lilla Härmerskan beskriven med hjälp av dubbelkonsmodellen. 48 en datorexekverbar modell för lärande

Lärande: Härmning I följande experiment uppträder Den Lilla Lyssnerskan som Den Lilla Härmerskan. Härmningsdriften är inbyggd i hennes konstruktion i hennes program. INSOM tränas först att självorganisera efter de åtta tonerna i C- durskalan genom att passivt lyssna till denna upprepade gånger. Därefter väcks härmningsreflexen. Den är inbyggd i hennes konstruktion från början, men aktiveras först nu. Varje gång Den Lilla Härmerskan hör en ton som hennes mamma slår an på pianot, slår hon omedelbart an en ton på sin egen pianosynt. UTSOM är aktiverat med full inlärningsförmåga som dock avtar med tiden. Det gäller därför att skynda sig innan lärförmågan blir för liten. Det finns dock möjlighet att korrigera en felaktig inlärning genom att åter höja lärparametrarna för UTSOM genom att fylla på förrådet av LO 2. Bilden på föregående sida beskriver händelseförloppet med hjälp av dubbelkonsmodellen. Mamma slår an tonen G (M G vid början av den gula pilen). G-området i in-konen (INSOM) aktiveras och utkonen (UTSOM) reagerar med ett C. Slutet av den gula pilen (H C) representerar härmningen, d.v.s. att Den Lilla Härmerskan slår an tonen C. Att det blev tonen C är helt slumpmässigt, ut-konen (UTSOM) har inte lärt sig något än. Nu lyssnar Den Lilla Härmerskan på sin egen ton, det felaktiga C:et (den gröna pilen) som då aktiverar C-området i in-konen. Först nu finns ett samband mellan tonen C i både in-konen och ut-konen. Upprymd av sin motoriska härmningsaktivitet duschas ut-konen med LO 2, området kring vinnaren C i utkonen uppdateras med insignalen från in-konen, som också är tonen C. Kopplingen mellan tonen C i in-konen och tonen C i ut-konen förstärks på detta sätt. Dock inte så mycket att tonen blir rätt nästa gång, det kan dröja ett tag. Mammans bästa inlärningsstrategi är att själv anta rollen som härmerska genom att härma den ton Den Lilla Härmerskan slog an som sin egen härmning, rätt eller fel spelar ingen roll. När det visat sig att Den Lilla Härmerskan upprepade gånger härmat med den rätta tonen, bör mamman byta till en ny ton, tiden är knapp, förrådet av LO 2 tar slut. Bilden på nästa sida visar Den Lilla Härmerskans rätta härmning av tonen D. en datorexekverbar modell för lärande 49

Bild 38. Den Lilla Härmerskans rätta härmning av tonen D. 50 en datorexekverbar modell för lärande

Modellutvidgning: Lateral inhibering Två experiment får demonstrera användningen av lateral inhibering. Det första visar hur lateral inhibering används för att erhålla ett entydigt svar i UTSOM (t.ex. Ton F!) istället för flera olika lite svagare svar (Njaaa lite F, G och A). I det andra experimentet används lateral inhibering för att avkoda pianotoner (som är mycket variationsrika). Lateral inhibering i UTSOM Den Lilla Lyssnerskan är tränad på C-durskalan. Hon får lyssna på tonen E. I INSOM aktiveras delområdet för E starkt, men även områdena för granntonerna D, F och G aktiveras, fast svagare, se bilden nedan. Genom att införa lateral inhibering i UTSOM kan denna fås att reagera med ett entydigt svar. Delområdet för tonerna E och F är fullt aktiverat, medan övriga är inaktiva. Den laterala inhiberingen har här resulterat i en entydig vinnare på bekostnad av tvåan, trean o.s.v., de är helt undertryckta. Utan lateral inhibering i UTSOM hade flera delområden i UTSOM varit aktiverade i olika grad. Bild 39. Lateral inhibering i UTSOM. en datorexekverbar modell för lärande 51

Härmning av pianomusik, lateral inhibering I detta experiment omvandlas de 2048 frekvenskomponenterna erhållna från FFT:n till 85 frekvenskomponenter motsvarande de 85 tangenterna på ett piano, Den Lilla Lyssnerskan försågs här med en 85- toners modellcochlea. Visualisering skedde genom realtidspianoklaviatur, ett pianogram (se vidstående bild) och audialisering Bild 40. Pianogrammet en realtidsklaviatur. genom ljudkortets pianosynt. Det är inte någon trivial uppgift att avkoda pianotoner. Dessa är övertonsrika, och frekvensspektrummet varierar kraftigt över tiden. Ibland är t.o.m. vissa övertoner starkare än grundtonen [Benade 1960]. Försök gjordes att med konventionell programmering finna algoritmer som avkodade rätt grundton. Detta fungerade hjälpligt för enkeltangentnedslag men mycket dåligt för ackord. Det här är således ett område där SOM-funktionerna är överlägsna de konventionella metoderna. Notnedteckning i realtid Avkodningsstrategin var logaritmering och enkel tröskling både för tonbörjan och tonslut. Logaritmeringen hjälpte upp den polyfona förmågan genom att öka styrkan hos svagare pianotoner på bekostnad av de samtidigt spelade starkare tonerna. Den polyfona notnedteckningen gjordes i notspråket MIDI, helt likt vanlig grafisk notnedteckning, fast textligt och med fördelen av att kunna förstås och spelas av ljudkortets inbyggda pianosynt. Den Lilla Lyssnerskan lyssnade på ett pianostycke från en CD-skiva och härmade originalet med ca 100 ms fördröjning, samtidigt som hon nedtecknade noterna. Originalet hördes i vänster högtalare och samtidigt kunde Den Lilla Lyssnerskans härmning avnjutas i den högra. Hennes härmning var inte särskilt välljudande men det gick att identifiera pianostycket. Många extratoner kom till och många fattades, dessutom var Den Lilla Lyssnerskan orytmisk. Men hon tvekade aldrig och stakade sig aldrig, en nog så god egenskap. Många falska övertonstangentnedslag (inte så störande) och granntonstangentnedslag (mycket störande) drog ner njutningsgraden. En fördubbling av FFT-upplösningen och dubblering av antalet FFT:er per tidsenhet höjde antalet rätta toner och ökade precisionen i basen. 52 en datorexekverbar modell för lärande

Medfödd lateral inhibering Den Lilla Lyssnerskan försågs med en Cortical Feature Map med medfödda specialkonstruerade inhiberande återkopplingar. Varje beräkningsenhet (en för varje pianotangent) hade inhiberande insignaler från de båda närmsta granntangenterna samt från de tangenter som kunde vara de grundtoner som egentligen var upphovet till excitationen hos beräkningsenheten. Den Lilla Lyssnerskan härmade betydligt bättre. Så gott som alla störande granntonnedslag och även harmoniska felnedslag var borta,. Statistik från programexekveringen visade att granntonnedslagen hade minskat från ca 400 till ett fåtal (på ett 4.5-minuters pianostycke) då den laterala inhiberingen hade kopplats in. Effekten av lateral inhibering kan ses i pianotangentsbilderna till höger. I den övre bilden finns ingen lateral inhibering och tonerna F# och G# slås an felaktigt. I den undre bilden har den laterala inhiberingen helt dämpat dessa toner, de har inga röda staplar. De blå staplarna visar ursprungligt frekvensspektrum och de röda visar pianotangentsfrekvensspektrum. Nedanstående pseudoprogramkod visar de laterala inhiberande återkopplingarna för beräkningsenhet nr i. Aktiviteten i enhetens båda granntoner (i-1 och i+1) verkar inhiberande. Enheten en oktav under (i-12) verkar också inhiberande, denna kan ju vara grundton till enhet nr i. På samma sätt kan även i-19 och i-28 vara grundtoner till enhet nr i och verkar också inhiberande. Bild 41 och 42. I övre bilden visas falska granntonsnedslag. I den nedre bilden är lateral inhibering aktiv, och de falska nedslagen är eliminerade. Neuron[i].Input[0] = 1.0 * Stimuli.Input[i]; // Afferent input Neuron[i].Input[1] = 0.0 * Neuron[i + 0 ].Output); // Myself Neuron[i].Input[2] = 0.5 * Neuron[i 1 ].Output); // LeftHalfTone Neuron[i].Input[3] = 0.5 * Neuron[i + 1 ].Output; // RightHalfTone Neuron[i].Input[4] = 0.5 * Neuron[i 12].Output; // LeftBaseTone 1 Neuron[i].Input[5] = 0.5 * Neuron[i 19].Output; // LeftBaseTone 2 Neuron[i].Input[6] = 0.5 * Neuron[i 28].Output; // LeftBaseTone 3 Pianogrammet nedan visualiserar ett kort tidsutsnitt ur Den Lilla Lyssnerskans härmning av Chopins Nocturne nr 2 [Chopin 1831] som går i Ess-dur. Bild 43. Pseudoprogramkoden för den laterala inhiberingen. Bild 44. Ess-acckord ur Chopins Nocturne nr 2. en datorexekverbar modell för lärande 53

Modellutvidgning: Korttidsminne I följande modellutvidgning har beräkningsenheterna i INSOM försetts med ett korttidsminne (ett neuronminne). Korttidsminne är implementerat som ett lågpassfilter över tiden. Aktiveringen i INSOM kommer att ligga kvar en tid efter att stimulus avslutats och förbli aktiv samtidigt som nästa stimulus aktiverar INSOM. Tidskonstanten i minnet kan ändras så att fler och fler äldre stimuli får betydelse. En konstgjord tidsöverlappning (korrelation) har införts i INSOM för att ge bättre möjlighet till god spatial ordning. Bild 45. INSOM utan korttidsminne. Korttidsminne i Kohonens SOM-algoritm Den övre bilden visar resultatet med minneslöst INSOM. INSOM uppvisar, som väntat, ingen spatial ordning efter tonsekvensen i skalan. Däremot blev både uppdelning och spatial ordning i UTSOM förbluffande goda. Den inritade gula ormen i INSOM avspeglar den spatiala ordning i UTSOM, ormens svans finns vid tonen c (8 till vänster i UTSOM) och den ringlar sig genom delområdena till tonen F (4 till höger i UTSOM). Den nedre bilden visar resultatet med inkopplat korttidsminne i INSOM. Resultatet blev förbluffande bra. Delområdena i INSOM har ordnat sig spatialt efter tonsekvensen i C-durskalan. Den gröna ormen avspeglar den spatiala ordningen i INSOM. Ormens svans befinner sig vid första tonen C, och slingrar sig successivt genom DEFGAH för att sluta vid tonen c. Notering 1: Genom att införa korttidsminne i INSOM har det möjliggjorts för både INSOM och UTSOM att ordna sig spatialt, trots de variations- och korrelationsfattiga tonerna. Bild 46. INSOM med korttidsminne och god spatial ordning. 54 en datorexekverbar modell för lärande

Modellutvidgning: Modifiering av dataförbehandlingen Många experiment har lett fram till den parametriserade förbehandling som är beskriven tidigare. Här beskrivs ett annat experimentellt tillägg till förbehandlingen med syftet att åstadkomma frekvensinvarians för att möjliggöra för Den Lilla Lyssnerskan att självorganisera relativt gehör (se appendix B). Det extra beräkningssteget i dataförbehandlingen bildar parvisa amplitudprodukter mellan de 127 frekvenskomponenterna och summerar de produkter som har samma frekvensförhållande (kvot) mellan frekvenskomponenterna. De 127 summorna, som var och en representerar förekomsten av intervaller med givna frekvensförhållanden, blir insignaler till INSOM. INSOM får självorganisera efter förekomsten av tonintervaller istället för absoluta tonfrekvenser. Vidstående bild visar resultatet efter träning på C- och F-baserade terser, kvinter och sexter. Tersen CE är för tillfället stimulus, och hela tersområdet för CE och FA, är aktiverat. Delområdet är internt uppdelat i ett CE- och ett FA-område. Det gäller även delområdena för kvinten respektive sexten. Notera att sonagrammet här visar frekvensförhållanden istället för absoluta frekvenser. Notering 1: INSOM uppdelar sig efter frekvensförhållanden istället för efter absoluta frekvenser. Notering 2: UTSOM har tre delområden, ett för vardera av de tre intervallen. Tersområdet för UTSOM är här aktiverat. Notering 3: Den Lilla Lyssnerskan har självorganiserat både relativt och absolut gehör. I grunden finns sex delområden för det absoluta gehöret. Överlagrat finns tre mycket mer distinkta delområden för det relativa gehöret, det är dessa tre som urskiljer de tre intervallerna. Bild 47. Frekvensinvarians i förbehandlingen möjliggör för Den Lilla Lyssnerskan att självorganisera relativt gehör. en datorexekverbar modell för lärande 55

SOM-samspel: SOM-hopkoppling med bibehållen mångfald Ett stort antal experiment har utförts för att undersöka vilka faktorer som påverkar självorganisation hos INSOM och UTSOM i två-somhierarkin. Ett antal modifieringar och tillägg har prövats, främst filtreringar av olika slag för att modifiera både SOM-algoritmen och korrelationsegenskaper. Här följer en sammanfattning av experimenten och hela experimentserien finns detaljerat beskriven i appendix C. Absolut gehör sinustoner och högselektiv modellcochlea I denna experimentserie används en C-durskala med sinustoner och en högselektiv modellcochlea för att utröna vilka faktorer som påverkar uppdelning och framför allt spatial ordning i INSOM och UTSOM. INSOM uppdelas i åtta delområden och UTSOM uppdelas (ofta) i åtta delområden motsvarande dem i INSOM. Den spatiala ordningen i UTSOM har en tendens att följa en ormkurva dragen i INSOM, däremot finns ingen spatial ordning i INSOM. Variationsoch korrelationsfattiga stimuli bidrar till att alla beräkningsenheterna inom ett delområde i INSOM utbildas till (redundanta) superspecialister på exakt samma sak, det finns ingen variation inom delområdena och övergångarna mellan delområdena blir hårda. Det resulterar i att UTSOM inte uppvisar någon spatial ordning. Dessutom utnyttjas SOM:en dåligt genom att alla specialisterna inom ett delområde är identiska. Stimuli med lagom variation och korrelation bör användas för god självorganisation och utnyttjande av SOM:arnas resurser. Dessutom verkar UTSOM att organisera sig bättre om den får samträna med INSOM innan denne blivit färdigtränad. Överträning bör undvikas. Filteroperationer för uppmjukning och förhårdning av INSOM kan kompensera variations- och korrelationsfattiga stimuli genom att simulera hur INSOM hade organiserats med mer variations- och korrelationsrika stimuli, t.ex. med frekvensöverlappning. Den mest framgångsrika åtgärden visade sig vara att införa ett korttidsminne i INSOM, och därmed även i SOM-algoritmen. Detta simulerar en saknad tidsöverlappning i stimuli, och gav som resultat en god spatial ordning i både INSOM och UTSOM. Korttidsminnet simulerar den efterhörning som saknas i stimulus. Naturlig efterhörning finns i t.ex. pianospel. En tidigare ton hinner inte klinga ut innan nästa ton anslås, tonerna överlappar varandra i tiden. 56 en datorexekverbar modell för lärande

Absolut gehör sinustoner och lågselektiv modellcochlea Genom att använda en modellcochlea med låg selektivitet erhölls en frekvensöverlappning mellan granntonerna i C-durskalan. Denna överlappning möjliggjorde en perfekt spatial ordning för INSOM. Däremot blev uppdelning och spatial ordning dålig i UTSOM. Den spatiala ordningen kunde förbättras genom att förse UTSOM med ett korttidsminne. Lateral inhibering i UTSOM används för att endast en beräkningsenhet i taget skall svara för en stimuluston, för att erhålla en entydig respons. SOM-samspel: Fler-SOM dubbelkonsmodellen Flera av experimenten har varit exempel på dubbelkonsmodellen fast i mycket reducerad skala. De två SOM:ar som modellen och simulatorn idag består av kan betraktas på två olika vis: en in-kon bestående av en tvånivåers SOM-hierarki. Den första SOM:en (kallad INSOM) bestående av 400 beräkningsenheter gör en första avkodning (av tal eller pianotoner) och har självorganiserat att ta hand om de variationer, även inom samma stimulus, som kan förekomma i insignalen. Denna första SOM är finavstämd att ta hand om de yttre variationerna, den är variationstålig. Den andra SOM:en (kallad UTSOM) har bestått av endast åtta beräkningsenheter och har utfört den andra delen av avkodningen. Det är här den stora informationsreduceringen (elimineringen av den stora redundansen i stimulus) skett. en sensorisk in-kon och en motorisk ut-kon. In-konen (INSOM) avkodar de variationsrika pianotonerna och utkonen (UTSOM) realiserar ett beteende genom sin motoriska förmåga att själv slå an tangenter på pianosynten, se Den Lilla Härmerskan under den tidigare rubriken Lärande: Härmning. en datorexekverbar modell för lärande 57

Relativt gehör I följande experiment uppvisar Den Lilla Lyssnerskan relativt gehör utan något extra tillägg i dataförbehandlingen. Den Lilla Lyssnerskans INSOM försågs istället med en konstruktörsskapad SOMorganisation. Hon var fullärd (organiserad) från början genom sina förprogrammerade SOM-specialister. Den Lilla Lyssnerskan uppvisade både relativt och absolut gehör. Det relativa gehöret var spatialt ordnat i vertikala intervallband och det absoluta gehöret i horisontella frekvensband. Värt att notera är att experimentet utfördes med det vanliga linjära modellneuronet som SOM-beräkningsenhet. Efter att spontant ha prövat ett antal algoritmidéer för att skapa SOM-vikterna gav den styrda slumpen en SOM-organisation som resulterade i relativ organisation i ena dimensionen och absolut i andra. Vidstående bild visar det gröna aktiveringsspåret i INSOM (med början i det gröna X:et uppe till höger) i följd från vänster till höger i diagrammet intervallen: terserna CE och FA, kvinterna CG och Fc, sexterna CA och Fd, samt oktaverna Cc och Ff. Vertikalt ligger från höger till vänster intervallbanden för ters, kvint, sext och oktav. Horisontellt ligger frekvensbanden, det översta är för tonen C och det understa bandet för tonen F. Längst till höger ses starka aktiveringar för primintervallen CC och FF som implicit finns med i alla stimuli. Bild 48. Relativt gehör genom konstruktörsskapad SOMorganisation. Det finns horisontella frekvensband och vertikala intervallband. 58 en datorexekverbar modell för lärande

Notering 1 (förbluffande): Detta experiment utfördes med helt vanliga linjära modellneuroner som beräkningsenheter i INSOM. Här finns inte explicit några multiplikationer av frekvenskomponenter som förbehandlingen i förra exemplet byggde på. Notering 2: Den Lilla Lyssnerskan uppvisade både relativt och absolut gehör i sin INSOM-organisation. Det relativa gehöret var ordnat längs den ena dimensionen och det absoluta gehöret längs den ortogonala dimensionen. Nedan följer den genetiska koden som skapar de medfödda INSOM-specialisterna i detta experiment. void CLayer2::SetInnateWeightsRelativePitch() { int x, y, ii, jj; double Factor; } ZeroAllWeights(); for (x=0; x<cols; x++) { Factor = 40.0 / (20+x); for (y=0; y<rows; y++) { ii = y*2; jj = ii*factor; if (jj <= NumberOfInputs-1) { (*NeuronArray)[x][y]->Weight[ii] = 1.0; (*NeuronArray)[x][y]->Weight[jj] = 1.0; (*NeuronArray)[x][y]->Weight.Normalize(); } } } Bild 49. Programkoden som skapar den medfödda SOMorganisationen. en datorexekverbar modell för lärande 59

Taligenkänning Den Lilla Lyssnerskan tränades på enkla ord, och områden i INSOM utbildades för de olika ljudelementen i orden. SOM:arna kalibrerades med statiska fonem, och Den Lilla Lyssnerskan kunde i textlig form skriva ut de ord hon sedan fick höra. Bild 50. Den Lilla Lyssnerskan svarar LLaaaMMMMMMM MMMPaaaa (bilden tagen från äldre version av Den Lilla Lyssnerskan) De första experimenten med taligenkänning skedde med en FFTbaserad modellcochlea, 127 frekvenskomponenter från 4 KHz och nedåt (rätt glest i lågfrekventa området). 86 FFT-samplingar per sekund gjordes. Träningen skedde med hembrända CD-skivor innehållande olika ordmängder i upprepning. Första varianten var träning med CD-skivan Mamma, lampa, pippi bestående av dessa tre ord upprepade några tusen gånger. Avgränsade områden uppstod i SOM:en för de olika ljudelementen i de tre orden. Jag använde sedan min egen röst och mikrofon för att kalibrera SOM:en. Med hjälp av sonagrammarkeringar och aktiveringsspår (de röda linjerna i bilden nedan) skedde kalibreringen genom att skriva in rätt bokstäver i beräkningsenheterna i SOM:en. 60 en datorexekverbar modell för lärande

Efter kalibrering skrevs i en textruta ut det ord jag sedan talade in i mikrofonen. I bilden ovan ses sonagram och aktiveringsspår för det talade ordet Lampa, och det avkodade resultatet LLaaaMMMMMMMMMMPaaaa visas längst ner till vänster. Lägg märke till i sonagrammet hur varierande det första A:et varierar över tiden. Notering 1: Det jag insåg genom detta experiment var främst att det inte bara är de statiska fonemen som lagras i SOM:en utan också alla variationer och framförallt övergångar mellan fonemen, koartikulationen. Man kan inte bortse från denna dynamik i mer seriös taligenkänning. en datorexekverbar modell för lärande 61

62 en datorexekverbar modell för lärande