Björn Breidegard En datorexekverbar modell för lärande
Förord I föreliggande arbete har många drömmar förverkligats. Detta har varit möjligt, dels genom utmaningen i området datorexekverbara modeller för lärande, dels genom att min mångåriga erfarenhet av att skapa hårdvara, datorprogram, konstruera gränssnitt, modeller, simulatorer samt felsöka i mjuk/hårdvara har kunnat komma till sin rätt på ett nytt och utmanande sätt. Frågeställningen i min licentiatuppsats är: hur kan en datorsimulering av lärande medverka till nya tankar och idéer om mänskligt lärande? Svaren är av speciellt värde för Certecs forskningssammanhang. Många funktionshinder är förknippade med inlärningssvårigheter och efter hand som tiden går, kan mångåriga effekter av inlärningssvårigheter bli till det dominerande handikappet. Varje ny pusselbit i förståelsen av lärandet är därför extra värdefull här. Programmeringsarbetet bakom föreliggande uppsats förutsätter att jag kunnat återanvända många delar av mina tidigare programmeringserfarenheter och programproduktion, främst dem med anknytning till modellering, simulatorkonstruktion, konstruktion av CAD-system och multimediaprogrammering. Viktigt är givetvis också att det nu, år 2000, är möjligt att göra så mycket mer, och dessutom i realtid, än 1978 då jag gjorde mina första ansatser med ljudanalys på dator. Rent tekniskt har den största nyheten för mig bestått i att tränga in i självorganisationens mysterier genom otaliga simuleringar och visualiseringar och därmed nå kontakt med en viss del av den neurala nätverksvärlden. Min främsta inspirationskälla och kritiker har varit professor Bodil Jönsson, min handledare, som skall ha det största tacket. Också alla mina arbetsvänner på Certec tackas, och i synnerhet Arne Svensk som med god intuition och välvilja försett mig med läsvärda artiklar och tidskriftskopior enligt det här måste vara något för Björn. Ett tack till professor Lennart Gustafsson för att han satte mig på spåren med sin artikel Inadequate Cortical Feature Maps: a Neural Circuit Theory of Autism. Stora tack också till professor Teuvo Kohonen, professor Samuel Kaski, docent Christian Balkenius, docent Germund Hesslow, professor Sven Strömqvist, författare Gunilla Gerland och tonsättare Leo Nilsson för spännande samtal, uppmuntran, ifrågasättanden och råd. Och allra sist ett stort tack till Sofie Bogaeus för korrekturläsning. Björn Breidegard Lund den 17 augusti 2000 en datorexekverbar modell för lärande 1
2 en datorexekverbar modell för lärande
Sammanfattning Arbetet har bestått i att ta fram och datorimplementera modeller för att studera basalt lärande och att implementera dessa i en interaktiv och höggradigt visuell och audiell 1 datorapplikation kallad Den Lilla Lyssnerskan. Hon kan även uppvisa ett beteende: stimulus är pianotoner eller tal, och hennes respons är spelade pianotoner med hjälp av pianosynt eller tal med hjälp av talsyntes. Understundom fungerar Den Lilla Lyssnerskan som Den Lilla Härmerskan. En mängd exempel har prövats och exekverats på modellen och slutsatser dragits. Syftet är att använda den exekverande modellen för att stimulera omvärlden och mig själv till sådana associationer som ökar förståelsen för lärandet. Detta för att bättre kunna studera säregenheter hos lärandet, generera hypoteser och pröva dessa. Ett framtida mål är att kunna inspirera till stödjande eller kompenserande pedagogik för människor med olika kognitiva störningar. Genom att tankemässigt röra sig mellan dels den simulerade modelldomänen, dels den lärande människan -domänen kan fakta, idéer och hypoteser samspela mellan domänerna. I modellen kan dessa fakta, idéer och hypoteser snabbt och iterativt simuleras för olika parameteruppsättningar. Det är dessutom möjligt att många gånger simulera ett helt (inlärnings-)liv i modellen. Modellen används också för att studera uteffekter (responsen) av variationer i indata (stimulus) och inlärningsparametrar. Den Lilla Lyssnerskan är idag baserad på stimulus och respons i form av ljud. Det är tal, pianomusik och pianotoner men även mer variationsfattiga sinussyntetiserade toner. Modellkonstruerandet är inspirerat av Kohonens SOM-algoritm (Self-Organizing Map), i fortsättningen benämnd KSOM, och studier har gjorts på SOM:ens förmåga att självorganisera sig (utan lärare och genom uppdelning och spatial ordning) för olika typer av stimuli. SOM:ens förmåga till god självorganisation är starkt beroende av korrelationen hos insignalen (likhet genom överlappning) i frekvens och tid och i högsta grad av den förbehandling av indata (stimulus) som sker före SOM-algoritmen. 1 Ordet audiell används som ljudmotsvarigheten till visuell. Ordet audialisering används istället för t.ex. ljudvisualisering. De båda orden finns ej i SAOL. en datorexekverbar modell för lärande 3
Jag har i mitt arbete haft KSOM som en fixpunkt. Den har varit min utgångspunkt för inspirationer, ändringar och utvidgningar mot mer generella och speciella SOM-strukturer, och jag har aldrig tvekat att förutsättningslöst pröva nya varianter och tillägg. Bland mina mest fruktbara utvidgningar kan nämnas: att använda seriekopplade SOM där alla utsignalvärdena från förstanivå-som:en påverkar andranivå-som:en och inte bara den vinnande beräkningsenheten i förstanivå-som:en. att införa ett korttidsminne med valbar minnestid i SOM:arna. att införa omlärning genom att låta en redan färdiglärd SOM modifiera sin inlärda kunskap genom nya inlärningspass. att skapa och pröva konstruktörsskapade (medfödda) SOMorganisationer och att pröva mellanformer av medfödd och inlärd kunskap. att införa olika filtreringsoperationer i SOM:en, främst lateral inhibering, men även andra operationer av högpass- och lågpasskaraktär. Modellen är implementerad som en snabb, interaktiv och höggradigt visuell och auditiv Windowsapplikation Den Lilla Lyssnerskan. Hon består i huvudsak av en modellcochlea 2, dataförbehandling, två seriekopplade SOM:ar, INSOM och UTSOM, samt möjlighet till respons i form av pianotoner eller syntetiskt tal. INSOM är tvådimensionell, består av 20 x 20 beräkningsenheter och får sina insignaler från dataförbehandlingen. Alla 400 utsignalerna från INSOM är anslutna som insignaler till UTSOM, som är endimensionell och består av 8 beräkningsenheter. UTSOM genererar responsen genom att styra pianosynt eller talsyntes. Ljudstimulus når Den Lilla Lyssnerskans öra via datorns ljudkort, och utsignalerna från hennes modellcochlea som är baserad på frekvensspektrumanalys genom Fast Fourier Transform (FFT) utgör efter ett dataförbehandlingssteg insignaler till INSOM. Dataförbehandlingen som är av mycket stor betydelse för SOM:ens självorganisation, har parametriserade funktioner för ljudintensitetsoberoende (intensitetsinvarians), frekvensselektivitet, lågpassfiltrering över tiden, logaritmering, lateral inhibering m.m. Det unika i min struktur är att alla 400 utsignalvärdena (mångfald) från INSOM används som insignaler till var och en av de åtta beräkningsenheterna i UTSOM. Den vanliga och inte särskilt fruktbara ansatsen är att bara låta vinnaren i INSOM:en påverka UTSOM. Tonvikten i mitt arbete har varit att konstruera en Windowsapplikation Den Lilla Lyssnerskan baserad på ovanstående modell. 2 Cochlea (snäckan) är givaren i människans inneröra som omvandlar ljudet till nervimpulser. Cochlea anses vara tonotopiskt ordnad, olika områden reagerar på olika frekvenser och närliggande områden reagerar på närliggande frekvenser. 4 en datorexekverbar modell för lärande
Det resulterande programmet har visat sig vara väl fungerande, stabilt och lätt utbyggbart. Jag har utfört ett antal provexperiment med avseende på lärande och resultaten hitintills har visat att programmet är användbart för vidare studier av självorganisation och lärande. Programmet har också visat sig dugligt att kunna implementera och testa nya idéer och hugskott snabbt och effektivt. Självorganisation i två nivåer har studerats för sinustoner, pianotoner och tal. Experimenten avslöjar en hel del faktorer som påverkar förmågan till god självorganisation (uppdelning och spatial ordning). Olika modifieringar av Kohonens SOM-algoritm har gjorts, lateral inhibering, trösklingar, låg- och högpassfiltreringsoperationer för uppmjukning och förhårdning har studerats. Den mest fruktbara utvidgningen har varit att införa en minnesfunktion i beräkningsenheterna (modellneuronet) ett korttidsminne vilket drastiskt har visat sig öka förmågan hos UTSOM att ordna sig spatialt. Det har visat sig att stimulus bör vara lagom variations- och korrelationsrik för att öka variationsgraden inom SOM:ens delområden och för att ge mjukare övergångar mellan delområdena. I annat fall utbildas redundanta superspecialister och det blir hårda övergångar mellan delområdena. Överträning kan vara ineffektiv. En nivå i SOM-hierarkin bör inte färdigtränas innan en senare nivå har börjat tränas. Vid ensidig träning med en ny variationsfattig stimulus tränger denna ut närliggande tidigare inlärda kunskaper. Fenomenet glömska har påvisats. Genom en mer variationsrik träning där närliggande kunskaper samtränas med den nya stimulus förhindras glömskan av gamla kunskaper. Förmågan till generalisering genom interpolation har påvisats. En ny stimulus har, efter höjande av lärfaktorn, erövrat sitt revir på SOM:en och med korrekt spatial placering. Även förmågan att fylla i det saknade har demonstrerats genom att modellen själv hittar och fyller i grundtonen i en treklang där denna saknas, en generalisering genom rekonstruktion har skett. Betingning av en ny stimulus till en tidigare inlärd har simulerats. Efter inlärning av den nya insignalen ger denna samma respons som den gamla stimulus. Vid fortsatt ensidig träning med den nya insignalen trängs den ursprungliga stimulus bort, en avbetingning har skett. Genom att i min dubbelkonsmodell (se appendix A) lägga till en härmningsdrift har inlärning av pianotoner skett genom härmning. Det mest effektiva sättet för läraren här var att ge återkoppling genom att härma det felaktiga, att själv ikläda sig rollen som härmerska. en datorexekverbar modell för lärande 5
Experiment med taligenkänning och relativt gehör med hjälp av självorganisation har utförts. Taligenkänningsexperimenten visade tydligt att det inte bara är de statiska ljudelementen som är viktiga, utan dynamiska egenskaper såsom variation hos, och övergångar mellan ljudelementen. Införande av korttidsminne ökade kvaliteten hos igenkänningen. Även experiment med relativt gehör har utförts. Genom att införa en speciell konstruktion i dataförbehandlingen har relativt gehör erhållits genom självorganisation. Även konstruktörsskapade SOM-organisationer, utan modifiering av dataförbehandlingen, har uppvisat relativt gehör. Jag kommer att gå vidare med taligenkänning genom att använda SOM-hierarkier kombinerat med relativt gehör (för att uppnå frekvensinvarians). SOM-hierarkier och det relativa gehöret kan vara nyckeln till människans goda taligenkänning. Modellen kan också vara användbar som inspiration för hur människor med autism kan arbeta med sitt lärande. Autism framstår i min modell som en hård och god uppdelning med redundanta superspecialister och avsaknad av spatial ordning. Dessa svagheter kan i modellen motverkas av extrema, starka variations- och korrelationsrika stimuli. Då kommer det att utbildas variation inom delområdena, det blir mjukare övergångar mellan delområdena och spatial ordning uppnås. I den mänskliga domänen motsvaras detta av en lärare som systematiskt arbetar med att tillföra variation och systematiskt arbetar med att bygga upp sammanhangsföreställningar och associationer. Lennart Gustafsson [Gustafsson 1997] hävdar att en del autistiska symptom kan förklaras genom felaktigt organiserade kortikala kartor (Cortical Feature Maps) och att för stark lateral inhibering kan vara en av orsakerna till detta. Jag har å min sida dragit slutsatsen att grundfelet inte behöver ligga i dessa kartor, de kan bara ha blivit dåligt upplärda av olämpligt förbehandlade insignaler. Många av mina simuleringar har visat att en variations- och korrelationsfattig insignal ger upphov till just de egenskaper jag beskrev i förra stycket. Om mina resultat är överförbara till den mänskliga domänen, blir den klara slutsatsen att grundorsaken till autism inte står att finna i de kortikala kartorna i neocortex (CFM:erna) utan i tidigare steg just i dataförbehandlingen för de olika sinnena. För min slutsats talar också att de neurologiska avvikelser man funnit hos människor med autism främst ligger i cerebellum och hjärnstammen. Det var ett stort steg att gå från en-som-modellen till två-sommodellen, men det räcker inte heller långt med två SOM:ar. Jag bör gå vidare mot min dubbelkonsmodell och koppla samman många SOM:ar och ha SOM-hierarkier i både in-konen och ut-konen. Likaledes bör jag införa fler sinnen, bl.a. ett synsinne (i praktiken en TV-kamera med videofångstkort) och ett känselsinne. Motoriken kommer att utökas med en arm och en hand (i praktiken en robotarm med sensorik för muskelpositioner). 6 en datorexekverbar modell för lärande
Sammanfattningsvis har jag konstruerat en simulator med interaktivitet och visualisering. Den iterativa arbetsmetoden har fungerat: experiment och simulatorkonstruktion tillsammans har lett till korsbefruktning och prestandahöjning. Modifieringar och tillägg till Kohonens SOM-algoritm, med inspiration från CFM (Cortical Feature Maps), har gått att enkelt utföra. Jag har konstruerat ett bra experimentsystem på både användar- och programmeringsnivå. Mitt sätt att koppla samman SOM:ar genom att utnyttja mångfalden istället för att bara utnyttja en enda vinnare fungerade väl. Många modellutvidgningar visade sig vara fruktbara, främst införande av korttidsminne och lateral inhibering. Många simulatorkörningar har gett resultat som man kan känna igen utifrån det mänskliga lärandet. Fortsatta simuleringar kan alltså tänkas leda till både inspiration och nytänkande kring lärande och undervisning. Hela modellkonceptet har visat sig inte bara användbart utan synnerligen användvärt. Jag kommer att vidareutveckla både modell och simulator enligt de linjer jag skisserat ovan. Föreliggande arbete är en ren monografi, och jag har inte tidigare publicerat något av den före denna licentiatuppsats. Jag har för avsikt att publicera delar av arbetet. Uppsatsen i sin helhet finns också tillgänglig på internet under http://www.certec.lth.se/casl. Nyckelord: CFM, Cortical Feature Maps, SOM, Self-Organizing Maps, variation, inlärning, lärande, självorganisation, generalisering, interpolation, betingning, härmning, visualisering. en datorexekverbar modell för lärande 7
8 en datorexekverbar modell för lärande
Innehåll Förord 1 Sammanfattning 3 Syfte 11 Inledning 11 Teori och metod 15 Konstruktion av modell och simulator 21 Användargränssnitt och tekniska möjligheter 39 Simulatoranvändning - uppläggning och resultat 43 Diskussion och slutsatser 63 Appendix A Dubbelkonsmodellen - en datorexekverbar designprincip för hjärnan 69 Appendix B Absolut och relativt gehör 75 Appendix C Undersökning av två-som-interaktion 77 Referenser 99 en datorexekverbar modell för lärande 9
10 en datorexekverbar modell för lärande