EXAMENSARBETE. En jämförande studie kring inlärning hos levande organismer och artificiell intelligens.



Relevanta dokument
ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

Linköpings universitet

1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

Operant inlärning. Thomas Jakobsson Samordnare och handledare HVB.

SELF- ORGANIZING MAPS

Antecedent - A i beteendets A-B-C

Modeller och simulering av språkprocessning

Neural bas för kognition

Sub-symbolisk kognition & Konnektionism. Kognitionsvetenskaplig Introduktionskurs (729G01) Mats Andrén,

Neurovetenskap 30/08/2013. Kognitiv neurovetenskap. Lober. Olika färg, olika vävnadsstruktur. Hjärnbarken

Erfarenheter Tester. Frivilligverksamhet och Yrkesutbildningar med Räddning Bevakning i stor skala

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Utbildningsplaner för kandidat-, magister och masterprogram. 1. Identifikation. Avancerad nivå

Kognitiv psykologi. Schema. Tentamen Introduktion.

Peter Friberg Leg psykolog Magelungen Utveckling AB GRUNDLÄGGANDE INLÄRNINGSTEORI

Från inlärningsteori till praktisk hundträning

Upprepade mönster (fortsättning från del 1)

VARFÖR FINNS DET INGA RIKTIGA

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Experimentella metoder, FK3001. Datorövning: Finn ett samband

de var svåra att implementera och var väldigt ineffektiva.

Neurala nätverk och språkigenkänning. Henrik Linnarsson. Linköping University

Selektiv uppmärksamhet. Klassiska teorier. Sidan 1. Översikt. Vad är uppmärksamhet? Människan har ansetts ha. Filtrering. Vad är uppmärksamhet?

Kognitiv psykologi. Kognition och hjärnan. Hjärnans struktur Neurokognition Kap 2

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät

TDDB96 Projekt: Object priming med visuell stimuli

Psykologi Hur påverkas inlärning av positiv och negativ feedback?

Kognitiv psykologi. Vad är psykologi? Psykologi som vetenskap. Vetenskapliga grunder och metoder

Inlärning Psykologprogrammet, KI

8.3 Variabeltransformationer Frånkoppling. Betrakta ett 2x2-system, som beskrivs med modellen (8.3.1)

Om kompetens och lärande

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Fråga 1: Diskutera för- och nackdelar med grupparbete i inlärningen i skolan.

Vad kan biologiskt plausibla modeller säga oss?

Ett urval D/A- och A/D-omvandlare

Kombination MD. Grupprapport 4.0 Multidimensionell

Anvisningar till rapporter i psykologi på B-nivå

729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581

Modellering av en Tankprocess

Undervisningen i ämnet psykologi ska ge eleverna förutsättningar att utveckla följande:

Artificiella Neuronnät

- Är strategin Guds? - Strategins värld :

Inlärning hos hästar Tidningen Hästfynd nr 2, 24 februari 2001

Tentamen Psykologi 1: Kognitiv psykologi och utvecklingspsykologi, 6p

Beteendeförändring för hållbarhet

Exempel på social kognitiva fenomen. Social kognition. Utgångspunkt för social kognition: Behaviorism. Albert Bandura

ANN fk. Örjan Ekeberg. Framåtkopplade Nät. återkopplade nät. Olika arkitekturer. BackPropagation through Time. Kalman-Filter tekniker

Inlärning utan övervakning

1 Mätdata och statistik

DATORER OCH PROGRAM. Datorn är en symbolmaskin

Läran om återkopplade automatiska system och handlar om hur mätningar från givare kan användas för att automatisk göra förändringar i processen.

Kognitiv psykologi. Kognition / Tänkande. Tänkande

Registerforskning Oktober 2018, Stockholm City Conference Centre. Möjligheter med Artificiell Intelligens inom registerforskningen

KOMMUNIKATION ATT SKAPA ETT BRA SAMTAL

Tal i bråkform. Kapitlet behandlar. Att förstå tal

INTRODUKTION Sjukgymnastutbildningen KI, T2. Aila Collins Department of Clinical Neuroscience Karolinska Institute Stockholm, Sweden

Introduktion till logik

LOKAL EXAMENSBESKRIVNING

INLÄRNINGSPSYKOLOGI. Tandhygienistprogrammet ht 15

Kombination MD. Grupprapport 4.0 Multidimensionell

Vad behövs för att skapa en tillståndsrymd?

Inlärning Psykologprogrammet, termin 1

Kapitel 5 Affektiv kommunikation och empati

5.12 Psykologi. Mål för undervisningen

Vad är det för skillnad?

Kommunikation och Interaktion

Studiestrategier för dig som är visuell

Psykologi Vad avses med temperament? Hur borde föräldrar och lärare beakta barnets temperament?

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

Affektlivets Neuropsykologi del 2 Den nya forskningen

SAMMANFATTNING, REFLEKTION & FÖRSLAG

F5 Introduktion till digitalteknik

PEDAGOGIK. Ämnets syfte

PSYD11, Psykologi: Översiktskurs, 30 högskolepoäng Psychology: General Psychology, 30 credits Grundnivå / First Cycle

4. Allmänt Elektromagnetiska vågor

Aalto-Universitetet Högskolan för ingenjörsvetenskaper. KON-C3004 Maskin- och byggnadsteknikens laboratoriearbeten DOPPLEREFFEKTEN.

AI utmaningar inom kvalitetssäkring. Henrik Emilsson Teststrateg, Nordic Medtest AB

Vad är rättvisa skatter?

Att fånga den akustiska energin

PSYD11, Psykologi: Översiktskurs, 30 högskolepoäng Psychology: General Psychology, 30 credits Grundnivå / First Cycle

3. Instruktioner för att genomföra provet

SPECIALPEDAGOGIK. Ämnets syfte

Inledning SÅ HÄR GÅR ÖVNINGEN TILL:

INTRODUKTION TILL SYSTEM- OCH REGLERTEKNIK (3 sp) TIDIGARE: GRUNDKURS I REGLERING OCH INSTRUMENTERING 3072 (2sv) Hannu Toivonen

Poler och nollställen, motkoppling och loopstabilitet. Skrivet av: Hans Beijner

Besluts- & Upplevelseavdelning. Informationsavdelning

Vid Göteborgs universitet pågår sedan hösten 2013 ett projekt under

Kognitionsvetenskapliga programmet, åk 1

Presentation av ämnet psykologi Programmet för personal och arbetsliv. Henrik Bergman. Vad är psykologi?

Myter om mästerskap - del 2: Vägen till mästerskap

CENTRALA BEGREPP I VÅRDPEDAGOGIK

FYSIK ÄR R ROLIGT. Den vetenskapliga metoden som ett intresseväckande medel i högstadiefysik. Finlandssvenska Fysikdagar 2009

Alla datorprogram har en sak gemensam; alla processerar indata för att producera något slags resultat, utdata.


Neurovetenskap. Centrala teman med relevans för f kognitionsvetenskap

Skolan skall i sin undervisning i biologi sträva efter att eleven

Transkript:

EXAMENSARBETE 2008:103 CIV En jämförande studie kring inlärning hos levande organismer och artificiell intelligens. Dennis Pihl Marcus Skog Luleå tekniska universitet Civilingenjörsprogrammet Ergonomisk design och produktion Institutionen för Arbetsvetenskap Avdelningen för Teknisk Psykologi 2008:103 CIV - ISSN: 1402-1617 - ISRN: LTU-EX--08/103--SE

Förord Detta är ett examensarbete på 20 poäng som ingår i civilingenjörsprogrammet Teknisk Design/Ergonomisk Design och Produktion, 180 poäng, vid Luleå Tekniska Universitet. Arbetet har genomförts på Institutionen för Arbetsvetenskap vid Luleå Tekniska Universitet under höstterminen 2005. Handledare för examensarbetet var Peter Bengtsson, Universitetslektor, och Tore Ärlemalm, Universitetslektor, båda vid Institutionen för Arbetsvetenskap på Luleå Tekniska Universitet. Arbetet redovisades våren 2006, men efter det blev rapporten tyvärr liggande alldeles för länge. Inget har dock tillförts rapporten sedan dess. Lärdomen av detta är självklart att alltid slutföra examensarbetet så snart man kan. Efter att man fått jobb och kanske flyttat och skilts åt så tar det alltid mycket längre tid än det är tänkt. Det finns alltid andra saker att ta itu med. Linköping/Luleå, november 2007 Marcus Skoog Dennis Pihl

Sammanfattning Fokus i examensarbetet ligger i att kartlägga likheter och skillnader i inlärning hos människor/djur och artificiella system genom att jämföra inlärningshastigheter och avkligningstider. Förhoppningen är att detta i förlängningen bidrar till ökad förståelse för och därmed förbättrad interaktion mellan artificiell och mänsklig intelligens. Arbetet bygger i huvudsak på teorier av B.F. Skinner och hans bok The behavior of organisms som gavs ut 1938. Hans teorier och experiment jämfördes med dagens kunskap om artificiell intelligens och ett eget experiment med artificiella neurala nätverk genomfördes. Nätverket byggdes med hjälp modulen NNToolbox i MatLab 6.5 och hade till uppgift att mönsterigenkänna ett antal bokstäver. Slutligen diskuteras ett antal teoretiska analyser och huruvida Skinners teorier om beteendet hos levande organismer kan appliceras på dagens kunskap om artificiell intelligens.

Abstract Focus of this master thesis is to analyse the simularities and differences in learning between people/animals and artificial systems. This was made by comparing learning speed and decay time. Hope is that this in the extension contributes to increased understanding for and thereby improved interaction between artificial and human intelligence. This report builds in main thing on theories of B.F. Skinner and his book The behavior of organisms that was first published in 1938. His theories and experiments was matched against todays knowledge in artificial intelligence. Also an own experiment with artificial neural networks was performed. That network was build with the module NNToolbox in MatLab 6.5 and it s purpose was pattern recognision of a number of letters. Finally a number of theoretical analysis are discussed and whether Skinners theories of the behaviour of organisms can applies on todays knowledge in artificial intelligence.

1 INLEDNING... 1 1.1 SYFTE... 1 1.2 BAKGRUND... 1 1.2.1 Psykologi... 1 1.2.2 Artificiell Intelligens... 2 2 TEORI... 4 2.1 PSYKOLOGISKA TEORIER... 4 2.1.1 Klassisk betingning... 4 2.1.1.1 Statiska egenskaper hos reflexer... 5 2.1.1.2 Dynamiska egenskaper hos reflexer... 6 2.1.2 Operant betingning... 7 2.2 ARTIFICIELL INTELLIGENS... 8 2.2.1 Neurala nätverk... 8 2.2.1.1 Neuronen... 8 2.2.1.2 Perceptronen... 9 2.2.1.3 Nätverk av neuroner... 10 3 METOD... 12 3.1 FRÅGESTÄLLNING... 12 3.2 TILLVÄGAGÅNGSSÄTT... 12 3.2.1 Skinners experiment... 13 3.2.2 ANN experiment... 15 3.2.3 Utförandet... 15 3.2.3.1 Nätverkens uppgift... 15 3.2.3.2 Träningsmetoder... 16 3.2.3.3 Brus... 16 4 RESULTAT... 18 DISKUSSION... 21 4.1 ARTIFICIELLA NEURALA NÄTVERK... 21 4.1.1 Träningen... 21 4.1.2 Brus... 23 4.1.3 Slutsats och reflektion kring ANN... 23 4.2 PSYKOLOGI... 24 4.2.1 Statiska egenskaper... 24 4.2.2 Dynamiska egenskaper... 26 4.2.3 Klassisk och operant betingning... 28 4.2.3.1 Operant betingning... 28 4.2.3.2 Klassisk betingning... 29 4.3 SLUTSATSER... 30 4.3.1 Operant vs. klassisk betingning... 30 4.3.2 Förstärkning... 30 4.3.3 Reflexer vs. fri vilja... 30 4.3.4 Kortsiktigt vs. långsiktigt... 30 4.3.5 I ett större perspektiv... 31 5 REFERENSLISTA... 32 BILAGOR ANVISNINGAR FÖR MATLABS NNTOOLBOX... BILAGA 1 NÄTVERKSINSTÄLLNINGAR... BILAGA 2 KODNINGSSCHEMA FÖR INPUT... BILAGA 3 SIFFERMATRIS FÖR INPUT... BILAGA 4 RESULTAT... BILAGA 5

1 Inledning 1.1 Syfte Artificiell intelligens (AI) har funnits med i vår västerländska kultur i olika former ända sedan Isaac Asimovs I, robot publicerades 1950. Frankenstein, Terminator, Herbie och Star Warsfilmernas R2D2 och C3PO har alla på sitt sätt bidragit till vår syn på AI. Hotfulla, oresonabla, utan samvete och känslor eller trevliga, söta och med mänskliga känslor, allt beroende på berättarens intentioner. Genom att förstärka skillnaderna eller likheterna med människan kan författaren reglera hur vi som åskådare uppfattar figurens karaktär. Tumregeln säger att ju mer man kan identifiera sig med karaktären desto mer tycker man om den. Detsamma gäller även omvänt; ju större skillnad mellan oss själva och karaktären, desto mer skrämmande verkar den. Hur stora skillnader och likheter finns det då egentligen mellan artificiell och biologisk intelligens? Vilken bild av AI stämmer bäst överens med verkligheten? Är rädslan för AI befogad eller är vi tvärtom för vänligt inställda? Det är många olika faktorer som måste tas hänsyn till för att kunna ge fullständiga svar på dessa frågor, något som är alltför omfattande för att avhandla i detta examensarbete. Arbetets inriktning blir istället att undersöka de likheter och skillnader som finns i inlärningen mellan dessa båda typer av intelligens och detta på en väldigt grundläggande nivå. Förhoppningen är att kunskapen om dessa likheter och skillnader ska kunna användas för att öka acceptansen för AI hos allmänheten, antingen genom utformandet av mer människolik AI eller enbart genom spridandet av kunskapen. 1.2 Bakgrund I det här kapitlet ges en grundläggande orientering i de båda disciplinerna psykologi och AI, med utgångspunkt i den aktuella uppgiften. Dessutom finns en redogörelse för vilka grundförutsättningar som anses vara gällande och vilken forskning som arbetet stödjer sig på. 1.2.1 Psykologi Inlärning kan ses utifrån de informationsprocesser som är aktiva när man lär sig något, dvs. hur man inhämtar, bearbetar och använder information. Detta är av största vikt för såväl människan som AI-system. De informationsprocesser som identifierats är perception, minne, tanke och språk. Alla är grundläggande kognitiva processer som finns både hos människan och hos AI-system. Perception handlar om att ta in information via sina tillgängliga sinnen. För mer än 2 300 år sedan slog Aristoteles fast att människan har fem sinnen, nämligen hörsel, känsel, smak, syn och lukt. Även om antalet sinnen kan debatteras (Illustrerad vetenskap, 5/2005) kan man konstatera att olika typer av givare ger människan information om förhållanden i omgivningen. På samma sätt kan man koppla vilken typ av givare man vill till ett AI-system för att tillhandahålla systemet lämplig information om dess omgivning. Att man kan använda andra typer av givare än de som vi människor använder påverkar inte det faktum att AI-system verkar ha perceptionsprocesser. Även minnesprocesser återfinns hos både människor och datorer, även om det finns skillnader i material och uppbyggnad (hjärnan och förlängda ryggmärgen respektive RAM-minnen och hårddiskar). Tankeprocesser innebär att fundera, resonera, analysera eller associera, vilket är något som kanske kan locka till ytterligare diskussion när det gäller AI. Vi nöjer oss här med att konstatera att neurala nätverk är fullt kapabla att analysera och associera olika datamängder, medan det är mer oklart huruvida de kan fundera eller resonera. Språkliga processer innebär att inta verbal information via tal eller text och att kommunicera med andra, vilket både människor och datorer klarar av. 1

När det gäller emotionella och motivationella processer finns stora skillnader mellan människor och maskiner. Hittills har man inte kunnat bevisa att AI-system är förmögna att prestera vare sig emotionella eller motivationella processer. AI-system kan programmeras för att arbeta mot uppsatta mål, men man har inte kunnat bevisa att de har någon inre drivkraft eller egen önskan att uppnå ett visst mål. Mål uppsatta av någon annan är en yttre omständighet, en variabel i omgivningen, medan önskningar, drömmar och egna mål är inre omständigheter som inte kan observeras direkt. Man bör alltså inte kunna använda sig av emotionella eller motivationella processer vid inlärning i maskiner, vilket inte bara är fullt möjligt vid mänsklig inlärning utan dessutom väldigt vanligt (bl.a. Watson & Clark, 1984 och Bandura, 1991). Det kan alltså konstateras att det finns vissa grundläggande likheter i de förutsättningar som krävs för att människor och maskiner ska kunna lära sig något. Det har också konstaterats att det finns vissa skillnader. Dessa skillnader frånvaron av emotioner och inre motivationsprocesser hos AI-system gör det lämpligt att behandla ämnet ur ett behavioristiskt perspektiv. Enligt behaviorismen påverkas beteenden endast av faktorer i omgivningen och det som händer inom organismen bör betraktas som en black box där inget inom den går att undersöka. Behaviorismens målsättning är därför att kartlägga de variabler i omgivningen som kontrollerar inlärning och då framför allt beteenden som bevisar inlärningen. Eftersom AI-systemen reagerar på omgivningen utan inblandning av emotioner och inre önskningar bör man, genom att kontrollera de yttre omständigheterna, få en bra bild av sambandet mellan variablerna i omgivningen och de beteenden som orsakas av dessa, dvs. av sambandet mellan input och output. De metoder som används till detta vilar på två grundantaganden, som även gäller i detta arbete, a) inlärning bygger på processerna inom operant och klassisk betingning och b) människors och djurs beteenden kan förklaras med samma generella regler om inlärning. B. F. Skinner (1904-1990) var den som först använde sig av det här synsättet och hans arbetssätt och resultat är fortfarande grunden till mycket av dagens forskning kring inlärning och beteenden hos organismer. Det här arbetet kommer ha sin utgångspunkt i hans tidiga arbete [14], men där så krävs kommer även andra författare och teorier användas. För att uppnå en grundnivå i ämnet gjordes även en förstudie där ett antal böcker [1-15] och artiklar [16-17] lästes. 1.2.2 Artificiell Intelligens I det här arbetet kommer AI representeras av artificiella neurala nätverk (ANN, kapitel 2.2.1.3). En av de viktigaste funktionerna hos ANN är deras förmåga att lära sig genom att interagera med omgivningen eller med en informationskälla. Lärandeprocessen i ANN kan bäst beskrivas som en optimeringsprocess. Lärandet sker vanligtvis genom att algoritmer, eller läranderegler, styr den gradvisa anpassningen av vikterna i nätverket så att de genererar bättre och bättre resultat i förhållande till ett fördefinierat prestationsmål. Det finns tre olika inlärningsparadigm för artificiella neurala nätverk, nämligen supervised learning, unsupervised learning och reinforcement learning. I supervised learning associeras inputsignaler från omgivningen med ett specifik önskat mål som tillhandahålls av en lärare. Denna lärare kan vara mänsklig eller ett annat övervakande system, men det viktiga är att de ger nätverket ett mål att sträva efter. I unsupervised learning handlar inlärningen om att hitta mönster (samband) i datamängder eller att associera olika såna mönster med varandra. Här finns ingen övervakande lärare som tillhandahåller ett specifikt mål för nätverket, utan här 2

förväntas vikterna och nätverkets output samverka för att själva hitta de mönster som bäst uppfyller de fördefinierade kriterium som nätverket ska sträva efter. I reinforcement learning sker inlärningen genom korrigering av nätverkets vikter till följd av den feedback som nätverket får från omgivningen. Detta skiljer sig från supervised learning, där läraren tillhandahåller ett korrekt svar. Den feedback som nätverket får från omgivningen ger information om nätverkets prestation, men säger ingenting om vad nätverket ska göra för att uppnå sitt mål. Fokus i den här studien kommer vara den mest grundläggande metoden för inlärning i AIsystem, nämligen supervised learning. Anledningen till detta är, förutom metodens enkelhet, att nätverken kan hållas relativt små och att den erbjuder stora möjligheter att övervaka och kontrollera processen. 3

2 Teori Utgångspunkten för det här examensarbetets psykologiska del tas från Skinners tidiga forskning, närmare bestämt hans bok The Behavior of Organisms [14]. Orsaken till att denna forskning kan anses lämplig som utgångspunkt kan förklaras med följande argument: a) Skinner utgår från tankesättet att det som händer inom organismen är en black box, dvs. det som händer inom organismen är dolt och kan inte påverkas direkt. Uppbyggnaden och struktureringen av ANN gör att man kan applicera samma tankesätt på dessa. b) Skinner ansåg att förklaringsmodeller för beteenden och vad som orsakar dem måste bygga på observerbara fakta och undvika antaganden. Man kan exempelvis observera att en organism äter, men antagandet att den gör det för att den är hungrig är inte nödvändigtvis sant och bör därför undvikas. Detta är också lämpligt för jämförelsen mellan biologiska organismer och ANN, eftersom det innebär att en gemensam terminologi kan användas. På så sätt undviks exempelvis eventuella påstående som att ett ANN tänker eller känner sig på något sätt. c) Metoden för att undersöka beteenden är densamma för både organismer och ANN när detta synsätt används input manipuleras och output registreras, allt annat hålls konstant. d) Skinners forskning erbjuder en grundläggande helhetssyn, eftersom den strävar efter att kartlägga alla aspekter av organismers beteenden utifrån ovanstående synsätt. En sådan fundamental helhetsbild är givetvis önskvärd även för ANN och deras beteenden. e) Skinners tidiga forskning blev stilbildande och mycket av den fortsatta forskningen bygger på hans arbete från 1938. I de fall där senare forskning ersatt, förbättrat eller förtydligat hans teorier kommer dessa användas istället om det anses nödvändigt. Här följer en redogörelse av de teorier som Skinner presenterar i The Behavior of Organisms [14] och, i de fall sådana är att föredra, de ersättande teorierna. Längre fram i kapitlet finns en beskrivning av grunderna inom AI och de områden inom AI som behandlas i detta arbete. 2.1 Psykologiska teorier Två olika typer av beteenden kommer avhandlas, nämligen respondent och operant. Respondent beteende är det beteende som avses vid klassisk betingning och samma förhållande gäller för operant beteende vid operant betingning. Klassisk betingning innebär att den betydelsefulla händelsen (ett utlösande stimuli) inträffar före beteendet, medan operant betingning innebär att den betydelsefulla händelsen (belöning/bestraffning) inträffar efter beteendet. Operant beteende är därför definierat så att det behandlar vad organismen gör mot omgivningen, medan respondent beteende även kan vara beteenden inom organismen som inte behöver påverka omgivningen, t.ex. rörelse av glatt muskulatur eller körtlar. För att kunna bevisa inlärning krävs att det inlärda beteendet kan framkallas, därför behandlas även lagar som har med framkallandet av inlärda beteenden att göra. 2.1.1 Klassisk betingning Klassisk betingning avser den typ av beteende som är korrelerat med ett specifikt utlösande stimuli. Skinner definierade denna stimuli-respons kedja som en reflex och värdet på den kallas styrka. Reflexens styrka (det observerade sambandet mellan stimuli och respons) är alltså en funktion av framkallandet av responsen. En reflex med hög styrka innebär att ett visst stimuli med hög sannolikhet kommer utlösa en viss respons, den kallas då betingad. 4

2.1.1.1 Statiska egenskaper hos reflexer Identifiering av de egenskaper som ligger till grund för lagarna om svarstid, tröskelvärde, urladdning och R/S-kvoten sker genom presentation av ett stimuli som varieras i intensitet och längd, samtidigt som svarstiden, längden och storleken på responsen registreras. Dessa egenskaper kallas de statiska egenskaperna hos en reflex och skiljer sig från en mer omfattande grupp lagar som behandlar förändringar hos dessa statiska egenskaper. Dessa förändringar sker vid upprepad framkallning av responsen, vilket inte går att undvika när experimenten upprepas för att fastställa mätningarna eller om man vill undersöka beteenden över tid. Värdet på de statiska egenskaperna är sällan, eller aldrig, exakt desamma vid upprepade framkallningar av responsen. De förändringar som sker pga. tiden eller som en funktion av de operationer som organismen utsätts för ger upphov till en annan typ av lagar som skiljs från de statiska genom att kallas dynamiska. 2.1.1.1.1 Tröskelvärde Intensiteten hos ett stimuli måste uppnå eller överskrida ett visst kritiskt värde (tröskelvärde) för att utlösa en respons. Ett tröskelvärde är nödvändigt för att organismen, som har en begränsad kapacitet att processa information, inte ska belastas med stimuli som saknar relevans. 2.1.1.1.2 Svarstiden mellan stimuli och respons Det finns ett tidsintervall (svarstid) mellan början av stimulit och början på responsen. Detta tidsintervall beror vanligtvis på avståndet mellan receptorer och den kroppsdel som utför arbetet (även kallad effector) och på typen av stimuli/respons. Det finns exempelvis skillnader mellan visuella och termiska stimuli och mellan responser med skelettmuskulatur och glatt muskulatur. En viktig aspekt rörande svarstiden är att det är en funktion av intensiteten hos stimulit, starkare intensitet betyder kortare tidsintervall. 2.1.1.1.3 Storleken på responsen Responsens storlek är en funktion av intensiteten hos stimulit. Generellt sett är storleken på responsen en funktion av intensiteten hos stimulit, men i vissa fall uppvisas en allt-eller-inget karaktär. Samband mellan dessa kallas R/S-kvoten. (Viktigt att notera är att storleken på responsen inte är samma sak som styrkan på reflexen.) 2.1.1.1.4 Efterurladdning Responsen kan fortgå ett tag efter att stimulit avslutats. Lagen behandlar inte bara tiden utan även den totala mängden aktivitet som sker under den. Vanligtvis ökar aktiviteten med intensiteten hos stimulit. Samtliga av dessa lag behandlar responsen som en funktion av intensiteten, men för att få en korrekt bild måste man även ta stimulis varaktighet i beaktande. Den följande lagen är därför en utveckling som gäller samtliga ovanstående lagar. 2.1.1.1.5 Temporal summering Förlängning av ett stimuli eller upprepad presentation av detsamma har samma effekt som en ökning av intensiteten. Summering innebär att stimuli med värden under tröskelvärdet kan läggas ihop och tillsammans utlösa en respons, vilket de inte skulle kunna göra var för sig. Lagen behandlar dock inte bara detta, utan även storleken på responsen, svarstiden och aktiviteten efter avslutat stimuli. Detta innebär att ett svagt stimuli (med ett värde under tröskelvärdet) kan utlösa en 5

respons om den förlängs eller repeteras inom en viss tid eller med en viss frekvens. Det innebär också att storleken på responsen och aktiviteten efter avslutat stimuli inte bara är funktioner av intensiteten, utav även av stimulis varaktighet. Svarstiden är vanligtvis för kort för att påverkas av en förlängning av stimulit, men vid värden nära tröskelvärdet kan en effekt påvisas. Vid upprepad presentation av ett svagt stimuli är tidsintervallet en funktion av stimulis upprepningsfrekvens. 2.1.1.2 Dynamiska egenskaper hos reflexer Samtliga statiska egenskaper förändras genom upprepade framkallningar av responsen. Reflexens styrka fås godtyckligt från värdet på de statiska egenskaperna, men är aldrig direkt uppmätt via dem. De statiska egenskaperna har dock ett visst samband med reflexens styrka, eftersom de alltid förändras när styrkan på reflexen förändras. De dynamiska lagarna behandlar de förändringar som sker, antingen vid upprepade framkallningar av en respons (betingning) eller enbart över tid (utsläckning). 2.1.1.2.1 Refraktalperiod Omedelbart efter framkallandet av en respons är vissa reflexers styrka väldigt låg. Styrkan ökar till sitt tidigare värde under efterföljande inaktivitet. Tiden då styrkan på reflexen är noll kallas absolut refraktalperiod och tiden när den är under sin normala nivå kallas relativ refraktalperiod. Dessa faser variera kraftigt i längd, men den första fasen (absolut refraktalperiod) kan vara i någon bråkdels sekund, medan den relativa fasen kan vara upp till några sekunder. Den här lagen är endast applicerbar på reflexer där responsen innebär en effector i motsatt riktning vid olika tillfällen, dvs. där organismens rörelser är rytmiska eller fasindelade, t.ex. ögonlocksrörelser hos människor. Reflexen att stänga ögonlocket när någon blåser mot ögat är inledningsvis stark (dvs. det är svårt att undvika att blinka), men om blåsten fortsätter eller upprepas inom en viss tid blir det lättare att hålla ögonen öppna, eftersom reflexen då inte hunnit återgå till sin normala styrka. Vanligtvis förlängs, återupprepas eller intensifieras responsen vid förlängt eller upprepad presentation av stimulit. Generellt kan man säga att refraktalperioden är en mekanism som producerar och underhåller rytmer. 2.1.1.2.2 Utmattning av reflexer Styrkan på en reflex minskar vid upprepad framkallning och återgår till sitt tidigare värde under efterföljande inaktivitet. Minskningen av styrkan hos en reflex är en funktion av framkallningsfrekvensen och intensiteten hos stimulit (och därmed av storleken på responsen). Denna minskning varierar kraftigt mellan olika reflexer. Vissa reflexer har visat sig vara i stort sett outtröttliga, t.ex. reflexer som har att göra med kroppshållning och som styrs från huvudet. 2.1.1.2.3 Lagen om möjliggörande Styrkan på en reflex kan ökas genom presentation av ett andra stimuli, som i sig inte utlöser responsen. Den här lagen är endast applicerbar då styrkan på en reflex ska ökas från noll, dvs. då en respons produceras där tidigare ingen fanns. Hos organismer ökas vissa reflexer genom höga ljud eller andra intensiva stimuli. 2.1.1.2.4 Lagen om förhindrande Styrkan på en reflex kan minskas genom presentation av ett andra stimuli, som inte har någon annan relation till den aktuella effektorn. 6

Lagarna angående möjliggörande och förhindrande är varandras motsatser och har på senare tid slagits samman till lagen om interference, men innehållet är detsamma. 2.1.1.2.5 Betingning av typ S Två stimuli som presenteras i stort sett samtidigt, där det ena (förstärkande stimuli) redan är kopplat till en reflex med en viss styrka, kan producera en ökning hos en tredje reflex, som består av den förstärkande reflexens respons och den andra reflexens stimuli. Det här är kanske den mest kända lagen inom klassisk betingning. Ett obetingat stimuli kan med hjälp av förstärkning kopplas samman med en viss respons och därmed bli betingad. 2.1.1.2.6 Utsläckning av typ S Om en reflex som betingats genom betingning av typ S framkallas utan presentation av det förstärkande stimulit försvagas styrkan på reflexen. En reflex som betingats på detta sätt försvagas även över tid om den inte framkallas. De mätvärden som används för att påvisa förändringar i styrkan på reflexer skiljer sig inte på något sätt från de värden som fås vid förändringar till följd av utmattning, interference eller förändringar i drive/emotion. Skillnaden mellan typ S och typ R är att i typ S fokuserar man på det som görs mot organismen för att frambringa förändringar i styrkan hos reflexer, dvs. på stimulit, medan man i typ R fokuserar på vad organismen gör mot sin omgivning, dvs. organismens respons, därav beteckningen typ S (stimuli) respektive typ R (respons). 2.1.2 Operant betingning Det finns en stor mängd beteenden som inte utlöses av något externt stimuli och som därför inte faller under klassisk betingning. Den här typen av beteende kallas operant och fokuserar på vad som händer efter organismens beteende, inte på vad som händer innan. Mer exakt kan man säga att en operant är en del av ett beteende som inte kan korreleras med något utlösande stimuli och kan därför ses som en spontan handling, även om den förekommer med en viss frekvens. Termen reflex används för båda dessa typer av beteende, trots att den ursprungligen bara användes vid klassisk betingning. Eftersom det inte finns något utlösande stimuli finns det heller inga statiska lagar som vid klassisk betingning. Tröskelvärde, svarstid, efterurladdning och R/S-kvoten bygger alla på att det finns en inkommande signal, vilket alltså inte är fallet vid operant betingning. Styrkan på reflexen för en operant fås istället genom att notera frekvensen med vilken ett visst beteende observeras. Styrkan på reflexen är proportionell mot denna frekvens och de dynamiska lagarna beskriver hur frekvensen (och därigenom styrkan) påverkas av det som organismen utsätts för. Tre av lagarna som redan beskrivits i samband med klassisk betingning har att göra med utlösandet av reflexer och är därmed inte applicerbara vid operant betingning. Dessa tre lagar är de som behandlar refraktalperiod, utmattning och betingning av typ S. 2.1.2.1.1 Betingning av typ R Om en operant följs av ett förstärkande stimuli ökar styrkan på reflexen. Betingning är den process där organismens respons (beteende) formas så att maximal belöning produceras under de rådande förutsättningarna. Fördelaktiga beteenden blir mer frekventa medan mindre fördelaktiga minskar i frekvens. 7

2.1.2.1.2 Utsläckning av typ R Om en redan förstärkt operant inte följs av ett förstärkande stimuli försvagas styrkan på reflexen. En respons som inte längre förstärks tenderar att minska i förekomst. En operant kan förhålla sig till ett stimuli på ett sätt som påminner om förhållandet mellan ett stimuli och en respons i klassisk betingning. Detta sker när tidigare stimulering korreleras med förstärkningen av en operant. Stimulit kan sägas utgöra grundförutsättningarna för att responsen ska kunna producera en förstärkning, stimulit gör det alltså möjlig för responsen att förstärkas, men det utlöser aldrig responsen själv. 2.2 Artificiell Intelligens Här följer en beskrivning av grunderna för artificiella neurala nätverk och de beståndsdelar som finns i samband med dessa utifrån det här arbetets fokus. 2.2.1 Neurala nätverk Artificiella neurala nätverk bygger på samma princip som ett biologiskt neuralt nätverk. De består av små enkla byggstenar, neuroner, som var för sig är alldeles för enkelt konstruerade för att kunna utföra en uppgift. De kopplas istället ihop till ett nätverk så att de tillsammans kan utföra mer komplicerade beräkningar. 2.2.1.1 Neuronen Den enklaste byggstenen i ett neuralt nätverk är neuronen. En biologisk neuron består av dendriter, en cellkropp (soma) och en axon. Cellkroppen består av en kärna och ett omkringliggande membran och har en negativ laddning som utgångsläge. När dendriterna har tagit emot tillräckligt med laddning (stimulering) för att uppnå ett visst tröskelvärde hos cellkärnan så skapas en signalpuls, en aktionspotential, som färdas via axonen och blir till insignal för en intilliggande neuron. Aktionspotentialen har alltid samma signal styrka oavsett hur mycket tröskelvärdet överskrids. Bild 1, artificiell neuron. Den laddning som dendriterna tillför cellkärnan kan vara av både hämmande och stimulerande karaktär för cellkärnans laddning. Överföringen mellan olika neuroner, alltså mellan en axon och dendriter sker via synapser. Beroende på hur ofta en neuron används blir övergången vid dess synapser lättare. På så vis regleras det så att den elektriska puls som färdas genom neuron nätet har lättare att passera genom vissa neuroner jämfört med andra. Den första teorin om artificiella neuroner gjordes 1943 av Warren McCulloch (1899-1969) och Walter Pitts (1923-1969) [9]. Deras idéer var väldigt enkla men gäller än idag som utgångspunkt för de flesta ANN. Hos de artificiella neuronerna har man behållit två viktiga egenskaper från de biologiska motsvarigheterna. Den ena är att styrkan på kopplingarna mellan neuronerna, alltså synapserna, kan förändras till följd av den aktivitet neuronerna utsätts för. I den konstgjorda neuronen sker detta med hjälp av vikter. Den andra egenskapen är att varje neuron ska ha en 8

intern tröskelnivå som den summerade insignalen måste överskrida innan neuronen skickar signalen vidare. En artificiell neuron bygger på samma princip som den biologiska neuronen. Den består av ett antal insignaler som tilldelas olika vikter innan de summeras och blir till insignal för en aktiveringsfunktion. När funktionens tröskelvärde uppnåtts skickar neuronen en utsignal. Bild 2, artificiell neuron Insignalerna hos en neuron kan vara externa dvs. data från omgivningen eller interna dvs. signaler från andra neuroner. Det finns i huvudsak tre typer av aktiveringsfunktioner: Tröskelfunktionen (Step function, Sign function) Sigmoidfunktionen (Sigmoid function) Linjärfunktionen (Linear function) Tröskelfunktionen är en så kallad hard-limiter med en digital allt-eller-inget karaktär, medan linjär- och sigmoidfunktionen är av typen soft-limiter, där utsignalen kan anta värden även mellan 0 och 1. Bild 3, tröskelfunktion, linjärfunktion och sigmoidfunktion. Tröskelfunktionen är den enklaste funktionen. Utsignalerna från en sådan funktion kan endast anta värdet 0 eller 1. Om funktionsvärdet blir högre än tröskelnivån kommer utsignalen att bli en etta. I annat fall kommer utsignalen att bli en nolla. Funktionen används ofta inom beslutsfattande neuroner för t.ex. klassificeringsproblem och mönsterigenkänning. Sigmoidfunktionen är den idag mest använda funktionen. Det är även den som mest liknar funktionen hos en biologisk neuron. Sigmoidfunktionen behandlar insignalen, som kan vara vilket värde som helst, och ger en utsignal med ett godtyckligt värde mellan 0 och 1. Funktionen används främst i Back-propagation nätverk. Den linjära funktionen ger en utsignal som är detsamma som det viktade funktionsvärdet. Neuroner med den här typen av aktiveringsfunktion används i nät avsedda för linjära approximationer. 2.2.1.2 Perceptronen Den enklaste varianten av ett neuralt nätverk är perceptronen. Frank Rosenblatt (1928 1969) presenterade 1958 [13] den första modellen av en perceptron. En perceptron består egentligen bara av en enda neuron och består således i sin enklaste form endast av två viktade insignalsvektorer, en aktiveringsfunktion samt en utsignalsvektor. Men den kan ha både fler insignaler och utsignaler. Aktiveringsfunktionen hos en perceptron är en tröskelfunktion 9

vilket medför att dess utsignal blir +1 om summan av dess viktade insignaler är positiv och -1 om den är negativ. Detta medför att en perceptron bara kan lösa klassificeringsproblem av typen AND och OR men inte av typen XOR ( en och endast en ). Den kan alltså bara lösa problem som är linjärt separerbara. Insignaler AND OR XOR x 1 x 2 1 x2 x x1 x2 x1 x2 0 0 0 0 0 0 1 0 1 1 1 0 0 1 1 1 1 1 1 0 Tabell 1, klassificeringsschema. Man kan lätt åskådliggöra detta genom ett tvådimensionellt diagram över funktionerna AND, OR och XOR. Där funktionen har ett värde av 1 representeras det av en svart punkt och värdet 0 representeras av en vit punkt. I diagrammen över AND och OR funktionerna kan vi separera de vita och svarta punkterna med en enkel linje, vilket vi inte kan i diagrammet över XOR funktionen. AND och OR funktionerna kan man därför säga vara linjärt separerbara. En perceptron kan bara hitta en lösning på de problem som går att lösa genom att dra en enkel linje mellan de vita och de svarta prickarna. Därför kan den lära sig AND och OR funktionerna men inte XOR funktionen. Figur 1, diagram för AND (tv), OR (mitten) och XOR (th) funktionerna. 2.2.1.3 Nätverk av neuroner Genom att koppla samman flera neuroner med varandra skapar man ett artificiellt neuralt nätverk. I ett ANN bildar utsignalen från en neuron insignal för ett antal andra neuroner. Hur de olika kopplingarna mellan neuronerna ser ut kan variera och egenskaperna för ett ANN karaktäriseras av hur dessa kopplingar ser ut. Det finns flera olika typer av nätverk bland annat: Feed-Forward network (FFN) Recurrent networks (RN) Kohonen netwoks, Self-organizing maps (SOM) Hopfield network 2.2.1.3.1 Feed-Forward nätverk Ett Feed-Forward nätverk kan man säga är en perceptron bestående av flera lager. Det är en utveckling av perceptronen och är den enklaste formen av neurala nätverk större än en neuron. FFN har tre karakteristiska egenskaper: 10

1. Neuronerna är uppdelade i lager. Det första lagret tar upp insignaler från omgivningen och det sista lagret producerar utsignalen. Lagren däremellan har ingen som helst kontakt med omvärlden och kallas därför för dolda lager. 2. Varje neuron i ett lager är kopplad till alla neuroner i det nästkommande lagret. Informationen skickas framåt från ett lager till nästa, men aldrig bakåt, därav namnet Feed-Forward. 3. Det är inga kopplingar mellan neuroner inom samma lager. 2.2.1.3.2 Supervised learning Metoden bygger på ungefär samma princip som när man lär ett barn att läsa. En lärare presenterar olika insignaler för systemet och talar också om vad de önskade utsignalerna för de givna exemplen är. Det fungerar ungefär såhär. Ett antal insignaler presenteras för neuronnätet vilket producerar olika utsignaler. Nätet kontrollerar sedan de utsignalerna med de värden som definierats som önskade värden, alltså de som läraren matat in som utsignaler. Om neuronnätets utsignaler skiljer sig från de önskade värdena så modifieras de synaptiska vikterna i neuronnätet så att nästa gång insignalen skickas genom nätet så ska utsignalen bli närmare den önskade utsignalen. Om det fortfarande skiljer mycket mellan neuronnätets utsignal och den önskade utsignalen justeras vikterna ännu en gång och processen upprepas till dess att nätets utsignal stämmer överens med det önskade värdet. 2.2.1.3.3 Träningsalgoritm Backpropagation nätverk Backpropagation (BP) algoritmen är en av de mest populära träningsalgoritmerna för neurala nätverk. Den lämpar sig bäst för nätverk som inte har någon återkoppling bland neuronerna t.ex. FF-nätverk. BP algoritmen har med sin mer sofistikerade träningsregel överkommit de begränsningar som ett singel-layer nätverk har. Den har använts med stor framgång inom områden som tal och röstigenkänning, mönsterigenkänning och diagnosticeringsprogram inom medicin. Man kan summera träningsmetodens tillvägagångssätt såhär: Nätverket initierar de synaptiska vikterna till små slumpvisa värden. Därefter presenteras nätverket för en insignal och en given utsignal. När signalen passerat genom nätverket jämförs nätverkets utsignal med det önskade värdet och felmarginalen för varje enskild neuron i utsignalslagret beräknas. Efter det beräknas felmarginalen hos neuronerna i det näst sista lagret och vikterna justeras för att minska felmarginalen. Proceduren utförs sedan på varje enskild neuron genom att gå från lager till lager fram till insignalslagret. Denna process utförs sedan varje gång nätverket presenteras för en insignal. 11

3 Metod Detta kapitel innehåller arbetes frågeställning, en beskrivning av tillvägagångssättet som tillämpats och en redogörelse för de avgränsningar som gjorts för att begränsa arbetes omfång. En betydande del av kapitlet ägnas åt Skinners ursprungliga experiment och en beskrivning av hur detta arbetes experiment utformats för att stämma överens med Skinners. 3.1 Frågeställning Grunden i arbetet är att undersöka de likheter och skillnader som finns i inlärningen hos artificiell intelligens i förhållande till biologisk intelligens. Detta är en väldigt stor fråga som behöver delas upp i mindre delar för att lättare kunna bearbetas. Frågans omfång blir inte mindre av att den kan bearbetas antingen utifrån ett psykologiskt eller utifrån ett datavetenskapligt perspektiv. Båda dessa utgångspunkter bör vara representerade för att arbetet ska kunna göra anspråk på att ge en någorlunda komplett sammanfattning av de likheter och skillnader som finns mellan de både typerna av intelligens. Med utgångspunkt i psykologin kan följande frågor ställas och besvaras: Har vi med operant eller klassisk betingning att göra när det gäller inlärning i ANN? Vilka likheter och skillnader finns mellan biologiska organismer och ANN när det gäller de statiska och dynamiska egenskaperna hos reflexer? Hur inlärning fungerar i ANN bör kunna besvaras genom manipulation av följande variabler: Nätverkens storlek. Inlärningsmetoden. Incremental, som innebär stegvis inmatning av ny input eller batch, som innebär att all input matas in samtidigt. Hur inlärningen påverkas beroende på ovanstående variabler kan mätas genom kontroll av följande variabler: Inlärningshastigheten. Inlärningssäkerheten. Plasticiteten, dvs. motståndskraften mot felaktigheter i input. 3.2 Tillvägagångssätt Inledningsvis genomfördes en allmän orientering inom AI-området i stort. Detta gjordes genom enkla experiment med olika ANN och en omfattande litteratursökning under flera veckor. Kontakt togs med ett antal olika AI-experter för att ytterligare bredda och fördjupa kunskapen inom olika AI-områden, bl.a. undersöktes reinforcement learning, PAC, Michie och Chambers boxes och andra liknande AI-områden. Denna fas medförde ökad kunskap om var forskningsfronten befann sig, vilka grundläggande egenskaper de olika AIdiciplinerna hade och vilken typ av AI som lämpade sig bäst för detta arbete. Orienteringsfasen följdes av inläsningsfasen, där fördjupande studier av de aktuella kunskapsområdena genomfördes. Här lades fokus på Skinners tidiga teorier från The Behavior of Organisms, MatLabs användarmanual och grundläggande kunskap rörande ANN. Baserat på kunskapen från denna fas utformades ett grundexperiment som överensstämde med Skinners experiment samtidigt som det anpassades till de särskilda egenskaper som ANN innebär. Utifrån detta grundexperiment gjordes sedan ett antal liknande experiment som skiljde sig från grundexperimentet endast på den punkten att vissa variabler ändrades. Efter 12

genomförandet av dessa experiment sammanställdes, utvärderades och analyserades resultaten. I de fall där experimentet inte räckte till, t.ex. för statiska respektive dynamiska egenskaper hos reflexer, har logisk slutledning och diskussioner fungerat som utredningsmetod. 3.2.1 Skinners experiment Skinner vägrade anta något om vad som pågick inom en organism, han var bara intresserad av yttre mätbara (observerbara) handlingar. Därför behandlade han inte inre förhållanden som hunger, istället kontrollerade han tillgången på mat och registrerade födointag. Ett annat exempel är att se, som han vägrade använda, medan titta på fungerade bra. Skillnaden mellan de båda baseras på att det är skillnad mellan vad man ser och vad man tittar på. Det första är vad man uppfattar av det som finns inom synfältet (vilket inte är observerbart), medan det andra är handlingen att använda synorganet (vilket går att observera utifrån). Emotioner och kognitioner, som endast finns inom organismer, kan inte mätas direkt och behandlades därför inte av Skinner. Skinner arbetade på så sätt att han definierade ett beteende så exakt han kunde och försökte sedan, genom att mäta svarsfrekvensen för detta beteende i olika situationer, visa på ett samband mellan beteendet och orsakerna till det. Skinner ansåg att det räckte med att studera en enda reflex för att undersöka hur de dynamiska egenskaperna hos reflexer fungerade. Han såg ingen mening i att botanisera, dvs. försöka redogöra för hur olika specifika operanter uppkommit, utan fokuserade på hur egenskaperna fungerade generellt. Han fokuserade därför sitt experiment kring ett enda beteende. För att säkerställa ett lämpligt val av beteende att studera utformade Skinner en kravlista, som även användes vid valet av respons för detta experiment. Kravlistan såg ut som följer; a) Det måste vara möjligt för organismen att producera responsen. b) Organismen måste kunna utföra beteendet spontant före betingning. c) Organismen får inte utföra beteendet för ofta utan träning, dvs. träningen måste ha möjlighet att ge resultat. d) Responsen får inte ingå i något annat betydande beteende. e) Responsen måste vara relativt tydlig, det får inte vara någon svårighet att avgöra om beteendet är den rätta responsen eller inte. f) Det måste vara en viss likformighet hos responsen varje gång den framkallas. Bild 4, Skinner box. 13

Skinners box kan utformas på lite olika sätt. I grundutförandet innehåller den endast en spak och ett ställe där mat kan levereras. Detta var det ursprungliga experimentet som Skinner använde. Mer avancerade varianter av boxen innebär att man kan lägga till en eller flera spakar, ett eller flera signalljus och ett eller flera ställen där mat (positiv feedback) kan levereras. Förutom det kan den även innehålla högtalare (för auditivt stimuli) och/eller ett elektriskt galler som golv (negativ feedback). För Skinner var det viktigt att råttan hade möjligheten att spontant kunna utföra den utvalda responsen. Detta för att försäkra sig om att beteendet var möjligt att utföra och relativt naturligt. Ett annat viktigt krav som han hade på responsen var att det måste finnas en möjlighet för den att öka i frekvens vid betingning. En respons som redan utlöstes frekvent hade sämre möjlighet att påvisa en förändring i frekvensen än en mindre frekvent respons. Beteendet skulle helst inte heller ingå i något annat betydande beteende, som t.ex. skällandet hos en hund för att skrämma bort en fiende. En råttas tryckande på en horisontell spak ansågs vara ett beteende som inledningsvis helt saknade betydelse och därför kunde användas i experimentet. Det var dessutom viktigt att responsen var relativt tydlig, så att man med lätthet kunde urskilja om råttan utförde den eller inte. Lika viktigt var det att responsen såg likadan ut varje gång den utfördes, dels för att öka tydligheten för den som utförde experimentet, dels för att råttan själv lättare skulle kunna särskilja den från andra responser. Skinner noterade också att råttans beteende utanför experimentet kunde påverka resultatet eftersom responser då inte övervakas och inga förstärkningar delas ut. Generellt sett ansåg Skinner att den valda responsen var tvungen att påverka omgivningen på ett sådant sätt att den producerade sin egen förstärkning. Detta för att förtydliga kopplingen mellan respons och förstärkning och för att experiment skulle kunna genomföras utan ständig övervakning. Under experimentets gång hände det ibland att en råtta lärde sig trycka på spaken endast med hjälp trial-and-error metoden, men detta tog oftast väldigt lång tid. Eftersom trail-anderror metoden var så pass långsam utarbetades en mer praktisk metod där råttan beteende styrdes i rätt riktning allt eftersom experimentet fortlöpte. Först introducerades råttan för belöningen (matpellets). Initialt var det ett antal pellets i skålen där de skulle presenteras för råttan under försöket, samt några på golvet intill så att råttan fick en möjlighet att lära sig att det var den skålen som var källan till maten. När råttan sedan lämnades ensam i boxen under en tid samtidigt som man då och då tillförde mat till matskålen lärde sig råttan att äta varje gång matskålen fylldes. Samma metodiska arbetssätt användes för att få råttan att trycka på spaken. Istället för att belöna råttan vid exakt rätt beteende (när den tryckte ner spaken) så belönades den inledningsvis så fort den gjorde en antydan till rätt beteende. Skinner började med att ge råttan belöning om den var i rätt del av lådan, för att sedan ge belöning när den var i området kring spaken. Efter det gavs bara belöning om råttans huvud pekade i riktning mot spaken och senare när den närmade sig spaken, när den vidrörde spaken med främre delen av kroppen, när den tryckte på spaken med tassen osv. till dess att man uppnådde det önskade beteendet. Mätningen av responserna, som skedde automatiskt, gav en graf där det totala antalet responser var en funktion av tiden. Genom att använda det cumulativa värdet av responserna vid varje tillfälle fick Skinner en graf där kurvans lutning var proportionell mot responsfrekvensen. En kraftigare lutning innebar således en högre responsfrekvens vid det tillfället. 14

3.2.2 ANN experiment Det naturliga valet av respons för ANN experimentet var att producera en korrekt outputmatris för varje input som nätverket presenterades för. I övrigt ställdes samma krav på responsen som Skinner ställde på råttornas respons. Skinners krav på experimentet att responsen måste producera sin egen förstärkning uppfylldes också, eftersom nätverket fortsätter sin optimeringsprocess till dess att korrekt output producerats eller det maximala antalet träningscykler uppnåtts. Nätverket tillhandahåller därmed själv ständig återkoppling rörande det producerade outputvärdets kvalitet. Både Skinners experiment och detta experiment utformades för att ge svar på hur inlärningshastigheten påverkades av olika variabler. Skillnaderna hos försöksobjekten omöjliggjorde identiska experiment, men grundfrågan kunde studeras i båda fallen. Skinner sökte svaret genom att mäta svarsfrekvensen över tid, medan detta experiment sökte samma svar genom att mäta antalet svarsförsök som krävdes för att uppnå fullständig inlärning. Skillnaden mellan dessa båda experiment ligger i att det ena (Skinners) utgår från variabeln korrekta responser/tidsenhet, medan det andra istället utgår ifrån variabeln träningscykler/korrekt respons. Denna skillnad blir mindre när man tar i beaktande att varje träningscykel kräver lika mycket tidsåtgång varje gång för ett givet ANN. Eftersom respons ges varje gång det utsätts för ett stimuli varierar bara kvalitén på responsen, inte svarstiden för varje respons. Följaktligen motsvaras en hög responsfrekvens i Skinners experiment av färre träningscykler för att uppnå fullständig inlärning i detta arbete. 3.2.3 Utförandet För att skapa artificiella neurala nätverk användes MatLab 6.5. Matlab har en speciell toolbox med ett GUI (Graphical User Interface) för att skapa ANN. För en introduktion i hur man skapar ett ANN i NNToolbox se bilaga 1. För de värden och inställningar som använts i uppgifterna för denna undersökning se bilaga 2. 3.2.3.1 Nätverkens uppgift Som uppgift valdes mönsterigenkänning. En rutmatris på 9x9 rutor sattes upp och rutorna färgades efter ett mönster som bildar bokstäver. Bild 5 visar exempel på bokstaven B. Bokstäverna E, F, P, R, D, B, I, T, O, U, Q, C användes. De valdes ut någorlunda slumpvis, men med en tanke på att vissa liknar varandra och av den anledningen kanske kan vara svårare för nätverken att särskilja. För en komplett lista över kodningen av bokstavsmatriserna se bilaga 3. Bild 5, matriskodning för B För att sedan förvandla dessa matriser till ett värde som är hanterbart för de ANN som används tilldelades varje ruta värdet 1 eller 0 beroende på fyllnadsfärgen. En fylld ruta 15

tilldelas siffran 1 och en icke ifylld ruta tilldelas värdet 0. På så vis skapas en vektor för varje bokstav och för samtliga bokstäver skapas en siffermatris där varje siffra motsvarar en ruta i bokstavsmatriserna, bilaga 4. Nätverket måste även ha ett mål att träna mot och för detta skapas olika siffervärden som nätverket ska koppla samman med en specifik bokstav. Bokstaven B ska t.ex. kopplas samman med siffran 11. Om nätverket vid en simulering presenteras för vektorn för bokstaven B som input och nätverket svarar med att ge ett output som har värdet 11 så kan slutsatsen dras att nätverket har lärt sig att koppla samman bokstaven B med siffran 11, dvs. nätverket har lärt sig bokstaven B. De siffror (targets) som kopplas samman med respektive bokstav visas i tabell 2. Bokstav E F P R D B I T O U Q C Target 1 3 5 7 9 11 13 15 17 19 21 23 Tabell 2, targetmatris. Siffrorna valdes med viss marginal mellan varje värde så att nätverket kan ha en viss felmarginal. Felmarginalen sattes till +/- 0,5, dvs. om nätverket presenterar 3,47 som output för bokstaven F så antas det var så nära det korrekta värdet att nätverket kopplar samman bokstaven med rätt siffra. En oerhört viktig sak att påpeka här är att nätverket inte har mer fel ju längre dess output är från target, dvs. om nätverket presenteras för bokstaven B, som ska kopplas samman med siffran 11, så är inte outputvärdet 21,14 mer fel än 12,75. Siffrorna har i sig självt inget eget värde utan representerar bara ett output. Nätverket som ger svaret 21,14 har alltså tolkat input som något som liknar bokstaven Q och det nätverk som ger output 12,75 har tolkat input som bokstaven I. Båda av dessa är naturligtvis fel, men inget av resultaten är mer fel än det andra. De är båda lika felaktiga eftersom bokstaven som presenterades för nätverken var B och inget annat. Om nätverket ger ett värde som håller sig inom de felmarginaler som satts upp så räknas det som korrekt, men så snart som output hamnar utanför de gränserna så är det fel och nätverket har inte klarat att identifiera bokstaven korrekt. 3.2.3.2 Träningsmetoder För att lära nätverket de olika bokstäverna kan två olika metoder användas, incremental training och batch training. Vid incremental training lär sig nätverket en input, bokstav, i taget. Nätverket lär sig t.ex. först bokstaven E sedan bokstaven F sedan bokstaven P osv. Hela tiden med kravet att nätverket fortfarande ska kunna de bokstäver det har lärt sig i momentet innan. Inlärningssekvensen för de olika bokstäverna presenteras i tabell 3. Vid batch training lär sig nätverket istället alla olika input samtidigt och endast en enda stor inputmatris där alla input presenteras samtidigt för nätverket. 3.2.3.3 Brus För att undersöka hur väl nätverken klarar sig mot störningar i input skapades även matriser med brus. Samma bokstavsmatriser som innan användes, med den skillnaden att vissa rutor bytte färg och alltså skapar ett mönster som till stor del är likt orginalbokstaven men skiljer sig på några få punkter. Tre olika brus skapades. Ett där 5 färgade rutor lades till (brus 1), ett där 3 färgade rutor lades till (brus 2) och slutligen ett där 5 färgade rutor plockades bort och gjordes vita (brus 3). De rutor där det lades till färg (brus 1 & 2) byttes således värdet i de rutorna från 0 till 1 och för det brus där färg togs bort (brus 3) byttes värdet 1 ut mot 0 för de specifika rutorna. Se bild 6 för de olika typerna av brus för bokstaven B. 16