AURA och dess implementation i Inquire Biology

AURA och dess implementation i Inquire Biology, isako708 Artificiell Intelligens, 729G43 Linköpings Universitet 2016-01-09 1

Innehåll Inledning... 3 Inquire Biology... 4 AURA... 5 KM för att representera kunskap... 5 Prototyper... 5 UMAP... 6 CLIB... 6 CPL... 7 KM för att resonera kring kunskap... 8 Diskussion... 9 Referenser... 10 2

Inledning Teknik och artificiell intelligens hjälper idag många områden att utvecklas. Detta gäller allt ifrån bilar, där avståndsmätare hjälper föraren att inte backa in i saker, hålla hastigheten och till och med fickparkera eller köra till utbildning där utvecklingen har gått mot interaktion, lärandespel och simulationer. Det som ännu inte förändrats, är läroböcker. Böckerna vandrar sakta mot att inte bara finnas i pappersform, utan också på datorer, surfplattor och telefoner. År 2004 började Vulcan Inc. finansiera forskarprojekt för att komma närmare vad de kallar en en Digital Aristoteles som innehåller kunskap om och kan svara på en stor mängd vetenskapliga frågor och problem ställda i naturligt språk. Denna Aristoteles ska ha två delar, en för att hjälpa studenter att lära sig, och en för att assistera forskare i deras forskning. Mellan 2004 och 2010 arbetade därför forskargrupper med ett första steg, att med hjälp av domänexperter utveckla en kunskapsbas som mindre erfarna studenter sedan skulle kunna ställa frågor till. Det bästa resultatet var AURA, Automated User-Cenered Reasoning and Aquisition system, som utvecklades vid University of Texas (Gunning, Chaudhri, Clark, Barker, Chaw, Greaves, Grosof, Leung, McDonald, Mishra, Pacheco, Porter, Spaulding, Tecuci, Tien, 2010). AURA implementerades mellan 2010 och 2013 i form av den digitala boken Inquire Biology (Chaudhri, Cheng, Overtholtzer, Roschelle, Spaulding, Clark, Greaves, Gunning, 2013). 3

Inquire Biology Inquire Biology är en interaktiv biologibok som baseras på Campbell Biology (Reece, Urry, Cain, Wasserman, Minorsky, Jackson, 2010), en lärobok som flitigt används på universitet i USA. Applikationen är utvecklad för Ipad och har en rad funktioner för att underlätta arbete med hemläxor och inlärning för universitetsstudenter som studerar biologi på avancerad nivå. Likt andra böcker till datorer eller plattor har Inquire Biology möjligheter att markera text, sätta ut anteckningar och interagera med grafik (Chaudhri et al., 2013). För alla biologiska termer i Inquire Biology finns det definitioner, då man klickar på ordet dyker en definition upp, och en länk till en konceptsida om ordet (märkt som 2 i figur 1). Då användaren markerar text kan hen välja mellan att se de anteckningar som finns på textområdet, eller förslag på frågor som kan utforskas för djupare förståelse (märkt som 3 i figur 1). Användaren kan dessutom alltid trycka på Q-ikonen (märkt som 1 i figur 1) för att ställa egna frågor till systemet om ämnet (Chaudhri et al., 2013). Figur 1. Inquire Biologys gränssnitt (Chaudhri et al., 2013). Texten är ur Campbell Biology (Reece et al., 2010, s.132). 4

AURA Inquire Biologys kunskapsrepresentation sker via ett kunskapsförfattandesystemet (eng. knowledge authoring system) AURA. AURA används som en del i Digital Aristoteles-projektet för att representera kunskap inom olika hårda vetenskaper. Hittills har den delvis implementerats till universitetsstudier i kemi, biologi och fysik. Målet är att AURA ska kunna både hämta ren fakta, och generera svar och förklaringar som inte explicit står i grundtexten. För att uppnå detta i Inquire Biology har AURA fyra delar: Kunskapsmaskinen (eng. the Knowledge Machine, KM) används för att representera och resonera kring kunskap. Kunskapen kodas in av experter (SME:er, efter eng. subject-matter expert) som har en kandidatexamen inom området. Komponentbiblioteket (eng. the Component Library, CLIB) är en domänoberoende kunskapsbas byggd av kunskapsingenjörer där kunskapen representeras. Processering av frågor med ett kontrollerat datorprocesserbart språk (eng. controlled computer-processable langusge, CPL). Besvarande av frågor genom KM:s resonerande del (Gunning et al., 2010). KM för att representera kunskap KM är ett språk för att representera kunskap. Den bygger på Lisp och formell semantik och för AURA är två av dess funktioner speciellt viktiga, prototyper och unifieringskartläggning (UMAP). KM:s taxonomi tillåter klasser att vara underklasser av en eller flera andra klasser (Okänd, 2016). Prototyper En prototyp innehåller all information om ett koncept och attribut hos medlemmarna av konceptet. Eftersom information i kunskapsbasen representeras i graf-data form, kan en SME också redigera prototyperna grafiskt, istället för att redigera små delar av information på olika platser. 5

Prototyper används i KM för att SME:n som kodar in information ska kunna ändra information på en plats istället för att behöva ändra information på varje plats som informationen används. När SME:n ändrat informationen i prototypen unifieras denna med hjälp av UMAP med den information som redan finns i kunskapsbasen (Gunning et al., 2010). UMAP Unifiering används för att bestämma om två objekt egentligen är samma objekt. Unifieraren ser då ifall det finns någon anledning att de båda objekten inte skulle kunna vara samma objekt, om det inte finns någon anledning så unifierar den objekten. Detta är ett problem som uppstår i Inquire Biologys kunskapsbas eftersom den är så stor att den blir underspecificerad och objekt som inte bör unifieras därför unifieras. Detta problem löses i KM med hjälp av UMAP (Chaudhri och Son, 2012), PPT). UMAP fungerar som den vanliga unifieringen, och överattribuerar därför en del i underspecificerade kunskapsbaser, men då mer information läggs in, så kan det som unifierats deunifieras för att kunskapsbasen fortfarande ska vara korrekt. På detta sätt kan UMAP fylla i information som SME missar, eller tycker är för simpel, med minskad risk för att det blir fel (Chaudhri och Son, 2012). CLIB CLIB innehåller domänoberoende klasser och förutbestämda relationer samt värden för att representera enheter och skalor. Med hjälp av dessa kan sedan en SME modellera ett koncept eller en process. Som exempel modelleras en celldelning i figur 2 där en diploid cell genom processen mitos och dess steg omvandlas till två diplopida celler. Antal representeras av siffrorna bredvid objekten och de förutnämnda relationerna finns i rutorna mellan objekten (Gunning et al., 2010). Att databasen är graf-baserad gör att SME:erna lättare förstår hur kunskapsbasen fungerar, men trots detta behöver de gå igenom 20 timmars träning för att klara av att lägga till kunskap till databasen. I CLIB har SME:n fyra möjliga handlingar; hen kan lägga till ett objekt till grafen, göra 6

ett objekt till en instans av en underklass, lägga till en relation mellan två objekt och likställa två objekt med hjälp av UMAP (Gunning et al., 2010). Figur 2. Representation av en celldelning i CLIB. CPL Gunning et. al anser att man inte kan ställa samma krav på träning på de som förväntas ställa frågor och de som förväntas svara på dem. Därför behöver det vara ett lättare system för att ställa frågor, än för att svara på dem. De presenterar två strategier för att lyckas med detta, antingen genom att mot en korpus matcha frågan tills det att programmet lyckas hitta en logisk representation av frågan att svara på, eller genom att göra ett program som kan processa naturligt språk generellt. För att förenkla arbetet valde forskargruppen att använda språket CPL som frågeställningsspråk (Gunning et al., 2010). I CPL har en mening formen: subjekt + verb + objekt + komplement + bestämning, där bestämningen är ett frivilligt tillägg. Detta gör det lättare för applikationen att tyda frågan och det är inte alltför svårt för användaren 7

att ställa frågor på denna form. Nackdelen med att använda ett förenklat språk är att också frågan kan behöva förenklas (Gunning et al., 2010). KM för att resonera kring kunskap För att kunna svara på frågor resonerar AURA kring frågan med hjälp av KM. AURA har också mjukvara för att lösa matematiska problem och en grafsökningsfuntkion för att hitta relationer mellan koncept. För kemifrågor finns det en modul som känner igen kemiska ämnen. AURA kan också skriva egna enkla förklaringar till svaren den ger genom ett stegvis förklarande system (Gunning et al., 2010). 8

Diskussion Jag tycker att Inquire Biology är en önskad utveckling för utbildningshjälpmedel. Att göra böcker interaktiva gör att fler typer av inlärning sker på samma gång och att fler studenter kommer ha större möjlighet att lära sig på det sätt som passar just dem bäst. Vulcan Inc.:s övergripande mål tycker jag är ett inspirerande, om än svårtacklat mål. Det känns som att de gjort en bra början och jag är lite besviken att jag inte sett några nyare artiklar än 2013 från dem, då utvecklingen mot en Digital Aristoteles definitivt är någonting som är värt att följa. En av de största begränsningarna med applikationen AURA som helhet är att det behövs experter för att lägga in kunskapen i systemet. Om man hade kunnat automatisera detta så skulle AURA kunna bli färdig och en nytta och inte bara ett experiment som kostar pengar. Den näst största begränsningen anser jag är att AURA använder sig av CPL, eftersom det gör att varje användare måste bli instruerad i hur hen ska använda systemet. För båda dessa problem skulle processering av naturligt språk vara ett stort framsteg. Då detta skulle hjälpa applikationen att inte bara förstå och kunna svara på frågor, utan också göra projektet mer kostnadseffektivt. 9

Referenser Chaudhri, V.K., Cheng, B., Overtholtzer, A., Roschelle, J., Spaulding, A., Clark, P., Greaves, M., Gunning, D. (2013). Inquire Biology: A Textbook That Answers Questions. AI MAGAZINE. Volym 34, Nummer 3, s.73-88. Chaudhri, V.K., Son T.C. (2012). Specifying and Reasoning with Underspecified Knowledge Bases Using Answer Set Programming. 13 th International Conference on Principles of Knowledge Representation and Reasoning. Submitted paper. Gunning, D., Chaudhri, V.K., Clark, P.E., Barker, K., Chaw, S., Greaves, M., Grosof, B., Leung, A., McDonald, D.D., Mishra, S., Pacheco, J., Porter, B., Spaulding, A., Tecuci, D., Tien, J. (2010). Project Halo Update Progress Toward Digital Aristotle. AI MAGAZINE. Volym 31, Nummer 3, s.33-58. Okänd författare. (2016-01-08). The Knowledge Machine. Hämtad från: http://www.cs.utexas.edu/users/mfkb/km.html Reece, J.B., Urry, L.A., Cain, M.L., Wasserman, S.A., Minorsky, P.V., Jackson, R.B. (2010). Campbell Biology (9th edition). Boston: Benjamin Cummings/Pearson. s.132. 10