En uppsats i Språkteknologi av Niklas Vargensten e-post: d99-nva@d.kth.se

Kan datorn förstå någonting egentligen? En uppsats i Språkteknologi av Niklas Vargensten e-post: d99-nva@d.kth.se

Sammanfattning I denna uppsats studeras och diskuteras användandet av kunskapsrepresenterande datorsystem som kallas ontologier, med syftet att utröna huruvida de kan ha någon praktisk användbarhet för hantering av naturligt språk. Till en början undersöks design och implementation av ontologier i allmänhet, för att senare lägga koncentrationen på ett specifikt system vid namn CYC. Detta system tros av många kunna ligga till grunden för skapandet av applikationer som i framtiden kan kommunicera med människor på ett naturligt sätt. Detta skall ske genom att CYC lagrar sunt förnuft som kan användas för att datorn ska förstå innebörden av specifika påståenden på ett visst språk. Flera svagheter med systemet pekas visserligen ut i denna undersökning, men det ska inte förnekas att det faktiskt finns en möjlighet att systemet kommer att bidra till att datorn en dag kan förstå naturligt språk. 3

Inledning I framtiden har datorer alltid kunnat tala med människor. Som typexempel är det vanligt att datorn H.A.L. i filmen 2001 A space odessey får representera framtidens dator en intelligent samtalspartner som styr rymdskepp och diskuterar filosofi med besättningen. Många tror att vi idag inte är så långt ifrån att göra detta till verklighet. Om högst 50 år har vi sådana datorer överallt. Men, det trodde man för 50 år sedan också. Och fortfarande kommunicerar vi med datorer på deras språk och på deras villkor. Varför kommer vi ingenvart? Med dagens snabba datorer och tekniker för artificiell intelligens borde det vara en enkel sak att bara mata in ett helt språk i datorn, med resultatet att datorn kan kommunicera med oss på våra villkor som omväxling. Tyvärr är det inte så enkelt, eftersom själva språket endast är ett medium för kommunikation. Det är vad man vill förmedla som är det viktiga. För att förstå detta använder människan sunt förnuft, vilket är någonting som datorn aldrig kan få. Eller kan den det? Datorsystem och språkhantering Vad är det som är så svårt med språkhantering? För att en dator ska kunna hantera naturligt språk (eng. NLP 1 ) på ett människoliknande sätt krävs förutom kännedom om språkets syntax även kunskaper om semantik och pragmatik. För de två sistnämnda räcker det sällan med enkla regler om när ett utryck betyder en sak och när det betyder en annan, eftersom alla möjliga tolkningar inte alltid går att fastställa direkt av själva uttrycket. Mänskligt språk är inte entydigt. Då vi människor tolkar språk gör vi hela tiden omedvetna gissningar och antaganden, och med hjälp av våra kunskaper om människor, världen, kulturer och värderingar drar vi slutsatser angående själva betydelsen av ett uttryck 2. Eftersom människor i regel har en djup kunskap om världen och om normala omständigheter i allmänhet, så kan en stor del av de ord som definerar själva betydelsen av ett uttryck utelämnas då vi kommunicerar med varandra. Den underförstådda informationen kan uppgå till så mycket som 90 % av själva kommunikationen, vilket gör att språket blir mer koncist, men utan denna information kan en dator egentligen aldrig förstå innebörden av en mening. Datorn behöver en skopa sunt förnuft. Vad måste vi modellera? Om vi utgår från människors lingvistiska förståelseprocess hamnar självklart hjärnan i centrum. En fungerande datormodell av hjärnan borde kunna lösa de flesta problem som datavetenskapen lägger fram och göra livet enklare för hela planeten (eller kanske orsaka mänsklighetens undergång om man tror på framtidsfilmer som till exempel The Matrix ). Via en simulering av hjärnan skulle man kunna få fram de processer och effekter som systemet skapar, och på så vis har man modellerat systemet. Detta angreppssätt kallas holisticism 3, och innebär att man reprocucerar processerna och effekterna genom att modellera systemet. Att modellera den mänskliga hjärnan, till och med för tillämpningar inom endast ett begränsat område, är det dock ingen som har lyckats med hittills. Ett annat angreppssätt är att följa tänkandet inom reduktionism, vilket innebär att man modellerar de 1 NLP = Natural Language Processing 2 Inman, Dave: The possibility of natural language processing by computer 3 McEnry, A.M: Computational linguistics, s.31 4

processer och effekter som systemet skapar, och på så vis reprocucerar själva systemet (se bild nedan 4 ). Skillnader mellan holisticism och reduktionism i modellering av hjärnan och dess fenomen Modellera detta Få på så vis detta Språk Värderingar Språk Värderingar Tankar Hjärnan Förnuft Tankar Hjärnan Förnuft Få på så vis detta Modellera detta Holisticism Reduktionism En typ av modellering som efterliknar reduktionismens resonering är så kallade ontologier. Ontologier En definition av ontologier är kunskapsrepresentationssystem i vilka man lagrar regler och fakta, som en applikation sedan kan användas för att tolka information inom ett visst område och applicera formalismen för systemet på en viss indata. Med andra ord översätter datorn indata till ett representativt språk, och detta kan ses som att datorn tolkar och förstår betydelsen av indatan. Ontologier kan vara mer eller mindre generella eller specifika för ett visst område, beroende på själva syftet med dem. Exempel på vanliga områden är allmänkunskap, biomedicin, kemi, lingvistik. Vanliga syften är förståelse av naturligt språk, modellering och simulering, informationssökning. Vi ska senare koncentrera oss på ett ontologiprojekt som heter CYC, vilket huvudsakligen behandlar områdena sunt förnuft och resonering. Design av en ontologi vad måste man tänka på? Vilket område en ontologi ska täcka och vilket mål det har är avgörande för designen av systemet. Ett system som är mycket väl avgränsat och har ett entydigt syfte har störst sannolikhet att faktiskt bli färdigt och vara användbart. Det finns dock flera system idag, till exempel CYC och Wordnet, som utvecklats för att kunna användas av andra system, och på så sätt har de inget fast applikationssyfte 5. Kompatibilitet med andra ontologier och system är en annan viktig fråga. För att kunna vara jämförbara med varandra bör ontologier har en väldefinerad systematik med standardiserade indelningar. Tyvärr har några officiella standarder ännu inte publicerats, varför olika projekt tenderar att utvecklas i helt olika riktningar, och blir svåra eller omöjliga att integerera med varandra. 4 Bilden är gjorde efter fri översättning av bild från McEnry, s.33 5 CYC utvecklades med tillämpningar av NLP i åtanke, men själva systemet endast stödjer NLP och har ingen egentlig applikation för detta (Ontological Engineering, s.85) 5

För att representera kunskap krävs en formalism, vilket innebär ett system av regler och begrepp samt axiom som relaterar dem till varandra. Formalismen bör tillåta beskrivningar av objekt, relationer mellan olika objekt, samt eventuellt kategoriseringar av objekt (till exempel reella/abstrakta, enkla/sammansatta). Det som skiljer de flesta ontologier är själva systematiken 6 vissa anser att axiomen är det centrala i en ontologi och att en systematisk indelning av termer i olika nivåer därför är onödig. Andra tycker att man först bör skapa en väldefinerad systematik som beskriver fundamentala koncept (till exempel händelser, tid, fysiska föremål), och endast använda axiom för att associera dessa med varandra. SYC hör till den senare kategorin, och har en väldefinerad systematik som vi återkommer till senare. På implementationsnivån är det viktigt att redan från början ha en väldefinerad struktur för hur kunskap skall lagras, kommas åt och kunna ändras 7. Två grundläggande begrepp är: Modularitet (oberoenden) lagring, borttagande och ändring av data bör ske lokalt, vilket innebär att hänvisningar och länkar till andra begrepp i kunskapsdatabasen bör undvikas. Eftersom beroenden i en databas är oundvikliga minimerar man problemet genom att ha väldefinerade beroenden. Unikhet data bör endast lagras på ett ställe. Ett argument för detta är utrymmesslöseri, men det stora problemet är att varje uppdatering måste göras på flera ställen, vilka lätt blir omöjliga att hålla reda på allt eftersom datamängden växer. För att förstå varför beroenden mellan begrepp kan vara riskabla, betänk detta: om en ändring på ett ställe indirekt orsakar ändringar på andra ställen i databasen blir det oerhört svårt att göra uppdateringar, för om det för varje gång man försöker rätta ett fel skapas 100 nya fel kommer man till slut att ha ett oanvändbart representationssystem. Kontrasten mellan oberoenden och unikhet gör att ständiga avvägningar krävs, eftersom man ofta använder länkar och referenser till ett enda ställe för att få unikhet i databasen med den direkta följden att beroenden skapas. Om projektet CYC CYC 8 är i stora drag ett projekt för att representera resonering och sunt förnuft i databaser. Projektet startades 1984 av Douglas Lenat, för detta professor vid Stanford University, som nu är chef för företaget Cycorp i Austin, Texas, vilket utvecklar systemet. Sedan det startades har projektet slukat mer än 60 miljoner dollar och tagit motsvarande 600 person-arbets-år av programmerare, filosofer, lingvister med flera i anspråk. I en intervju 9 med Douglas Lenat själv argumentarar han på följande vis för CYC: To become smarter, the former Stanford professor argues, computers don t need faster chips or bigger memories. They need an infusion of common sense - all those ordinary facts and assumptions about the world that enable people to survive and communicate with each other. Området för projektet är av en mycket allmän natur, vilket har sin förklaring i att sunt förnuft inte låter sig beskrivas med några få ord. Detta har gjort att storleken på systemet hittills är oöverträffad både beträffande antal ämnen och axiom (i storlektsordningen 10 5 respektive 10 6 ). Många påstår att SYC är alltför allmänbetonat för att någonsin kunna stämplas som ett färdigt system. Douglas Lenat besvarar själv detta med att systemet kommer att ha kunskaper 6 Se begreppet taxonomy i Ontological Engineering, s. 89 7 Pitrat, Jacques: An artificial intelligence approach to understanding natural language, 1988: s. 37 8 Namnet CYC är en förkortning av ordet encyclopedia 9 Leslie, Mitchell: Wise up, dumb machine, Stanford Magazine 6

om över 100 miljoner saker i världen inom de närmaste fem åren, vilket är lika mycket som en vanlig person uppskattas ha 10. Systematik i SYC På den högsta nivån utgörs systematiken i CYC av flera parallella dimensioner som har en eller flera kategorier som underkategorier. Exempel på värden i dessa dimensioner är Real vs Abstract och Individual vs Collective. Kategorier kan sedan specificeras som kombinationer av olika värden i dessa dimensioner (se 11 ). exempel) folksamling kan kategoriseras som Real och Collective idé kan kategorieseras som Abstract och Individual Man kan snabbt inse att som resultat av alla dessa dimensioner och kombinationer blir den högsta nivån i hierarkin mycket trasslig, men å andra sidan blir innehållet glesare inom de olika kategorierna. Arvsstrukturen kan om den används rätt ge en tydlig bild av hur olika kategorier är relaterade utan att specifika axiom behövs, men för många koncept är det inte helt uppenbart hur de ska kategoriseras. Till exempel så definieras Process som en underkategori till Event och Stuff, vilka i sin tur båda ärver från IndividualObject. Sett uppifrån i arvsstrukturen så är med andra ord ett IndividualObject som har en starttid och en sluttid en Process, vilket kanske inte är helt uppenbart när man betraktar det från det hållet. Ett annat intressant exempel är de toppliggande kategorierna för att skilja på reella och abstrakta företeelser i CYC. Det finns nämligen tre stycken: Tangible (reell), Intangible (abstrakt) och CompositeTangible&IntangibleObject (någonting som är både). Ett exempel på den tredje kategorien är en person, som kan vara en fysisk person eller personens sinne. Användande av axiom i SYC Axiom kan överträda systematiken i SYC, för att omdefiniera relationer och andra lagrade fakta. Till exempel så kan man skapa regler som säger att om två olika antaganden A och B båda anses som riktiga så är A mindre sannolikt än B. Eftersom vissa kategorier i många fall inte är absoluta, det vill säga de är inte sanna i alla sammanhang, kan man överträda dem med hjälp av axiom. Till exempel så kan elefanter normalt sett inte flyga, men om elefanten heter Dumbo och är tecknad så kan den det. Ett exempel på lagring i CYC Följande är ett ett riktigt exempel på hur ett påstående lagras i CycL, vilket är formalismen som används i CYCs kunskapsdatabas. Uttryck: Animals sleep at home. (ForAll?x (ForAll?S (ForAll?PLACE (implies (and (isa?x Animal) (isa?s SleepingEvent) (performer?s?x) (location?s?place)) (home?x?place))))) 10 Anthes, Gary H: Computerizing Common Sense, Computerworld, 8 april 2002 11 Ontological Engineering, s. 89 7

Detta innebär alltså att om x är ett djur och är aktören i en händelse som kategoriseras som sovande, så utspelar sig denna händelse i x hem (se 12 ). Notera att detta lilla påstående endast är sant i vissa sammanhang, och troligtvis kräver flera regler för att det ska kunna vara användbart. Slutsatser och diskussion Betänk att varje litet faktum i världen som innefattas av begreppet sunt förnuft skulle formuleras och lagras med CycL som i det tidigare exemplet. Begrundar man dessutom vad som egentligen kan klassificeras som sunt förnuft, så är det lättförståeligt att projektet CYC faktiskt har pågått i 18 år. Att CYC i dagsläget endast hanterar engelska och inte har någon direkt motsvarighet på andra språk talar heller inte till dess fördel. Att välutvecklade system som representerar kunskap av denna typ kan ha en avgörande roll i utvecklingen av programvara för hantering av naturligt språk är helt klart en möjlighet. Att det däremot enligt reduktionismens resonemang resulterar i en fungerande modell av den mänskliga hjärnan verkar mindre sannolikt, men detta är å andra sidan inte vad detta projekt strävar efter. Användande av kunskaper och sunt förnuft är endast en del av de processer som är inblandande då människans hjärna tolkar språk, och det kan mycket väl visa sig att den roll som dessa egenskaper spelar i sammanhanget är mycket liten i förhållande till andra processer i hjärnan. Men, om det skulle visa sig vara så är det ingenting att gråta över. Se bara på Cycorp-chefen Douglas Lenat, som i 18 år har väntat tålmodigt på att hans projekt ska bära frukt. Det kommer troligen dröja mycket längre än så innan vi når fram till målet. Kanske om 50 år? 12 Anthes, Gary H: Computerizing Common Sense, Computerworld, 8 april 2002 8

Källor Böcker McEnery, A.M.: Computational linguistics, Sigma Press, UK, första upplagan 1992 Pitrat, Jacques: An artificial intelligence approach yo understanding natural language, North Oxford Academic Publishers Ltd, 1988 Dokument och avhandlingar Ontological Engineering, sammanställd av the Organizing Committee som utgörs av: Adam Farquhar, Michael Gruninger, Asuncion Gomez-Perez, Mike Uschold, Paul van der Vet. Stanford University, Stanford, California, mars1997 Artiklar från WWW Yager, Tom: Speak to your computer as you would to your friends, InfoWord Test Center, 13 oktober 2000 URL: www.infoworld.com/articles/tc/xml/00/10/16/001016tclanguage.xml Rajkumar : A study to assess the usefulness of CYC in a mediated architecture, University of Maryland URL: www.cs.umbc.edu /narayan/proj/doc.html Inman, Dave: The possibility of natural language processing by computer URL: www.scism.sbu.ac.uk/inmandw/tutorials/nlp/intro/intro.html Leslie, Mitchell: Wise up, dumb machine, Stanford Magazine, 2002 URL: www.stanfordalumni.org/news/magazine/2002/marapr/departments/ brightideas.html Anthes, Gary H: Computerizing Common Sense, Computerworld, 8 april 2002 Diverse information om CYC URL: www.cyc.com 9