Språkteknologi inom amerikanska försvaret Ylva Fredriksson 811221-0540 modesty@kth.se 17 oktober 2004 1
Sammanfattning DARPA står för Defense Advanced Research Projects Agency och förser den amerikanska militären med modern högteknologin som forskats fram i olika projekt. Två av dessa pågående forskningsprojekt inom språkteknologi är Babylon och TIDES. Babylon handlar om språktill-språk översättning och en manick som kallas Transonic skall tas fram. Den skall kunna användas av amerikanska läkare i Afghanistan för att direkt översätta engelska till farsi och tvärtom. TIDES syftar till amerikaner snabbt och lätt skall kunna ta del av textbaserad information på övriga språk utan att behöva kunna dessa. Projektet skall resultera i system för att kunna översätta godtyckligt språk till engelska och en nyhetssammanfattare kallad Newsblaster. 1
Bakgrund Det ursprungliga uppdraget gällde att skriva en uppsats om språkteknologi inom underrättelsetjänsten Efter långvarigt sökande efter information om nämnda ämne ck jag lov att ge upp. Däremot fanns det information tillgänglig på nätet om det amerikanska försvarets forskning inom språkteknologi som USAs militära forskningsorgan DARPA Defense Advanced Research Projects Agency står för. DARPA har många pågående forskningsprojekt inom olika områden, bland dem språkteknologi. Om dessa projekt nns en del information att tillgå. Jag valde därför att koncentrera mig på DARPA och 2-3 av deras pågående projekt inom språkteknologi. Min källa har uteslutande varit det DARPA själv valt att presentera av sitt arbete. Önskvärt hade varit oberoende och mer ingående information, men sådan har tyvärr inte varit tillgängligt. DARPA När Sputnik skickades upp 1958 var detta oväntat för amerikanarna. Trots att det i ryska veteskapsskrifter stått att läsa om den stundande händelsen hade detta gått Amerika förbi. I USA startades därför samma år DARPA. Enligt många för att forska fram metoder för automatisk textgenomgång och på så vis undvika händelser som den ovan beskrivna. DARPA står för en stor del av forskningen i USA, och har till uppgift att tillämpa denna framforskade högteknologi inom det militära, eller som de själva väljer att beskriva det: DARPA's mission is to maintain the technological superiority of the U.S. military and prevent technological suprise from harming our national security by sponsoring revolutionary, high-payo research that bridges the gap between fundamental discoveries and their military use. DARPA består av åtta enheter som har hand om olika delar av forskning: Information Exploitation Tactical technology Special Projects Advanced Technology 2
Joint Unarmed Combat Air Systems Defense Sciences Information Processing Technology Microsystems Technology Forskningen genomförs i projekt inom varje enhet. Organisationen är platt och liten, de anställda får stanna tre till fem år på sina poster för att det skall vara ständig rotation. Även projekten är tidsbestämda till tre till fem år. DARPA står för endast en liten del av forskningen själv, de esta projekten läggs ut på entreprenad och utförs av universitet både i och utanför USA. Till exempel har KTH varit delaktiga i projektet COMMUNICATOR, om tillämpning av dialogteknologi i militära applikationer. Babylon och TIDES är två kända språkteknologiprojekt som DARPA initierat. Babylon Babylon är ett projekt inom språk-till-språk översättning som består av era delprojekt: Phraselator, S2S och Transonic. I bland annat Afghanistan använde amerikansk militär en envägsöversättare, Phraselator. En liten apparat med ca 1000 fraser inprogrammerade på engelska och farsi. Användaren säger en av dessa på engelska i phraselatorn varpå phraselatorn spelar upp samma fras på farsi. På så sätt kunde amerikansk militär till viss mån göra sig förstådd hos lokalbefolkningen. Envägsöversättning gynnar inte en dialog mellan två språk, då endast det ena av dem kan översättas och phraselatorn bara översätter förutbestämda fraser, inte vilka meningar som helst. Därför är ytterligare ett steg en tvåvägsöversättare och det ska projektet Babylon bland annat resultera i. Det fanns ingen information om hur långt DARPA kommit med det projektet, men det nns att läsa om en liten apparat som kallas Transonic och använder ett översättningssystem som DARPA kallar speech-to-speech (S2S). S2S S2S systemet skall användas för översättning från engelska till farsi och från farsi till engelska. Användningsområdet är sjukvården och en typisk tillämpning är mellan en amerikansk läkare och en afghansk patient. Farsi och engelska skiljer sig mycket, både inom tal och text och detta leder till många problem. Farsi skrivs med arabisk skrift 3
där vokalerna ofta utesluts ur texten, detta resulterar i många möjliga talade ord från ett skrivet ord, beroende på vilka vokaler man vill infoga. Semantik är ledordet vid tydning av arabisk skrift. Självklart går det inte att hitta hur S2S arbetar i detalj, men en grov skiss går att få. Så här fungerar det: En läkare säger något till sin patient. Meningen detekteras med Automatic Speech Recognition (ASR), baserad på engelsk språkdata. Då systemet har ett begränsat användningsområde används mest språkdata från sjukvården. På engelska nns det gott om data att tillgå av denna typ. värre är det med språkdata för ASR av farsi. Därför har engagemang lagts ner på att skapa ny språkdata på farsi. Efter att orden detekterats genom ASR och gjorts om till text skall de översättas. Detta görs i maskinöversättningsdelen (MT). Ett för oss okänt system används och som backup nns en statistisk maskinöversättare. Till slut kommer den numera persiska texten till Text To Speech-syntetiseraren där orden görs om från text till tal. Transonic Transonic har ett GUI med en dialoghanterare med följande funktioner för den aktuella dialogen: Översikt över dialogens historia Förslag på nästkommande fras Hantering av talarnas grundning Dialoghistorien visar en lista på de yttranden som gjorts, alla taggade med talområde, språkområde och översättning. Detta kombineras med dialogkartor för underdomäner som berörts under samtalet och även för domäner som väntas beröras. Dessa kartor är dels konstruerade av tidigare testintervjuer och dels av korpusexempel. Användaren skall även erbjudas möjlighet att kontrollera om datorn uppfattat den intalade frasen rätt, genom att låta den spelas upp på användarens språk innan den översätts. Då har användaren möjlighet att tala in den igen eller använda GUI till att välja mellan olika förslag på möjliga fraser. TIDES Ett annat av Darpas forskningsprojekt kallas TIDES, eller team TIDES och står för Translingual Information Detection, Extraction and Sum- 4
marization. Det syftar till att amerikaner snabbt och lätt skall kunna ta del av textbaserad information på övriga språk utan att behöva kunna dessa. Detta har era tillämpningsområden till exempel när ett land plötsligt blir aktuellt för USA av ett eller annat skäl och militären snabbt vill få fram information både om och från landet. Då nns TIDES-utvecklade system för att översätta ett godtyckligt språk till engelska. För att utvärdera hur bra dessa system skulle fungera i en verklig och pressad situation har team TIDES haft test som de kallat Suprise Language. Suprise Language Testet går ut på att se hur väl team TIDES system och algoritmer fungerar i en simulerad verklig och pressad situation. Ett okänt språk presenteras tillsammans med era mål för teamet. Under en månad skall dessa mål uppfyllas. Målen har till exempel varit att få en ordlista med 100000 översatta ord från nyhetstexter, 1000 teknikrelaterade ord osv. Till sin hjälp har de en 100000 ord stor korpus. Under 2003 testades teamet på Hindi och Cebuano, Fillipinernas lingua franca. Testerna gav strålande resultat enligt DARPA. News Blaster Newsblaster är ett system inom TIDESprojektet utvecklat på Columbia University för att få dagliga nyhetsuppdateringar. Det går genom nyhetssidor på Internet, kategoriserar texterna i sex breda ämnesområden, grupperar texter om samma händelse och genererar en sammanfattning om varje händelse. News Blaster togs först gången i bruk 11/9 2001. Newsblaster presenterar dagligen en webbsida med de sammanfattade nyheterna. En vanlig dag, genererar det sammanfattningar av händelsekluster på två till 100 artiklar. Slutsats Språkteknologi är ett oerhört viktigt forskningsområde för det moderna samhället och det är av stor vikt för militären. Förhoppningsvis kan teknikerna som forskas fram även komma den civila världen till gagn. 5