Språkteknologi inom amerikanska försvaret

Relevanta dokument
Cristina Eriksson oktober 2001

Maskinöversättning möjligheter och gränser

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Datakursen PRO Veberöd våren 2011 internet

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, Internet började med ARPANET

Business Intelligence. Vad är r Business Intelligence? Andra termer. Övergripande faktorer. Specifika termer för BI är:

Språkteknologi och Open Source


Goda råd till köpare av översättningar. från Sveriges Facköversättarförening SFÖ FACKÖVERSÄTTAR- ASSOCIATION OF PROFESSIONAL TRANSLATORS

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Nyheter om Pakistan och andra länder

Svensk nationell datatjänst, SND BAS Online

Mobil tolkningsapp för ambulanspersonalen

Automatiserad kvalitetsbedömning av SOS samtal. Frida Hermansson-TUCAP

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Goda råd till köpare av översättningar. Sveriges Facköversättarförening

KONSTEN SOM KUNSKAPSVÄG

Goda råd till köpare av översättningar. Sveriges Facköversättarförening

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Fördelningsteknik, LSP. Arrangeras av Voltimum.se portalen för elproffs

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Tjänster. Teamets kompetens (5 personer)

Kommunikationsstöd för människor på flykt

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Mki9100 UPPDATERING. Ladda ned uppdateringsfiler

Kommunikativ plattform 2014 Uppdaterad senast

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Föreläsning 3: Mer om utvärdering, Inspektionsmetoder kan man utvärdera utan användare?

3. Hur är nätverkets konstruktion idag i jämförelse med de första? Svar: De är fortfarande densamma.

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

ClaroDictionary med tal. ClaroDictionary utan tal

Lokal pedagogisk planering Läsåret

Lösningsförslag till tentamen i Språkteknologi 2D1418,

tidskrift för politisk filosofi nr årgång 17

Språkteknologi för ökad tillgänglighet vilka möjligheter finns?

Vägledning för detaljerad utformning av Denison webbenkät angående företagskultur och lönsamhet.

Svar på skrivelse samt nya frågor och kommentarer ang. HSNV

Pre-editering och maskinöversättning. Convertus AB

BAE Systems. FXM Seminar Future Markets European Land Defence Industries approach. BAE Systems

Patientcentrerad konsultation

Internets historia Tillämpningar

Maskinöversättning 2008

LPP ENGELSKA LAG NORD ÅK 7 MAKING A NEWSPAPER

Statistisk Maskinöversättning eller:

Engelska åk 5 höstterminen 2013

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

ENGELSKA. Ämnets syfte. Kurser i ämnet

4 kommunikationssanningar för. Kommunikation är ett stort ord. Omöjligt att rama in. 1. Du kan inte INTE kommunicera.

SKRIVA FÖR WEBBEN JOHANNA HILLGREN, FAKULTETSKOMMUNIKATÖR,

Växel

Tjänstefördelning 2.0. Användarhandledning. (Utkast)

Smärta i ett internationellt perspektiv (KF)

Hur skriver man en vetenskaplig uppsats?

Bilaga 7 Förslag på dokumentation av proof-of-concept

Det är en Internet läser son gör det bekvämt för os ute på Internet. som t.ex Internet Explorer, firefox.

Kristian Almgren Artificiell Intelligens Linköpings Universitet Talstyrning

TNS Sifo Navigare Digital Channels

Kultur- och språkanpassad hälsoinformation

Prövning i Engelska 5, ENGENG05, 100 poäng

HTAi konferens i Köln juni 2019

SEO Sökmotoroptimering

Inget centraliserat system Stater bestämmer folkrättens innehåll

CANCERREHABILITERING EFTER KURATIVT SYFTANDE BEHANDLING AV CANCER I MATSTRUPE/MAGSÄCK. Gunnar Eckerdal

S A V E T H E C O M M U N I C A T I O N

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Engelska, år Studieplan och bedömningsgrunder i Engelska för år 7 Moment Mål innehåll Bedömningsgrund Läsa

Terminsplanering i Engelska årskurs 7 Ärentunaskolan

Psykiatrisk tvångsvård. Information till dig som vårdas enligt lagen om psykiatrisk tvångsvård.

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Del ur Lgr 11: kursplan i engelska i grundskolan

Nätverk ehälsa SKAPAD AV Ann-Charlotte Klarén

I STOCKHOLMS LÄN. Plan för samhällsorientering - samverkande kommuner i Stockholms län

Röda tråden i engelska har vi delat in i fem större delmoment: Mål som eleverna skall ha uppnått i slutet av det femte skolåret.

Träna svenska A och B. Häfte 2 Presentation och pronomen

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Språket inom social- och hälsovård

Att tolka en asymmetrisk begreppsvärld

utalk är ett prisbelönt språkinlärningsprogram som använts av över 30 miljoner personer världen över

Restaurang Example. ( Analys av nuvarande hemsida. Av Kharma Concept

Högskolan i Gävle. Kompetensförsörjare inom ett av framtidens stora område. Fredrik Ekberg

Genom undervisning i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att:

Kommittédirektiv. Utvärdering av Sveriges engagemang i Afghanistan. Dir. 2015:79. Beslut vid regeringssammanträde den 9 juli 2015

Enligt universitetets riktlinjer för webbpublicering måste alla sajter under SU:s domän innehålla ett antal obligatoriska

Arbeta med resultatet Steg 2: Involvera teamet. En guide i hur du involverar teamet när du arbetar med resultatet

EXCELLENS PASSION HANDLINGSKRAFT. Utvecklingssamtal i praktiken Riktlinjer och råd för både medarbetare och chefer

Språkteknologi. Språkteknologi

Utbildningsplan för masterprogrammet i folkhälsovetenskap

En snabbguide för att söka forskningsartiklar i utbildningsvetenskap

Handledning UMEÅ UNIVERSITET. Tips och råd till dig som ska leda diskussioner om värdegrunden vid Umeå universitet. Handledning Personalenheten

Bevaka samarbetsprofiler inom Enterprise Europe Network

Hanna Johansson, projektledare bokcirklar.se, Regionbibliotek Stockholm. Halmstadkonferansen 2013, Bergen.

PEC: European Science Teacher: Scientific Knowledge, Linguistic Skills and Digital Media

Plan för löpande utvärdering och uppföljning av bedömningsverktyget aktivitetsförmågeutredning (AFU)

Matematikundervisningen i fokus

PROGRAMFÖRKLARING Vetenskapsrådets ämnesråd för medicin och hälsa

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Då vården sker på det egna modersmålet är det lättare för patienten att vara delaktig och och förstå syftet med vården.

Transkript:

Språkteknologi inom amerikanska försvaret Ylva Fredriksson 811221-0540 modesty@kth.se 17 oktober 2004 1

Sammanfattning DARPA står för Defense Advanced Research Projects Agency och förser den amerikanska militären med modern högteknologin som forskats fram i olika projekt. Två av dessa pågående forskningsprojekt inom språkteknologi är Babylon och TIDES. Babylon handlar om språktill-språk översättning och en manick som kallas Transonic skall tas fram. Den skall kunna användas av amerikanska läkare i Afghanistan för att direkt översätta engelska till farsi och tvärtom. TIDES syftar till amerikaner snabbt och lätt skall kunna ta del av textbaserad information på övriga språk utan att behöva kunna dessa. Projektet skall resultera i system för att kunna översätta godtyckligt språk till engelska och en nyhetssammanfattare kallad Newsblaster. 1

Bakgrund Det ursprungliga uppdraget gällde att skriva en uppsats om språkteknologi inom underrättelsetjänsten Efter långvarigt sökande efter information om nämnda ämne ck jag lov att ge upp. Däremot fanns det information tillgänglig på nätet om det amerikanska försvarets forskning inom språkteknologi som USAs militära forskningsorgan DARPA Defense Advanced Research Projects Agency står för. DARPA har många pågående forskningsprojekt inom olika områden, bland dem språkteknologi. Om dessa projekt nns en del information att tillgå. Jag valde därför att koncentrera mig på DARPA och 2-3 av deras pågående projekt inom språkteknologi. Min källa har uteslutande varit det DARPA själv valt att presentera av sitt arbete. Önskvärt hade varit oberoende och mer ingående information, men sådan har tyvärr inte varit tillgängligt. DARPA När Sputnik skickades upp 1958 var detta oväntat för amerikanarna. Trots att det i ryska veteskapsskrifter stått att läsa om den stundande händelsen hade detta gått Amerika förbi. I USA startades därför samma år DARPA. Enligt många för att forska fram metoder för automatisk textgenomgång och på så vis undvika händelser som den ovan beskrivna. DARPA står för en stor del av forskningen i USA, och har till uppgift att tillämpa denna framforskade högteknologi inom det militära, eller som de själva väljer att beskriva det: DARPA's mission is to maintain the technological superiority of the U.S. military and prevent technological suprise from harming our national security by sponsoring revolutionary, high-payo research that bridges the gap between fundamental discoveries and their military use. DARPA består av åtta enheter som har hand om olika delar av forskning: Information Exploitation Tactical technology Special Projects Advanced Technology 2

Joint Unarmed Combat Air Systems Defense Sciences Information Processing Technology Microsystems Technology Forskningen genomförs i projekt inom varje enhet. Organisationen är platt och liten, de anställda får stanna tre till fem år på sina poster för att det skall vara ständig rotation. Även projekten är tidsbestämda till tre till fem år. DARPA står för endast en liten del av forskningen själv, de esta projekten läggs ut på entreprenad och utförs av universitet både i och utanför USA. Till exempel har KTH varit delaktiga i projektet COMMUNICATOR, om tillämpning av dialogteknologi i militära applikationer. Babylon och TIDES är två kända språkteknologiprojekt som DARPA initierat. Babylon Babylon är ett projekt inom språk-till-språk översättning som består av era delprojekt: Phraselator, S2S och Transonic. I bland annat Afghanistan använde amerikansk militär en envägsöversättare, Phraselator. En liten apparat med ca 1000 fraser inprogrammerade på engelska och farsi. Användaren säger en av dessa på engelska i phraselatorn varpå phraselatorn spelar upp samma fras på farsi. På så sätt kunde amerikansk militär till viss mån göra sig förstådd hos lokalbefolkningen. Envägsöversättning gynnar inte en dialog mellan två språk, då endast det ena av dem kan översättas och phraselatorn bara översätter förutbestämda fraser, inte vilka meningar som helst. Därför är ytterligare ett steg en tvåvägsöversättare och det ska projektet Babylon bland annat resultera i. Det fanns ingen information om hur långt DARPA kommit med det projektet, men det nns att läsa om en liten apparat som kallas Transonic och använder ett översättningssystem som DARPA kallar speech-to-speech (S2S). S2S S2S systemet skall användas för översättning från engelska till farsi och från farsi till engelska. Användningsområdet är sjukvården och en typisk tillämpning är mellan en amerikansk läkare och en afghansk patient. Farsi och engelska skiljer sig mycket, både inom tal och text och detta leder till många problem. Farsi skrivs med arabisk skrift 3

där vokalerna ofta utesluts ur texten, detta resulterar i många möjliga talade ord från ett skrivet ord, beroende på vilka vokaler man vill infoga. Semantik är ledordet vid tydning av arabisk skrift. Självklart går det inte att hitta hur S2S arbetar i detalj, men en grov skiss går att få. Så här fungerar det: En läkare säger något till sin patient. Meningen detekteras med Automatic Speech Recognition (ASR), baserad på engelsk språkdata. Då systemet har ett begränsat användningsområde används mest språkdata från sjukvården. På engelska nns det gott om data att tillgå av denna typ. värre är det med språkdata för ASR av farsi. Därför har engagemang lagts ner på att skapa ny språkdata på farsi. Efter att orden detekterats genom ASR och gjorts om till text skall de översättas. Detta görs i maskinöversättningsdelen (MT). Ett för oss okänt system används och som backup nns en statistisk maskinöversättare. Till slut kommer den numera persiska texten till Text To Speech-syntetiseraren där orden görs om från text till tal. Transonic Transonic har ett GUI med en dialoghanterare med följande funktioner för den aktuella dialogen: Översikt över dialogens historia Förslag på nästkommande fras Hantering av talarnas grundning Dialoghistorien visar en lista på de yttranden som gjorts, alla taggade med talområde, språkområde och översättning. Detta kombineras med dialogkartor för underdomäner som berörts under samtalet och även för domäner som väntas beröras. Dessa kartor är dels konstruerade av tidigare testintervjuer och dels av korpusexempel. Användaren skall även erbjudas möjlighet att kontrollera om datorn uppfattat den intalade frasen rätt, genom att låta den spelas upp på användarens språk innan den översätts. Då har användaren möjlighet att tala in den igen eller använda GUI till att välja mellan olika förslag på möjliga fraser. TIDES Ett annat av Darpas forskningsprojekt kallas TIDES, eller team TIDES och står för Translingual Information Detection, Extraction and Sum- 4

marization. Det syftar till att amerikaner snabbt och lätt skall kunna ta del av textbaserad information på övriga språk utan att behöva kunna dessa. Detta har era tillämpningsområden till exempel när ett land plötsligt blir aktuellt för USA av ett eller annat skäl och militären snabbt vill få fram information både om och från landet. Då nns TIDES-utvecklade system för att översätta ett godtyckligt språk till engelska. För att utvärdera hur bra dessa system skulle fungera i en verklig och pressad situation har team TIDES haft test som de kallat Suprise Language. Suprise Language Testet går ut på att se hur väl team TIDES system och algoritmer fungerar i en simulerad verklig och pressad situation. Ett okänt språk presenteras tillsammans med era mål för teamet. Under en månad skall dessa mål uppfyllas. Målen har till exempel varit att få en ordlista med 100000 översatta ord från nyhetstexter, 1000 teknikrelaterade ord osv. Till sin hjälp har de en 100000 ord stor korpus. Under 2003 testades teamet på Hindi och Cebuano, Fillipinernas lingua franca. Testerna gav strålande resultat enligt DARPA. News Blaster Newsblaster är ett system inom TIDESprojektet utvecklat på Columbia University för att få dagliga nyhetsuppdateringar. Det går genom nyhetssidor på Internet, kategoriserar texterna i sex breda ämnesområden, grupperar texter om samma händelse och genererar en sammanfattning om varje händelse. News Blaster togs först gången i bruk 11/9 2001. Newsblaster presenterar dagligen en webbsida med de sammanfattade nyheterna. En vanlig dag, genererar det sammanfattningar av händelsekluster på två till 100 artiklar. Slutsats Språkteknologi är ett oerhört viktigt forskningsområde för det moderna samhället och det är av stor vikt för militären. Förhoppningsvis kan teknikerna som forskas fram även komma den civila världen till gagn. 5