Flerspråklig nyhetsbevakning Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching, Lexikon Hercules Dalianis 1 Hercules Dalianis 2 Lexikon Nyheter på andra språk än svenska Engelska nyheter bevakar vi Men danska, norska, finska? Tyska, polska, ryska? Estniska, och de baltiska språken lettiska och litauiska? ELRA European Language Resources Association http://www.elra.info/ ELDA European Language Distribution Agency, http://www.elda.fr/ Nordisk skolenet, http://www.nordskol.org/ordbog/ Danska,norska Lingustic Data consortium LCC http://www.ldc.upenn.edu/ för andra språk Hercules Dalianis 3 Hercules Dalianis 4 versättning versättning Machine Translation (MT) Machine Aided Human Translation (MAHT) Human-Aided Machine Translation (HAMT) Computer Aided Translation (CAT) Hercules Dalianis 5 Hercules Dalianis 6 1
Automatisk översättning mellan två naturliga språk Ideerna fanns innan den första datorn existerade Första patenten 1933 i Frankrike och Sovjet Första systemen kom på 50-talet. Ryska till engelska Automatisk analys Parsning och generering Parsning att förstå text Generering att skapa text Ord för ord Enklare översättningssystem Mening för mening (syntaktiskt) Mening för mening (semantiskt) Hela texter semantiskt korrekta? Hercules Dalianis 7 Hercules Dalianis 8 Jämför kompilatorer för programmeringsspråk Syntaxanalys Översättning av syntaxträd till maskinkod Syntax - ordningen på symbolerna Semantik - betydelserna av symbolerna Pragmatik - riktiga användningen av språket Kan du öppna fönstret? Hercules Dalianis 9 Hercules Dalianis 10 Parsning Parseträd Parsning- syntaktisk analys av en mening som matas in. Grammatik Syntaktiskt träd Löven är ordklasser Ofullständiga meningar orsakar problem Stavfel likaså Egenamn S konjunktion pronomen substantiv hjälpverb verb art. substantiv Cesare Peschle och hans forskargrupp har identifierat ett äggviteämne Hercules Dalianis 11 Hercules Dalianis 12 2
Grammatik S => S S => S, S (TEXT flera meningar) S =>, =>, =>, konjunktion, => artikel, substantiv => artikel, adjektiv, substantiv => verb => hjälpverb, verb Lexikon Verb => identifiera Hjälpverb => ha Konjunktion => och, eller Pronomen => hans (possessivt pronomen) Artikel => ett Substantiv => forskargrupp Substantiv => äggviteämne Egennamn => Cesare Peschle Hercules Dalianis 13 Hercules Dalianis 14 Grammatik Tusentals regler för ett språk Nya konstruktioner uppkommer hela tiden Lexikon Hundratusentals ord Baslexikon på 30 000 ord Domänlexikon på lika mycket Domänberoende svårt att komma ifrån Nya ord tillkommer hela tiden Hercules Dalianis 15 Hercules Dalianis 16 Syntax och semantik Syntaktiskt träd (parseträd) översätts till ett semantiskt träd. Predikatlogik eller liknande (finns många kunskapsrepresentationer) Transferregler omvandlar det svenska syntaxträdet till ett engelsk syntaxträd Generering av de engelska löven från det engelska syntaxträdet Proper name possesive form Compound.noun Parseträd S Cesare Peschle s research group has identified a protein Aux verb verb art. noun Hercules Dalianis 17 Hercules Dalianis 18 3
Transferregler Transferregel svenska => engelska Egennamn, konjunktion, poss.pronomen, np Proper name, possesive form, np Cirka 100 transferregler Vid icke-besläktade språk många fler regler Interlingua Språkoberoende representation av mänskliga språk Predikatlogik med utökningar Esperanto Quechua Då behöver man inga transferregler Man tappar dock lingvistisk information Hercules Dalianis 19 Hercules Dalianis 20 Vauquois triangel Statistisk MT Interlingua Semantisk transfer IBM 1978 Ideér från talteknologin Källspråk Syntaktisk transfer Direkt transfer Antal transferregler Målspråk Kanadas parlament har parallella texter på två språk engelska och franska Sk Hansarddata, efter den förläggare som publicerade brittiska parlamentsdebatter i början på 1800-talet. Hercules Dalianis 21 Hercules Dalianis 22 98 miljoner franska ord och deras ekvivalens på engelska. Ett lexikon på 82.000 franska ord och ett på 60.000 engelska ord (Engelska språket använder färre ord än franska språket). Detta gör 2,8 miljoner ordpar och medianlängden på en sats är 22 ord Jämför meningar, ord, ordpositioner. Ett exempel där det blev en exakt översättning jämfört med det upplärande Hansardexemplet. Franska: Ces ammendements sont certainement nécessaires Engelska Hansard data: These amendments are certainly necessary Avkodat som: These amendments are certainly necessary Hercules Dalianis 23 Hercules Dalianis 24 4
Ett exempel där det blev en semantiskt korrekt översättning jämfört med det upplärande Hansard exemplet. Franska: C`est pourtant très simple Engelska Hansard data: Yes it is very simple Avkodat som: It is still very simple ättningssystem använder idag Lingvistiska metoder grammatik och lexikon Statistiska metoder (parallella korpusar) Hercules Dalianis 25 Hercules Dalianis 26 versättningssystem Rosetta (Philips) Holl.-Engelska Eurotra, Europeiska språk METAL (Siemens) Tyska-Engelska etc Pangloss, Spanska, Engelska, Japanska Japan och Kina etc versättningssystem Systran-Babelfish http://babel.altavista.com/ engelska, tyska, franska, italienska, tyska, ryska, spanska, grekiska, kinesiska, koreanska, japanska Prompt http://www.translate.ru Ryska, engelska, tyska, franska, spanska, portugisiska och italienska. ESTEAM språkoberoende? Inlärning i en viss domän Hercules Dalianis 27 Hercules Dalianis 28 Svenska system Swetra -Lunds Universitet Används i Baltikum Spoken Language Translator SLT, Telia- SICS-SRI Tal till tal Svenska Engelska Multra, Koma, Mats -Uppsala Universitet Hercules Dalianis 29 Hercules Dalianis 30 5
Demo surfa på p japanska tidningar http://world.altavista.com http://www.yomiuri.co.jp/ Hercules Dalianis 31 Hercules Dalianis 32 Tvärspr rspråklig söknings Tvärspråklig sökning på nära besläktade språk Ej aktiv kunskap Passiv förståelse av språken Danska, norska, tyska, holländska ättning Fuzzy matching eller spell checking Sök på ett ord på svenska Sök efter alternativa stavningar på svenska Sök efter alternativa stavningar för var och ett av de andra språken Hercules Dalianis 33 Hercules Dalianis 34 Tal till text TV och radionyheter Transkribering (manus) finns? Ja ibland men inte alltid SVT, Sveriges Radio ej kompletta arkiv Språkigenkänning Talarberoende och begränsad vokabulär VoiceXML lagring Hercules Dalianis 35 Hercules Dalianis 36 6
Taligenkänningssystem nningssystem SDR-Spoken Dokument Retrieval ASR-Automated speech recognition LVCSR-large vocabulary speaker independent continuous speech recognition systems Virage.com (ett Autonomyföretag) använder BBN-http://www.bbn.com/speech/am.html MUMIS http://parlevink.cs.utwente.nl/projects/mumis/ 50-75 procent rätt i taligenkänningen Hercules Dalianis 37 Hercules Dalianis 38 Diktering och telefoni Diktering Philips FreeSpeech, Dragons Dragon Dictate VoiceExpress (från f.d. Lernout & Hauspie) Telefonkommando Philips SpeechPearl Nuance Diverse länkar http://www.speechstudio.com/commercial/speech. htm Hercules Dalianis 39 Sammanfattning Lexikonresurser finns ättning har blivit bättre Domänberoende Både lingvistiska och statistiska metoder Radio och TV-nyheter ej alltid sökbara/bevakningsbara Hercules Dalianis 40 7