MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se
Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system? 2
Föreläsningens upplägg bakgrund och grundläggande egenskaper systemets infrastruktur och moduler lexikala resurser värdig försämring vidareutveckling föreläsning 7 laboration 5: en första bekantskap med MATS-systemet demonstration
Bakgrund MATS: Methodology and Application of a Translation System samarbetsprojekt mellan Institutionen för lingvistik och Scania CV AB uppskalning av MULTRA med fokus på design och implementation av nya systemet MATS nytt lexikon i form av en lexikal databas uppskalning av grammatik och lexikon 4
Grundläggande egenskaper regelbaserat prologkärna uttömmande analys hög översättningskvalitet inom begränsad domän 5
Systemets infrastruktur designprinciper genomskinlighet och spårbarhet modularitet varje delsteg sköts av en separat modul en pipe utgör transportlager och kopplar ihop modulerna enkelriktad dataström multiplex signal textmeddelanden 6
Exempel på liten tokeniseringsmodul:! "! # $ " " Exempel på dataström: ' ' *, -. 0 2 2, -. 2, -. 0 2 7
0. Textextraktion indata i XML-format text att översätta separeras från taggar etc initial uppdelning av text: segment varje segment har ett id-nummer,,, 0 2,,, 8
. Teckenomkodning koda om segmenten så de blir kompatibla med lexikonet latin- Unicode? 9
2. Tokenisering varje segment delas upp i tokens grunduppdelning sker på whitespace Segment 0 2 Tokens 0 2 hantering av flerordsenheter MWU: till och med 0
. Lexikonuppslagning uppslag av flerordsenheter enordsenheter 0 2 mönstermatchning okända ord -
. Lexikonuppslagning uppslagna ord får förvald översättning morfosyntaktisk information lingvistisk resurs: 0 2 * förvald översättning: kasus: genus:... 0, * - -, 2
4. Parser UCP strävan efter komplett syntaktisk analys hantering av meningar utan komplett analys preferensmetod: rankning av likvärdiga analyser lingvistisk resurs:,
5. Transfer input: en analys av segmentet representerad av en särdragsstruktur källspråksspecifika attribut förvalda översättningar output: en analys av segmentet representerad av en särdragsstruktur målspråksspecifika attribut översättningar justerade efter sin kontext,, eller,, 4
5. Transfer källsida och målsida transfern traverserar indata-strukturen i varje nod kan enskilda särdrag kopieras över till målsidan läggas till strykas t ex genus i svenska engelska byta värde t ex förvalda översättningar lingvistisk resurs:, 5
6. Generering grammatik baserad på PATR-II unifiering och konkatenering finna korrekt representation av strukturen i målspråket lingvistisk resurs:, 6
6. Generering, forts typning ett sätt att kontrollera genereringen en struktur med typade särdrag måste behandlas av regler som tar hand om dessa. lingvistisk resurs:, 7
8. Kodkomposition fullformsdatabasen accepterar inte särdragsstrukturer särdragsstrukturer mappas mot motsvarande kodrepresentation lingvistisk resurs: * 8
, 9. Lexikonuppslagning primär nyckel: kod lemma returnerar färdigböjt ord 9
0. Fonotaktisk bearbetning det översatta segmentets ytform och underliggande struktur granskas 20
. Finish finputsning av översatta segment första ordets bokstav versal ta bort överflödiga mellanslag sammanfoga ursprunglig XML-data med den översatta texten 2
7. Fallback - värdig försämring regelbaserade system känsliga hantering av problem okända ord: externa lexikon, ordklassgissare... ofullständig analys: gå vidare med bra delanalyser ofullständig transfergram.: kopiera okända strukturer ofullständig genereringsgram.: alternativ strategi boundary friction : välj ut kombination med högst P ofullständigt målspråkslexikon: försök generera form 22
7. Översättning med partiella analyser Vissa meningar mindre känsliga för segmentering: [avlägsna skruven][,][kåpan och skyddsplasten] Problem när beroenden bryts boundary friction: [boken som är borta][är värdefull] 2
7. Fallbackgenerering - enklaste varianten grammatiken täcker inte alltid hela strukturen som sista utväg används källspråkets ordföljd ofta bristfälligt för satser fungerar för vissa sorters fraser den stora gröna boken är borta -> the big green book is gone färgkodning indikerar när det skett 24
7. Fallbackgenerering med språkmodell ordföljd jag tänker, därför finns jag 57k: therefore I exist 528: I exist therefore 94: therefore exist I 57: I therefore exist... 25
7. Fallbackgenerering med språkmodell ordval jag är törstig 72k: I am thirsty 27: I are thirsty 02: I is thirsty 26
Ordval och ordföljd med språkmodell Basen för statistisk maskinöversättning Översättning av mening S till M: för varje ordfras i S, samla in alla dess översättningsalternativ sök efter den kombination av översättningsalternativ som både maximerar översättningssannolikheten för varje ordfras, och ordföljdssannolikheten för för sekvensen som bildas. 27
Systemets lexikala resurser specificeras på gränssnittets startsida transfer, laddas i den specificerade och generering engra.ptr: - mer om dessa på måndag 70 lexikala databasen: Evas föreläsning efter lunch idag, 28
Kodfilerna * svenska och * engelska en kod representerar en lista med attribut och värden: 29
Vidareutveckling analys och översättning av sammansättningar förbättrad genereringsmodul fler fallbackmekanismer regressionstester och automatisk utvärdering tidsoptimering och buggfixning nyutveckling sker i efterföljaren Convertus 0
Föreläsning 8 70 genomgång av transfern och dess regler genereringen och dess regler genereringens typning
Laboration 5: en första bekantskap med MATS-systemet mål genomgång av grammatikformaten nästa vecka starta MATS i terminalfönster lokalt på arbetsstationen starta inte MATS som en bakgrundsprocess med. Tryck inte heller Ctrl-z. 2
Demonstration