MÖSG ht 2005 Maskinöversättningssystemet MATS

Relevanta dokument
Maskinöversättning och språkgranskning

Kursplaneöversättaren. Lina Stadell

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Grundläggande textanalys. Joakim Nivre

Machine Translation MÖSG F Anna Sågvall Hein

Lingvistik I Delmoment: Datorlingvistik

Maskinöversättning 2008

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN

Statistisk Maskinöversättning eller:

Djupstruktur och ytstruktur

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Maskinöversättning möjligheter och gränser

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Grammatisk teori II Attributvärdesgrammatik

Språkgranskningsverktyg, vt 2009

Möjligt med språk utan fonologisk struktur, bara morfem med viss vokalisering?

Statistisk maskinöversättning

Föreläsning 7: Syntaxanalys

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Lingvistik I Delmoment: Datorlingvistik

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Convertus - kursplaneöversättning

Lingvistik I Delmoment: Datorlingvistik

ALEPH ver. 16 Introduktion

Användarhandledning Kursplaneöversättaren

Språkets struktur och funktion, 7,5 hp

Föreläsning 7: Syntaxanalys

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

STRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Språkliga basresurser i

Datorlingvistisk grammatik

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Grammatik för språkteknologer

Språkgranskningsverktyg, vt 2008

Inlämningsuppgift: Pronomenidentifierare

Tekniker för storskalig parsning

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

Min sida = startsida där du ser eventuelle vänner, meddelanden med mera. Här kan du även redigera din egen profil.

Maskinöversättning idag

Utveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen

Språkteknologi och Open Source

729G04 Programmering och diskret matematik. Föreläsning 7

Använda Convertus Kursplaneöversättaren

Tekniker för storskalig parsning

Språkpsykologi/psykolingvistik


Maskinöversättning. F Anna Sågvall Hein

Pre-editering och maskinöversättning. Convertus AB

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

Tekniker för storskalig parsning

Utfärdat av Revideringsdatum Dokument ID Håkan Tropp Systembeskrivning_Kursinfo.doc

Gränssnitt för FakeGranska. Lars Mattsson

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G

Vad är en databas? Exempel på databaser: Databas = Organiserad samling och lagring av information.

Grundläggande textanalys, VT2013

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2009

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Introduktion till programmering och Python Grundkurs i programmering med Python

Behörighetssystem. Ska kontrollera att ingen läser, skriver, ändrar och/eller på annat sätt använder data utan rätt att göra det

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

Föreläsning 5: Grafer Del 1

Installationsbeskrivning

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Informationsmodellering och e-infrastrukturer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Linköpings universitet

Uppmärkningsspråk. TDP007 Konstruktion av datorspråk Föreläsning 3. Peter Dalenius Institutionen för datavetenskap

Uppmärkningsspråk. TDP007 Konstruktion av datorspråk Föreläsning 3. Peter Dalenius Institutionen för datavetenskap

Grammatik för språkteknologer

Datorteknik TSIU02 Lab 2 Morsesändare v0.7

Korpusbaserad Maskinöversättning

Kompilatorer och interpretatorer

Cristina Eriksson oktober 2001

Föreläsning 3 Dagens föreläsning går igenom

Travel Phrase Guide. Instruktionshäfte

Neurolingvistik - Grammatik

Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid

Importera från PubMed till DiVA

Delprov B. Textbearbetning

Att skriva uppsats Vetenskapligt skrivande: att förstå och lära. Föreläsningens upplägg. Lärostrategi. Nödvändig studiekompetens

Översättning med Kursplaneöversättaren sker i tre huvudsakliga steg:

Partiell parsning Parsning som sökning

Användarhandledning Kursplaneöversättaren för Uppsala universitet

Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2011

Teoretisk lingvistik och datalingvistik. Robin Cooper

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA

Flerordsenheter: Så många frågor, så få svar

ALEPH ver. 18 ALEPH Digital Asset Module (ADAM)

Laboration 2 RESTful webb-api

Introduktion till språkteknologi

Transkript:

MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se

Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system? 2

Föreläsningens upplägg bakgrund och grundläggande egenskaper systemets infrastruktur och moduler lexikala resurser värdig försämring vidareutveckling föreläsning 7 laboration 5: en första bekantskap med MATS-systemet demonstration

Bakgrund MATS: Methodology and Application of a Translation System samarbetsprojekt mellan Institutionen för lingvistik och Scania CV AB uppskalning av MULTRA med fokus på design och implementation av nya systemet MATS nytt lexikon i form av en lexikal databas uppskalning av grammatik och lexikon 4

Grundläggande egenskaper regelbaserat prologkärna uttömmande analys hög översättningskvalitet inom begränsad domän 5

Systemets infrastruktur designprinciper genomskinlighet och spårbarhet modularitet varje delsteg sköts av en separat modul en pipe utgör transportlager och kopplar ihop modulerna enkelriktad dataström multiplex signal textmeddelanden 6

Exempel på liten tokeniseringsmodul:! "! # $ " " Exempel på dataström: ' ' *, -. 0 2 2, -. 2, -. 0 2 7

0. Textextraktion indata i XML-format text att översätta separeras från taggar etc initial uppdelning av text: segment varje segment har ett id-nummer,,, 0 2,,, 8

. Teckenomkodning koda om segmenten så de blir kompatibla med lexikonet latin- Unicode? 9

2. Tokenisering varje segment delas upp i tokens grunduppdelning sker på whitespace Segment 0 2 Tokens 0 2 hantering av flerordsenheter MWU: till och med 0

. Lexikonuppslagning uppslag av flerordsenheter enordsenheter 0 2 mönstermatchning okända ord -

. Lexikonuppslagning uppslagna ord får förvald översättning morfosyntaktisk information lingvistisk resurs: 0 2 * förvald översättning: kasus: genus:... 0, * - -, 2

4. Parser UCP strävan efter komplett syntaktisk analys hantering av meningar utan komplett analys preferensmetod: rankning av likvärdiga analyser lingvistisk resurs:,

5. Transfer input: en analys av segmentet representerad av en särdragsstruktur källspråksspecifika attribut förvalda översättningar output: en analys av segmentet representerad av en särdragsstruktur målspråksspecifika attribut översättningar justerade efter sin kontext,, eller,, 4

5. Transfer källsida och målsida transfern traverserar indata-strukturen i varje nod kan enskilda särdrag kopieras över till målsidan läggas till strykas t ex genus i svenska engelska byta värde t ex förvalda översättningar lingvistisk resurs:, 5

6. Generering grammatik baserad på PATR-II unifiering och konkatenering finna korrekt representation av strukturen i målspråket lingvistisk resurs:, 6

6. Generering, forts typning ett sätt att kontrollera genereringen en struktur med typade särdrag måste behandlas av regler som tar hand om dessa. lingvistisk resurs:, 7

8. Kodkomposition fullformsdatabasen accepterar inte särdragsstrukturer särdragsstrukturer mappas mot motsvarande kodrepresentation lingvistisk resurs: * 8

, 9. Lexikonuppslagning primär nyckel: kod lemma returnerar färdigböjt ord 9

0. Fonotaktisk bearbetning det översatta segmentets ytform och underliggande struktur granskas 20

. Finish finputsning av översatta segment första ordets bokstav versal ta bort överflödiga mellanslag sammanfoga ursprunglig XML-data med den översatta texten 2

7. Fallback - värdig försämring regelbaserade system känsliga hantering av problem okända ord: externa lexikon, ordklassgissare... ofullständig analys: gå vidare med bra delanalyser ofullständig transfergram.: kopiera okända strukturer ofullständig genereringsgram.: alternativ strategi boundary friction : välj ut kombination med högst P ofullständigt målspråkslexikon: försök generera form 22

7. Översättning med partiella analyser Vissa meningar mindre känsliga för segmentering: [avlägsna skruven][,][kåpan och skyddsplasten] Problem när beroenden bryts boundary friction: [boken som är borta][är värdefull] 2

7. Fallbackgenerering - enklaste varianten grammatiken täcker inte alltid hela strukturen som sista utväg används källspråkets ordföljd ofta bristfälligt för satser fungerar för vissa sorters fraser den stora gröna boken är borta -> the big green book is gone färgkodning indikerar när det skett 24

7. Fallbackgenerering med språkmodell ordföljd jag tänker, därför finns jag 57k: therefore I exist 528: I exist therefore 94: therefore exist I 57: I therefore exist... 25

7. Fallbackgenerering med språkmodell ordval jag är törstig 72k: I am thirsty 27: I are thirsty 02: I is thirsty 26

Ordval och ordföljd med språkmodell Basen för statistisk maskinöversättning Översättning av mening S till M: för varje ordfras i S, samla in alla dess översättningsalternativ sök efter den kombination av översättningsalternativ som både maximerar översättningssannolikheten för varje ordfras, och ordföljdssannolikheten för för sekvensen som bildas. 27

Systemets lexikala resurser specificeras på gränssnittets startsida transfer, laddas i den specificerade och generering engra.ptr: - mer om dessa på måndag 70 lexikala databasen: Evas föreläsning efter lunch idag, 28

Kodfilerna * svenska och * engelska en kod representerar en lista med attribut och värden: 29

Vidareutveckling analys och översättning av sammansättningar förbättrad genereringsmodul fler fallbackmekanismer regressionstester och automatisk utvärdering tidsoptimering och buggfixning nyutveckling sker i efterföljaren Convertus 0

Föreläsning 8 70 genomgång av transfern och dess regler genereringen och dess regler genereringens typning

Laboration 5: en första bekantskap med MATS-systemet mål genomgång av grammatikformaten nästa vecka starta MATS i terminalfönster lokalt på arbetsstationen starta inte MATS som en bakgrundsprocess med. Tryck inte heller Ctrl-z. 2

Demonstration