Maskinöversättning och språkgranskning
|
|
- Carina Fredriksson
- för 8 år sedan
- Visningar:
Transkript
1 Maskinöversättning och språkgranskning Föreläsning 7 Regelbaserad maskinöversättning Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet e-post: evapet@stp.lingfil.uu.se
2 Föreläsningsöversikt Regelbaserad maskinöversättning i allmänhet MatsLex Den lexikala databasen MATS-systemet så funkar det Transfer och generering i MATS-systemet Labben
3 Regelbaserad maskinöversättning interlingua-översättning transferbaserad översättning Källtext direktöversättning Måltext
4 MATS-systemet, bakgrund MATS = Methodology and Application of a Machine Translation System Samarbetsprojekt mellan Institutionen för lingvistik vid Uppsala universitet och Scania CV AB Bygger på MULTRA = Multilingual Support for Translation and Writing Nuvarande vidareutveckling sker i Convertus-systemet
5 MATS-projektets syfte Uppskalning av MULTRA för att skapa ett fullfjädrat, kommersiellt användbart maskinöversättningssystem för kvalitetsöversättningar av svensk, teknisk text o design och implementation av MATS-systemet o nytt lexikon i form av en lexikal databas o uppskalning av grammatik och lexikon
6 Grundläggande egenskaper Transferbaserat Prolog i botten Siktar mot fullständig analys av källspråket Möjliggör hög översättningskvalitet inom begränsade domäner Designprinciper: o genomskinlighet och spårbarhet o modularitet (varje delsteg sköts av separat modul)
7 MatsLex Den lexikala databasen Källspråket o lemma, teknisk stam, mönsterord, ordklass (verbvalens, semantisk information) o mönsterordsdefinitioner: mönsterord, morfosyntaktisk kod, suffix Målspråket o lemma, stam, mönsterord, ordklass o mönsterordsdefinitioner: mönsterord, morfosyntaktisk kod, suffix Översättningsrelationer o lemma och lexemnummer för källspråks- resp. målspråksingång
8 Exempel på källspråksingång i MatsLex Källspråkslemma: ägare.nn ägar KYPARE NOUN Mönsterordsdefinition: KYPARE e NNUXIB KYPARE es NNUXIG KYPARE en NNUSDB KYPARE ens NNUSDG KYPARE na NNUPDB KYPARE nas NNUPDG
9 Exempel på målspråksingång i MatsLex Målspråkslemma: owner.nn owner DOG NOUN Mönsterordsdefinition: DOG NNSB DOG s NNPG DOG 's NNSG DOG s' NNPG
10 Exempel på översättningsrelation i MatsLex Översättningsrelation: ägare.nn 1 owner.nn 1
11 Fraser i lexikonet Kontinuerliga fraser kan läggas in i lexikonet och ges ett mönsterord som talar om hur det ska böjas i alla fall New York Diskontinuerliga fraser kan inte läggas in i lexikonet, utan måste tas av transferregler slå på turn on
12 MATS-moduler 1) Textextraktion 2) Teckenomvandling 3) Tokenisering 4) Lexikonuppslagning 5) Parsning 7) Generering 8) Kodkomposition 9) Lexikonuppslagning 10) Fonotaktisk bearbetning 11) Finish 6) Transfer
13 1. Textextraktion Indata i XML-format Texten som ska översättas separeras från taggar Indata är meningssegmenterat Varje segment har ett id-nummer: <doc name= exempel > <s id= id1 >första meningen</s> <s id= id2 >andra meningen</s> </doc>
14 2. Teckenomvandling segmenten kodas om till latin1 så att de blir kompatibla med lexikonet sgml-entiteter görs om till motsvarande tecken vår vår
15 3. Tokenisering Varje segment delas upp i tokens (löpord) I de flesta fall hittas orden med ledning av whitespace Whitespace läggs in före/efter skiljetecken studenten sover. studenten sover.
16 4. Lexikonuppslagning (1) Uppslagning av: o enordsenheter: dag o flerordsenheter: i dag, på grund av o mönstermatchning: 2007 Okända ord o antas i MATS-systemet vara substantiv o senare versioner (Convertus-systemet) utnyttjar taggare
17 Lexikonuppslagning (2) De uppslagna orden tilldelas o morfosyntaktisk information o default-översättning Samspel mellan lexikonet och kodfilen matscodes
18 Lexikonuppslagning (3) Indatasträng: ägaren Lexikonuppslagning: ägare.nn NNUSDB Matscodes: :NOUN gender numb def case ########################################### NNUSDB utr sing def basic!np_noun
19 5. Parsning UCP3 (Light) Strävan efter komplett syntaktisk analys Hantering av meningar utan komplett analys Preferensmetod: rankning av likvärdiga analyser
20 6. Transfer (1) Indata: Analysstruktur för källspråket (från parsningsmodulen) o särdragsstruktur o källspråksspecifika attribut o default-översättningar från lexikonet Utdata: Motsvarande analysstruktur för målspråket o särdragsstruktur o målspråksspecifika attribut o översättningar anpassade till kontexten
21 Transfer (2) Källsida Målsida Transfermodulen översätter särdragsstrukturen I varje nod kan enskilda särdrag o kopieras över från källsidan till målsidan o läggas till på målsidan (t. ex. person från svenska till engelska) o tas bort på målsidan (t. ex. genus från svenska till engelska) o byta värde (t. ex. förvalda överssättningar)
22 Kopiera värden från källspråk till målspråk LABEL number SOURCE <* numb> =?x TARGET <* numb> =?x TRANSFER
23 Ta bort särdrag på målspråkssidan LABEL gender SOURCE <* gender> = ANY TARGET <*> = <*> TRANSFER
24 Byte av värde LABEL byta.mot-exchange.for SOURCE <* verb> =?verb1 <* verb head lex sym>=byta.vb.1 <* obj.prep phr.cat> = pp <* obj.prep prep word.cat> = PREP <* obj.prep prep lex sym> = mot.pp.1 <* obj.prep rect> =?rect1 TARGET <* verb> =?verb2 <* obj.prep phr.cat> = pp <* obj.prep prep word.cat> = PREP <* obj.prep prep lex> = for.pp.1 <* pred obj.prep rect> =?rect2 TRANSFER?verb1<=>?verb2?rect1<=>?rect2
25 7. Generering Genereringens uppgift: att utifrån målspråkets särdragsstruktur ordna de ingående leden i rätt ordföljd Indata: särdragsstruktur från transfermodulen Utdata: målspråkssärdrag ordnade i rätt ordföljd Grammatik för målspråket Unifiering och konkatenering Baserat på PATR-II (Stuart M. Shieber)
26 Generering (2) Typad unifiering Undviker övergenerering av regler För strukturer som innehåller typade särdrag måste alla de typade särdragen finnas uppräknade i regeln för att regeln ska vara tillämpbar Alla typade särdrag i regeln måste finnas med i särdragsstrukturen för att regeln ska vara tillämpbar
27 8. Kodkomposition Särdragsstrukturen från genereringsmodulen mappas mot motsvarande morfosyntaktiska koder för de ingående ordformerna, ex: Indata: Utdata: ([numb:plur, case:basic, word.cat:noun, lex:student.nn.1]) (NNPB [* [lem [sym student.nn]]])
28 9. Lexikonuppslagning Indata: Målspråkslemman med tillhörande morfosyntaktiska koder Utdata: Målspråksordformer student.nn NNPB students
29 10. Fonotaktisk bearbetning Ytsträngen skrivs om i enlighet med fonotaktiska regler, t.ex: a engine an engine
30 11. Finish Finputsning av de översatta segmenten, t.ex: o gör om första bokstaven i varje mening till versal o ta bort överflödiga mellanslag Den översatta texten läggs in i en likadan XML-struktur som källtexten
31 Upphämtningsstrategier Översättningsprocessen kan misslyckas i ett eller flera delsteg Upphämtningsstrategier (fallback-strategier) för att hantera: o okända ord: externa lexikon, ordklassgissare o ofullständig parsning: klistra ihop delanalyser o ofullständig transfer: kopiera över okända strukturer o ofullständig generering: alternativ strategi o ofullständigt målspråkslexikon: försök generera form
32 Översättning med partiella analyser Vissa meningar okänsliga för segmentering: [en bil] [,] [en buss och ett tåg] [a car] [,] [a bus and a train] Problem när beroende bryts (boundary friction): [för studerande som underkänts] [vid det ordinarie provtillfället] [anordnas] [två extra provtillfällen] [for students who have failed] [at the regular examination] [is organised] [two additional examinations]
33 Fallbackgenerering Målspråksgrammatiken täcker inte alltid hela strukturen Om så är fallet följer man källspråkets ordföljd även i målspråket Fungerar bra i många fall: studenten är glad the student is happy Fungerar mindre bra i andra fall: för studerande som underkänts vid det ordinarie provtillfället anordnas två extra provtillfällen for students who have failed at the regular examination is organised two additional examinations
34 Fallbackgenerering med språkmodell (1) Ordföljd (jag tänker,) därför finns jag o : therefore I exist o 912: I exist therefore o 301: I therefore exist o 59: therefore exist I
35 Fallbackgenerering med språkmodell (2) Ordval/böjning Jag är törstig o : I am thirsty o 3 210: I are thirsty o 658: I is thirsty
36 Fallbackgenerering med språkmodell (3) Samma idé som inom statistik maskinöversättning: o för varje ord/fras i meningen, samla ihop alla dess översättningsalternativ o sök efter den kombination av översättningsalternativ som både maximerar sannolikheten för ordvalet och sannolikheten för ordföljden o språkmodellen bygger optimalt på en korpus för den domän som maskinöversättningssystemet är tränat för att översätta o om ingen domänspecifik korpus finns, kan man använda Internet som språkmodell, t. ex. via Google
37 Transfer och generering i MATS studenten litar på läraren the student trusts the teacher prepositionsobjekt direkt objekt
38 Lexikonuppslagning ((NNUSDB [* [lem [sym student.nn], [lex [sym student.nn.1]], [trglex [sym student.nn.1]]]]) (VBAPM [* [lem [sym lita.vb], [lex [sym lita.vb.1]], [trglex [sym trust.vb.1]]]]) (PP [* [lem [sym på.pp], [lex [sym på.pp.1]], [trglex [sym on.pp.1]]]]) (NNUSDB [* [lem [sym lärare.nn], [lex [sym lärare.nn.1]], [trglex [sym teacher.nn.1]]]])
39 1-process([[* =['phr.cat'=cl, type=main, (mode)=decl, subj=['phr.cat'=np, numb=sing, gender=utr, case=basic, def=def, head=[lem=[sym='student.nn', lex=[sym='student.nn.1'], trglex=[sym=path(* :subj:head:lem:lex:sym)]], 'word.cat'='noun']], verb=[lem=[sym='lita.vb', lex=[sym='lita.vb.1'], trglex=[sym='trust.vb.1']], tense=pres, 'verb.type'=path(* :type), inff=fin, diat=act, 'word.cat'='verb'], 'obj.prep'=['phr.cat'=pp, prep=[lem=[sym='på.pp', lex=[sym='på.pp.1'], trglex=[sym='on.pp.1']], 'word.cat'='prep'], rect=['phr.cat'=path(* :subj:'phr.cat'), numb=path(* :subj:numb), gender=path(* :subj:gender), case=path(* :subj:case), def=path(* :subj:def), head=[lem=[sym='lärare.nn', lex=[sym='lärare.nn.1'], trglex=[sym='teacher.nn.1']], 'word.cat'=path(* :subj:head:'word.cat')]]]]]]
40 Transferregel LABEL lita.på-trust SOURCE <* verb> =?v1 <* verb lem lex sym> = lita.vb.1 <* obj.prep phr.cat> = pp <* obj.prep prep> =?x <* obj.prep prep lem lex sym> = på.pp.1 <* obj.prep rect> =?rect TARGET <* verb> =?v2 <* obj.dir> =?objdir TRANSFER?v1 <=>?v2?rect <=>?objdir
41 Särdragsstruktur efter transfer [phr.cat:cl, type:main, mode:decl, verb:[tense:pres, verb.type:main, inff:fin, diat:act, word.cat:verb, lex:trust.vb.1, person:3], obj.dir:[phr.cat:np, numb:sing, case:basic, def:def, head:[word.cat:noun, lex:teacher.nn.1]], subj:[head:[word.cat:noun, lex:student.nn.1], phr.cat:np, numb:sing, case:basic, def:def]]
42 Genereringsregler LABEL cl.subj-verb-obj.dir x1 ---> x2 x3 x4: <x1 phr.cat> = cl <x1 type> = main <x1 mode> = decl <x1 subj> = <x2> <x1 verb> = <x3> <x3 inff> = <x1 inff> <x3 tense> = <x1 tense> <x3 numb> = <x2 numb> <x3 person> = <x2 person> <x1 obj.dir> = <x4> LABEL np.indef.art-noun x1 ---> x2 x3: <x1 phr.cat> = np <x1 def> = indef <x1 art> = <x2> <x1 head> = <x3> <x3 numb> = <x1 numb> <x3 case> = <x1 case>
43 Kodkomposition ((ALD [* [lem [sym the.al]]]) (NNSB [* [lem [sym student.nn]]]) (VBPM3S [* [lem [sym trust.vb]]]) (ALD [* [lem [sym the.al]]]) (NNSB [* [lem [sym teacher.nn]]]))
44 Lexikonuppslagning the student trusts the teacher
45 Färgkodningar Färgkoder talar om vilka problem systemet har haft...
46 Labben Undersök MatsLex Provkör MATS-systemet Skriv lingvistiskt motiverade transfer- och genereringsregler för ett antal meningar Inlämning: Fredag 26 oktober
MÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Språkgranskningsverktyg, vt 2008
, vt 2008 Föreläsning 7 Chartparsning i allmänhet och UCP i synnerhet evapet@stp.lingfil.uu.se 1 Djupstruktur och ytstruktur Jag läste en bok igår Igår läste jag en bok 2 Chartparsning - bakgrund Utvecklades
Djupstruktur och ytstruktur
Djupstruktur och ytstruktur En gammal man bodde på vinden. På vinden bodde en gammal man. Chomsky 1965 baskomponent transformationskomponent Föregångare till UCP Augmented Transition Network (Woods 1970)
Språkgranskningsverktyg. Grammatikkontroll med Scarrie
Språkgranskningsverktyg Grammatikkontroll med Scarrie Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel
Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet
Kursplaneöversättaren. Lina Stadell
Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Utveckling av ett gränssnitt för uppdatering av lexikondatabasen MatsLex
Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 9 Juni 2006 Utveckling av ett gränssnitt för uppdatering av lexikondatabasen MatsLex Örjan Berglund Handledare:
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Språkliga basresurser i
Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 3 juni 2005 Språkliga basresurser i maskinöversättningssystemet MATS Jens Moberg Handledare: Anna Sågvall
Maskinöversättning idag
Maskinöversättning idag Efter en tid av ifrågasättande har nu återigen maskinöversättningen kommit att stå i centrum för språkteknologin och börjat användas av företag och myndigheter för översättning
Maskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Maskinöversättning möjligheter och gränser
Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
stinaka@stp.ling.uu.se
!"# $ %& ' % )(* +-,/.1032 5#687:9'; 4 stinaka@stp.ling.uu.se = 2@? 7 0AB2 9'687, 7.)C 2D,FE 9'G.10 ;IH.1A',J.LK +NM 9 2@K-, 4 7 KN0E G E ;.1M 9 E ;O9 2I?P? 7, Q MMAB2 G 2SR0. HT7:9 A!.U, 7,VWX0A',J.U,JRY,J.LEZ0
Maskinöversättning 2008
Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning LABEL byta SOURCE =byta.vb.1 TARGET =change.vb.1 TRANSFER LABEL byta-filter SOURCE
Pre-editering och maskinöversättning. Convertus AB
Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning
Machine Translation MÖSG F Anna Sågvall Hein
Machine Translation MÖSG F1 2007 Anna Sågvall Hein Vad är maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och
Språkgranskningsverktyg, vt 2009
, vt 2009 Föreläsning 8 Scania Checker evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kontrollerat språk Scania-svenska Scania Checker Demo 2 Kontrollerat språk Delmängd av naturligt språk Restriktioner
Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN
MASKINÖVERSÄTTNING Datorn behöver statistik och grammatik ANNA SÅGVALL HEIN Det är lätt att skoja med en del resultat av maskinöversättning: Vad kan vi lära av det blir What can we faith of it. Då gör
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Cristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson
Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Maskinöversättning. F Anna Sågvall Hein
Maskinöversättning F1 2008 Anna Sågvall Hein Vad menas med maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och
Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)
Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den
Obesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll
Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Utveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen
Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 27 juni 2006 Utveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen Hans Axelsson, Oskar
Användarhandledning Kursplaneöversättaren
Användarhandledning Kursplaneöversättaren Bakgrund På uppdrag av Rektor vid Uppsala universitet har en forskargrupp vid Institutionen för lingvistik och filologi vid Uppsala universitet utvecklat en maskinell
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Grammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Språkliga basresurser i
Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 30 juni 2005 Språkliga basresurser i maskinöversättningssystemet MATS Jens Moberg Handledare: Anna Sågvall
Statistisk maskinöversättning
Statistisk maskinöversättning Åsa Holmqvist Asaho232 Artificiell Intelligens 729G43 Innehållsförteckning Introduktion... 1 Maskinöversättningens historia.... 1 Statistisk metod... 3 Brusiga kanalen....
Partiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter
ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning
Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan
Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON
Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell
Använda Convertus Kursplaneöversättaren
Utbildningsavdelningen INSTRUKTION 2015-10-09 Använda Convertus Kursplaneöversättaren Programmet Kursplaneöversättaren är ett hjälpmedel för att översätta kursplaner från svenska till engelska. Du måste
Statistisk Maskinöversättning eller:
729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...
LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem
LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...
Tekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix
Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Korpusbaserad Maskinöversättning
Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning
Grammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Parsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-
Travel Phrase Guide. Instruktionshäfte
Travel Phrase Guide Instruktionshäfte Sw Rätten till ändring av innehållet i detta dokument förbehålles utan föregående meddelande. CASIO COMPUTER CO., LTD. åtar sig inget ansvar för skador eller förluster
Vägar till bättre översättningsprogram
Vägar till bättre översättningsprogram Aarne Ranta, Thomas Hallgren, Krasimir Angelov Data- och informationsteknik Göteborgs universitet & Chalmers tekniska högskola Vetenskapsfestivalen 8 maj 2014, Göteborg
Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?
Ordklasser Särdrag, lexikon och syntax Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv, adjektiv, verb, adverb Ständiga nybildningar
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Parsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Datorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Convertus - kursplaneöversättning
Utbildningsavdelningen 2017-10-25 Convertus - kursplaneöversättning Innehåll Om Convertus kursplaneöversättning... 2 Så fungerar det... 2 Tre olika användarroller... 2 Arbetsgång... 3 Filnamn... 3 1. Beställa
TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Lexikon. versättning. Maskinövers. Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching, Lexikon
Flerspråklig nyhetsbevakning Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching,
språkgranskning, ht 2007
Maskinöversättning och språkgranskning, ht 2007 Föreläsning 3 Grammatikkontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem
Översättningsuniversalier i svenska översatta texter
EXAMENSARBETE VT 2014 MASTER I ÖVERSÄTTNING Specialisering i engelska Språk- och litteraturcentrum Översättarutbildningen Översättningsuniversalier i svenska översatta texter En undersökning av tecken
Parsning. TDP007 Konstruktion av datorspråk Föreläsning 6. Peter Dalenius Institutionen för datavetenskap
Parsning TDP007 Konstruktion av datorspråk Föreläsning 6 Peter Dalenius Institutionen för datavetenskap 2017-02-14 2 Analys av källkod Lexikalisk analys Bildar tokensutifrån källkodens text. Syntaktisk
ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng
Humanistiska fakultetsnämnden ÖU2100, Översättarutbildning 1 Magisterutbildning, 60 högskolepoäng Professional Translation 1, 60 higher education credits Avancerad nivå Second Cycle 1. Fastställande Kursplanen
1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5 2.
Maria Holmqvist x02marho@ida.liu.se Linköpings universitet, IDA 24 april 2003 1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5
Språkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Meningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text
Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text Magisteruppsats i Språkteknologi, 30hp Institutionen för lingvistik och lologi Uppsala Universitet Camilla Liljhammar, camlilj@stp.lingl.uu.se
Verbvalenser i teknisk text
UPPSALA UNIVERSITET Institutionen för lingvistik Språkteknologiska programmet Examensarbete ht/2001 Verbvalenser i teknisk text en fallstudie Sten Thaning handledare: Anna Sågvall
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000
Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.
Språkgranskningsverktyg. Grammatikkontroll i Word
Språkgranskningsverktyg Grammatikkontroll i Word Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial.
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Språkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
STRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar
STRÄNGAR En av de mest avancerade av de normala datatyperna är. Här skall vi grundläggande gå igenom hur den datatypen fungerar och vidare flertalet funktioner som hör till datatypen. Låt oss kasta oss
Grammatisk teori III - Seminarium
Grammatisk teori III - Seminarium Attributvärdesanalys Gör en attributvärdesanalys av satserna nedan: 1. Länsstyrelsen vill ha fler spår. 2. Piraterna är klara för slutspel. 3. En buss och en stadsjeep
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering
Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Eva Pettersson evapet@stp.ling.uu.se Uppsala universitet
Grundläggande datalogi - Övning 9
Grundläggande datalogi - Övning 9 Björn Terelius January 30, 2009 Ett formellt språk är en (oftast oändlig) mängd strängar. Språket definieras av en syntax som är en samling regler för hur man får bilda
Konstruktion av datorspråk
Konstruktion av datorspråk Fö4: Domänspecifika språk och parsning Peter Dalenius petda@ida.liu.se Institutionen för datavetenskap Linköpings universitet 2009-02-12 Domänspecifika språk Ett domänspecifikt
Grammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Lingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia
Bilaga 5: Nytt språk svenska Wikispeech en användargenererad talsyntes på Wikipedia Innehållsförteckning Innehållsförteckning Introduktion Nyckel: 1 Intresse 2 Identifiera existerande resurser 3 API anpassningar
Utveckling av lexikala resurser för ett språkgranskningssystem för svenska
Utveckling av lexikala resurser för ett språkgranskningssystem för svenska Leif-Jöran Olsson ljo@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Uppsala universitet Institutionen
Fraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Översättningsminnen laboration
Översättningsminnen laboration LÖT-kursen ht-07 Syfte Målet med laborationen är att få insikt i hur ett system för översättningsminnen fungerar och hur enkla termlistor används i översättningsprojekt.
Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Språkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Föreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2009-10-27 Skribent(er): Carl-Fredrik Sundlöf, Henrik Sandström, Jonas Lindmark Föreläsare: Fredrik Niemelä 1 Syntaxanalys
Maskinöversättning 2008
Maskinöversättning 2008 F7 Maskinöversättningens mål och möjligheter Systematiska språkskillnader sv-en sv-ty sv-fr sv-sp sv-ry Hur kan de beskrivas? Ge konkreta exempel. Hur kan de tas om hand i maskinöversättningen?