Maskinöversättning och språkgranskning
|
|
- Carina Fredriksson
- för 7 år sedan
- Visningar:
Transkript
1 Maskinöversättning och språkgranskning Föreläsning 7 Regelbaserad maskinöversättning Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet e-post: evapet@stp.lingfil.uu.se
2 Föreläsningsöversikt Regelbaserad maskinöversättning i allmänhet MatsLex Den lexikala databasen MATS-systemet så funkar det Transfer och generering i MATS-systemet Labben
3 Regelbaserad maskinöversättning interlingua-översättning transferbaserad översättning Källtext direktöversättning Måltext
4 MATS-systemet, bakgrund MATS = Methodology and Application of a Machine Translation System Samarbetsprojekt mellan Institutionen för lingvistik vid Uppsala universitet och Scania CV AB Bygger på MULTRA = Multilingual Support for Translation and Writing Nuvarande vidareutveckling sker i Convertus-systemet
5 MATS-projektets syfte Uppskalning av MULTRA för att skapa ett fullfjädrat, kommersiellt användbart maskinöversättningssystem för kvalitetsöversättningar av svensk, teknisk text o design och implementation av MATS-systemet o nytt lexikon i form av en lexikal databas o uppskalning av grammatik och lexikon
6 Grundläggande egenskaper Transferbaserat Prolog i botten Siktar mot fullständig analys av källspråket Möjliggör hög översättningskvalitet inom begränsade domäner Designprinciper: o genomskinlighet och spårbarhet o modularitet (varje delsteg sköts av separat modul)
7 MatsLex Den lexikala databasen Källspråket o lemma, teknisk stam, mönsterord, ordklass (verbvalens, semantisk information) o mönsterordsdefinitioner: mönsterord, morfosyntaktisk kod, suffix Målspråket o lemma, stam, mönsterord, ordklass o mönsterordsdefinitioner: mönsterord, morfosyntaktisk kod, suffix Översättningsrelationer o lemma och lexemnummer för källspråks- resp. målspråksingång
8 Exempel på källspråksingång i MatsLex Källspråkslemma: ägare.nn ägar KYPARE NOUN Mönsterordsdefinition: KYPARE e NNUXIB KYPARE es NNUXIG KYPARE en NNUSDB KYPARE ens NNUSDG KYPARE na NNUPDB KYPARE nas NNUPDG
9 Exempel på målspråksingång i MatsLex Målspråkslemma: owner.nn owner DOG NOUN Mönsterordsdefinition: DOG NNSB DOG s NNPG DOG 's NNSG DOG s' NNPG
10 Exempel på översättningsrelation i MatsLex Översättningsrelation: ägare.nn 1 owner.nn 1
11 Fraser i lexikonet Kontinuerliga fraser kan läggas in i lexikonet och ges ett mönsterord som talar om hur det ska böjas i alla fall New York Diskontinuerliga fraser kan inte läggas in i lexikonet, utan måste tas av transferregler slå på turn on
12 MATS-moduler 1) Textextraktion 2) Teckenomvandling 3) Tokenisering 4) Lexikonuppslagning 5) Parsning 7) Generering 8) Kodkomposition 9) Lexikonuppslagning 10) Fonotaktisk bearbetning 11) Finish 6) Transfer
13 1. Textextraktion Indata i XML-format Texten som ska översättas separeras från taggar Indata är meningssegmenterat Varje segment har ett id-nummer: <doc name= exempel > <s id= id1 >första meningen</s> <s id= id2 >andra meningen</s> </doc>
14 2. Teckenomvandling segmenten kodas om till latin1 så att de blir kompatibla med lexikonet sgml-entiteter görs om till motsvarande tecken vår vår
15 3. Tokenisering Varje segment delas upp i tokens (löpord) I de flesta fall hittas orden med ledning av whitespace Whitespace läggs in före/efter skiljetecken studenten sover. studenten sover.
16 4. Lexikonuppslagning (1) Uppslagning av: o enordsenheter: dag o flerordsenheter: i dag, på grund av o mönstermatchning: 2007 Okända ord o antas i MATS-systemet vara substantiv o senare versioner (Convertus-systemet) utnyttjar taggare
17 Lexikonuppslagning (2) De uppslagna orden tilldelas o morfosyntaktisk information o default-översättning Samspel mellan lexikonet och kodfilen matscodes
18 Lexikonuppslagning (3) Indatasträng: ägaren Lexikonuppslagning: ägare.nn NNUSDB Matscodes: :NOUN gender numb def case ########################################### NNUSDB utr sing def basic!np_noun
19 5. Parsning UCP3 (Light) Strävan efter komplett syntaktisk analys Hantering av meningar utan komplett analys Preferensmetod: rankning av likvärdiga analyser
20 6. Transfer (1) Indata: Analysstruktur för källspråket (från parsningsmodulen) o särdragsstruktur o källspråksspecifika attribut o default-översättningar från lexikonet Utdata: Motsvarande analysstruktur för målspråket o särdragsstruktur o målspråksspecifika attribut o översättningar anpassade till kontexten
21 Transfer (2) Källsida Målsida Transfermodulen översätter särdragsstrukturen I varje nod kan enskilda särdrag o kopieras över från källsidan till målsidan o läggas till på målsidan (t. ex. person från svenska till engelska) o tas bort på målsidan (t. ex. genus från svenska till engelska) o byta värde (t. ex. förvalda överssättningar)
22 Kopiera värden från källspråk till målspråk LABEL number SOURCE <* numb> =?x TARGET <* numb> =?x TRANSFER
23 Ta bort särdrag på målspråkssidan LABEL gender SOURCE <* gender> = ANY TARGET <*> = <*> TRANSFER
24 Byte av värde LABEL byta.mot-exchange.for SOURCE <* verb> =?verb1 <* verb head lex sym>=byta.vb.1 <* obj.prep phr.cat> = pp <* obj.prep prep word.cat> = PREP <* obj.prep prep lex sym> = mot.pp.1 <* obj.prep rect> =?rect1 TARGET <* verb> =?verb2 <* obj.prep phr.cat> = pp <* obj.prep prep word.cat> = PREP <* obj.prep prep lex> = for.pp.1 <* pred obj.prep rect> =?rect2 TRANSFER?verb1<=>?verb2?rect1<=>?rect2
25 7. Generering Genereringens uppgift: att utifrån målspråkets särdragsstruktur ordna de ingående leden i rätt ordföljd Indata: särdragsstruktur från transfermodulen Utdata: målspråkssärdrag ordnade i rätt ordföljd Grammatik för målspråket Unifiering och konkatenering Baserat på PATR-II (Stuart M. Shieber)
26 Generering (2) Typad unifiering Undviker övergenerering av regler För strukturer som innehåller typade särdrag måste alla de typade särdragen finnas uppräknade i regeln för att regeln ska vara tillämpbar Alla typade särdrag i regeln måste finnas med i särdragsstrukturen för att regeln ska vara tillämpbar
27 8. Kodkomposition Särdragsstrukturen från genereringsmodulen mappas mot motsvarande morfosyntaktiska koder för de ingående ordformerna, ex: Indata: Utdata: ([numb:plur, case:basic, word.cat:noun, lex:student.nn.1]) (NNPB [* [lem [sym student.nn]]])
28 9. Lexikonuppslagning Indata: Målspråkslemman med tillhörande morfosyntaktiska koder Utdata: Målspråksordformer student.nn NNPB students
29 10. Fonotaktisk bearbetning Ytsträngen skrivs om i enlighet med fonotaktiska regler, t.ex: a engine an engine
30 11. Finish Finputsning av de översatta segmenten, t.ex: o gör om första bokstaven i varje mening till versal o ta bort överflödiga mellanslag Den översatta texten läggs in i en likadan XML-struktur som källtexten
31 Upphämtningsstrategier Översättningsprocessen kan misslyckas i ett eller flera delsteg Upphämtningsstrategier (fallback-strategier) för att hantera: o okända ord: externa lexikon, ordklassgissare o ofullständig parsning: klistra ihop delanalyser o ofullständig transfer: kopiera över okända strukturer o ofullständig generering: alternativ strategi o ofullständigt målspråkslexikon: försök generera form
32 Översättning med partiella analyser Vissa meningar okänsliga för segmentering: [en bil] [,] [en buss och ett tåg] [a car] [,] [a bus and a train] Problem när beroende bryts (boundary friction): [för studerande som underkänts] [vid det ordinarie provtillfället] [anordnas] [två extra provtillfällen] [for students who have failed] [at the regular examination] [is organised] [two additional examinations]
33 Fallbackgenerering Målspråksgrammatiken täcker inte alltid hela strukturen Om så är fallet följer man källspråkets ordföljd även i målspråket Fungerar bra i många fall: studenten är glad the student is happy Fungerar mindre bra i andra fall: för studerande som underkänts vid det ordinarie provtillfället anordnas två extra provtillfällen for students who have failed at the regular examination is organised two additional examinations
34 Fallbackgenerering med språkmodell (1) Ordföljd (jag tänker,) därför finns jag o : therefore I exist o 912: I exist therefore o 301: I therefore exist o 59: therefore exist I
35 Fallbackgenerering med språkmodell (2) Ordval/böjning Jag är törstig o : I am thirsty o 3 210: I are thirsty o 658: I is thirsty
36 Fallbackgenerering med språkmodell (3) Samma idé som inom statistik maskinöversättning: o för varje ord/fras i meningen, samla ihop alla dess översättningsalternativ o sök efter den kombination av översättningsalternativ som både maximerar sannolikheten för ordvalet och sannolikheten för ordföljden o språkmodellen bygger optimalt på en korpus för den domän som maskinöversättningssystemet är tränat för att översätta o om ingen domänspecifik korpus finns, kan man använda Internet som språkmodell, t. ex. via Google
37 Transfer och generering i MATS studenten litar på läraren the student trusts the teacher prepositionsobjekt direkt objekt
38 Lexikonuppslagning ((NNUSDB [* [lem [sym student.nn], [lex [sym student.nn.1]], [trglex [sym student.nn.1]]]]) (VBAPM [* [lem [sym lita.vb], [lex [sym lita.vb.1]], [trglex [sym trust.vb.1]]]]) (PP [* [lem [sym på.pp], [lex [sym på.pp.1]], [trglex [sym on.pp.1]]]]) (NNUSDB [* [lem [sym lärare.nn], [lex [sym lärare.nn.1]], [trglex [sym teacher.nn.1]]]])
39 1-process([[* =['phr.cat'=cl, type=main, (mode)=decl, subj=['phr.cat'=np, numb=sing, gender=utr, case=basic, def=def, head=[lem=[sym='student.nn', lex=[sym='student.nn.1'], trglex=[sym=path(* :subj:head:lem:lex:sym)]], 'word.cat'='noun']], verb=[lem=[sym='lita.vb', lex=[sym='lita.vb.1'], trglex=[sym='trust.vb.1']], tense=pres, 'verb.type'=path(* :type), inff=fin, diat=act, 'word.cat'='verb'], 'obj.prep'=['phr.cat'=pp, prep=[lem=[sym='på.pp', lex=[sym='på.pp.1'], trglex=[sym='on.pp.1']], 'word.cat'='prep'], rect=['phr.cat'=path(* :subj:'phr.cat'), numb=path(* :subj:numb), gender=path(* :subj:gender), case=path(* :subj:case), def=path(* :subj:def), head=[lem=[sym='lärare.nn', lex=[sym='lärare.nn.1'], trglex=[sym='teacher.nn.1']], 'word.cat'=path(* :subj:head:'word.cat')]]]]]]
40 Transferregel LABEL lita.på-trust SOURCE <* verb> =?v1 <* verb lem lex sym> = lita.vb.1 <* obj.prep phr.cat> = pp <* obj.prep prep> =?x <* obj.prep prep lem lex sym> = på.pp.1 <* obj.prep rect> =?rect TARGET <* verb> =?v2 <* obj.dir> =?objdir TRANSFER?v1 <=>?v2?rect <=>?objdir
41 Särdragsstruktur efter transfer [phr.cat:cl, type:main, mode:decl, verb:[tense:pres, verb.type:main, inff:fin, diat:act, word.cat:verb, lex:trust.vb.1, person:3], obj.dir:[phr.cat:np, numb:sing, case:basic, def:def, head:[word.cat:noun, lex:teacher.nn.1]], subj:[head:[word.cat:noun, lex:student.nn.1], phr.cat:np, numb:sing, case:basic, def:def]]
42 Genereringsregler LABEL cl.subj-verb-obj.dir x1 ---> x2 x3 x4: <x1 phr.cat> = cl <x1 type> = main <x1 mode> = decl <x1 subj> = <x2> <x1 verb> = <x3> <x3 inff> = <x1 inff> <x3 tense> = <x1 tense> <x3 numb> = <x2 numb> <x3 person> = <x2 person> <x1 obj.dir> = <x4> LABEL np.indef.art-noun x1 ---> x2 x3: <x1 phr.cat> = np <x1 def> = indef <x1 art> = <x2> <x1 head> = <x3> <x3 numb> = <x1 numb> <x3 case> = <x1 case>
43 Kodkomposition ((ALD [* [lem [sym the.al]]]) (NNSB [* [lem [sym student.nn]]]) (VBPM3S [* [lem [sym trust.vb]]]) (ALD [* [lem [sym the.al]]]) (NNSB [* [lem [sym teacher.nn]]]))
44 Lexikonuppslagning the student trusts the teacher
45 Färgkodningar Färgkoder talar om vilka problem systemet har haft...
46 Labben Undersök MatsLex Provkör MATS-systemet Skriv lingvistiskt motiverade transfer- och genereringsregler för ett antal meningar Inlämning: Fredag 26 oktober
MÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Läs merSpråkgranskningsverktyg, vt 2008
, vt 2008 Föreläsning 7 Chartparsning i allmänhet och UCP i synnerhet evapet@stp.lingfil.uu.se 1 Djupstruktur och ytstruktur Jag läste en bok igår Igår läste jag en bok 2 Chartparsning - bakgrund Utvecklades
Läs merDjupstruktur och ytstruktur
Djupstruktur och ytstruktur En gammal man bodde på vinden. På vinden bodde en gammal man. Chomsky 1965 baskomponent transformationskomponent Föregångare till UCP Augmented Transition Network (Woods 1970)
Läs merSpråkgranskningsverktyg. Grammatikkontroll med Scarrie
Språkgranskningsverktyg Grammatikkontroll med Scarrie Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merAnna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel
Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet
Läs merKursplaneöversättaren. Lina Stadell
Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merUtveckling av ett gränssnitt för uppdatering av lexikondatabasen MatsLex
Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 9 Juni 2006 Utveckling av ett gränssnitt för uppdatering av lexikondatabasen MatsLex Örjan Berglund Handledare:
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merSpråkliga basresurser i
Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 3 juni 2005 Språkliga basresurser i maskinöversättningssystemet MATS Jens Moberg Handledare: Anna Sågvall
Läs merMaskinöversättning idag
Maskinöversättning idag Efter en tid av ifrågasättande har nu återigen maskinöversättningen kommit att stå i centrum för språkteknologin och börjat användas av företag och myndigheter för översättning
Läs merMaskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Läs merMaskinöversättning möjligheter och gränser
Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merstinaka@stp.ling.uu.se
!"# $ %& ' % )(* +-,/.1032 5#687:9'; 4 stinaka@stp.ling.uu.se = 2@? 7 0AB2 9'687, 7.)C 2D,FE 9'G.10 ;IH.1A',J.LK +NM 9 2@K-, 4 7 KN0E G E ;.1M 9 E ;O9 2I?P? 7, Q MMAB2 G 2SR0. HT7:9 A!.U, 7,VWX0A',J.U,JRY,J.LEZ0
Läs merMaskinöversättning 2008
Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning LABEL byta SOURCE =byta.vb.1 TARGET =change.vb.1 TRANSFER LABEL byta-filter SOURCE
Läs merPre-editering och maskinöversättning. Convertus AB
Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning
Läs merMachine Translation MÖSG F Anna Sågvall Hein
Machine Translation MÖSG F1 2007 Anna Sågvall Hein Vad är maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och
Läs merSpråkgranskningsverktyg, vt 2009
, vt 2009 Föreläsning 8 Scania Checker evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kontrollerat språk Scania-svenska Scania Checker Demo 2 Kontrollerat språk Delmängd av naturligt språk Restriktioner
Läs merMaskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN
MASKINÖVERSÄTTNING Datorn behöver statistik och grammatik ANNA SÅGVALL HEIN Det är lätt att skoja med en del resultat av maskinöversättning: Vad kan vi lära av det blir What can we faith of it. Då gör
Läs merLösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Läs merCristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merLinköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson
Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merMaskinöversättning. F Anna Sågvall Hein
Maskinöversättning F1 2008 Anna Sågvall Hein Vad menas med maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merOrdklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)
Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den
Läs merObesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merUtveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen
Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 27 juni 2006 Utveckling av ett svensk-engelskt lexikon inom tåg- och transportdomänen Hans Axelsson, Oskar
Läs merAnvändarhandledning Kursplaneöversättaren
Användarhandledning Kursplaneöversättaren Bakgrund På uppdrag av Rektor vid Uppsala universitet har en forskargrupp vid Institutionen för lingvistik och filologi vid Uppsala universitet utvecklat en maskinell
Läs merSyntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merSpråkliga basresurser i
Institutionen för lingvistik och filologi Språkteknologiprogrammet Examensarbete i datorlingvistik 30 juni 2005 Språkliga basresurser i maskinöversättningssystemet MATS Jens Moberg Handledare: Anna Sågvall
Läs merStatistisk maskinöversättning
Statistisk maskinöversättning Åsa Holmqvist Asaho232 Artificiell Intelligens 729G43 Innehållsförteckning Introduktion... 1 Maskinöversättningens historia.... 1 Statistisk metod... 3 Brusiga kanalen....
Läs merPartiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter
ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning
Läs merTvå-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan
Läs merJohan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON
Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell
Läs merAnvända Convertus Kursplaneöversättaren
Utbildningsavdelningen INSTRUKTION 2015-10-09 Använda Convertus Kursplaneöversättaren Programmet Kursplaneöversättaren är ett hjälpmedel för att översätta kursplaner från svenska till engelska. Du måste
Läs merStatistisk Maskinöversättning eller:
729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...
Läs merLINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem
LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merMorfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix
Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merKorpusbaserad Maskinöversättning
Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning
Läs merGrammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merParsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Läs merGrundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-
Läs merTravel Phrase Guide. Instruktionshäfte
Travel Phrase Guide Instruktionshäfte Sw Rätten till ändring av innehållet i detta dokument förbehålles utan föregående meddelande. CASIO COMPUTER CO., LTD. åtar sig inget ansvar för skador eller förluster
Läs merVägar till bättre översättningsprogram
Vägar till bättre översättningsprogram Aarne Ranta, Thomas Hallgren, Krasimir Angelov Data- och informationsteknik Göteborgs universitet & Chalmers tekniska högskola Vetenskapsfestivalen 8 maj 2014, Göteborg
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merOrdklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?
Ordklasser Särdrag, lexikon och syntax Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv, adjektiv, verb, adverb Ständiga nybildningar
Läs merENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Läs merENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Läs merParsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Läs merConvertus - kursplaneöversättning
Utbildningsavdelningen 2017-10-25 Convertus - kursplaneöversättning Innehåll Om Convertus kursplaneöversättning... 2 Så fungerar det... 2 Tre olika användarroller... 2 Arbetsgång... 3 Filnamn... 3 1. Beställa
Läs merTDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Läs merLexikon. versättning. Maskinövers. Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching, Lexikon
Flerspråklig nyhetsbevakning Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching,
Läs merspråkgranskning, ht 2007
Maskinöversättning och språkgranskning, ht 2007 Föreläsning 3 Grammatikkontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem
Läs merÖversättningsuniversalier i svenska översatta texter
EXAMENSARBETE VT 2014 MASTER I ÖVERSÄTTNING Specialisering i engelska Språk- och litteraturcentrum Översättarutbildningen Översättningsuniversalier i svenska översatta texter En undersökning av tecken
Läs merParsning. TDP007 Konstruktion av datorspråk Föreläsning 6. Peter Dalenius Institutionen för datavetenskap
Parsning TDP007 Konstruktion av datorspråk Föreläsning 6 Peter Dalenius Institutionen för datavetenskap 2017-02-14 2 Analys av källkod Lexikalisk analys Bildar tokensutifrån källkodens text. Syntaktisk
Läs merÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng
Humanistiska fakultetsnämnden ÖU2100, Översättarutbildning 1 Magisterutbildning, 60 högskolepoäng Professional Translation 1, 60 higher education credits Avancerad nivå Second Cycle 1. Fastställande Kursplanen
Läs mer1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5 2.
Maria Holmqvist x02marho@ida.liu.se Linköpings universitet, IDA 24 april 2003 1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5
Läs merSpråkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merAutomatisk generering av grammatikövningar utifrån grammatiskt analyserad text
Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text Magisteruppsats i Språkteknologi, 30hp Institutionen för lingvistik och lologi Uppsala Universitet Camilla Liljhammar, camlilj@stp.lingl.uu.se
Läs merVerbvalenser i teknisk text
UPPSALA UNIVERSITET Institutionen för lingvistik Språkteknologiska programmet Examensarbete ht/2001 Verbvalenser i teknisk text en fallstudie Sten Thaning handledare: Anna Sågvall
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merTDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000
Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.
Läs merSpråkgranskningsverktyg. Grammatikkontroll i Word
Språkgranskningsverktyg Grammatikkontroll i Word Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial.
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merSpråkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
Läs merSTRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar
STRÄNGAR En av de mest avancerade av de normala datatyperna är. Här skall vi grundläggande gå igenom hur den datatypen fungerar och vidare flertalet funktioner som hör till datatypen. Låt oss kasta oss
Läs merGrammatisk teori III - Seminarium
Grammatisk teori III - Seminarium Attributvärdesanalys Gör en attributvärdesanalys av satserna nedan: 1. Länsstyrelsen vill ha fler spår. 2. Piraterna är klara för slutspel. 3. En buss och en stadsjeep
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merSkrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
Läs merPilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering
Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Eva Pettersson evapet@stp.ling.uu.se Uppsala universitet
Läs merGrundläggande datalogi - Övning 9
Grundläggande datalogi - Övning 9 Björn Terelius January 30, 2009 Ett formellt språk är en (oftast oändlig) mängd strängar. Språket definieras av en syntax som är en samling regler för hur man får bilda
Läs merKonstruktion av datorspråk
Konstruktion av datorspråk Fö4: Domänspecifika språk och parsning Peter Dalenius petda@ida.liu.se Institutionen för datavetenskap Linköpings universitet 2009-02-12 Domänspecifika språk Ett domänspecifikt
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merBilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia
Bilaga 5: Nytt språk svenska Wikispeech en användargenererad talsyntes på Wikipedia Innehållsförteckning Innehållsförteckning Introduktion Nyckel: 1 Intresse 2 Identifiera existerande resurser 3 API anpassningar
Läs merUtveckling av lexikala resurser för ett språkgranskningssystem för svenska
Utveckling av lexikala resurser för ett språkgranskningssystem för svenska Leif-Jöran Olsson ljo@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Uppsala universitet Institutionen
Läs merFraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merÖversättningsminnen laboration
Översättningsminnen laboration LÖT-kursen ht-07 Syfte Målet med laborationen är att få insikt i hur ett system för översättningsminnen fungerar och hur enkla termlistor används i översättningsprojekt.
Läs merMorfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merSpråkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Läs merFöreläsning 7: Syntaxanalys
DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2009-10-27 Skribent(er): Carl-Fredrik Sundlöf, Henrik Sandström, Jonas Lindmark Föreläsare: Fredrik Niemelä 1 Syntaxanalys
Läs merMaskinöversättning 2008
Maskinöversättning 2008 F7 Maskinöversättningens mål och möjligheter Systematiska språkskillnader sv-en sv-ty sv-fr sv-sp sv-ry Hur kan de beskrivas? Ge konkreta exempel. Hur kan de tas om hand i maskinöversättningen?
Läs mer