Statistisk maskinöversättning

Storlek: px
Starta visningen från sidan:

Download "Statistisk maskinöversättning"

Transkript

1 Statistisk maskinöversättning Åsa Holmqvist Asaho232 Artificiell Intelligens 729G43

2

3 Innehållsförteckning Introduktion... 1 Maskinöversättningens historia Statistisk metod... 3 Brusiga kanalen Uppbyggnad Sannolikheten för språkmodellen Sannolikheten för översättningsmodellen Avkodaren Utvärdering Diskussion Slutsats Referenser... 1

4 Introduktion Översättning från ett språk till ett annat är en svår uppgift som kräver stor förståelse för både källspråket och målspråket som en text ska översättas till. Att översätta ett enstaka ord kan kräva information om kontexten till den skrivna texten som ordet ingår i, eller till och med information om författaren som skrivit texten. Det finns ofta många möjliga meningar som en källspråksmening kan översättas till och det är inte helt lätt att avgöra vilken som är lämpligast. Automatisk maskinöversättning är alltså en svår uppgift och dess historia har träffat på flera hinder att överkomma (Brown, o.a., 1990). Denna rapport kommer fokusera på statistisk maskinöversättning, dess uppbyggnad kommer förklaras och olika metoder presenteras med Philipp Koehns bok som grund (Koehn, Statistical Machine Translation, 2010). Inledningsvis presenteras en sammanfattning av maskinöversättningens historia och avslutningsvis diskuteras den statistiska metoden samt dess historia och framtid. Maskinöversättningens historia. Maskinöversättning syftar till att översätta en text från ett språk till ett annat med en automatisk översättningsprocess. De första idéerna om ett mekaniskt system för översättning kom på 1600-talet, för att överkomma språksvårigheter. I början av 1900-talet kom dock de första konkreta förslagen på hur ett sådant mekaniskt system skulle kunna se ut. Petr Smirnov-Troyanskii föreslog tre steg för maskinöversättning. Första steget konverterade källspråksmeningens ord till grundform, det andra steget översatte källspråkets grundformssekvens till en motsvarande mening i målspråket för att sedan i sista steget konvertera denna grundformsmening till normalform på målspråket. Troyanskii skapade en prototyp som klarade av det andra steget, men trodde att att de tre stegen skulle kunna bli mekaniserade i framtiden. Troyanskiis idéer blev inte särskillt uppmärksammade men 1949 presenterade Warren Weaver i en rapport flera metoder på maskinöversättning och det blev startskottet för området, 1952 hölls den första konferensen för maskinöversättning. Tidigt förstogs det att automatisk maskinöversättning skulle kräva långsiktigt forskande och utvecklande 1

5 för att klara av den språkliga komplexiteten. Den mänskliga inblandningen i systemet ville uteslutas och för att komma dit skulle det krävas mycket kapacitet hos systemet. Georgetown University Leon Dostert startade ett projekt tillsammans med IBM, vilket 1954 resulterade i det första maskinöversättningssystemet, vid demonstrationen översattes 49 ryska meningar till engelska, 250 ord användes och sex grammatiska regler. På 50- och 60-talet fortsatte utvecklingen, olika metoder testades och utvecklades, men få genombrott gjordes, mycket tid gick istället åt till att arbeta med och utveckla hårdvaran till systemen. Stora lexikon växte fram, främst engelska och ryska lexikon, som stod till hjälp för syntaktisk analys och synonymer mellan språken, likaså korpusar med grammatiska regler utvecklades, testades och reviderades. Under denna tid användes olika metoder, så som empiriska, statistiska, lingvistiska och grammatiska i flera kombinationer. Flera stora projekt forskade på maskinöversättning, men misslyckades att åstakomma ett komplett översättningssystem och trots att de flesta grupper forskade utan någon speciell framgång, ligger mycket av denna forskning till grund för den fortsatta forskningen inom maskinöversättning gav ALPAC (Automatic Language Processing Advisory Committee) ut en rapport där de menade att maskinöversättning var mycket långsammare och ineffektivare än mänsklig översättning och att det inte borde satsas mer pengar på maskinöversättning. Trots att rapporten blev hårt kritiserad gjorde den att maskinöversättningsforskning helt stannade upp i USA i nästan 10år, i Europa fortsatte dock forskningen med viss framgång, ett översättningssystem för väderprognoser togs fram och en grund till ett metaspråk för att kunna hantera lingvistiska ordföljder utvecklades. Stort fokus låg på olika interlingua för att kunna hitta logiska relationer i språken. I mitten av 70-talet ansågs dock att interlingua inte fungerade optimalt för maskinöversättning och forskning i området stannade upp. På 80-talet fick maskinöversättningsforskning fart och flera nya, funktionella system uppkom, fördelarna med maskinöversättning blev också mer kännt för allmänheten. Det fanns flera färdiga översättningar mellan språk, vilket minskade 2

6 kostnaderna, eftersom parsning mellan språken redan fanns tillgängligt. Det blev mer kommersiellt under detta årtionde och flera paketlösningar med många parade språk erbjöds. In på 90-talet kom en kunskapsbaserad metod som byggde på sju komponenter och kallades en meningsorienterad maskinöversättning i ett interlingua-paradigm. Fram till 90-talet var metoderna för maskinöversättning mycket inriktade på vilka regler det fanns kring språk och grammatik, dock övergick forskningen mer i en korpusbaserad metod. I slutet på 80-talet presenterade IBM ett experiment på maskinöversättning med statistisk metod med överraskande goda resultat. Statistiska metoder studerades på 60- talet, men utan några framgångsrika resultat och metoden förkastades. På 90-talet växte de korpusbaserade metoderna och blev mycket populära, dock fortsatte forskningen med regelbaserade metoder. Annorlunda från tidigare användes nu också ickelingvistiska regler och konceptuella regler för att översätta. (Hutchins, 1995) Statistisk metod I den statistiska metoden för maskinöversättning ingår tre komponenter; en översättningsmodell, en språkmodell och en avkodningsalgoritm, tilldelat översättningsmodellen och språkmodellen finns sannolikheter. Översättningsmodellens sannolikhet anger sannolikheten att källspråksmeningen är en översättning av målmeningen och språkmodellens sannolikhet är sannolikheten att källspråksmeningen är en korrekt mening på källspråket. Det sker en statistisk analys på källspråksmeningen och den parallella texten som bildar översättningsmodellen och en statistisk analys på källspråksmeningen som bildar språkmodellen, dessa två tillsammas avkodas och den mest troliga översättningsmeningen genereras (Brown, o.a., 1990). Brusiga kanalen. För att avgöra vilken av de möjliga meningarna för en översättning som är den lämpligaste krävs en parameterisering, det innebär att sannolikheter tilldelas meningarna och valet av meningen har en statistisk grund. Av alla 3

7 dessa möjliga meningar räknas en sannolikhet ut för varje meningspar P(K,M) där M är målspråksmeningen, alltså översättningen av källspråksmeningen och K är källspråksmeningen. P(M K) anger hur troligt det är att översättningen M är en översättning av källspråksmeningen K. Vid statistisk maskinöversättning används modellen för den brusiga kanalen, det bygger på ett antagande att en källspråksmening egentligen är en förvrängd mening av målspråksmeningen. Målspråksmeningen passerar en brusig kanal som gör att kanalen genererar meningen på källspråket. Uppgiften för översättaren blir då att återta den ursprungliga översättningen och räkna ut sannolikheten för att källspråksmeningen är en god översättning givet målspråksmeningen (Manning & Schutze, 1999). För att göra detta används Bayes teorem: En sannolikhet för att källspråksmeningen är en översättning av målspråksmeningen räknas ut genom att multiplicera P(M K) (förklarat ovan) med sannolikheten för källspråksmeningen P(K) delat med sannolikheten för målspråksmeningen P(M). Uppbyggnad. Nedan visas en illustration över hur sannolikheten för ett meningspar räknas ut genom de tre olika komponenterna. Utifrån språkmodellen fås en sannolikhet för källspråksmeningen och från översättningsmodellen fås en sannolikhet för målspråksmeningen givet källspråksmeningen, dessa multipliceras och en sannolikhet för meningsparet fås. Avkodaren tar sedan fram den översättning som har störst sannolikhet genom att söka efter den meningen som genererat högst sannolikhet (Brown, o.a., 1990). 4

8 Sannolikheten för språkmodellen. För att räkna ut sannolikheten för språkmodellen ser man till alla ord i meningen, vad är sannolikheten att detta ord är med i meningen givet att resten av orden är det? Detta görs med hjälp av n-gram modeller som anger sannolikheten för ett ord P(w) i förhållande till resten av meningen med hjälp av kedjeregeln P(w1, w2, w3 wn) = P(w1 w2) P(w2 w1) P(w3 w1, w2)... P(wn w1, w2 wn-1). Eftersom ett ord inte kan ses som en enskild parameter utan måste ses i förhållande till resten av meningen, kommer det bli otroligt många parametrar. För att hantera detta kan exempelvis kedjan inte se till hela meningssekvensen, utan endast till ett bestämt antal ord, detta kallas Markovantagande. Exempelvis kan en bigrammodell se ut såhär; P(w1, w2, w3 wn) = P(w1) P(w2 w1) P(w3 w2)... P(wn wn-1) och för att räkna ut sannolikheten för en ordföljd delas frekvensen av ordföljden w1,w2 med frekvensen av w1. Frekvensen är antal gånger ordföljden eller ordet uppkommer i en given korpus (Koehn, Statistical Machine Translation, 2010). Sannolikheten för översättningsmodellen. Det finns flera olika metoder för att beräkna sannolikheten för översättningsmodellen. Nedan presenteras de ordbaserade och frasbaserade metoderna, samt ett litet stycke om syntaxbaserad metod. 5

9 Ordbaserad metod. I ordbaserade modeller används översättning från ord till ord. Det ordet som har högst sannolikhet att översättas till utifrån ett parallellt korpus blir det ord som används. Parallella korpusar är stora datamängder med översättningar mellan språk och ett exempel är Europarl som är ett stort korpus för europeiska språk, utformat för statistiska maskinöversättningsystem. Korpuset innehåller totalt 12 textmängder på olika versioner av europeiska språk (Koehn, Europarl: A Parallel Corpus for Statistical Machine Translation, 2005). Ordningen på orden i en mening som översätts överensstämmer inte alltid mellan språken och för att justera ordningen används en alignmentfunktion. I funktionen anges vilken position ordet har i källspråksmeningen och vilken position det har i målspråksmeningen, exempelvis; a : {1 1, 2 3, 3 2} ordet som är placerat på plats nr 1 i källspråksmeningen har också placering 1 i målspråksmeningen, ordet på placering 2 har dock placering 3 i målspråksmeningen. Med hjälp av denna funktion anges också om målspråksmeningen har fler eller färre ord än källspråksmeningen, eller om en översättning av ett ord ger två ord och vice versa. För att generera en sannolikhet genom en generativ modell används denna formel; e = källspråksmeningen le = längden på källspråksmeningen a = alignment för alla orden i källmeningen till orden i målmeningen f = målspråksmeningen lf = längden på målspråksmeningen E = en normaliseringskonstant Syftet är att räkna ut sannolikheten för källspråksmeningen och ordningen, givet målspråksmeningen genom att multiplicera alla ordpars sannolikheter som ingår i 6

10 meningen med den ordningen på orden som alignmentfunktionen angett. Detta multipliceras sedan med normaliseringskonstanten delat med målspråksmeningens längd plus 1, upphöjt till källspråksmeningens längd. För att räkna ut sannolikheten för ordpar krävs att det finns tillgängliga ordlänkningar mellan orden men fullständiga ordlänkningar är inte alltid tillgängliga via korpusar. Problemet som översättaren då står inför är att om ordlänkningarna finns tillgängliga kan sannolikheten för modellen räknas ut, och om modellen finns tillgänglig kan sannolikheten för ordlänkningarna räknas ut, ofta finns ingen av dessa tillgängliga. För att lösa detta används EM-algoritm (Expectation maximization), algoritmen tilldelar sannolikheter för att göra modellen komplett och tränar sedan modellen i en iterativ process för att söka efter och skatta sannolikheter för ordlänkningarna (Koehn, Statistical Machine Translation, 2010). Frasbaserad. Istället för att översätta enstaka ord översätts hela fraser vid frasbaserad metod, då kan exempelvis den aktuella kontexten påverka översättningen. Källspråksmeningen delas först upp i fraser som ska översättas till målspråket, längre sekvenser av ord översätts då och uttryck kan få en bättre översättning änenstaka ord. Denna metod ser till lexikala och morfologiska variationer och även fyllnadsord inkluderas i översättningarna, vilket gör översättningarna fylligare. För att räkna ut sannolikheten för frasöversättningen används denna funktion: O = sannolikheten för översättningen d = sannolikheten för placeringen För att räkna ut sannolikheten för den översatta frasen f givet källspråksfrasen e multipliceras översättningssannolikheterna för alla fraspar. Detta multipliceras i sin tur med sannolikheterna för placeringen av fraserna. 7

11 För att räkna ut sannolikheten för frasöversättningen används denna formel; Frekvensen av meningsparet (e,f) delas med summan av alla möjliga fraser i källspråket som är länkat till målspråksfrasen. Placeringen av fraserna har betydelse eftersom det är större chans att det är en korrekt översättning om fraserna i meningsparet har samma eller liknande placering som källspråksfrasen. För att räkna ut sannolikheten för placeringen används ett poängssytem som anger hur nära i placering de olika målspråksfraserna ligger källspråksfraserna. Poängen växer exponensiellt, det vill säga att om en fras ligger långt ifrån källspråksfrasen påverkas sannolikheten mycket, medan en liten distans mellan fraserna påverkar sannolikheten lite (Koehn, Statistical Machine Translation, 2010). Fraserna vid frasbaserad översättning är inte indelade i grammatiska fraser så som nominalfraser eller verbfraser, utan icke-grammatiska fraser används, utan några regler tilldelade sig. En annan typ av frasbaserad översättning är syntaxbaserad översättning som använder sig av syntaktiska regler för att översätta en mening, exempelvis används ordklasser eller grammatiska fraser som grund till översättningen. En syntaktisk parser genererar grammatiska strukturer från texter och en sådan använder sig av synkron kontextfri grammatik för att parsa två olika meningar och bilda syntaktiska träd vid översättning. Synkron kontextfri grammatik är sammanfogade grammatiska regler kopplade till två språk, alltså en grammatisk regel för ett språk, matchat med en likvärdig grammatisk regel för ett annat (Koehn, Och, & Marcu, Statistical Phrase-Based Translation, 2003). Avkodaren. Vid avkodningen är målet att hitta den översättningen med högst sannolikhet. Detta är ett exempel på hur detta beräknas vid frasbaserad översättning; 8

12 För att beräkna vilken översättning som har högst sannolikhet multipliceras sannolikheten för den frasbaserade översättningen med placeringssannolikheten och sannolikheten från språkmodellen. argmax står för den kombination som ger det maximala värdet på e, alltså målspråksmeningen. Avkodningen är ett sökproblem som ska hitta den kombination som ger det maximala värdet, ett sådant problem kan snabbt växa exponensiellt och bli ett komplext problem. Det finns olika sökmetoder för att hitta den bästa översättningen och för att lösa sökproblemet. Ett exempel är genom hypotesexpansion, där varje fras i meningen genererar de möjliga efterkommande fraserna i översättningen tillsammans med en sannolikhet och när alla hypoteser genererats väljs den väg med högst sannolikhet. För att lösa problemet med en stor sökrymd används rekombination och nedskrärning. Rekombination kombinerar sökvägar som matchar varandra och nedskärning utesluter dåliga översättningar tidigt i processen. Sådana översättningar som tidigt kan identifieras som olämpliga tas bort och på så sätt minskas sökproblemet och blir hanterbart för systemet. Exempel på andra metoder är A* eller greedy hill climbing som kan användas för att hitta det maximala värdet på översättningen (Koehn, Statistical Machine Translation, 2010). Utvärdering. Det finns olika sätt att utvärdera ett maskinöversättningssystem, helt mänskliga metoder och även automatiska. Automatiska utvärderingar är fördelaktiga då de är billiga och konsekventa till skillnad från de mänskliga metoderna som är tidskrävande och därför dyra. Ett automatiskt utvärdenringssystem använder sig av den översatta meningen gjord av översättningssytemet och en korrekt översättning gjord av en människa och med hjälp av dessa två meningarna utvärderas hur väl systemets mening stämmer överens med den mänskligt översatta meningen (Koehn, Statistical Machine Translation, 2010). 9

13 Ett exempel på ett utvärderingssystem är BLEU som bygger på att en maskinöversättning ska vara så lik en mänsklig översättning som möjligt. Det systemet behöver är en numrerisk metrik som anger hur nära översättningen är och ett parallellt korpus som översättningen kan jämföras mot. För att räkna ut närheten i översättningen används word error rate (WER). WER är en metod som bland annat används för taligenkänning och syftar till att minimera antalet steg för att översätta ett ord till ett annat. Detta mäts med Levenshteinavståndet, som anger likheten hos två meningar. Det finns fyra olika operationer för att räkna ut Levenshteinavståndet, dessa är; (1) borttagning, när systemet tagit bort ett ord ur meningen, (2) tilläggning, när systemet har lagt till ett ord i meningen, (3) substituering, när systemet har bytt ut ett ord i meningen och (4) matchning, när ordet är detsamma. Matchning av ord ger inga poäng, annars räknas avståndet ut genom att addera förekomster av operationerna delat med källspråksmeningens längd. BLEU använder sig främst av jämförelser av n-grams från översättningen med n- grams från referensöversättningarna. Till att börja med räknas antal n-gram matchningar oberoende på placeringen av orden och utifrån dessa frekvenser räknas precisionen ut. Precisionen räknas ut genom att dela antalet matchningar med det totala antalet ord i översättningen. Denna metod används inte enbart på 1-gram, utan på flera och även större sekvenser av meningar i större texter. Vid hög precision på 1-gram anger lämplighet, medan hög precision på större sekvenser anger bra flyt i meningen. Koncishetsstraff läggs till ifall den översatta textens längd inte stämmer överens med referenstextens längd och straffet räknas ut genom att summera de bäst längsmatchade meningarna i översättningen och dela dessa med antal ord i referenstexten. Koncishetsstraffet kan alltså vara mellan 0 och 1 där 1 är en bra översättning. För att räkna ut BLEU-metriken för ett system multipliceras testkorpusens geometriska medelvärde av precisionspoängen med ett exponensiellt koncishetsstraff. BLEU-metriken anges mellan 0 och 1, där 1 är bäst (Papineni, Roukos, Ward, & Zhu, 2002). 10

14 Diskussion Statistisk maskinöversättning är liksom maskinöversättning generellt är ett ungt forskningsområde som är i startgropen i forskningen. Det är ett nytt och explorativt område vilket gör att många olika metoder och varianter undersöks. Genom historien har flera metoder förkastats för att sedan tas upp igen eftersom de problemområden som var svåra att bemästra, nu kan lösas med mer mogen teknik och de resurser som fattades tidigare finns nu åtkomlig. Även större korpusar växer fram och har möjligheten att bli mer genomarbetade, vilket ger större möjlighet till robustare system med högre sannolikheter. Det finns också ett ökande kommersiellt intresse i området, vilket kan resultera i ökade resurser för att skapa en stadig grund för maskinöversättning att stå på i framtiden. Grundtanken att maskinöversättningssystem ska vara helt oberoende av mänsklig översättning verkar dock vara svår att uppfylla. Exempelvis används översättningar gjorda av människor för att träna maskinöversättare på, det är fortfarande människor som gör de lämpligaste översättningarna, då kontext och andra externa influenser har stor påverkan på betydelsen av en mening. En ny metod för maskinöversättning är neurala nätverk som ska kunna se till semantisk information och som är robusta för inlärning och representation. Denna metod kombinerar semantisk och syntaktisk information till både ord, fraser och strukturer (Zhang & Zong, 2015). Neurala när verkar då vara en metod för framtiden då den kombinerar flera av de andra metoderna och har en större kapacitet än de andra, främst för inlärning som kan leda till att människan kommer ha mindre och mindre delaktighet i maskinöversättningssystem i framtiden. Slutsats. Maskinöversättning är ett relativt forskningsområde som är i en utvecklande fas, olika metoder växer fram och resurserna blir mer och mer stabila. Med tillgång till dagens teknik har maskinöversättning stor chans att överkomma de nuvarande problemen och bli en helt automatisk översättningsmetod, utan mänsklig inblandning. 11

15 12

16 Referenser Brown, P. F., Cocke, J., Della Pietra, S. A., Della Pietra, V. J., Jalineck, F., Lafferty, J. D., o.a. (1990). A Statistical Approach to Machine Translation. Computunal Linguistics, Hutchins, J. W. (1995). Machine Translation: A Brief History. Concise history of the language sciences: from the Sumerians to the cognivists, Koehn, P. (2005). Europarl: A Parallel Corpus for Statistical Machine Translation. Edinburgh: School of informatics. Koehn, P. (2010). Statistical Machine Translation. Cambridge: Cambridge University Press. Koehn, P., Och, F. J., & Marcu, D. (2003). Statistical Phrase-Based Translation. 03 Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology (ss ). Stroudsburg: Association for Computational Linguistics. Manning, C. D., & Schutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. 02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ss ). Stroudsburg: Association for Computational Linguistics. Zhang, J., & Zong, C. (2015). Deep Neural Networks in Machine Translation: An Overview. Intelligent Systems, IEEE,

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...

Läs mer

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell

Läs mer

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...

Läs mer

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder 1 Leibniz, tidigt 1600 tal Descartes, tidigt 1600 tal Petr Smirnov

Läs mer

Maskinöversättning 2008

Maskinöversättning 2008 Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning LABEL byta SOURCE =byta.vb.1 TARGET =change.vb.1 TRANSFER LABEL byta-filter SOURCE

Läs mer

Cristina Eriksson oktober 2001

Cristina Eriksson oktober 2001 Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Statistisk Maskinöversättning eller:

Statistisk Maskinöversättning eller: 729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...

Läs mer

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G Statistisk Maskinöversättning Anna Prytz Lillkull 729G11 annpr075@student.liu.se 2010-10-03 Innehållförteckning Inledning...3 Bakgund...3 Uppkomsten av maskinöversättning... 3 Ökat intresse för statistisk

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

Språkteknologi (SV2122) Föreläsning 9: Översättning

Språkteknologi (SV2122) Föreläsning 9: Översättning Språkteknologi (SV2122) Föreläsning 9: Översättning Richard Johansson richard.johansson@svenska.gu.se 26 februari 2014 översikt inledning: vad är översättning? djupa metoder: datorn läser och förstår texten

Läs mer

MÖSG ht 2005 Maskinöversättningssystemet MATS

MÖSG ht 2005 Maskinöversättningssystemet MATS MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

SMT = ickefixerad maskinöversättning?

SMT = ickefixerad maskinöversättning? SMT = ickefixerad maskinöversättning? Richard Larsson (Linköpings universitet, 2016) 1 Introduktion För formella språk gäller bl.a. att det finns en exakt definierad uppsättning regler, som kallas för

Läs mer

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Korpusbaserad Maskinöversättning

Korpusbaserad Maskinöversättning Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

- ett statistiskt fråga-svarsystem

- ett statistiskt fråga-svarsystem - ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Vad är maskinöversättning?

Vad är maskinöversättning? Joakim Nivre 1 / 37 Vad är maskinöversättning? Översättning är att överföra texter från ett (mänskligt) språk (källspråket) till ett annat (målspråket) på ett sätt som bevarar betydelsen () automatiserar

Läs mer

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954 Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i

Läs mer

Kommunikation och Interaktion

Kommunikation och Interaktion Kommunikation och Interaktion Innehåll Kommunikation Vad är Kommunikation? Kommunikationsmodeller Interaktion Vad är interaktion? Interaktionsmodeller Vad är kommunikation? Överföring av information från

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Maskinöversättning. F Anna Sågvall Hein

Maskinöversättning. F Anna Sågvall Hein Maskinöversättning F1 2008 Anna Sågvall Hein Vad menas med maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

HKGBB0, Artificiell intelligens

HKGBB0, Artificiell intelligens HKGBB0, Artificiell intelligens Kortfattade lösningsförslag till tentan 3 november 2005 Arne Jönsson 1. Vad karaktäriserar dagens AI-forskning jämfört med den AI-forskning som bedrevs perioden 1960-1985.

Läs mer

Pre-editering och maskinöversättning. Convertus AB

Pre-editering och maskinöversättning. Convertus AB Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning

Läs mer

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN MASKINÖVERSÄTTNING Datorn behöver statistik och grammatik ANNA SÅGVALL HEIN Det är lätt att skoja med en del resultat av maskinöversättning: Vad kan vi lära av det blir What can we faith of it. Då gör

Läs mer

Stina Nyman 2012-09-16

Stina Nyman 2012-09-16 LINKOPINGS UNIVERSITET, IDA SmartKom Hur systemet fungerar Stina Nyman 2012-09-16 stiny786 Artificiell intelligens II Sammanfattning Detta projekt kommer handla om SmartKom som är ett multimodalt dialogsystem

Läs mer

Ansiktsigenkänning med MATLAB

Ansiktsigenkänning med MATLAB Ansiktsigenkänning med MATLAB Avancerad bildbehandling Christoffer Dahl, Johannes Dahlgren, Semone Kallin Clarke, Michaela Ulvhammar 12/2/2012 Sammanfattning Uppgiften som gavs var att skapa ett system

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Mobil tolkningsapp för ambulanspersonalen

Mobil tolkningsapp för ambulanspersonalen Mobil tolkningsapp för ambulanspersonalen Metis Forum, Göteborg, 22 februari 2018 Aarne Ranta1,2, Krasimir Angelov1,2, Robert Höglind3, Christer Axelsson3,4, Leif Sandsjö4,5 1 Chalmers University of Technology/University

Läs mer

Maskinöversättning. Johan Boye, KTH

Maskinöversättning. Johan Boye, KTH Maskinöversättning Johan Boye, KTH Rosetta-stenen Världens mest kända parallellkorpus(från 190 f.kr) En text tre språk: Egyptiska hieroglyfer Egyptisk s.k. demotisk text Klassisk grekiska Ledde till att

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0 Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East Digital inkludering i det uppkopplade samhället för grupper med speciella behov Arne Jönsson Linköpings universitet och RISE SICS East Inkludering av alla medborgare i det digitala samhället Utlandsfödda

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Vägar till bättre översättningsprogram

Vägar till bättre översättningsprogram Vägar till bättre översättningsprogram Aarne Ranta, Thomas Hallgren, Krasimir Angelov Data- och informationsteknik Göteborgs universitet & Chalmers tekniska högskola Vetenskapsfestivalen 8 maj 2014, Göteborg

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

Neurolingvistik - Grammatik

Neurolingvistik - Grammatik Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -

Läs mer

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014 Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng

Läs mer

Synonymutvärdering: Synonymlexikon slår ordvektormetod. Anna Westin Augusti 2018

Synonymutvärdering: Synonymlexikon slår ordvektormetod. Anna Westin Augusti 2018 Synonymvärdering: Synonymlexikon slår ordvektormetod Anna Westin Augusti 2018 1 1 Abstrakt En synonymvärdering fördes genom en onlinenkät, och resultatet blev att det nuvarande synonymlexikonet vi använder

Läs mer

Vardagssituationer och algebraiska formler

Vardagssituationer och algebraiska formler Modul: Algebra Del 7: Kommunikation i algebraklassrummet Vardagssituationer och algebraiska formler Cecilia Kilhamn, Göteborgs Universitet och Jörgen Fors, Linnéuniversitetet En viktig del av algebran

Läs mer

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Prototypbaserad Inkrementell Diagnos. Anders Holst SICS, Swedish Institute of Computer Science AB

Prototypbaserad Inkrementell Diagnos. Anders Holst SICS, Swedish Institute of Computer Science AB Prototypbaserad Inkrementell Diagnos Anders Holst SICS, Swedish Institute of Computer Science AB Metoder för Industriell Diagnos Datadrivna metoder Träna in en mappning från symptom till diagnoser. Kräver

Läs mer

Maskinöversättning 2008

Maskinöversättning 2008 Maskinöversättning 2008 F7 Maskinöversättningens mål och möjligheter Systematiska språkskillnader sv-en sv-ty sv-fr sv-sp sv-ry Hur kan de beskrivas? Ge konkreta exempel. Hur kan de tas om hand i maskinöversättningen?

Läs mer

NEURAL MASKINÖVERSÄTTNING

NEURAL MASKINÖVERSÄTTNING Linköpings universitet 729G43 NEURAL MASKINÖVERSÄTTNING Moa Wallin Inledning Manuell översättning är en mycket tidskrävande process som kräver stor kunskap och bred kompetens och behovet av översättning

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt.

Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt. Kunskapsgraf Fredrik Åkerberg j.f.akerberg@gmail.com Tommy Kvant tommy.kvant@gmail.com 1 Introduktion Målet med projektet var att undersöka huruvida DBpedia.org, kan användas för att besvara frågor på

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Convertus - kursplaneöversättning

Convertus - kursplaneöversättning Utbildningsavdelningen 2017-10-25 Convertus - kursplaneöversättning Innehåll Om Convertus kursplaneöversättning... 2 Så fungerar det... 2 Tre olika användarroller... 2 Arbetsgång... 3 Filnamn... 3 1. Beställa

Läs mer

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen

Läs mer

Statistisk mönsterigenkänning

Statistisk mönsterigenkänning Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

Textforskningen och dess metoder idag

Textforskningen och dess metoder idag Textforskningen och dess metoder idag Forum for textforskning 9 Göteborg, 12-13/6 2014 Orla Vigsø JMG Finns textforskningen? Vad är det vi gör när vi håller på med textforskning? I praktiken två huvudspår:

Läs mer

Introduktion till språkteknologi

Introduktion till språkteknologi Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.

Läs mer

Kommentarer till bedömningsmatris för Skriva Kurs C

Kommentarer till bedömningsmatris för Skriva Kurs C Kommentarer till bedömningsmatris för Skriva Kurs C Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar ett första intryck och är en övergripande

Läs mer

Vad behövs för att skapa en tillståndsrymd?

Vad behövs för att skapa en tillståndsrymd? OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation Innehåll Föreläsning 11 Trie Sökträd Trie och Sökträd 356 357 Trie Ytterligare en variant av träd. Vi har tidigare sett: Oordnat träd där barnen till en nod bildar en mängd Ordnat träd där barnen till

Läs mer

Kontextfria grammatiker

Kontextfria grammatiker Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)

Läs mer

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande

Läs mer

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum Stöd för webbredaktörer att skapa mer tillgängliga texter Projektet har utvecklat Internet i Sverige Projektet var framgångsrikt Projektet nådde målen Projektet höll budgeten Projektet höll tidsplanen

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

Online MT output (EN-SE) Kriterier på bra översättning

Online MT output (EN-SE) Kriterier på bra översättning Språkteknologi vt09: Maskinöversättning Användning av maskinöversättning Automatisk översättning Användning, problem, utvärdering Olika metoder Direktöversättning Transfer Interlingua Statistisk MT Automatgenerering

Läs mer

VAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK

VAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK VAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK C2 Bild: Wikipedia C1 B2 B1 A2 Bild: Wikipedia A1 inläraren

Läs mer

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet www.sprakenshus.se https://larportalen.skolverket.se/#/modul/4- specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet Faktorer av betydelse för en flerspråkig utveckling Sociala faktorer

Läs mer

Ett urval D/A- och A/D-omvandlare

Ett urval D/A- och A/D-omvandlare Ett urval D/A- och A/D-omvandlare Om man vill ansluta en mikrodator (eller annan digital krets) till sensorer och givare så är det inga problem så länge givarna själva är digitala. Strömbrytare, reläer

Läs mer

Machine Translation MÖSG F Anna Sågvall Hein

Machine Translation MÖSG F Anna Sågvall Hein Machine Translation MÖSG F1 2007 Anna Sågvall Hein Vad är maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och

Läs mer

Auktorisation som tolk

Auktorisation som tolk PROVSPECIFIKATION Auktorisation som tolk Prov i allmän språkfärdighet Sid 2 (6) 2014-04-24 Prov i språkfärdighet För att kunna bli auktoriserad som tolk krävs bland annat att man ska behärska svenska och

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer