Statistisk maskinöversättning

Save this PDF as:
 WORD  PNG  TXT  JPG

Storlek: px
Starta visningen från sidan:

Download "Statistisk maskinöversättning"

Transkript

1 Statistisk maskinöversättning Åsa Holmqvist Asaho232 Artificiell Intelligens 729G43

2

3 Innehållsförteckning Introduktion... 1 Maskinöversättningens historia Statistisk metod... 3 Brusiga kanalen Uppbyggnad Sannolikheten för språkmodellen Sannolikheten för översättningsmodellen Avkodaren Utvärdering Diskussion Slutsats Referenser... 1

4 Introduktion Översättning från ett språk till ett annat är en svår uppgift som kräver stor förståelse för både källspråket och målspråket som en text ska översättas till. Att översätta ett enstaka ord kan kräva information om kontexten till den skrivna texten som ordet ingår i, eller till och med information om författaren som skrivit texten. Det finns ofta många möjliga meningar som en källspråksmening kan översättas till och det är inte helt lätt att avgöra vilken som är lämpligast. Automatisk maskinöversättning är alltså en svår uppgift och dess historia har träffat på flera hinder att överkomma (Brown, o.a., 1990). Denna rapport kommer fokusera på statistisk maskinöversättning, dess uppbyggnad kommer förklaras och olika metoder presenteras med Philipp Koehns bok som grund (Koehn, Statistical Machine Translation, 2010). Inledningsvis presenteras en sammanfattning av maskinöversättningens historia och avslutningsvis diskuteras den statistiska metoden samt dess historia och framtid. Maskinöversättningens historia. Maskinöversättning syftar till att översätta en text från ett språk till ett annat med en automatisk översättningsprocess. De första idéerna om ett mekaniskt system för översättning kom på 1600-talet, för att överkomma språksvårigheter. I början av 1900-talet kom dock de första konkreta förslagen på hur ett sådant mekaniskt system skulle kunna se ut. Petr Smirnov-Troyanskii föreslog tre steg för maskinöversättning. Första steget konverterade källspråksmeningens ord till grundform, det andra steget översatte källspråkets grundformssekvens till en motsvarande mening i målspråket för att sedan i sista steget konvertera denna grundformsmening till normalform på målspråket. Troyanskii skapade en prototyp som klarade av det andra steget, men trodde att att de tre stegen skulle kunna bli mekaniserade i framtiden. Troyanskiis idéer blev inte särskillt uppmärksammade men 1949 presenterade Warren Weaver i en rapport flera metoder på maskinöversättning och det blev startskottet för området, 1952 hölls den första konferensen för maskinöversättning. Tidigt förstogs det att automatisk maskinöversättning skulle kräva långsiktigt forskande och utvecklande 1

5 för att klara av den språkliga komplexiteten. Den mänskliga inblandningen i systemet ville uteslutas och för att komma dit skulle det krävas mycket kapacitet hos systemet. Georgetown University Leon Dostert startade ett projekt tillsammans med IBM, vilket 1954 resulterade i det första maskinöversättningssystemet, vid demonstrationen översattes 49 ryska meningar till engelska, 250 ord användes och sex grammatiska regler. På 50- och 60-talet fortsatte utvecklingen, olika metoder testades och utvecklades, men få genombrott gjordes, mycket tid gick istället åt till att arbeta med och utveckla hårdvaran till systemen. Stora lexikon växte fram, främst engelska och ryska lexikon, som stod till hjälp för syntaktisk analys och synonymer mellan språken, likaså korpusar med grammatiska regler utvecklades, testades och reviderades. Under denna tid användes olika metoder, så som empiriska, statistiska, lingvistiska och grammatiska i flera kombinationer. Flera stora projekt forskade på maskinöversättning, men misslyckades att åstakomma ett komplett översättningssystem och trots att de flesta grupper forskade utan någon speciell framgång, ligger mycket av denna forskning till grund för den fortsatta forskningen inom maskinöversättning gav ALPAC (Automatic Language Processing Advisory Committee) ut en rapport där de menade att maskinöversättning var mycket långsammare och ineffektivare än mänsklig översättning och att det inte borde satsas mer pengar på maskinöversättning. Trots att rapporten blev hårt kritiserad gjorde den att maskinöversättningsforskning helt stannade upp i USA i nästan 10år, i Europa fortsatte dock forskningen med viss framgång, ett översättningssystem för väderprognoser togs fram och en grund till ett metaspråk för att kunna hantera lingvistiska ordföljder utvecklades. Stort fokus låg på olika interlingua för att kunna hitta logiska relationer i språken. I mitten av 70-talet ansågs dock att interlingua inte fungerade optimalt för maskinöversättning och forskning i området stannade upp. På 80-talet fick maskinöversättningsforskning fart och flera nya, funktionella system uppkom, fördelarna med maskinöversättning blev också mer kännt för allmänheten. Det fanns flera färdiga översättningar mellan språk, vilket minskade 2

6 kostnaderna, eftersom parsning mellan språken redan fanns tillgängligt. Det blev mer kommersiellt under detta årtionde och flera paketlösningar med många parade språk erbjöds. In på 90-talet kom en kunskapsbaserad metod som byggde på sju komponenter och kallades en meningsorienterad maskinöversättning i ett interlingua-paradigm. Fram till 90-talet var metoderna för maskinöversättning mycket inriktade på vilka regler det fanns kring språk och grammatik, dock övergick forskningen mer i en korpusbaserad metod. I slutet på 80-talet presenterade IBM ett experiment på maskinöversättning med statistisk metod med överraskande goda resultat. Statistiska metoder studerades på 60- talet, men utan några framgångsrika resultat och metoden förkastades. På 90-talet växte de korpusbaserade metoderna och blev mycket populära, dock fortsatte forskningen med regelbaserade metoder. Annorlunda från tidigare användes nu också ickelingvistiska regler och konceptuella regler för att översätta. (Hutchins, 1995) Statistisk metod I den statistiska metoden för maskinöversättning ingår tre komponenter; en översättningsmodell, en språkmodell och en avkodningsalgoritm, tilldelat översättningsmodellen och språkmodellen finns sannolikheter. Översättningsmodellens sannolikhet anger sannolikheten att källspråksmeningen är en översättning av målmeningen och språkmodellens sannolikhet är sannolikheten att källspråksmeningen är en korrekt mening på källspråket. Det sker en statistisk analys på källspråksmeningen och den parallella texten som bildar översättningsmodellen och en statistisk analys på källspråksmeningen som bildar språkmodellen, dessa två tillsammas avkodas och den mest troliga översättningsmeningen genereras (Brown, o.a., 1990). Brusiga kanalen. För att avgöra vilken av de möjliga meningarna för en översättning som är den lämpligaste krävs en parameterisering, det innebär att sannolikheter tilldelas meningarna och valet av meningen har en statistisk grund. Av alla 3

7 dessa möjliga meningar räknas en sannolikhet ut för varje meningspar P(K,M) där M är målspråksmeningen, alltså översättningen av källspråksmeningen och K är källspråksmeningen. P(M K) anger hur troligt det är att översättningen M är en översättning av källspråksmeningen K. Vid statistisk maskinöversättning används modellen för den brusiga kanalen, det bygger på ett antagande att en källspråksmening egentligen är en förvrängd mening av målspråksmeningen. Målspråksmeningen passerar en brusig kanal som gör att kanalen genererar meningen på källspråket. Uppgiften för översättaren blir då att återta den ursprungliga översättningen och räkna ut sannolikheten för att källspråksmeningen är en god översättning givet målspråksmeningen (Manning & Schutze, 1999). För att göra detta används Bayes teorem: En sannolikhet för att källspråksmeningen är en översättning av målspråksmeningen räknas ut genom att multiplicera P(M K) (förklarat ovan) med sannolikheten för källspråksmeningen P(K) delat med sannolikheten för målspråksmeningen P(M). Uppbyggnad. Nedan visas en illustration över hur sannolikheten för ett meningspar räknas ut genom de tre olika komponenterna. Utifrån språkmodellen fås en sannolikhet för källspråksmeningen och från översättningsmodellen fås en sannolikhet för målspråksmeningen givet källspråksmeningen, dessa multipliceras och en sannolikhet för meningsparet fås. Avkodaren tar sedan fram den översättning som har störst sannolikhet genom att söka efter den meningen som genererat högst sannolikhet (Brown, o.a., 1990). 4

8 Sannolikheten för språkmodellen. För att räkna ut sannolikheten för språkmodellen ser man till alla ord i meningen, vad är sannolikheten att detta ord är med i meningen givet att resten av orden är det? Detta görs med hjälp av n-gram modeller som anger sannolikheten för ett ord P(w) i förhållande till resten av meningen med hjälp av kedjeregeln P(w1, w2, w3 wn) = P(w1 w2) P(w2 w1) P(w3 w1, w2)... P(wn w1, w2 wn-1). Eftersom ett ord inte kan ses som en enskild parameter utan måste ses i förhållande till resten av meningen, kommer det bli otroligt många parametrar. För att hantera detta kan exempelvis kedjan inte se till hela meningssekvensen, utan endast till ett bestämt antal ord, detta kallas Markovantagande. Exempelvis kan en bigrammodell se ut såhär; P(w1, w2, w3 wn) = P(w1) P(w2 w1) P(w3 w2)... P(wn wn-1) och för att räkna ut sannolikheten för en ordföljd delas frekvensen av ordföljden w1,w2 med frekvensen av w1. Frekvensen är antal gånger ordföljden eller ordet uppkommer i en given korpus (Koehn, Statistical Machine Translation, 2010). Sannolikheten för översättningsmodellen. Det finns flera olika metoder för att beräkna sannolikheten för översättningsmodellen. Nedan presenteras de ordbaserade och frasbaserade metoderna, samt ett litet stycke om syntaxbaserad metod. 5

9 Ordbaserad metod. I ordbaserade modeller används översättning från ord till ord. Det ordet som har högst sannolikhet att översättas till utifrån ett parallellt korpus blir det ord som används. Parallella korpusar är stora datamängder med översättningar mellan språk och ett exempel är Europarl som är ett stort korpus för europeiska språk, utformat för statistiska maskinöversättningsystem. Korpuset innehåller totalt 12 textmängder på olika versioner av europeiska språk (Koehn, Europarl: A Parallel Corpus for Statistical Machine Translation, 2005). Ordningen på orden i en mening som översätts överensstämmer inte alltid mellan språken och för att justera ordningen används en alignmentfunktion. I funktionen anges vilken position ordet har i källspråksmeningen och vilken position det har i målspråksmeningen, exempelvis; a : {1 1, 2 3, 3 2} ordet som är placerat på plats nr 1 i källspråksmeningen har också placering 1 i målspråksmeningen, ordet på placering 2 har dock placering 3 i målspråksmeningen. Med hjälp av denna funktion anges också om målspråksmeningen har fler eller färre ord än källspråksmeningen, eller om en översättning av ett ord ger två ord och vice versa. För att generera en sannolikhet genom en generativ modell används denna formel; e = källspråksmeningen le = längden på källspråksmeningen a = alignment för alla orden i källmeningen till orden i målmeningen f = målspråksmeningen lf = längden på målspråksmeningen E = en normaliseringskonstant Syftet är att räkna ut sannolikheten för källspråksmeningen och ordningen, givet målspråksmeningen genom att multiplicera alla ordpars sannolikheter som ingår i 6

10 meningen med den ordningen på orden som alignmentfunktionen angett. Detta multipliceras sedan med normaliseringskonstanten delat med målspråksmeningens längd plus 1, upphöjt till källspråksmeningens längd. För att räkna ut sannolikheten för ordpar krävs att det finns tillgängliga ordlänkningar mellan orden men fullständiga ordlänkningar är inte alltid tillgängliga via korpusar. Problemet som översättaren då står inför är att om ordlänkningarna finns tillgängliga kan sannolikheten för modellen räknas ut, och om modellen finns tillgänglig kan sannolikheten för ordlänkningarna räknas ut, ofta finns ingen av dessa tillgängliga. För att lösa detta används EM-algoritm (Expectation maximization), algoritmen tilldelar sannolikheter för att göra modellen komplett och tränar sedan modellen i en iterativ process för att söka efter och skatta sannolikheter för ordlänkningarna (Koehn, Statistical Machine Translation, 2010). Frasbaserad. Istället för att översätta enstaka ord översätts hela fraser vid frasbaserad metod, då kan exempelvis den aktuella kontexten påverka översättningen. Källspråksmeningen delas först upp i fraser som ska översättas till målspråket, längre sekvenser av ord översätts då och uttryck kan få en bättre översättning änenstaka ord. Denna metod ser till lexikala och morfologiska variationer och även fyllnadsord inkluderas i översättningarna, vilket gör översättningarna fylligare. För att räkna ut sannolikheten för frasöversättningen används denna funktion: O = sannolikheten för översättningen d = sannolikheten för placeringen För att räkna ut sannolikheten för den översatta frasen f givet källspråksfrasen e multipliceras översättningssannolikheterna för alla fraspar. Detta multipliceras i sin tur med sannolikheterna för placeringen av fraserna. 7

11 För att räkna ut sannolikheten för frasöversättningen används denna formel; Frekvensen av meningsparet (e,f) delas med summan av alla möjliga fraser i källspråket som är länkat till målspråksfrasen. Placeringen av fraserna har betydelse eftersom det är större chans att det är en korrekt översättning om fraserna i meningsparet har samma eller liknande placering som källspråksfrasen. För att räkna ut sannolikheten för placeringen används ett poängssytem som anger hur nära i placering de olika målspråksfraserna ligger källspråksfraserna. Poängen växer exponensiellt, det vill säga att om en fras ligger långt ifrån källspråksfrasen påverkas sannolikheten mycket, medan en liten distans mellan fraserna påverkar sannolikheten lite (Koehn, Statistical Machine Translation, 2010). Fraserna vid frasbaserad översättning är inte indelade i grammatiska fraser så som nominalfraser eller verbfraser, utan icke-grammatiska fraser används, utan några regler tilldelade sig. En annan typ av frasbaserad översättning är syntaxbaserad översättning som använder sig av syntaktiska regler för att översätta en mening, exempelvis används ordklasser eller grammatiska fraser som grund till översättningen. En syntaktisk parser genererar grammatiska strukturer från texter och en sådan använder sig av synkron kontextfri grammatik för att parsa två olika meningar och bilda syntaktiska träd vid översättning. Synkron kontextfri grammatik är sammanfogade grammatiska regler kopplade till två språk, alltså en grammatisk regel för ett språk, matchat med en likvärdig grammatisk regel för ett annat (Koehn, Och, & Marcu, Statistical Phrase-Based Translation, 2003). Avkodaren. Vid avkodningen är målet att hitta den översättningen med högst sannolikhet. Detta är ett exempel på hur detta beräknas vid frasbaserad översättning; 8

12 För att beräkna vilken översättning som har högst sannolikhet multipliceras sannolikheten för den frasbaserade översättningen med placeringssannolikheten och sannolikheten från språkmodellen. argmax står för den kombination som ger det maximala värdet på e, alltså målspråksmeningen. Avkodningen är ett sökproblem som ska hitta den kombination som ger det maximala värdet, ett sådant problem kan snabbt växa exponensiellt och bli ett komplext problem. Det finns olika sökmetoder för att hitta den bästa översättningen och för att lösa sökproblemet. Ett exempel är genom hypotesexpansion, där varje fras i meningen genererar de möjliga efterkommande fraserna i översättningen tillsammans med en sannolikhet och när alla hypoteser genererats väljs den väg med högst sannolikhet. För att lösa problemet med en stor sökrymd används rekombination och nedskrärning. Rekombination kombinerar sökvägar som matchar varandra och nedskärning utesluter dåliga översättningar tidigt i processen. Sådana översättningar som tidigt kan identifieras som olämpliga tas bort och på så sätt minskas sökproblemet och blir hanterbart för systemet. Exempel på andra metoder är A* eller greedy hill climbing som kan användas för att hitta det maximala värdet på översättningen (Koehn, Statistical Machine Translation, 2010). Utvärdering. Det finns olika sätt att utvärdera ett maskinöversättningssystem, helt mänskliga metoder och även automatiska. Automatiska utvärderingar är fördelaktiga då de är billiga och konsekventa till skillnad från de mänskliga metoderna som är tidskrävande och därför dyra. Ett automatiskt utvärdenringssystem använder sig av den översatta meningen gjord av översättningssytemet och en korrekt översättning gjord av en människa och med hjälp av dessa två meningarna utvärderas hur väl systemets mening stämmer överens med den mänskligt översatta meningen (Koehn, Statistical Machine Translation, 2010). 9

13 Ett exempel på ett utvärderingssystem är BLEU som bygger på att en maskinöversättning ska vara så lik en mänsklig översättning som möjligt. Det systemet behöver är en numrerisk metrik som anger hur nära översättningen är och ett parallellt korpus som översättningen kan jämföras mot. För att räkna ut närheten i översättningen används word error rate (WER). WER är en metod som bland annat används för taligenkänning och syftar till att minimera antalet steg för att översätta ett ord till ett annat. Detta mäts med Levenshteinavståndet, som anger likheten hos två meningar. Det finns fyra olika operationer för att räkna ut Levenshteinavståndet, dessa är; (1) borttagning, när systemet tagit bort ett ord ur meningen, (2) tilläggning, när systemet har lagt till ett ord i meningen, (3) substituering, när systemet har bytt ut ett ord i meningen och (4) matchning, när ordet är detsamma. Matchning av ord ger inga poäng, annars räknas avståndet ut genom att addera förekomster av operationerna delat med källspråksmeningens längd. BLEU använder sig främst av jämförelser av n-grams från översättningen med n- grams från referensöversättningarna. Till att börja med räknas antal n-gram matchningar oberoende på placeringen av orden och utifrån dessa frekvenser räknas precisionen ut. Precisionen räknas ut genom att dela antalet matchningar med det totala antalet ord i översättningen. Denna metod används inte enbart på 1-gram, utan på flera och även större sekvenser av meningar i större texter. Vid hög precision på 1-gram anger lämplighet, medan hög precision på större sekvenser anger bra flyt i meningen. Koncishetsstraff läggs till ifall den översatta textens längd inte stämmer överens med referenstextens längd och straffet räknas ut genom att summera de bäst längsmatchade meningarna i översättningen och dela dessa med antal ord i referenstexten. Koncishetsstraffet kan alltså vara mellan 0 och 1 där 1 är en bra översättning. För att räkna ut BLEU-metriken för ett system multipliceras testkorpusens geometriska medelvärde av precisionspoängen med ett exponensiellt koncishetsstraff. BLEU-metriken anges mellan 0 och 1, där 1 är bäst (Papineni, Roukos, Ward, & Zhu, 2002). 10

14 Diskussion Statistisk maskinöversättning är liksom maskinöversättning generellt är ett ungt forskningsområde som är i startgropen i forskningen. Det är ett nytt och explorativt område vilket gör att många olika metoder och varianter undersöks. Genom historien har flera metoder förkastats för att sedan tas upp igen eftersom de problemområden som var svåra att bemästra, nu kan lösas med mer mogen teknik och de resurser som fattades tidigare finns nu åtkomlig. Även större korpusar växer fram och har möjligheten att bli mer genomarbetade, vilket ger större möjlighet till robustare system med högre sannolikheter. Det finns också ett ökande kommersiellt intresse i området, vilket kan resultera i ökade resurser för att skapa en stadig grund för maskinöversättning att stå på i framtiden. Grundtanken att maskinöversättningssystem ska vara helt oberoende av mänsklig översättning verkar dock vara svår att uppfylla. Exempelvis används översättningar gjorda av människor för att träna maskinöversättare på, det är fortfarande människor som gör de lämpligaste översättningarna, då kontext och andra externa influenser har stor påverkan på betydelsen av en mening. En ny metod för maskinöversättning är neurala nätverk som ska kunna se till semantisk information och som är robusta för inlärning och representation. Denna metod kombinerar semantisk och syntaktisk information till både ord, fraser och strukturer (Zhang & Zong, 2015). Neurala när verkar då vara en metod för framtiden då den kombinerar flera av de andra metoderna och har en större kapacitet än de andra, främst för inlärning som kan leda till att människan kommer ha mindre och mindre delaktighet i maskinöversättningssystem i framtiden. Slutsats. Maskinöversättning är ett relativt forskningsområde som är i en utvecklande fas, olika metoder växer fram och resurserna blir mer och mer stabila. Med tillgång till dagens teknik har maskinöversättning stor chans att överkomma de nuvarande problemen och bli en helt automatisk översättningsmetod, utan mänsklig inblandning. 11

15 12

16 Referenser Brown, P. F., Cocke, J., Della Pietra, S. A., Della Pietra, V. J., Jalineck, F., Lafferty, J. D., o.a. (1990). A Statistical Approach to Machine Translation. Computunal Linguistics, Hutchins, J. W. (1995). Machine Translation: A Brief History. Concise history of the language sciences: from the Sumerians to the cognivists, Koehn, P. (2005). Europarl: A Parallel Corpus for Statistical Machine Translation. Edinburgh: School of informatics. Koehn, P. (2010). Statistical Machine Translation. Cambridge: Cambridge University Press. Koehn, P., Och, F. J., & Marcu, D. (2003). Statistical Phrase-Based Translation. 03 Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology (ss ). Stroudsburg: Association for Computational Linguistics. Manning, C. D., & Schutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge: MIT Press. Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. 02 Proceedings of the 40th Annual Meeting on Association for Computational Linguistics (ss ). Stroudsburg: Association for Computational Linguistics. Zhang, J., & Zong, C. (2015). Deep Neural Networks in Machine Translation: An Overview. Intelligent Systems, IEEE,

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...

Läs mer

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...

Läs mer

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder 1 Leibniz, tidigt 1600 tal Descartes, tidigt 1600 tal Petr Smirnov

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G Statistisk Maskinöversättning Anna Prytz Lillkull 729G11 annpr075@student.liu.se 2010-10-03 Innehållförteckning Inledning...3 Bakgund...3 Uppkomsten av maskinöversättning... 3 Ökat intresse för statistisk

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

Språkteknologi (SV2122) Föreläsning 9: Översättning

Språkteknologi (SV2122) Föreläsning 9: Översättning Språkteknologi (SV2122) Föreläsning 9: Översättning Richard Johansson richard.johansson@svenska.gu.se 26 februari 2014 översikt inledning: vad är översättning? djupa metoder: datorn läser och förstår texten

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Korpusbaserad Maskinöversättning

Korpusbaserad Maskinöversättning Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

- ett statistiskt fråga-svarsystem

- ett statistiskt fråga-svarsystem - ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Vad är maskinöversättning?

Vad är maskinöversättning? Joakim Nivre 1 / 37 Vad är maskinöversättning? Översättning är att överföra texter från ett (mänskligt) språk (källspråket) till ett annat (målspråket) på ett sätt som bevarar betydelsen () automatiserar

Läs mer

Kommunikation och Interaktion

Kommunikation och Interaktion Kommunikation och Interaktion Innehåll Kommunikation Vad är Kommunikation? Kommunikationsmodeller Interaktion Vad är interaktion? Interaktionsmodeller Vad är kommunikation? Överföring av information från

Läs mer

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954 Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

Maskinöversättning. F Anna Sågvall Hein

Maskinöversättning. F Anna Sågvall Hein Maskinöversättning F1 2008 Anna Sågvall Hein Vad menas med maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN

Maskinöversättning handlar om att. Datorn behöver statistik och grammatik MASKINÖVERSÄTTNING ANNA SÅGVALL HEIN MASKINÖVERSÄTTNING Datorn behöver statistik och grammatik ANNA SÅGVALL HEIN Det är lätt att skoja med en del resultat av maskinöversättning: Vad kan vi lära av det blir What can we faith of it. Då gör

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

Maskinöversättning. Johan Boye, KTH

Maskinöversättning. Johan Boye, KTH Maskinöversättning Johan Boye, KTH Rosetta-stenen Världens mest kända parallellkorpus(från 190 f.kr) En text tre språk: Egyptiska hieroglyfer Egyptisk s.k. demotisk text Klassisk grekiska Ledde till att

Läs mer

HKGBB0, Artificiell intelligens

HKGBB0, Artificiell intelligens HKGBB0, Artificiell intelligens Kortfattade lösningsförslag till tentan 3 november 2005 Arne Jönsson 1. Vad karaktäriserar dagens AI-forskning jämfört med den AI-forskning som bedrevs perioden 1960-1985.

Läs mer

Stina Nyman 2012-09-16

Stina Nyman 2012-09-16 LINKOPINGS UNIVERSITET, IDA SmartKom Hur systemet fungerar Stina Nyman 2012-09-16 stiny786 Artificiell intelligens II Sammanfattning Detta projekt kommer handla om SmartKom som är ett multimodalt dialogsystem

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Vägar till bättre översättningsprogram

Vägar till bättre översättningsprogram Vägar till bättre översättningsprogram Aarne Ranta, Thomas Hallgren, Krasimir Angelov Data- och informationsteknik Göteborgs universitet & Chalmers tekniska högskola Vetenskapsfestivalen 8 maj 2014, Göteborg

Läs mer

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0 Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Ansiktsigenkänning med MATLAB

Ansiktsigenkänning med MATLAB Ansiktsigenkänning med MATLAB Avancerad bildbehandling Christoffer Dahl, Johannes Dahlgren, Semone Kallin Clarke, Michaela Ulvhammar 12/2/2012 Sammanfattning Uppgiften som gavs var att skapa ett system

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014 Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng

Läs mer

Neurolingvistik - Grammatik

Neurolingvistik - Grammatik Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning

Läs mer

Prototypbaserad Inkrementell Diagnos. Anders Holst SICS, Swedish Institute of Computer Science AB

Prototypbaserad Inkrementell Diagnos. Anders Holst SICS, Swedish Institute of Computer Science AB Prototypbaserad Inkrementell Diagnos Anders Holst SICS, Swedish Institute of Computer Science AB Metoder för Industriell Diagnos Datadrivna metoder Träna in en mappning från symptom till diagnoser. Kräver

Läs mer

Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt.

Kunskapsgraf. Fredrik Åkerberg j.f.akerberg@gmail.com. Tommy Kvant tommy.kvant@gmail.com. 1 Introduktion. 2 Relaterade projekt. Kunskapsgraf Fredrik Åkerberg j.f.akerberg@gmail.com Tommy Kvant tommy.kvant@gmail.com 1 Introduktion Målet med projektet var att undersöka huruvida DBpedia.org, kan användas för att besvara frågor på

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning

Läs mer

Introduktion till språkteknologi

Introduktion till språkteknologi Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Vardagssituationer och algebraiska formler

Vardagssituationer och algebraiska formler Modul: Algebra Del 7: Kommunikation i algebraklassrummet Vardagssituationer och algebraiska formler Cecilia Kilhamn, Göteborgs Universitet och Jörgen Fors, Linnéuniversitetet En viktig del av algebran

Läs mer

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande

Läs mer

Vad kan statistik avslöja om svenska sammansättningar?

Vad kan statistik avslöja om svenska sammansättningar? Vad kan statistik avslöja om svenska sammansättningar? 199 Vad kan statistik avslöja om svenska sammansättningar? Ur Språk & stil NF 16, 2006 Av JONAS SJÖBERGH och VIGGO KANN I många språktekniska datortillämpningar

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006 Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden Laboration 3 börjar med en Nuance-tutorial som först och främst går ut på att lära sig lite hur Nuance

Läs mer

Automatisk översättning

Automatisk översättning Automatisk översättning En analys av Google Translate HÅKAN ANDERSSON och ELIN JOHANSSON Examensarbete Stockholm, Sverige 2010 Automatisk översättning En analys av Google Translate HÅKAN ANDERSSON och

Läs mer

Online MT output (EN-SE) Kriterier på bra översättning

Online MT output (EN-SE) Kriterier på bra översättning Språkteknologi vt09: Maskinöversättning Användning av maskinöversättning Automatisk översättning Användning, problem, utvärdering Olika metoder Direktöversättning Transfer Interlingua Statistisk MT Automatgenerering

Läs mer

Kvantitativ samhällsanalys med språkteknologiska metoder.

Kvantitativ samhällsanalys med språkteknologiska metoder. Kvantitativ samhällsanalys med språkteknologiska metoder Hillevi Hägglöf hillevi.hagglof@gmail.com Myndigheten för samhällsskydd och beredskap (MSB) Bakgrund Alla rapporter, utredningar, utvärderingar

Läs mer

EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits

EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits HUMANISTISKA FAKULTETSNÄMNDEN EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits Avancerad nivå/second Cycle 1.

Läs mer

Statistisk mönsterigenkänning

Statistisk mönsterigenkänning Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Auktorisation som tolk

Auktorisation som tolk PROVSPECIFIKATION Auktorisation som tolk Prov i allmän språkfärdighet Sid 2 (6) 2014-04-24 Prov i språkfärdighet För att kunna bli auktoriserad som tolk krävs bland annat att man ska behärska svenska och

Läs mer

Machine Translation MÖSG F Anna Sågvall Hein

Machine Translation MÖSG F Anna Sågvall Hein Machine Translation MÖSG F1 2007 Anna Sågvall Hein Vad är maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och

Läs mer

Verbmobil och dess dialoghantering

Verbmobil och dess dialoghantering Linköpings Universitet Institutionen för Datavetenskap HKGBB0, Artificiell Intelligens Verbmobil och dess dialoghantering Sammanfattning Verbmobil var ett tvärvetenskapligt projekt under 1993-2000 inom

Läs mer

När kan man lita på maskinöversättning?

När kan man lita på maskinöversättning? När kan man lita på maskinöversättning? Aarne Ranta Institutionen för data- och informationsteknik Chalmers tekniska högskola och Göteborgs universitet aarne@chalmers.se Sammanfattning Artikeln ger en

Läs mer

Målet är att ge maskiner förmågan att plocka ut information ur

Målet är att ge maskiner förmågan att plocka ut information ur Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet:

Läs mer

Disposition. En definition av språk. Att bygga ett språk en stor uppgift för en liten människa. Disposition DEFINITION. Språkets olika delar

Disposition. En definition av språk. Att bygga ett språk en stor uppgift för en liten människa. Disposition DEFINITION. Språkets olika delar Metaspråklig förmåga Att bygga ett språk en stor uppgift för en liten människa Astrid Frylmark Utveckling av språkets olika delar och något lite om svårigheter DEFINITION Språk är ett komplext och dynamiskt

Läs mer

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Projektförslag. Datalingvistisk projektkurs VT mars 2007 Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

GENOMGÅNG EKG Förändringar och Förbättringar. 2014-12-04 Upprättad av: Anders Bondemark 2014/10194307/1

GENOMGÅNG EKG Förändringar och Förbättringar. 2014-12-04 Upprättad av: Anders Bondemark 2014/10194307/1 GENOMGÅNG EKG Förändringar och Förbättringar PM 2014-12-04 Upprättad av: Anders Bondemark 2014/10194307/1 2 (14) GENOMGÅNG EKG Förändringar och Förbättringar KUND Trafikverket KONSULT WSP Sverige AB 121

Läs mer

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar 1 Agenda Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar 2 Nuvarande AI Funktioner en grov Analogi Rekommendation,

Läs mer

Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009. Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009. Listorna i det här dokumentet kommer från Göteborgs Talspråkskorpus

Läs mer

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp astställda av institutionsstyrelsen 2012-05-09. Gäller fr.o.m. ht 12. elkurs 1: et talade språket, 7,5 hp örväntade studieresultat

Läs mer

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi.

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi. UPPSALA UNIVERSITET Institutionen för lingvistik och filologi SPRIND, HT 2006, Tillfälle 6 SPRÅKPSYKOLOGI SPRÅKPSYKOLOGISKA GRUNDBEGREPP (kap 1 + 2) I språkpsykologin finner man begrepp från - språkvetenskap

Läs mer

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng Humanistiska fakultetsnämnden ÖU2100, Översättarutbildning 1 Magisterutbildning, 60 högskolepoäng Professional Translation 1, 60 higher education credits Avancerad nivå Second Cycle 1. Fastställande Kursplanen

Läs mer

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007) Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,

Läs mer

FÅ FRAM INDATA. När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden!

FÅ FRAM INDATA. När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden! FÅ FRAM INDATA När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden! (Falstaff Fakir) Svårigheter att få fram bra information - en liten konversation Ge mig

Läs mer

Kontextfria grammatiker

Kontextfria grammatiker Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer

Ett urval D/A- och A/D-omvandlare

Ett urval D/A- och A/D-omvandlare Ett urval D/A- och A/D-omvandlare Om man vill ansluta en mikrodator (eller annan digital krets) till sensorer och givare så är det inga problem så länge givarna själva är digitala. Strömbrytare, reläer

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Probabilistisk logik 1

Probabilistisk logik 1 729G43 Artificiell intelligens / 2016 Probabilistisk logik 1 Marco Kuhlmann Institutionen för datavetenskap Osäkerhet 1.01 Osäkerhet Agenter måste kunna hantera osäkerhet. Agentens miljö är ofta endast

Läs mer

Maskinöversättning idag

Maskinöversättning idag Maskinöversättning idag Efter en tid av ifrågasättande har nu återigen maskinöversättningen kommit att stå i centrum för språkteknologin och börjat användas av företag och myndigheter för översättning

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad för att man skall

Läs mer

TDDB96 Projekt: Object priming med visuell stimuli

TDDB96 Projekt: Object priming med visuell stimuli TDDB96 Projekt: Object priming med visuell stimuli Daniel Johansson danjo133@student.liu.se Rickard Jonsson ricjo400@student.liu.se 1. Sammanfattning Vad vi ville komma fram till i denna studie var huruvida

Läs mer

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter

Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter Mikko Kurimo Institutionen för signalbehandling och akustik Aalto-universitetet Innehåll 1. Hur automatisk taligenkänning

Läs mer

Om ämnet Engelska. Bakgrund och motiv

Om ämnet Engelska. Bakgrund och motiv Om ämnet Engelska Bakgrund och motiv Ämnet engelska har gemensam uppbyggnad och struktur med ämnena moderna språk och svenskt teckenspråk för hörande. Dessa ämnen är strukturerade i ett system av språkfärdighetsnivåer,

Läs mer

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006 Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden Laboration 3 börjar med en Nuance-tutorial som först och främst går ut på att lära sig lite hur Nuance

Läs mer

Välkomna till DIT012 IPGO

Välkomna till DIT012 IPGO Välkomna till DIT012 IPGO 1 Lärare och Handledare Kursansvariga, examinatorer, föreläsare och handledare Joachim von Hacht, hajo@chalmers.se, 772 1003 Handledare (se även kurssida) Alexander Sjösten, sjosten@chalmers.se

Läs mer