LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Storlek: px
Starta visningen från sidan:

Download "LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem"

Transkript

1 LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se

2 Innehållsförteckning 1. Introduktion till översättning Statistiska maskinöversättningssystem Uppbyggnaden av ett SMT-system Motsvarighetsmodell för översättningen Ändlig tillståndsomvandlare Synkron kontextfri grammatik Parameterisering Generativa modeller Diskriminativa modeller Parameteruppskattning Avkodning Diskussion... 6 Referenser... 7

3 1. Introduktion till översättning Att översätta en text från ett språk till ett annat är en svår konst. Det är många faktorer som ska tas hänsyn till. Det handlar om ständiga avgöranden om vilka val och prioriteringar som ska göras när det kommer till semantik, struktur, varietet och pragmatik (Ingo, 2007). För att ytterligare försvåra för översättarna så skriver Ingo vidare att det inte finns ett optimalt sätt att göra översättningar på, vilket som är det bästa sättet beror på vilken typ av text det är som ska översättas. En informationstext har till exempel helt andra struktur- och stilmässiga krav än vad en skönlitterär text har. Andra situationella faktorer som Ingo nämner som även de påverkar hur översättningen bör göras är kulturella skillnader mellan källspråksland och målspråksland, vilken målgrupp texten har, via vilket medium översättningen kommer att förmedlas, rådande översättningstrender, eventuella utrymmesbegränsningar samt om uppdragsgivaren har några speciella önskemål eller krav på hur översättningen ska vara. Andra stora problem som enligt Arnold (2000) gör att datorer inte kan hålla mänsklig nivå då de översätter är följande fyra faktorer: 1) datorer är sämre på att hantera vagheter; 2) de är sämre på att lära sig saker; 3) de kan inte fatta beslut baserade på sunt förnuft; 4) de har svårt att hantera problem där det finns flera olika möjliga lösningar. Med tanke på hur komplext översättningsarbetet är så kan man fråga sig om översättning är något en maskin klarar av, och hur går den i sådana fall tillväga? Redan på 1600-talet fanns idéer om att skapa ett lexikon som på mekanisk väg skulle hjälpa till att förstå texter på främmande språk, men först på 1930-talet togs de första maskinerna i bruk (Hutchins, 2007). Utvecklingen av automatisk översättning, hädanefter kallad MT, tog sedan ordentlig fart i och med att datorer blev allt vanligare. Den första MT-konferensen ägde rum 1952 och Hutchins beskriver att optimismen och förväntningarna på vad som skulle kunna åstadkommas var stort under detta årtionde. Många olika metoder användes och flera framsteg gjordes inom en kort tidsperiod. Enligt Hutchins började dock problemen hopa sig, och ett hårt slag kom 1966 i form av en rapport från Automatic Language Processing Advisory Committee (ALPAC). Rapporten pekade på att MT var långsammare, mindre exakt och dubbelt så dyrt som mänsklig översättning, och de ansåg det inte värt att fortsätta forska på. Detta ledde till att MT-forskningen stagnerade, och Hutchins skriver att det tog ett decennium för forskningen att komma tillbaka, då främst med system baserade på lexikon och regler (exempelvis Systran). Det var även vid denna tidpunkt som artificiell intelligens (AI) började användas inom MT. Översättningarna höll dock inte tillfredsställande kvalité så länge inte domänen var väl avgränsad. Desto bättre kvalité uppvisade en metod som forskningen återupptogs på av en grupp på IBM i slutet av 1980-talet/början på 1990-talet. Det var en metod där systemet baserades på parallella korpusar och översättningen sedan togs fram med hjälp utav sannolikhetsberäkning baserad på frekvens i korpusen. Enligt Hutchins har den statistiska maskinöversättningen (SMT) kommit att bli den vanligaste metoden från 1990-talet och framåt, och används nu av exempelvis Google. Eftersom SMT verkar vara det slags MT-system som ger bäst resultat och som forskas mest på just nu så har jag valt att begränsa mitt arbete till att enbart beskriva hur denna typ av MT-system fungerar. En generell beskrivning över SMT-system ges i avsnitt 2 och en mer ingående beskrivning över hur dessa system fungerar och vilka delar som bygger upp ett SMT-system presenteras i avsnitt 3. I avsnitt 4 ges en diskussion kring SMT-system. 1

4 2. Statistiska maskinöversättningssystem SMT har snabbt kommit att bli populärt och utvecklingen har gått fort de senaste två decennierna (Lopez, 2008). En fördel gentemot regelbaserade system är att systemet inte behöver omfattande lexikon eller en massa regler som kan vara svåra att komma på. En nackdel däremot är att de kräver väldigt många texter att träna på för att bli bättre. Om omfattningen på den parallella korpusen som systemet tränas på fördubblas, så förbättras systemet med ca 2,5 % på BLEU-skalan 1 (Och, 2005). Ett av de största problemen för statistisk maskinöversättning är alltså att få tag på mer träningsdata. 3. Uppbyggnaden av ett SMT-system Lopez (2008) delar in SMT-processen i fyra olika steg som genomförs då en text ska översättas automatiskt. Det första systemet ska göra är att skapa en modell över nödvändiga steg för att omvandla källmeningen till en mening på målspråket. Utdata från detta steg är i form utav alla möjliga strängpar som kan genereras av modellen. Detta tillvägagångssätt bygger på koncept från automata och språkteori. Därefter genomför systemet en parameterisering, med syftet att hitta vilka utdata som bäst motsvarar given indata, det vill säga det strängpar där strängarna bäst motsvarar varandra. Detta för att hitta den bästa översättningen vid mångtydighet. Tillvägagångssättet vid parameterisering liknar det som används vid maskininlärningsproblem. Sedan ska systemet göra en parameteruppskattning, där får systemet träna på en parallell korpus för att lära sig vilka ord som brukar höra samman. Av detta skapar systemet en språkmodell och en översättningsmodell. Till sist ska källtexten översättas, eller avkodas, vilket görs genom att söka igenom de parametrar och modeller systemet tagit fram för att hitta de som genererar bäst översättning (eller en som är tillräckligt bra). De fyra stegen som genomgås i SMT-processen är mer utförligt beskrivna nedan. Följande stycken ( ) är, då inte annat anges, baserade på Lopez (2008). 3.1 Motsvarighetsmodell för översättningen Det finns olika sätt på vilka systemet kan skapa en motsvarighetsmodell. De vanligaste sätten att göra detta på är antingen genom att göra en ändlig tillståndsomvandlare (FST), vilket härstammar från automatteori, eller genom en synkron kontextfri grammatik (SCFG), vilket har sin bakgrund i språkteori. Andra tillvägagångssätt som berörs av Lopez (2008) är trädangränsande grammatiker, synkrona trädangränsande grammatiker, linjära kontextfria omskrivningssystem, syntaktiska frasbaserade modeller samt synkrona beroende grammatiker. I kommande stycken kommer dock enbart FST och SCFG att beskrivas Ändlig tillståndsomvandlare En ändlig tillståndsomvandlare (FST) är en variant av en ändlig automat (FSA), den senare beskrivs av Jurafsky och Martin (2009) som ett alternativt sätt att uttrycka ett reguljärt uttryck på och kan användas för att skildra reguljära språk med hjälp av en riktad graf bestående av noder och riktade länkar mellan noderna. Med hjälp av dessa noder och länkar är det möjligt att representera tillstånd och övergångar mellan de olika tillstånden. Jurafsky och Martin förklarar vidare att en FST är en variant av FSA, med skillnaden att i en FST finns två uppsättningar med symboler representerade. Vid användning av FST i ett SMT-system består de två uppsättningarna av lexikon för käll- respektive 1 BLEU automatiskt utvärderingsmått (se Papineni et al., 2002). 2

5 målspråket. Lopez (2008) skriver om hur FST kan tillämpas på två olika sätt inom SMT, antingen genom att den arbetar på ordnivå eller genom att den arbetar på frasnivå. Ordbaserade modeller producerar en målmening utifrån en given källmening i tre steg. Det första steget för modellen är att avgöra hur många ord som krävs i målspråket för var och ett av orden i källspråket, vilket kallas för att avgöra vilken fertilitet meningen har. Längden på målmeningen bestäms därmed på denna nivå. En fördel med denna metod är att det möjliggör för käll- och målmening att bestå av olika stort antal ord och ändå vara en motsvarande översättning. Det andra steget modellen tar är att översätta varje ord i källmeningen med så många ord som angetts i steg ett att det ska översättas med, vilket producerar en mängd ord på målspråket som står i den ordning som motsvarande ord hade i källspråket. Det tredje och sista steget i att omvandla meningen är därför att kasta om orden så att det blir en korrekt mening på målspråket. Frasbaserade modeller fungerar på liknande vis som de ordbaserade. Skillnaden ligger främst i att istället för att dela upp meningen i ord så delas den in i fraser med ord som ofta förekommer tillsammans, och dessa fraser översätts sedan så som systemet genom träning lärt sig att fraserna brukar översättas. Då var och en av fraserna översatts på detta vis kastas de om, i likhet med steg tre för de ordbaserade modellerna, för att passa målmeningens grammatik. Frasbaserade modeller är enligt Lopez ofta att föredra framför de ordbaserade då de genererar bättre översättningar, något som även har visats av Koehn, Och och Marcu (2003). De får däremot problem i form av exponentiell komplexitet då fraserna behöver flyttas över stora avstånd i meningen, vilket ger många möjliga kombinationer. Det behövs då en tilläggsalgoritm över syntax för att kunna hantera detta, men en sådan algoritm är svår att få att fungera tillfredsställande i dagsläget Synkron kontextfri grammatik En synkron kontextfri grammatik (SCFG) har vissa fördelar gentemot FST. Den tar hänsyn till målspråkets syntax, samt att den har lättare för att representera omkastning av ord/fraser över stora avstånd i meningen. En SCFG-modell är dock svårare att ta fram än en FST-modell, vilket gjort att det råder delade åsikter om vilket som är det bästa tillvägagångssättet. En SCFG är en mer generell variant av en kontextfri grammatik (CFG). Den senare består av avslutande symboler (ord) och icke-avslutande symboler (syntaktiska kategorier). Den börjar med en rot som består av en icke-avslutande symbol, vilken ersätts med andra symboler enligt regler för hur det får ske. De nya icke-avslutande symbolerna omvandlas sedan även de enligt reglerna, detta steg upprepas tills strängen endast består av avslutande symboler. Det som skiljer en SCFG från en CFG är att den genererar två utdatasträngar istället för en, där den ena strängen är en fras på källspråket och den andra på målspråket. Att generera träd som en SCFG gör är biligare beräkningsmässigt än att som en FST arbeta med kombinationer av omflyttningar. SCFG tillåter några olika arbetssätt, exempelvis en effektivare parentesgrammatik som begränsar möjligheterna till omflyttning genom att använda sig utav en enda icke-avslutande symbol och endast tre omvandlingsregler. Denna begränsning medför dock att modellen inte klarar av att representera alla möjliga omvandlingar. Syntaxbaserade översättningar nyttjar målspråkets syntax för att generera grammatiskt korrekta meningar. Ytterligare ett annat möjligt angreppssätt är 3

6 hierarkisk frasbaserad översättning som arbetar på frasnivå istället för ordnivå och någon lingvistisk syntax är då inte nödvändig. 3.2 Parameterisering Syftet med parameterisering är att hitta vilken av alla de olika möjliga översättningarna som genererats i det förra steget som är den bästa översättningen. Detta sker genom att de olika paren med käll- och målmeningar förses med en poäng, och det par som har högst poäng är det par där meningarna bäst motsvarar varandra. Problemet modellen behöver lösa är att på något bra sätt räkna ut sannolikheten för utdatasträngen baserat på den givna indatasträngen, det vill säga P(e f). Då e kan fås på flera olika sätt givet f behövs även de olika möjliga tillvägagångssätten för att få e tas med i beräkningarna. Detta sker genom att summera sannolikheterna för alla härledningar som ger e,. Att beräkna summan på detta vis är krävande då det är exponentiell komplexitet, så istället brukar endast P(e, d f) användas. Dock är även denna funktion krävande att räkna ut eftersom e och f representerar strängar från olika språk, och antalet möjliga ordkombinationer för att erhålla dessa strängar är i princip oändligt. För att komma runt detta problem genomförs en parameterisering. Det finns många olika sätt detta kan ske på, till exempel med hjälp av generativa eller diskriminativa modeller. Dessa beskrivs mer ingående nedan Generativa modeller De generativa modellerna lånar sin metod från liknande användningsområden inom automatisk röstigenkänning. Det som görs är att kedjeregeln och Bayes regel appliceras på funktionen P(e, d f). Kedjeregeln fungerar enligt regeln, och Bayes regel fungerar på följande vis på P(e, d f) ger delen, (se vidare Russell och Norvig, 2008). Applicering av kedjeregeln samt Bayes regel. Nämnaren kan i det här fallet sedan ignoreras, vilket lämnar. Den första delen,, brukar kallas för en översättningsmodell och den andra, brukar kallas för en språkmodell. Språkmodellens uppgift är att hitta den sträng på målspråket med störst sannolikhet för att vara den bästa översättningen, det vill säga. Med hjälp av kedjeregeln går det att skriva om till, vilket istället ger beräkningen för sannolikheten av enskilda ord i frasen. För att ytterligare förenkla beräkningen kan det antas att sannolikheten för ordet e i endast är beroende av det ord som är närmast föregående i frasen, det vill säga ordet n-1 eller. Att basera sannolikheten endast på frasens närmast föregående ord kallas för n-gram med precisionen 1, eller unigram (se vidare Jurafsky och Martin, 2009). Med denna begränsning omskrivs formeln till. Detta är enligt Lopez (2008) ungefär hur de flesta SMT-systemens språkmodell brukar se ut. Begränsningen till att endast ta hänsyn till det närmast föregående ordet kommer givetvis med en kostnad, här i form av lägre precision. Det är dock en avvägning som måste göras, då det utan begränsningen riskerar att bli beräkningsmässigt komplext. Översättningsmodellen,, fungerar på liknande vis som språkmodellen, men istället för att enbart söka efter vad som är en bra översättning så söker den efter en bra modell för hur denna översättning ska fås. Dessa modeller motsvarar övergångarna mellan olika tillstånd i FST och 4

7 symbolomvandlingen i SCFG. På liknande vis som språkmodellen skrevs om för att kunna appliceras på ordnivå istället för frasnivå kan översättningsmodellen med hjälp utav kedjeregeln omskrivas för att representera modeller på nivån för enskilda tillstånds- eller symbolomvandlingar, istället för en mer omfattande modell. Formeln för översättningsmodellen blir efter omskrivningen: Diskriminativa modeller Det vanligaste sättet att inom SMT göra en diskriminativ modell på har utvecklats inom andra områden av processande av naturligt språk (NLP) och kallas för log-linjära modeller. En diskriminativ modell kan arbeta vidare på en generativ modell, eller om sådan inte finns arbeta självständigt. En fördel gentemot generativa modeller är att diskriminativa modeller inte behöver anpassa sig efter motsvarighetsmodellen, vilket görs av de generativa modellerna enbart för att minska beräkningskomplexiteten men i övrigt inte har några översättningsmässiga fördelar. Det den loglinjära modellen gör är att den definierar samband mellan K särdrag och funktionen P(e, d f), där ett särdrag kan vara vad som helst som representerar varje indata- och utdatasträngpar med ett icke-negativt värde,. Det vanligaste exemplet på detta är logaritmen av sannolikheten som fås från en generativ modell. En log-linjär modell ser ut på följande vis:.. Nämnarens roll är i det här fallet endast att se till så att funktionen ger ett bra värde för sannolikheten, beroende på hur algoritmen ser ut är det inte säkert att den behövs., där K är antalet parametrar, kallas för särdragsvikter. En positiv vikt visar på att särdragen och P(e, d f) korrelerar, ett negativt värde på vikten visar på en negativ korrelation och ett värde nära noll visar på att det särdraget inte korrelerar med utdata. 3.3 Parameteruppskattning Med parameteruppskattning menas att värden ska sättas till de parametrar som fåtts av P(e, d f), vilket görs genom att systemet får träna på indata från en parallell korpus och på så vis lära sig hur orden brukar höra samman. Vanligen används en log-linjär modell som innefattar en generativ modell. Syftet med den generativa modellen är att hitta den maximalt troliga uppskattningen (MLE), det vill säga, där är mängden med alla parametrar och C är en delmängd av {E* x F*}. Hur exakt uppskattningen är beror på hur många förekomster översättningarna har i den parallella korpusen, större träningsmängd ger därför ett säkrare system. Den log-linjära modellens uppgift är att uppskatta de log-linjära särdragsvikterna ( ) genom att träna på en mängd (annan än mängden den generativa modellen tränat på). Det kan exempelvis göras med träning för minimal felkvot (MERT) eller med strikt diskriminerande träning. Det vanligaste inom SMT är att använda log-linjära modeller, några små generativa modeller och MERT för optimering av modellerna, jag kommer därför inte beskriva någon annan optimeringsmetod än MERT här. Vid användande av MERT är utgångspunkten att den bästa modellen ger minst antal fel i översättningen. Hur pass många fel modellen genererat avgörs med hjälp utav ett automatiskt utvärderingsmått avsett för att bedöma maskinöversatta texter och sedan görs en iterativ sökning för att hitta en modell som ger en relativt korrekt översättning. En svårighet med denna metod är att bestämma vad som är en felaktig översättning, medan en fördel är att forskningen här kan fokusera 5

8 på att hitta vad som är en bra översättning, i stället för det svårare problemet att definiera vad som är en bra översättningsmodell. Funktionen för att räkna ut MERT är:. 3.4 Avkodning Till sist är det så dags att genomföra själva översättningen med hjälp av de modeller och parameteruppskattningar som gjorts, ett moment som även kallas avkodning. Avkodningen går ut på att söka rätt på den bästa översättningen,. Hur själva avkodningen sedan går till beror på vilken motsvarighetsmodell som använts, för en FST-modell används FST-avkodning och för en SCFG-modell används FST-avkodning. FST- avkodning söker genom sökrymden beståendes av en riktad acyklisk graf, där varje tillstånd i sin tur består av en mängd som håller koll på vilka strängar i källtexten som blivit översatta, det senast översatta målspråksordet n 1 (om n-gram används), kostnaden h beräknad för modellernas kostnad i kombination med vår delvisa hypotes, samt den uppskattade kostnaden g för att komplettera hypotesen. Sökningen kan göras optimal genom användning av A*. En snabbare sökmetod är beam search. Den är visserligen inte optimal, men eftersom en text kan ha många olika översättningar som är tillräckligt bra så är det inte alltid nödvändigt att hitta den bästa. Målet med SCFG-avkodning är att hitta det träd som bäst motsvarar källgrammatiken och sedan läsa av motsvarande målspråksträd. Det fungerar bäst genom att börja med en liten del utav meningen som sedan utökas allteftersom. Olika tillstånd i sökrymden blir då olika delar av meningen, en ickeavslutande symbol som motsvarar en bestämd del, samt de språkmodeller som krävs för att kombinera delar och symboler. Att hitta en metod för att kunna genomföra den här sökningen på ett optimalt sätt är något som forskas på i dagsläget. 4. Diskussion Som jag skrev tidigare så är SMT ett område där stora framsteg skett bara de senaste två decennierna och forskningen gör fortfarande många framsteg. Sett till att det verkar finnas flera olika tillvägagångssätt inom SMT som ännu inte är särskilt utvecklade så torde denna utveckling komma att fortsätta ett tag till. Flera av de olika delarna som bygger upp ett SMT-system har olika metoder för hur det går att lösa just den delen (exempelvis motsvarighetsmodellen som kan göras med en FST eller SCFG, parameteriseringen som kan göras med generativa eller diskriminerande modeller, etc.). Så där har forskarna många olika angreppssätt att utveckla mer och studera för att komma fram till vilka som fungerar bäst. En svår nöt att knäcka för SMT-forskarna är översättning av texter i en domän som systemet inte har fått träna på. Systemet känner då inte igen allt den ser och kommer troligtvis att lämna en del ord/fraser oöversatta. En mänsklig översättare kan i ett sådant fall hitta ett sätt att skriva runt detta, eller söka information om betydelsen och på så vis hitta en bra översättning. Förslagsvis skulle detta kunna lösas med hjälp utav en algoritm som går igenom den översatta texten och letar efter ord som inte översatts. Vad som sedan bör göras med dessa ord är ett problem för forskningen att lösa. 6

9 Referenser Arnold, D. (2003). Why translation is difficult for computers. I Computers and Translation: A translator s guide. Benjamins Translation Library. Hutchins, J. (2007). Machine translation: a concise history. I Computer Aided Translation: Theory and Practice, C. S. Wai, Ed. Chinese University of Hong Kong. Ingo, R. (2007). Konsten att översätta. Lund: Studentlitteratur AB. Jurafsky, D. och Martin, J. (2009). Speech and language processing. New Jersey, USA: Prentice Hall. Koehn, P., Och, F. J., Marcu, D. (2003). Statistical phrase-based translation. Proceedings of the 2003 Conference of the North Amercian Chapter of the Association for Computational Linguistics on Human Language Technology, s Edmonton, Kanada. Lopez, A. (2008). Statistical machine translation. ACM Computing Surveys, 40 (3), art nr 8. University of Edinburgh, UK. Och, F. J. (2005). Statistical machine translation: Foundations and recent advances. Tutorial at MT Summit X. ( Papineni, K., Roukos, S., Ward, T. och Zhu, W. J. (2002). BLEU: A method for automatic evaluation of machine translation. Computational Linguistics, 30(4), Russell, S. och Norvig, P. (2003). Artificial intelligence: a modern approach. (2a upplagan) Upper Saddle River, NJ, USA: Prentice Hall. 7

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell

Läs mer

Statistisk maskinöversättning

Statistisk maskinöversättning Statistisk maskinöversättning Åsa Holmqvist Asaho232 Artificiell Intelligens 729G43 Innehållsförteckning Introduktion... 1 Maskinöversättningens historia.... 1 Statistisk metod... 3 Brusiga kanalen....

Läs mer

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...

Läs mer

SMT = ickefixerad maskinöversättning?

SMT = ickefixerad maskinöversättning? SMT = ickefixerad maskinöversättning? Richard Larsson (Linköpings universitet, 2016) 1 Introduktion För formella språk gäller bl.a. att det finns en exakt definierad uppsättning regler, som kallas för

Läs mer

Statistisk Maskinöversättning eller:

Statistisk Maskinöversättning eller: 729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...

Läs mer

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder 1 Leibniz, tidigt 1600 tal Descartes, tidigt 1600 tal Petr Smirnov

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G Statistisk Maskinöversättning Anna Prytz Lillkull 729G11 annpr075@student.liu.se 2010-10-03 Innehållförteckning Inledning...3 Bakgund...3 Uppkomsten av maskinöversättning... 3 Ökat intresse för statistisk

Läs mer

- ett statistiskt fråga-svarsystem

- ett statistiskt fråga-svarsystem - ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...

Läs mer

Maskinöversättning 2008

Maskinöversättning 2008 Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning LABEL byta SOURCE =byta.vb.1 TARGET =change.vb.1 TRANSFER LABEL byta-filter SOURCE

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

4 Fler deriveringsregler

4 Fler deriveringsregler 4 Fler deriveringsregler 4. Dagens Teori Derivatan av potensfunktioner. Potensfunktioner med heltalsexponenter, som du redan kan derivera, kallas polynomfunktioner, som till exempel: f(x) = 2x4 x3 + 2x

Läs mer

Cristina Eriksson oktober 2001

Cristina Eriksson oktober 2001 Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

DAB760: Språk och logik

DAB760: Språk och logik DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg

Läs mer

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954 Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i

Läs mer

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping Fuzzy Logic När oskarpa definitioner blir kristallklara Linköpings Universitet Linköping Sammanfattning I denna fördjupningsuppgift har jag fokuserat på Fuzzy Logic och försökt att beskriva det på ett

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

Korpusbaserad Maskinöversättning

Korpusbaserad Maskinöversättning Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,

Läs mer

Maskinöversättning. F Anna Sågvall Hein

Maskinöversättning. F Anna Sågvall Hein Maskinöversättning F1 2008 Anna Sågvall Hein Vad menas med maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

Språkteknologi (SV2122) Föreläsning 9: Översättning

Språkteknologi (SV2122) Föreläsning 9: Översättning Språkteknologi (SV2122) Föreläsning 9: Översättning Richard Johansson richard.johansson@svenska.gu.se 26 februari 2014 översikt inledning: vad är översättning? djupa metoder: datorn läser och förstår texten

Läs mer

NEURAL MASKINÖVERSÄTTNING

NEURAL MASKINÖVERSÄTTNING Linköpings universitet 729G43 NEURAL MASKINÖVERSÄTTNING Moa Wallin Inledning Manuell översättning är en mycket tidskrävande process som kräver stor kunskap och bred kompetens och behovet av översättning

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

http://www.sm.luth.se/~andreas/info/howtosearch/index.html

http://www.sm.luth.se/~andreas/info/howtosearch/index.html & ' ( ( ) * +, ', -. / ' 0! 1 " 2 # 3 / /! 1 $ 4, % 5 # 3, http://www.sm.luth.se/~andreas/info/howtosearch/index.html Andreas Tips och trix till sökningar i Cyberrymnden Här försöker jag att gå igenom

Läs mer

Maskinöversättning 2008

Maskinöversättning 2008 Maskinöversättning 2008 F7 Maskinöversättningens mål och möjligheter Systematiska språkskillnader sv-en sv-ty sv-fr sv-sp sv-ry Hur kan de beskrivas? Ge konkreta exempel. Hur kan de tas om hand i maskinöversättningen?

Läs mer

Föreläsning 5: Grafer Del 1

Föreläsning 5: Grafer Del 1 2D1458, Problemlösning och programmering under press Föreläsning 5: Grafer Del 1 Datum: 2006-10-02 Skribent(er): Henrik Sjögren, Patrik Glas Föreläsare: Gunnar Kreitz Den här föreläsningen var den första

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Föreläsning 7: Syntaxanalys

Föreläsning 7: Syntaxanalys DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2007-10-30 Skribent(er): Erik Hammar, Jesper Särnesjö Föreläsare: Mikael Goldmann Denna föreläsning behandlade syntaxanalys.

Läs mer

Matematik för språkteknologer

Matematik för språkteknologer 1 / 21 Matematik för språkteknologer 3.3 Kontext-fria grammatiker (CFG) Mats Dahllöf Institutionen för lingvistik och filologi Februari 2014 2 / 21 Dagens saker Kontext-fria grammatiker (CFG). CFG kan

Läs mer

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0 Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.

b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar. Salling, 070-6527523 TID : 9-14 HJÄLPMEDEL : Inga BETYGSGRÄNSER : G 18p, VG 28p SKRIV TYDLIGT OCH MOTIVERA NOGA! PROV I MATEMATIK AUTOMATEORI & FORMELLA SPRÅK DV1, 4 p 20 MARS 2002 1. Språket L över alfabetet

Läs mer

Regression med Genetiska Algoritmer

Regression med Genetiska Algoritmer Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet

Läs mer

Pre-editering och maskinöversättning. Convertus AB

Pre-editering och maskinöversättning. Convertus AB Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning

Läs mer

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Först några definitioner: Alfabet = en ändlig mängd av tecken. Ex. {0, 1}, {a,b}, {a, b,..., ö} Betecknas ofta med symbolen Σ Sträng =

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Statistisk mönsterigenkänning

Statistisk mönsterigenkänning Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning... LINKÖPINGS UNIVERSITET Innehåll 1. Inledning... 2 2. Terminologi... 3 3. Allmänt om Word2Vec... 3 4. Continous Skip-gram model... 4 Word2Vec Högkvalitativa vektorrepresentationer av ord tränat på stora

Läs mer

Fuzzy logic. Julia Birgersson, julbi

Fuzzy logic. Julia Birgersson, julbi Fuzzy logic, Innehållsförteckning Inledning 3 Vad är Fuzzy Logic, varför finns det? 3 Fuzzy sets och crisp sets 4 Medlemsfunktioner 4 Operationer 7 Lingvistiska termer och lingvistiska variabler 9 Artificiell

Läs mer

Kursinformation och schema Lingvistik 729G08 (6 hp)

Kursinformation och schema Lingvistik 729G08 (6 hp) LINKÖPINGS UNIVERSITET Institutionen för kultur och kommunikation Kognitionsvetenskapliga kandidatprogrammet V1 Kursinformation och schema Lingvistik 729G08 (6 hp) HT 2016 Lärare och examinatorer: Mathias

Läs mer

Dynamisk programmering. Dynamisk programmering. Dynamisk programmering. Dynamisk programmering

Dynamisk programmering. Dynamisk programmering. Dynamisk programmering. Dynamisk programmering Betrakta ett lagerhållningsproblem i flera tidsperioder. Vi har tillverkning och försäljning av produkter i varje tidsperiod. Dessutom kan vi lagra produkter mellan tidsperioder, för att utnyttja stordriftsfördelar

Läs mer

Kristian Almgren Artificiell Intelligens Linköpings Universitet 2011. Talstyrning

Kristian Almgren Artificiell Intelligens Linköpings Universitet 2011. Talstyrning Talstyrning Abstrakt Talstyrning är en teknik som gör det möjligt för oss människor att mer eller mindre verbalt kommunicera med en dator eller ett system. Det här är ett tillvägagångssätt inom AI och

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

Matematiska metoder för språkvetare, 7,5 hp

Matematiska metoder för språkvetare, 7,5 hp Vårterminen 2017 Kurskod: LIN420 Matematiska metoder för språkvetare, 7,5 hp Kursbeskrivning Version: 19/3 2017 Institutionen för lingvistik, Avdelningen för datorlingvistik Undervisande lärare Kursansvarig

Läs mer

Vägar till bättre översättningsprogram

Vägar till bättre översättningsprogram Vägar till bättre översättningsprogram Aarne Ranta, Thomas Hallgren, Krasimir Angelov Data- och informationsteknik Göteborgs universitet & Chalmers tekniska högskola Vetenskapsfestivalen 8 maj 2014, Göteborg

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Vektorgeometri för gymnasister

Vektorgeometri för gymnasister Vektorgeometri för gymnasister Per-Anders Svensson http://homepage.lnu.se/staff/psvmsi/vektorgeometri/gymnasiet.html Fakulteten för teknik Linnéuniversitetet Linjära avbildningar I Innehåll En liten tillbakablick:

Läs mer

y y 1 = k(x x 1 ) f(x) = 3 x

y y 1 = k(x x 1 ) f(x) = 3 x Räta linjen på olika former Här ska vi bara påpeka att förutom k-form, den som vi är mest vana vid y = k y + m finns också allmän form: ax + by + c = 0 där a och b är konstanter, som inte någon står för

Läs mer

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer Lite mer psykologi Perception: yntaktiskt bearbetning: emantisk bearbetning PERON() & LIKE(, y) L2: Automater, ökstrategier Korttidsminnet D4510 Parsningsalgoritmer Höstterminen 200 Långtidsminne Anders

Läs mer

Handledare: Mikael Goldmann

Handledare: Mikael Goldmann 2012-02- 23 Jacob Rydh Robert Hedin Sudoku Solver Projektspecifikation Handledare: Mikael Goldmann Introduktion Vi ska studera och utforma olika algoritmer för att lösa Sudoku puzzel. Vi kommer testa olika

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Ledtidsanpassa standardavvikelser för efterfrågevariationer

Ledtidsanpassa standardavvikelser för efterfrågevariationer Handbok i materialstyrning - Del B Parametrar och variabler B 43 Ledtidsanpassa standardavvikelser för efterfrågevariationer I affärssystem brukar standardavvikelser för efterfrågevariationer eller prognosfel

Läs mer

Taligenkänning med fördjupning på Hidden Markov Models

Taligenkänning med fördjupning på Hidden Markov Models IDA, Linköpings Universitet Artificiell Intelligens II, 729G11 HT 2008 Taligenkänning med fördjupning på Hidden Markov Models 870524-0045 jearu017@student.liu.se Sammanfattning Taligenkänning är en teknik

Läs mer

Tentamen i. TDDC67 Funktionell programmering och Lisp

Tentamen i. TDDC67 Funktionell programmering och Lisp 1 Linköpings tekniska högskola Institutionen för datavetenskap Anders Haraldsson Tentamen i TDDC67 Funktionell programmering och Lisp och äldre kurser TDDC57 Programmering, Lisp och funktionell programmering

Läs mer

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar 1 Agenda Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar 2 Nuvarande AI Funktioner en grov Analogi Rekommendation,

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

TDDC30 Programmering i Java, Datastrukturer och Algoritmer Lektion 5. Laboration 4 Lådplanering Exempel på layout, ett GUI-baserat program Frågor

TDDC30 Programmering i Java, Datastrukturer och Algoritmer Lektion 5. Laboration 4 Lådplanering Exempel på layout, ett GUI-baserat program Frågor TDDC30 Programmering i Java, Datastrukturer och Algoritmer Lektion 5 Laboration 4 Lådplanering Exempel på layout, ett GUI-baserat program Frågor 1 Laboration 5 - Introduktion Syfte: Öva på självständig

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

TNSL05 Optimering, Modellering och Planering. Föreläsning 10

TNSL05 Optimering, Modellering och Planering. Föreläsning 10 TNSL05 Optimering, Modellering och Planering Föreläsning 10 Agenda Kursens status Repetition Flödesnätverk Optimalitetsvillkor LP och Minkostandsflöde (MKF) Nätverkssimplex Känslighetsanalys Exempel: MKF

Läs mer

Föreläsning 5: Dynamisk programmering

Föreläsning 5: Dynamisk programmering Föreläsning 5: Dynamisk programmering Vi betraktar en typ av problem vi tidigare sett: Indata: En uppsättning intervall [s i,f i ] med vikt w i. Mål: Att hitta en uppsättning icke överlappande intervall

Läs mer

Prestanda och skalbarhet

Prestanda och skalbarhet Prestanda och skalbarhet Grama et al. Introduction to Parallel Computing Kapitel 5 Erik Elmroth Översikt 2 Exekveringstid Uppsnabbning Effektivitet Kostnad Kostnadsoptimal algoritm Ahmdals lag Gustafson-Barsis

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Föreläsning 5 5DV086 - Programspråk

Föreläsning 5 5DV086 - Programspråk Föreläsning 5 5DV086 - Programspråk Petter Ericson (pettter@cs.umu.se) Umeå University 6 februari, 2015 Haskell-frågor? Haskell-tips do-syntax State-monaden Dagens plan Programspråksteori Varför? Vad?

Läs mer

Den räta linjens ekvation

Den räta linjens ekvation Den räta linjens ekvation Här följer en dialog mellan studenten Tor-Björn (hädanefter kallad TB) och hans lärare i matematik Karl-Ture Hansson (nedan kallad KTH). När vi möter dem för första gången är

Läs mer

Case-based resoning. och dess användning inom sjukvården. Linköpings universitet Artificiell intelligens II 729G11 HT 2011

Case-based resoning. och dess användning inom sjukvården. Linköpings universitet Artificiell intelligens II 729G11 HT 2011 Linköpings universitet Artificiell intelligens II HT 2011 Case-based resoning och dess användning inom sjukvården Sammanfattning Det här arbetet handlar om vad case-based resoning är, hur den funkar, vilka

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

Föreläsning 11 - Automater, textsökning, tillstånd

Föreläsning 11 - Automater, textsökning, tillstånd Föreläsning 11 - Automater, textsökning, tillstånd Automater Textsökning KMP-automat (Knuth-automat) Boyer-Moore Rabin-Karp Sökning på webben Automater En portkodsautomat med nio knappar kan se ut så här:

Läs mer

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna. HUMANISTISKA FAKULTETEN Dnr: U 2016/417 Allmän studieplan för licentiatexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 30 mars 2017.

Läs mer

Stina Nyman 2012-09-16

Stina Nyman 2012-09-16 LINKOPINGS UNIVERSITET, IDA SmartKom Hur systemet fungerar Stina Nyman 2012-09-16 stiny786 Artificiell intelligens II Sammanfattning Detta projekt kommer handla om SmartKom som är ett multimodalt dialogsystem

Läs mer

Föreläsning 5 Innehåll

Föreläsning 5 Innehåll Föreläsning 5 Innehåll Algoritmer och effektivitet Att bedöma och jämföra effektivitet för algoritmer Begreppet tidskomplexitet Datavetenskap (LTH) Föreläsning 5 VT 2019 1 / 39 Val av algoritm och datastruktur

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Hantering av hazards i pipelines

Hantering av hazards i pipelines Datorarkitektur med operativsystem Hantering av hazards i pipelines Lisa Arvidsson IDA2 Inlämningsdatum: 2018-12-05 Abstract En processor som använder pipelining kan exekvera ett flertal instruktioner

Läs mer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten. OS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez

Artificiell intelligens II, 729g11 Projekt HT-11. Taligenkänning. Nina Knez Taligenkänning 1 Sammanfattning Taligenkänning är i dagens samhälle en nödvändig teknik för många människor för att lättare ta sig fram genom vardagen. Man hittar tekniken i olika sammanhang som telefonupplysning,

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med

Läs mer

PROV I MATEMATIK Automatateori och formella språk DV1 4p

PROV I MATEMATIK Automatateori och formella språk DV1 4p UPPSALA UNIVERSITET Matematiska institutionen Salling (070-6527523) PROV I MATEMATIK Automatateori och formella språk DV1 4p 19 mars 2004 SKRIVTID: 15-20. POÄNGGRÄNSER: 18-27 G, 28-40 VG. MOTIVERA ALLA

Läs mer

Icke-linjära ekvationer

Icke-linjära ekvationer stefan@it.uu.se Exempel x f ( x = e + x = 1 5 3 f ( x = x + x x+ 5= 0 f ( x, y = cos( x sin ( x + y = 1 Kan endast i undantagsfall lösas exakt Kan sakna lösning, ha en lösning, ett visst antal lösningar

Läs mer

EKG-klassificering. Andreas Bergkvist, Michael Sörnell,

EKG-klassificering. Andreas Bergkvist, Michael Sörnell, EKG-klassificering Projektrapport i Signaler och system Uppsala Universitet Inst. för signaler och system 2002-2-0 För: Mattias Johansson Av: Andreas Bergkvist, andreasbergkvist@hotmail.com Michael Sörnell,

Läs mer

Föreläsningsanteckningar F6

Föreläsningsanteckningar F6 Föreläsningsanteckningar F6 Martin Andersson & Patrik Falkman Kortaste vägen mellan en nod och alla andra noder Detta problem innebär att givet en graf G = (E,V) hitta den kortaste vägen över E från en

Läs mer

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm Syntaxanalys Douglas Wikström KTH Stockholm popup-help@csc.kth.se Reguljära uttryck Reguljära uttryck förutsätter att en mängd bokstäver är givna, ett så kallat alfabet, som oftast betecknas med Σ. Uttryck

Läs mer

HKGBB0, Artificiell intelligens

HKGBB0, Artificiell intelligens HKGBB0, Artificiell intelligens Kortfattade lösningsförslag till tentan 3 november 2005 Arne Jönsson 1. Vad karaktäriserar dagens AI-forskning jämfört med den AI-forskning som bedrevs perioden 1960-1985.

Läs mer

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning

Läs mer

Reflektionsverktyg att utveckla modelleringsförmåga

Reflektionsverktyg att utveckla modelleringsförmåga Modul: Undervisa matematik utifrån förmågorna Del 4: Modelleringsförmåga Reflektionsverktyg att utveckla modelleringsförmåga Örjan Hansson, Högskolan Kristianstad Experter i matematisk modellering framhäver

Läs mer

ARTIFICIELL INTELLIGENS

ARTIFICIELL INTELLIGENS ARTIFICIELL INTELLIGENS www..se Så fungerar det Artificiell Intelligens (AI) är intelligens som uppvisas av maskiner. Uttrycket användes för första gången 1955 i ett forskningsförslag med syftet att hitta

Läs mer

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East Digital inkludering i det uppkopplade samhället för grupper med speciella behov Arne Jönsson Linköpings universitet och RISE SICS East Inkludering av alla medborgare i det digitala samhället Utlandsfödda

Läs mer