SMT = ickefixerad maskinöversättning?

Storlek: px
Starta visningen från sidan:

Download "SMT = ickefixerad maskinöversättning?"

Transkript

1 SMT = ickefixerad maskinöversättning? Richard Larsson (Linköpings universitet, 2016) 1

2 Introduktion För formella språk gäller bl.a. att det finns en exakt definierad uppsättning regler, som kallas för språkets grammatik. Grammatiken beskriver i vilken ordning man får kombinera givna tecken, och även vilka tecken som är tillåtna i språket. Denna del brukar kallas språkets syntaktiska del. Men för att språket inte enbart ska bestå av ändlösa rader teckenkombinationer behövs också en semantisk del som istället beskriver betydelsen av de olika tecknen. Detta räcker för att ett formellt språk som exempelvis ett programmeringsspråk eller ett logikspråk ska vara komplett och gå att använda fullt ut, men det blir svårare när det kommer till de naturliga språken som människor använder i kommunikation med varandra, eftersom man där inte har lika exakt definierade regler för vare sig syntax eller semantik. Så det finns två huvudsakliga problem för att formellt redogöra för naturliga språk: 1) De saknar en exakt och komplett grammatik. 2) Meningar på naturliga språk kan vara flertydiga. För att därmed effektivt redogöra för en modell av ett naturligt språk fungerar en sannolikhetsfördelning av meningar bättre än ett absolut regelverk (Russel & Norvig, 2009). Man brukar använda sig av sannolikhetsfunktioner som P = (målspråk källspråk) för att avgöra sannolikheten för att en given uppsättning tecken på ett naturligt språk består av ord i ett annat givet språk. När det därför kommer till artificiell intelligens som översätter texter på naturligt språk, så kallad maskinöversättning (MT), behöver man använda sig av en sådan funktionell modell för ett språk. Sannolikhetsfördelningar baserade på denna modell innebär att översättningar inte kan bli helt exakta, vilket är kärnproblemet för MT. Däremot har man under åren utvecklat en mängd mer eller mindre effektiva heuristiska verktyg för att precisera jämförelsen mellan två språk. Det finns flera sätt att angripa problemet på. I MTs tidiga historia (ca tal till 1960-tal) utgick man från vad som kallas ordlistbaserad MT, där man helt enkelt utgick ifrån en tvåspråkig ordlista och lät översättningen ske utan vidare regler än så (Tripathi & Sarkhel, 2010). Det jag i denna fördjupningsstudie har valt att inrikta mig på kallas statistisk maskinöversättning (SMT). Ett annat av de mer intressanta alternativen som används för MT är exempelvis hybridöversättning (HMT) och går istället ut på att flera metoder används för översättningar, bl.a. en modifierad variant av SMT. Det finns dock ingen metod som är perfekt, utan olika metoder fungerar bättre på vissa aspekter men sämre på andra gentemot varandra. Generellt beskrivet går SMT ut på att avgöra om en översättning mellan två naturliga språk är korrekt eller ej beroende på meningarnas förekomster i stora tvåspråkiga korpusar. Korpusar är databaser innehållande stora mängder text av diverse slag. Korpusarna används som de statistiska databaser utifrån vilka reglerna i den statistiska modellen som används genereras. Frågan jag försöker besvara i den här litteraturstudien är dock om det är så enkelt 2

3 som att säga att SMT därmed är en helt generativ översättningsmetod i och med att metodens träningsdata baseras på korpusar, eller om det snarare är ofrånkomligt att någonstans använda sig av en fixerad ontologisk modell i någon form som den generativa aspekten av metoden ställs mot, för det är vid första anblick att komma närmare detta fria ideal som var syftet med SMT gentemot sina föregångare. Kommer man ända fram med SMT och hur långt är det i annat fall kvar tills man inom MT lyckas konstruera den totala bryggan mellan naturligt språk och strikt algoritmisk avbildning av dessa? För att besvara frågan ges först en övergripande genomgång av vad MT är och vilka olika grenar som finns, för att bekanta läsaren med de grunder som SMT baseras på, och därefter följer en genomgång av principerna inom SMT självt. Slutligen diskuteras alltsammans där mina personliga reflektioner tas upp utifrån dessa båda stycken. 3

4 SMT = ickefixerad maskinöversättning? Olika metoder för maskinöversättning Som nämnt i inledningen är de två huvudsakliga problemen med MT att naturligt språk innehåller tvetydigheter och att de saknar exakta regelverk. En konsekvens av dessa två problem är exempelvis att översättningar inte lyckas parsa (det att analysera en ordsträng för att analysera dess frasstruktur enligt en given grammatik) perfekt mellan de båda involverade språken då de inte har exakt samma semantiska betydelser av ett visst ord på grund av att olika språk kategoriserar världen på olika sätt. Ordet distinguish på engelska kan översättas till svenska som skilja, men i meningen distinguished guests skulle den översättningen bli skilda gäster, vilket får en helt annan semantisk innebörd än i orginaltexten och en översättning tillbaka till engelska igen skulle kunna medföra divorced guests som resultat. Sättet man inom MT har valt för att lösa detta problem är att använda sig av vad som kallas ett interlingua, vilket är ett representationsspråk för hur två faktiska språk ska jämföras med varandra som tar hänsyn till samtliga tvetydigheter av detta slag. I ett interlingua skulle ordet distinguished indexeras så att varje betydelse av ordet skulle gå att urskiljas: distinguish 1, distinguish 2 etc. Dock är inte ens ett interlingua ett komplett instrument för att lyckas perfekt med översättningar. Fall där det får problem är när ovannämnda typ av flertydigheter ligger såpass nära varandra att inte ens kontexten enkelt eller ens alls kan användas för att avgöra vad som är rätt tolkning av en mening. Exempelvis den engelska meningen The ball hit the window. It broke. Det är omöjligt att avgöra vad ordet it pekar på utan att ha en personlig kännedom om den kontext som beskrivs: går fönstret eller bollen sönder? Hur gör därmed ett AI, vilket saknar livserfarenheten som människor använder sig av för sin språkliga tolkning, när det funderar över denna typ av problem och inte har tillgång till ett perfekt interlingua att slå upp det rätta svaret i? Det finns flera svar på detta. Främst finns det generellt sett två ytterligheter inom MT vad gäller på vilken nivå man väljer att genomföra översättningen (Tripathi & Sarkhel, 2010): Metafrasöversättning ord-för-ord-översättningar där alltså varje ord i källspråkets text översätts till ett ord i målspråkets text. Parafrasöversättning en mer dynamisk motsvarighet där man istället fokuserar på den semantiska betydelsen i en given textmängd. Har man innebörden av metafrasöversättning och parafrasöversättning klar för sig kan man sedan beskriva samtliga metoder inom MT med hur de använder sig av dem, vilket kan illustreras med Vauquois triangel: 4

5 Figur 1 fritt översatt från Tripathi & Sarkhel (2010) I toppen av triangeln är ett komplett interlingua och botten utgörs av direkta ord-förordmetoder mellan två språk. Metoderna som implementerar strikt metafras- eller strikt parafrasöversättning utgörs på parafrassidan av regelbaserad maskinöversättning (RBMT) och på metafrassidan av ordlistebaserad. RBMT utgår ifrån en stor mängd morfologiska, syntaktiska och semantiska regler och kombinerar dessa med stora mängder tvåspråkiga ordlistor för att översätta texter (Tripathi & Sarkhel, 2010), medan ordlistebaserad översättning enbart använder sig av just ordlistor och översätter orden direkt från källspråket till målspråket. Transfermetoden i triangelns mitt baserar sig på en metod som sker i tre steg: Analys i vilken den syntaktiska och semantiska strukturen i källspråket erhålls. Transfer informationen från det analytiska steget överförs till motsvarigheten i målspråket. Syntes i vilken översättningen genereras utifrån informationen i transfersteget. MT brukar anses ha tre generationer i sin utveckling. Till den första generationen brukar man räkna ordlistebaserad översättning. Utifrån lärdomen om resultaten från denna princip började man istället fundera över införandet av grammatiska regler i översättningsmetoderna, vilket utgör huvudparten av den andra generationens översättningsmetoder, som inkluderar transfermetoden där som sagt en regelmall kombineras med en ordlista. Problemet även med transfermetoden är dock att den liksom sin föregångare utgår från en mer eller mindre fast mall, ordlistor och grammatiska regelsystem som facit. Vad gäller naturligt språk medför detta problem med grammatiska undantag, flertydigheter av samma ord etc. För att förbättra träffsäkerheten på översättningar blev därför nästa generation en metod som istället utgick ifrån det analyserade datat för att generera sin grammatikstruktur. Den mest effektiva metoden inom denna generation är statistisk maskinöversättning (SMT). 5

6 SMT Enligt Lopez (2008) finns det fyra kriterier som ett SMT-system måste klara av för att fungera: 1) Det måste innehålla en beskrivning av stegen som transformerar en mening på källspråket till en mening på målspråket. Detta kallas för systemets modell. 2) Det måste kunna hantera flertydigheter, vilket man inom SMT gör med parameterisering. Parameterisering är att indexera alla specialfall av ord eller uttryck som kan ha fler än en betydelse. 3) Till parametrarna man tar fram beräknar man sedan ett värde för att ge dem olika vikt, vilket kallas parameteruppskattning. 4) När dessa kriterier sedan implementeras på en given mening text måste en beräkning på vilken översättning som är mest sannolik göras, vilket kallas avkodning. I SMT sker alltså översättningar baserat på statistiska modeller som genereras utifrån stora tvåspråkiga korpusar, vilket är korpusar där samma texter på de respektive språken finns och kan jämföras med varandra. Att utgå ifrån stora korpusar betyder att man inte behöver vare sig analysera källtexten eller skapa ett komplext interlingua, utan allt som behövs är att texter jämförs och graden av korrekthet är sedan proportionell mot förekomstandelen av en given motsvarighet mellan källspråk och målspråk i korpuset (Russel & Norvig, 2009). För följande stycken om dessa fyra mekanismer inom SMT är 1, 3 och 4 baserade på Lopez (2008) och 2 baserat på Russel & Norvig (2009). 1. Modellkonstruktion FST Den ena av de populäraste metoderna för att formalisera modeller inom SMT, som kallas finite-state transducer (FST), utgår ifrån principerna i finite-state automata (FSA), vilka utgörs av en mängd tillstånd S, en mängd artiklar L och en mängd övergångar D. För varje övergång från ett tillstånd till ett annat läses två tillstånd (ursprung och mål) och en artikel av: D {S x S x L} För att detta ska kunna användas inom översättning måste man dessutom utveckla det till att använda sig av två artiklar. L 1 läses in i den ena mängden (källspråket) och baserat på denna skrivs L 2 i den andra mängden (målspråket). Om de båda mängderna L 1 och L 2 icke-tomma betyder det att varje element x i L 1 är korresponderande värden med y i L 2. När man har detta använder man sedan utdatat från en FST som indatat i en annan FST, vilket utgör den totala mekaniken i modellen. 6

7 SCFG Den andra metoden för att skapa modeller inom SMT kallas synchronous context-free grammar (SCFG), vilket är olika sorters generaliseringar av kontextfri grammatik (CFG) med två utdatasträngar. CFGer består av tre enhetstyper. En mängd icketerminala symboler N, en mängd terminala symboler T och produktioner D = {N (N T)*}. Produktioner fungerar som själva transferfunktionen (se föregående stycke) i det här fallet: en icketerminal symbol ersätts av en eller flera terminala eller icketerminala symboler. Först skapas en icketerminal rotsymbol med rewriting rule d D, och därefter omskrivs rekursivt nya symboler tills hela utdatamängden består av terminala symboler. I naturligt språk utgör N-symboler syntaktiska kategorier (såsom NP, VP etc.) och T-symboler utgör ord. Som sagt är SCFGer specialiserade till två strängar för varje produktion, vilka är indexerade för att särskiljas. En typisk tilldelning kan se ut såhär: NPB JJ 1 NN 2 / JJ 1 NN 2. Detta genererar sedan två träd, ett för vardera språk. 2. Parameterisering Som nämnt ovan innehåller naturligt språk ofta flertydigheter, flera möjliga betydelser av exakt samma ord, och vilken av dessa betydelser som är korrekt kan endast avgöras av kontexten. Det är för att kunna välja mellan dessa olika betydelser som parameterisering används inom SMT. Även denna del av SMTs fyra grundläggande element har många lösningar. Generellt använder man sig dock av principen där man parsar ett inputvärde mot ett outputvärde enligt f: X x Y R där en slumpmässig variabel x inom mängden X och en slumpmässig variabel y inom mängden Y mappas till ett reellt värde som rangordnar möjliga utdata. Inom vad som kallas en joint model P(x,y) har vi följande förhållande: summan av alla värden x och y inom mängderna X och Y är 1, och simultanfördelningen: (x, y) (XxY) P(x = x, y = y) [0, 1]. Det andra sättet att beräkna de stokastiska variablerna x och y är genom konditionalisering: och (x, y) (XxY) P(x = x y = y) [0, 1]. Och detta är de konditionaliserade, stokastiska variablerna x betingade på motsvarande y- variabler. 7

8 För att sedan kunna använda sig av dessa uppsättningar probabilistiska data inom SMT kombinerar man parameteriseringen med mekanismen i modelleringen, D. D är den regel som används för att klassificera de probabilistiska värdena så att flertydiga ord mappas till korrekt översättning enligt endera SFT-principen, där D utgör övergångar mellan olika tillstånd, eller enligt SCFG-principen, där D istället utgör grammatiska produktionsregler. Syftet med det D man vill använda är att kunna parsa alla f inom V F *, dvs. samtliga variabelvärden inom källspråket, med alla e inom V E *, motsvarande för målspråket. Den matematiska modell som används för detta är därmed: där e är källspråket, f är målspråket och d är modellen som förklarar förhållandet mellan e och f. Så med andra ord, sannolikheten för att ett givet ord på källspråket motsvarar ett givet ord på målspråket är summan av samtliga fall där dessa stöts på i de tvåspråkiga korpusarna, givet förhållanderegeln d. Ofta men inte alltid är de båda stegen modellering och parameterisering, dvs. klassifikation och rangordning, integrerade. Det finns sedan dels generativa och diskriminativa modeller. Jag har valt att beskriva mekanismerna inom generativ modellering. Så principen är som sagt sannolikhetsfördelningar P(målspråk källspråk) för att avgöra om en text består av ett visst språk. Den enklaste modellen där denna grund används är n- grammodeller. Ett n-gram är en sekvens tecken på n antal tecken. Detta införs i vår sannolikhetsfördelning P(målspråk källspråk) som P(c 1:N ) där c är tecknet och indexeringen från 1 till N är teckensekvensens början och slut. Exempelvis skulle kanske P( apa ) = 0.83 (obs. enbart ett påhittat, uppskattat värde!) i en svensk korpus, men få ett lägre värde i en korpus på ett annat språk där ordet apa inte förekommer. Eftersom det finns en otalig mängd strängar av ett givet språk som har apa i sig men inte avgränsas till enbart apa, exempelvis gapa, naprapat eller rentav härmapa, är det dessutom nödvändigt att kunna införa denna avgränsning formellt. Detta görs med Markovantaganden. Ett Markovantagande (uppkallat efter den ryska statistikern Andrei Markov) är uppfyllt när sannolikhetsfördelningen i en serie P(X t X 0:t-1 ) är begränsat till att enbart bero på en given mängd tecken som direkt föregår det sökta tecknet t. Denna regel ger sedan upphov till vad som kallas Markovkedjor, så att för exempelvis första ordningens Markovkedja P(X t X o:t-1 ) = P(X t X t-1 ). För mer avancerade varianter av Markovkedjor blir sannolikhetsfördelningen sedan P(X t X o:t-1 ) = P(X t X t-2, X t-1 ) för andra ordningens osv. Detta innebär alltså att i en given teckensträng X är sannolikheten för strängens värde vid tecken t given av en ändlig och given mängd tecken dessförinnan. Vad har då allt detta för koppling till maskinöversättning? Jo, en Markovkedja av ordningen n 1 8

9 är vad man kallar en n-grammodell, och denna används till statistisk språkidentifiering genom att man riktar in sig på avgränsade teckensträngar som förmodas påträffas i ett givet språk. Datormodeller gör detta med en träffsäkerhet på upp till 99%, bortsett från med språk som inte liknar varandra mycket, såsom exempelvis kinesiska och engelska. En trigrammodell (dvs. ett n-gram bestående av tre tecken) ser alltså ut såhär: P(X i X 1:i-1 ) = P(X i X i-2:i-1 ) (dvs. identisk med ovanstående formel, men denna börjar leta explicit vid index 1). Denna regel används sedan i kombination med kedjeregeln F (x) = f (g(x)) * g (x) till att generera följande fakultetsuttryck: När SMT var i sin linda var tankarna om metoden att man enklast skulle lyckas maximera träffsäkerheten genom att omvandla denna formel med hjälp av Bayes regel. Bayes regel använder man när man vill stöka om sannolikheterna från orsak symptom till symptom orsak. Formeln ser ut såhär: Om vi låter P(A) representera sannolikheten för att en text är på ett visst språk l och P(B A) representera förekomsterna av ett givet antal tecken, c i, på ett visst språk får vi Här kan vi stoppa in Markovantagandet, eftersom ekvationen är normaliserad gentemot ett givet antal tecken och vi vet att inga tecken utöver den sträng vi tittar på är lika relevanta. En trigrammodell som ger oss maximala sannolikheten för att ett språk är det vi söker är därmed där ms är målspråket vi söker och ks är källspråket som redan är känt. 9

10 3. Parameteruppskattning När alltså parametrarna finns givna är nästa steg att tilldela värden till dem genom parameteruppskattning. Detta sker inom SMT med hjälp av beräkningar med parallella korpusar som datamängder. Inom generativa modeller använder man sig av statistisk uppskattningsteori där man gör antagandet att den framtagna modellens översättning överrensstämmer så bra som möjligt med det riktiga värdet, vilket alltså görs genom att man tränar AI:t med modellen på de parallella korpusarna. Man använder den matematiska modellen där C {E* x F*}, och E* och F* i sin tur är de båda mängderna träningsdata som används för de respektive språken. Syftet är att hitta funktionens maximala tillstånd med flest påträffade korrelationer mellan mängderna och detta kallas för maximum likelihood estimation (MLE). I idealfall som myntkastning fungerar formeln P(kr) = #(kr)/#(kr+kl) utmärkt för att ta reda på sannolikheten för det kända antalet kronor och klavar, men det är svårare för maskinöversättning som försöker parsa två språk och vill ha reda på förekomsten av vissa meningsbyggnader i en okänd mängd möjliga meningsbyggnader. Orsaken är att man enbart kan titta på meningspar och inte på den totala mängden sammanfallande förekomster av enskilda ord i meningarna. Exempelvis kan ordet lend i en kontext betyda låna ut men i en annan kanske ordet ska tolkas metaforiskt som i lend an eye, vilket är ett lexikaliserat uttryck som det går att leta efter genom att söka på hela frasen, men om det däremot finns ickelexikaliserade fraser som använder ordet i samma metaforiska betydelse så fungerar inte ovanstående sannolikhetsfördelning som mekanism. Lösningen på detta problem kallas Expected-Maximization-algoritmen (EM-algoritmen). I denna måste vi ha en ny konstant Θ 0, vilket är förväntade antal observationer av sammanfallande av två ords lika översättningar, inte baserat på träningsdata från hela korpuset utan på träningsdata från en såpass enkel träningsmängd att en regel kan sättas för vad Θ 0 ska vara för en given översättning. Vi får då ekvationen där alltså det givna värdet Θ 0 används för att uppskatta värdena på alla möjliga sammanfallanden mellan f och e mellan 1-I respektive 1-J för orden inom parentesen. Därefter kan man göra en likadan beräkning som vid myntkast som är lika relevant för språk. När detta sedan appliceras på hela korpuset kan en regel Θ 1 sättas och man kan nu jämföra och se om P Θ1 (C) > P Θ0 (C) och denna jämförelse mellan de två olika värdena (det oövervakade eller övervakade värdet) når aldrig något globalt maximum eftersom detta aldrig är känt, utan är en ständig hill climbing-process som hela tiden rekursivt undersöker om den 10

11 befinner sig i ett lokalt maximum eller inte fortsätter genom hela översättningsprocessen. Det är i och med detta ständiga knådande som man med rätta kan kalla metoden för generativ. Slutsatsen blir formeln där D är det okända korrigeringsdatat. Utöver denna mekanism för parameteruppskattning behövs även vad som kallas ordjustering. Det man är ute efter med ordjustering är att hitta ord-för-ord-motsvarigheter i ett givet meningspar e och f så att justeringen A [1, I] x [1, J]. Om (i, j) A så är ordet e i justerat med ordet f j. Det finns sedan diverse undermetoder för hur denna justering ska gå till. Assymmetriska modeller letar efter en maximering av ett visst antal stegs förskjutning som ett givet ord som ska översättas har i en mening på källspråket jämfört med i målspråkets mening enligt Den nya konstanten a är alltså justeringsvariabeln som tilldelas värdet a j, vilket är ett uppskattat värde på ordet e:s mest sannolika förskjutningsposition i den givna meningen. Sedan finns diverse andra metoder såsom symmetriska justeringsmodeller eller övervakad inlärning för justering, men syftet är alltså samma för samtliga. Det sista steget som behövs i parameteruppskattning är uppskattning i log-linjära modeller. I log-linjära modeller använder man, för att uppskatta graden av korrekthet, konstanterna λ K 1 i formeln vilket är en monstruös formel där man tack och lov vad gäller det slutgiltiga steget avkodning kan slopa den normaliserande nämnaren eftersom den är konstant för ett givet värde f J 1 i och med att man gör ett Markovantagande för detta värde. λ K 1 är uppskattningsvikterna för modellen. Genom att inkludera dessa i MLE-formeln beskriven ovan har vi en mätning på hur sannolik vår parameteruppskattning är. För att komma fram till dessa parametrar tränas de enligt minimum error-rate training (MERT)-metoden. Man börjar i MERT med en felfunktion E(ê, e), ett predicerat värdet ê och ett värde e som har visat sig vara en bra översättning enligt undersökningar utförda på människor via enkäter e.d. Därefter tränar man sina vikter enligt Alltså är λ K 1 ett värde som i grunden uppskattas utifrån en mänsklig uppfattning om vad som anses vara en bra översättning. 11

12 4. Avkodning Vi är nu framme vid SMTs sista steg där allting knyts ihop och översättningen äger rum genom en komplett parsning från källspråk till målspråk. Vad vi då har kommit fram till är en slutgiltighet, till skillnad från alla våra tidigare steg som istället har tagit fram statistisk sannolikhet utan att behöva knyta dem till slutgiltiga grammatiska regler. Det kan vi inte längre skjuta framför oss och den klart mest använda formeln för detta sista steg är Detta kallas träffsäkert nog för en beslutsregel. Vi är alltså även här ute efter att hitta ett maximum i en funktion enligt samma argument som ovan. Märk väl att det, trots att f (vilket ju är källspråket) är känt och det finns en ändlig mängd värden (e, d), finns en gigantisk mängd data att söka igenom, och därför används olika sökheuristiker för att komma fram till det optimala värdet. De två heuristiker som används för detta baserar sig på de två avgreningarna inom modellkonstruktionen, FST och SCFG. FST-avkodning För FST-avkodning används en acyklisk och riktad graf där varje nod är tillstånd bestående av färdiga eller inkompletta hypoteser om vad som är korrekt översättning. Noderna är uppbyggda av fyra kriterier: 1) En delmängd C {1, 2,..., J} där elementen utgör positionerna för orden i den översatta meningen på källspråket. 2) För n-grammodeller hålls även n 1 antal ord av målspråket i minnet för att kunna konstruera en n-gramkomponent av sannolikheten för modellen. 3) Kostnaden h för varje genererad nod i sökträdet och därmed varje delhypotes. 4) Kostnaden g för hela sökträdets totala kostnad, dvs. kostnaden för den kompletta hypotesen. För att generera tillstånd (noder) i sökrymden läggs nya värden till i delmängden (1) och nya ord i hypotessträngen, vilket blir översättningen från den givna nodens källspråksord till det genererade målspråksordet. Kostnaden h uppdateras genom att sannolikheten för den givna delhypotesen beräknas. På detta vis genereras sökträdet och alltså översättningen i FSTavkodning. En mängd möjliga heuristiker såsom A* och greedy search används sedan för att minimera minnes- och tidskomplexiteten och samtidigt maximera optimaliteten. SCFG-avkodning Syftet med SCFG-avkodning är att generera parallella sökträd, beräkna kostnaden för dessa och välja översättning efter det träd som ger högst poäng. Trädens noder kallas spans, vilka består av icketerminala symboler, strängar av angränsande ord samt de regler från den gällande språkmodellen som behövs för att kunna kombinera flera spans. Man använder sedan SCFG-produktioner som matchar två givna ordsekvenser (N) som redan har infererats i tidigare, mindre spans för att generera nya spans som kombinerar dessa för att bilda en ny 12

13 kombination, och på så vis konstrueras trädet iterativt span för span tills hela källspråket har parsats, och därpå produceras slutligen utdatat (översättningen) enligt ordföljden i målspråket. Vilken av dessa två principer för avkodning som är optimal är en stor fråga inom SMT, för trots att tidskomplexiteten för SCFG-avkodning är polynom (O(J 2 )) gör användandet av heuristiker inom SFT-avkodning att det är allt annat än klart vilken av dem som hanterar detta bäst, och SFT-avkodare är i praktiken ofta snabbare än SCFG. 13

14 Diskussion Frågeställningen är som sagt i inledningen huruvida man kan säga att SMT är fritt från fixerande ramverk andra än naturligt språk till skillnad från sina föregångare, som baserade sig på givna mallar utifrån ordböcker och fördefinierade grammatiska regler. SMTs grammatik genereras som vi har sett genom att använda sig av kontinuerligt växande mängder data som är exempel på naturligt språk, och de ramverk som måste användas för att formalisera källspråkets och målspråkets grammatiker utgörs ju av värdesmaximering i relativt enkla funktioner med språken som träningsdata. MERT-metodens viktuppskattning, metodikerna för produktionen D, och EM-algoritmen utgör väldigt effektivt preciserande instrument för maximering av den statistiska uppskattningen inom SMT med denna grund. Dock knyts alltihop samman när metoden implementeras på beslutsregeln vid avkodningen, och denna regel utgår ju från jämförelsen mellan det predicerade värdet ê och e. e hämtas i MERT-metoden från statistik från mänsklig uppfattning om vad som räknas som en korrekt översättning. Slutsatsen blir därför att inte ens SMT är en helt ickefixerad MT-metod. Vidare är svaret på den andra inledningsfrågan att metodiken inom SMT inte räcker för att exakt parsa naturligt språk i en komplett interlingua. SMT får exempelvis problem ju mer olik ordföljden är mellan två språk (Russel & Norvig, 2009). Detta eftersom det ju baseras på principen att ju fler exempel på en given teckensträng som påträffats desto mer sannolikhet för att den strängen utgör den korrekta översättningen (desto högre poäng ges den med andra ord vid träning), och ju färre exempel som parsar varandra på samma sätt desto mindre statistisk power får sluthypotesen vid avkodningen. Andra exempel på problem som uppstår av samma orsak är egennamn och idiom i texter. Förbättringar på en del av detta hittar man inom HMT, där exempelvis statistical rule generation (SRG) och multi-pass (MP) kan nämnas i relation till SMT (Hutchins, 2003), vilket båda är tekniker som kombinerar SMT med RBMT-metoder för att effektivisera sökningen på olika sätt. Detta ökar dock fortfarande inte träffsäkerheten och för översättningen närmare ett interlingua. Det enda som historiskt sett har burit frukt av alternativen till SMT är bättre lingvistiska system, dvs. mer kompletta interlinguan, men att någonsin komma till en perfekt parafrasöversättning är inte rimligt inom en överskådlig framtid. Däremot kommer det bli intressant att se hur system som Google Translate utvecklas när mängden text i användbara korpusar växer med spridningen av information på Internet. Jag lutar snarare åt SMTapproachen än åt fulländandet av grundläggande syntaktiska regelverk som Noam Chomskys generativa grammatik, särskilt vad gäller naturliga språks dynamiska natur som ständigt fortsätter att utvecklas. Kanske någon gång i framtiden, när kognition är komplett formaliserat och Big Data-beräkningar genererar algoritmer för hur språk verkligen uppstår från grunden, att vi kommer att få se SMT passerat som fanbärare, men jag tror det är väldigt långt dit, och jag ser inga trovärdiga alternativ på horisonten ännu. Men vem vet, å andra sidan? Exponentiell ökning är ett ofta underskattat fenomen! 14

15 Källor 1) Lopez, A. (2008). Statistical Machine Translation. ACM Comput. Surv., 40, 3, Art. 8. University of Edinburgh. 2) Tripathi, S., Sarkhel, J. K. (2010). Approaches to Machine Translation. Annals of Library and Information Studies, vol. 57, Dec. 2010, pp Banaras Hindu University. 3) Russel, S. J., Norvig, P. (2009). Artificial Intelligence: A Modern Approach, 3e. Prentice Hall. 4) Hutchins, J. (2003). Example Based Machine Translation a Review and Commentary. Recent Advances in Example-based Machine Translation. Kluwer Academic Publishers. 15

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell

Läs mer

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...

Läs mer

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Statistisk maskinöversättning

Statistisk maskinöversättning Statistisk maskinöversättning Åsa Holmqvist Asaho232 Artificiell Intelligens 729G43 Innehållsförteckning Introduktion... 1 Maskinöversättningens historia.... 1 Statistisk metod... 3 Brusiga kanalen....

Läs mer

Probabilistisk logik 2

Probabilistisk logik 2 729G43 Artificiell intelligens / 2016 Probabilistisk logik 2 Marco Kuhlmann Institutionen för datavetenskap Översikt Probabilistiska modeller Probabilistisk inferens 1: Betingad sannolikhet Probabilistisk

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

Statistisk mönsterigenkänning

Statistisk mönsterigenkänning Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning

Läs mer

Kontextfria grammatiker

Kontextfria grammatiker Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Statistisk Maskinöversättning eller:

Statistisk Maskinöversättning eller: 729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Vad behövs för att skapa en tillståndsrymd?

Vad behövs för att skapa en tillståndsrymd? OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad för att man skall

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,

Läs mer

Matematik för språkteknologer

Matematik för språkteknologer 1 / 21 Matematik för språkteknologer 3.3 Kontext-fria grammatiker (CFG) Mats Dahllöf Institutionen för lingvistik och filologi Februari 2014 2 / 21 Dagens saker Kontext-fria grammatiker (CFG). CFG kan

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare och enkäter "Det finns inget så praktiskt som en bra teori" September 2011 och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

- ett statistiskt fråga-svarsystem

- ett statistiskt fråga-svarsystem - ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Först några definitioner: Alfabet = en ändlig mängd av tecken. Ex. {0, 1}, {a,b}, {a, b,..., ö} Betecknas ofta med symbolen Σ Sträng =

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Föreläsning 7: Syntaxanalys

Föreläsning 7: Syntaxanalys DD2458, Problemlösning och programmering under press Föreläsning 7: Syntaxanalys Datum: 2007-10-30 Skribent(er): Erik Hammar, Jesper Särnesjö Föreläsare: Mikael Goldmann Denna föreläsning behandlade syntaxanalys.

Läs mer

Träd och koder. Anders Björner KTH

Träd och koder. Anders Björner KTH 27 Träd och koder Anders Björner KTH 1. Inledning. Det är i flera sammanhang viktigt att representera information digitalt (d.v.s omvandla till sviter av nollor och ettor). Beroende på vilka villkor som

Läs mer

Tommy Färnqvist, IDA, Linköpings universitet

Tommy Färnqvist, IDA, Linköpings universitet Föreläsning Metoder för algoritmdesign TDDD86: DALP Utskriftsversion av föreläsning i Datastrukturer, algoritmer och programmeringsparadigm 7 december 015 Tommy Färnqvist, IDA, Linköpings universitet.1

Läs mer

b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar.

b) S Ø aa, A Ø aa» bb, B Ø aa» bc, C Ø ac» bc» 2. Låt L vara språket över 8a< som nedanstående NFA accepterar. Salling, 070-6527523 TID : 9-14 HJÄLPMEDEL : Inga BETYGSGRÄNSER : G 18p, VG 28p SKRIV TYDLIGT OCH MOTIVERA NOGA! PROV I MATEMATIK AUTOMATEORI & FORMELLA SPRÅK DV1, 4 p 20 MARS 2002 1. Språket L över alfabetet

Läs mer

Programkonstruktion och Datastrukturer

Programkonstruktion och Datastrukturer Programkonstruktion och Datastrukturer VT 2012 Tidskomplexitet Elias Castegren elias.castegren.7381@student.uu.se Problem och algoritmer Ett problem är en uppgift som ska lösas. Beräkna n! givet n>0 Räkna

Läs mer

Algoritmer, datastrukturer och komplexitet

Algoritmer, datastrukturer och komplexitet Algoritmer, datastrukturer och komplexitet Övning 10 Anton Grensjö grensjo@csc.kth.se 9 november 2017 1 Idag En konstruktionsreduktion Fler bevis av NP-fullständighet 2 Teori Repetition Ett problem tillhör

Läs mer

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G Statistisk Maskinöversättning Anna Prytz Lillkull 729G11 annpr075@student.liu.se 2010-10-03 Innehållförteckning Inledning...3 Bakgund...3 Uppkomsten av maskinöversättning... 3 Ökat intresse för statistisk

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Regression med Genetiska Algoritmer

Regression med Genetiska Algoritmer Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet

Läs mer

4 Diskret stokastisk variabel

4 Diskret stokastisk variabel 4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används

Läs mer

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med

Läs mer

Algoritmer, datastrukturer och komplexitet

Algoritmer, datastrukturer och komplexitet Algoritmer, datastrukturer och komplexitet Övning 6 Anton Grensjö grensjo@csc.kth.se 9 oktober 2015 Anton Grensjö ADK Övning 6 9 oktober 2015 1 / 23 Översikt Kursplanering Ö5: Grafalgoritmer och undre

Läs mer

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder 1 Leibniz, tidigt 1600 tal Descartes, tidigt 1600 tal Petr Smirnov

Läs mer

Härledning av Black-Littermans formel mha allmänna linjära modellen

Härledning av Black-Littermans formel mha allmänna linjära modellen Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem

Läs mer

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping Fuzzy Logic När oskarpa definitioner blir kristallklara Linköpings Universitet Linköping Sammanfattning I denna fördjupningsuppgift har jag fokuserat på Fuzzy Logic och försökt att beskriva det på ett

Läs mer

Speciell användning av heltalsvariabler. Heltalsprogrammering. Antingen-eller-villkor: Exempel. Speciell användning av heltalsvariabler

Speciell användning av heltalsvariabler. Heltalsprogrammering. Antingen-eller-villkor: Exempel. Speciell användning av heltalsvariabler Heltalsprogrammering Speciell användning av heltalsvariabler max z = då c j x j j= a ij x j b i j= x j 0 x j heltal i =,..., m j =,..., n j =,..., n ofta x j u j j =,..., n Oftast c, A, b heltal. Ibland

Läs mer

Algoritmer, datastrukturer och komplexitet

Algoritmer, datastrukturer och komplexitet Algoritmer, datastrukturer och komplexitet Övning 6 Anton Grensjö grensjo@csc.kth.se 4 oktober 2017 1 Idag Algoritmkonstruktion (lite blandat) Redovisning och inlämning av labbteori 3 2 Uppgifter Uppgift

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1 Kattis Lektion 1 I kursen används onlinedomaren Kattis (från http://kattis.com) för att automatiskt rätta programmeringsproblem. För att få ett konto på Kattis anmäler du dig på Programmeringsolympiadens

Läs mer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten. OS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

kl Tentaupplägg

kl Tentaupplägg Tentaupplägg TIPS 1: Läs igenom ALLA uppgifterna. Välj den du känner är lättast först. Det kan gärna ta 10-20 minuter. Försök skriva saker som kan vara problem i uppgifterna. Är det något du absolut kommer

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Föreläsning 1. Introduktion. Vad är en algoritm?

Föreläsning 1. Introduktion. Vad är en algoritm? Några exempel på algoritmer. Föreläsning 1. Introduktion Vad är en algoritm? 1. Häll 1 dl havregryn och ett kryddmått salt i 2 1 2 dl kallt vatten. Koka upp och kocka gröten ca 3minuter. Rör om då och

Läs mer

DAB760: Språk och logik

DAB760: Språk och logik DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg

Läs mer

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2 Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2 Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok,

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

Grundläggande logik och modellteori

Grundläggande logik och modellteori Grundläggande logik och modellteori Kapitel 6: Binära beslutsdiagram (BDD) Henrik Björklund Umeå universitet 22. september, 2014 Binära beslutsdiagram Binära beslutsdiagram (Binary decision diagrams, BDDs)

Läs mer

Artificiell Intelligens

Artificiell Intelligens Omtentamen Artificiell Intelligens Datum: 2014-02-20 Tid: 14.00 18.00 Ansvarig: Resultat: Hjälpmedel: Gränser: Anders Gidenstam Redovisas inom tre veckor Inga G 8p, VG 12p, Max 16p Notera: Skriv läsbart!

Läs mer

Föreläsning 9: NP-fullständighet

Föreläsning 9: NP-fullständighet Föreläsning 9: NP-fullständighet Olika typer av problem: 1. Beslutsproblem: A(x) =Ja. 2. Optimeringsproblem: A(x) =m Vanligen max/min. 3. Konstruktionsproblem: A(x) =En struktur. Vanligen lösningen till

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

Föreläsning 8: Intro till Komplexitetsteori

Föreläsning 8: Intro till Komplexitetsteori Föreläsning 8: Intro till Komplexitetsteori Formalisering av rimlig tid En algoritm som har körtid O(n k ) för någon konstant k är rimligt snabb. En algoritm som har körtid Ω(c n ) för någon konstant c>1

Läs mer

Filosofisk Logik (FTEA21:4) föreläsningsanteckningar/kompendium. v. 2.0, den 29/ III. Metalogik 17-19

Filosofisk Logik (FTEA21:4) föreläsningsanteckningar/kompendium. v. 2.0, den 29/ III. Metalogik 17-19 Filosofisk Logik (FTEA21:4) föreläsningsanteckningar/kompendium IV v. 2.0, den 29/4 2013 III. Metalogik 17-19 Modeller för satslogiken 18.1 Vi har tidigare sagt att en modell är en tolkning av en teori

Läs mer

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet

Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet Formell logik Kapitel 1 och 2 Robin Stenwall Lunds universitet Kapitel 1: Atomära satser Drömmen om ett perfekt språk fritt från vardagsspråkets mångtydighet och vaghet (jmf Leibniz, Russell, Wittgenstein,

Läs mer

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok, t.ex. den rekommenderade kursboken. Boken får ha anteckningar,

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Algoritmer, datastrukturer och komplexitet

Algoritmer, datastrukturer och komplexitet Algoritmer, datastrukturer och komplexitet Övningsmästarprovsövning 2 Anton Grensjö grensjo@csc.kth.se 20 november 2017 1 Dagordning 1. Genomgång av uppgiftens lösning 2. Genomgång av bedömningskriterier

Läs mer

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer

Lite mer psykologi. L2: Automater, Sökstrategier. Top-down. Kimballs sju principer Lite mer psykologi Perception: yntaktiskt bearbetning: emantisk bearbetning PERON() & LIKE(, y) L2: Automater, ökstrategier Korttidsminnet D4510 Parsningsalgoritmer Höstterminen 200 Långtidsminne Anders

Läs mer

Alla datorprogram har en sak gemensam; alla processerar indata för att producera något slags resultat, utdata.

Alla datorprogram har en sak gemensam; alla processerar indata för att producera något slags resultat, utdata. Att förstå variabler Alla datorprogram har en sak gemensam; alla processerar indata för att producera något slags resultat, utdata. Vad är en variabel? En variabel är en plats att lagra information. Precis

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion

Läs mer

Lektion 8: Konstruktion av semantiska tablåer för PTL-formler

Lektion 8: Konstruktion av semantiska tablåer för PTL-formler Lektion 8: Konstruktion av semantiska tablåer för PTL-formler Till denna lektion hör uppgift 2, 6 och 0 i lärobokens avsnitt.6 (sid. 255). Lös uppgift 2 genom att konstruera en semantisk tablå. Följande

Läs mer

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts. Datakompression fö 3 p.3 Datakompression fö 3 p.4 Optimala koder Övre gräns för optimala koder En prefixkod kallas optimal om det inte existerar någon annan kod (för samma alfabet och sannolikhetsfördelning)

Läs mer

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or. Datakompression fö 3 p.1 Optimala koder En prefixkod kallas optimal om det inte existerar någon annan kod (för samma alfabet och sannolikhetsfördelning) som har lägre kodordsmedellängd. Det existerar förstås

Läs mer

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski SF1901: SANNOLIKHETSLÄRA OCH STATISTIK FÖRELÄSNING 12. MER HYPOTESPRÖVNING. χ 2 -TEST Jan Grandell & Timo Koski 25.02.2016 Jan Grandell & Timo Koski Matematisk statistik 25.02.2016 1 / 46 INNEHÅLL Hypotesprövning

Läs mer

Tommy Färnqvist, IDA, Linköpings universitet

Tommy Färnqvist, IDA, Linköpings universitet Föreläsning 8 Sortering och urval TDDC70/91: DALG Utskriftsversion av föreläsning i Datastrukturer och algoritmer 1 oktober 2013 Tommy Färnqvist, IDA, Linköpings universitet 8.1 Innehåll Innehåll 1 Sortering

Läs mer

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1 Datakompression fö 2 p.1 Krafts olikhet En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om N 2 l i 1 Bevis: Antag att vi har en trädkod. Låt l max =max{l

Läs mer

Den räta linjens ekvation

Den räta linjens ekvation Den räta linjens ekvation Här följer en dialog mellan studenten Tor-Björn (hädanefter kallad TB) och hans lärare i matematik Karl-Ture Hansson (nedan kallad KTH). När vi möter dem för första gången är

Läs mer

Anna: Bertil: Cecilia:

Anna: Bertil: Cecilia: Marco Kuhlmann 1 Osäkerhet 1.01 1.02 1.03 1.04 1.05 Intelligenta agenter måste kunna hantera osäkerhet. Världen är endast delvist observerbar och stokastisk. (Jmf. Russell och Norvig, 2014, avsnitt 2.3.2.)

Läs mer

Sidor i boken f(x) = a x 2 +b x+c

Sidor i boken f(x) = a x 2 +b x+c Sidor i boken 18-151 Andragradsfunktioner Här ska vi studera andragradsfunktionen som skrivs f(x) = ax +bx+c där a, b, c är konstanter (reella tal) och där a 0. Grafen (kurvan) till f(x), y = ax + bx +

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

Rangordning av internetsidor - ett egenvärdesproblem för positiva matriser

Rangordning av internetsidor - ett egenvärdesproblem för positiva matriser Rangordning av internetsidor - ett egenvärdesproblem för positiva matriser Ett litet nätverk med 8 noder och ett antal länkar mellan noderna: 8 1 2 7 3 6 5 4 Hur kan vi rangordna noder? Vilken är viktigast?

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Ma7-Per: Algebra. Det andra arbetsområdet handlar om algebra och samband.

Ma7-Per: Algebra. Det andra arbetsområdet handlar om algebra och samband. Ma7-Per: Algebra Det andra arbetsområdet handlar om algebra och samband. Syftet med undervisningen är att du ska utveckla din förmåga att: - formulera och lösa problem med hjälp av matematik samt värdera

Läs mer

Algoritmanalys. Inledning. Informationsteknologi Malin Källén, Tom Smedsaas 1 september 2016

Algoritmanalys. Inledning. Informationsteknologi Malin Källén, Tom Smedsaas 1 september 2016 Informationsteknologi Malin Källén, Tom Smedsaas 1 september 2016 Algoritmanalys Inledning Exempel 1: x n När vi talade om rekursion presenterade vi två olika sätt att beräkna x n, ett iterativt: x n =

Läs mer

Den räta linjens ekvation

Den räta linjens ekvation Den räta linjens ekvation Här följer en dialog mellan studenten Tor-Björn (hädanefter kallad TB) och hans lärare i matematik Karl-Ture Hansson (nedan kallad KTH). När vi möter dem för första gången är

Läs mer

Föreläsning 5: Grafer Del 1

Föreläsning 5: Grafer Del 1 2D1458, Problemlösning och programmering under press Föreläsning 5: Grafer Del 1 Datum: 2006-10-02 Skribent(er): Henrik Sjögren, Patrik Glas Föreläsare: Gunnar Kreitz Den här föreläsningen var den första

Läs mer

PROV I MATEMATIK Automatateori och formella språk DV1 4p

PROV I MATEMATIK Automatateori och formella språk DV1 4p UPPSALA UNIVERSITET Matematiska institutionen Salling (070-6527523) PROV I MATEMATIK Automatateori och formella språk DV1 4p 19 mars 2004 SKRIVTID: 15-20. POÄNGGRÄNSER: 18-27 G, 28-40 VG. MOTIVERA ALLA

Läs mer

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Jointly distributed Joint probability function Marginal probability function Conditional probability function Independence

Läs mer

Introduktion till formella metoder Programmeringsmetodik 1. Inledning

Introduktion till formella metoder Programmeringsmetodik 1. Inledning Introduktion till formella metoder Programmeringsmetodik 1. Inledning Fokus på imperativa program (ex. C, Java) program betyder härefter ett imperativt program Program bestäms i en abstrakt mening av hur

Läs mer

Linköpings universitet

Linköpings universitet 2016-08-24 Vad är kognition? tt ta in, lagra och bearbeta information: Kognitionsvetenskaplig introduktionskurs Perception Information tas in och flödar genom begränsade informationskanaler Föreläsning

Läs mer

Probabilistisk logik 1

Probabilistisk logik 1 729G43 Artificiell intelligens / 2016 Probabilistisk logik 1 Marco Kuhlmann Institutionen för datavetenskap Osäkerhet 1.01 Osäkerhet Agenter måste kunna hantera osäkerhet. Agentens miljö är ofta endast

Läs mer

Upplägg. Binära träd. Träd. Binära träd. Binära träd. Antal löv på ett träd. Binära träd (9) Binära sökträd (10.1)

Upplägg. Binära träd. Träd. Binära träd. Binära träd. Antal löv på ett träd. Binära träd (9) Binära sökträd (10.1) Binära träd Algoritmer och Datastrukturer Markus Saers markus.saers@lingfil.uu.se Upplägg Binära träd (9) Binära sökträd (0.) Träd Många botaniska termer Träd, rot, löv, gren, Trädets rot kan ha ett antal

Läs mer

1, 2, 3, 4, 5, 6,...

1, 2, 3, 4, 5, 6,... Dagens nyhet handlar om talföljder, ändliga och oändliga. Talföljden 1,, 3, 4, 5, 6,... är det första vi, som barn, lär oss om matematik över huvud taget. Så småningom lär vi oss att denna talföljd inte

Läs mer