Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Storlek: px
Starta visningen från sidan:

Download "Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON"

Transkript

1 Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON

2 Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell för översättning... 4 Ändlig tillståndsomvandlare... 4 Synkron kontextfri grammatik... 5 Parameterisering... 6 Generativa modeller... 7 Parameteruppskattning... 8 Avkodning... 9 Avkodning i FST-modeller... 9 Avkodning i SCFG-modeller... 9 Diskussion Litteraturförteckning... 11

3 Introduktion Sen industriella revolutionen har maskiner tagit över allt mer uppgifter från människan. Allt från att odla vete till kollektivtrafik har blivit automatiserat. Under de senaste årtiondena har även maskiner som löser uppgifter som anses kräva tänkande och intelligens blivit allt vanligare i form av datorer. Uppgifter som kräver många års träning även för människor har blivit gratistjänster på internet. En av dessa tjänster är automatisk översättning (Hädanefter MT från engelskans machine translation). Förr fick man använda sig av lexikon för att översätta en mening ord för ord men idag finns översättningsprogram som gör sak automatiskt. Att översätta en text från ett språk till ett annat är en svår konst. Det finns många utmaningar man ställs inför när man ska göra en översättning. En sådan utmaning är tvetydighet. Syntaktisk, lexikal och semantisk tvetydighet förekommer nästan alltid i någon form vid översättning (Dorr, Jordan, & Benoit, 1998). Syntaktisk tvetydighet innebär att samma fras kan syfta på olika saker. Meningen Jag såg mannen på kullen med kikaren kan ha flera olika innebörder. Lexikal tvetydighet betyder att en och samma stavning kan ha två olika betydelser, som till exempel ordet far. Semantisk tvetydighet innebär att ett källord kan ha flera motsvarigheter i målspråk, exempelvis bo som på engelska kan översättas till live och stay. Dorr, Jordan och Benoit (1998) skriver vidare att det inte finns något facit för hur en översättning ska se ut. Olika texter och sammanhang kräver olika översättningar. Alla dessa problem är något som människor är bra på att avgöra om de är försedda med en kontext. Men det är väldigt svårt att försöka hitta och skriva bra regler för hur översättningar ska gå till. Även om idéerna om en automatisk översättningsmaskin har funnits i flera århundraden är det inte fören det senaste 60 åren som det faktiskt gjorts några framsteg. Under och det tidiga 60-talet var optimismen att knäcka koden till MT stor. Men 1966 kom Automatic Language Processing Advisory Committee med en dyster rapport. Teknologin ansågs vara för dålig och det visade sig att mänskliga översättare var betydligt billigare och bättre än deras maskinella motsvarigheter (Dorr, Jordan, & Benoit, 1998). Detta gjorde att utvecklingen stannade av. Under de två senaste årtiondena har dock MT åter fått stort genomslag, och fokus har skiftat från att manuellt försöka skriva regler för programmen. Istället har man idag precis som inom andra delområden inom Natural Language Processing (NLP) istället riktat in sig på program som själva kan lära sig själva. Statistisk maskinöversättning (Hädanefter SMT från

4 engelskans statistical machine translation) bygger på att man låter ett program automatiskt lära sig vilka översättningar som är statistiskt troligast för genom att låta det jämföra samma manuella översatta text på två språk ifrån så kallade inlärningskorpusar. (Koehn, 2012) Bakgrund Statistiska maskinöversättningssystem SMT har på senare år blivit allt mer populärt, framför allt sen man insåg nyttan med program som inte behöver översätta perfekt. I tidig utveckling av MT ställde man höga krav på översättningarna som man ansåg skulle kunna vara på en människas nivå. Idag har fokus skiftats och i och med internets framväxt har efterfrågan på tillräckligt bra översättning ökat (Koehn, 2012). Idag finns det en marknad för översättningar som inte är perfekta men som är tillräckligt bra för att en person ska förstå vad som menas. SMT hanterar översättning som ett maskininlärningsproblem, vilket innebär att man låter ett program lära sig själv från en färdigöversatt text. Genom att applicera en inlärningsalgoritm på två parallella korpusar kan programmet sedan översätta tidigare okända meningar. Den stora fördelen med SMT är därför att det inte kräver manuellt nedskrivna regler för att fungera, istället kan programmet lära sig själv. I och med att programmet lär sig och skapar statistiska sannolikheter från redan översatta korpusar kan det bli väldigt bra inom en begränsad domän. Detta på grund av att språket tenderar att vara sig likt när man pratar om liknande ämnen, och det därmed är en statistiskt större chans att ord och fraser förekommer flera gånger i en text relaterad till en specifik domän. Detta medför dock även att det är svårt att göra program för öppna domäner och att det krävs mycket träningsdata för att utveckla ett bra generellt program. (Bertoldi & Federico, 2009) På senare år har tjänster som Google translate börjat erbjuda nya översättningsmöjligheter, till exempel av hela hemsidor. SMT försöks även implementerats tillsammans med andra tjänster, framför allt i handhållna enheter (Koehn, 2012). Exempel på detta är röst- och bildigenkänningssystem som i realtid översätter språk. I och med det de senare årens större överfrågan förekommer det idag allt mer forskning på utvecklingen av SMT-system.

5 Hur ett SMT-system fungerar Lopez (2008) delar in översättningsprocessen i ett SMT-system i fyra olika delar. Först måste väljs en motsvarighetsmodell (kallas även bara modell) för hur översättningen ska gå till. En modell är ett antal steg programmet måste göra för att översätta en text. Steg två är att få modellen att göra bra val i de fall det finns tvetydiga översättningar. Detta kallas parameterisering och görs för att modellen ska komma fram till den bästa möjliga översättningen. Varje input och output jämförs och poängsätts. I steg tre gör systemet en parameteruppskattning för att lära sig vilka ord som motsvarar varandra på käll- och målspråket. Till sist måste modellen avkoda översättningen. Detta görs genom att ta fram den översättningen med högst poäng för den givna inputen. De olika stegen förklaras mer ingående nedan, om inget annat anges baseras följande delar på Lopez (2008) beskrivning. Motsvarighetsmodell för översättning En motsvarighetsmodell är en samling regler för hur ett MT-system ska översätta en mening från ett språk till ett annat. Det finns många olika sorters modeller men Lopez skriver att de vanligaste är ändlig tillståndsomvandlare (Finite-state transducers (FST)) och synkron kontextfri grammatik (synchronous context-free grammars (SCFG)). FST kommer ursprungligen från datavetenskapen och bygger på samma koncept som en ändlig automat (finite-state automata (FSA)), som är en beräkningsmodell som har ett ändligt antal tillstånd och övergångar mellan dessa tillstånd. En FSA befinner sig alltid i ett av tillstånden och kan ändra tillstånd med hjälp av extern input. SCFG kommer ursprungligen från språkteori och bygger på grammatiska regler som är kopplade till två språk, en grammatisk regel i källspråket har alltså (i bästa fall) en motsvarande regel i målspråket. Detta gör att ett ord i källspråket kan ersättas (översättas) med noll, ett eller flera ord i målspråket, baserat på dessa regler, oavsett kontext. Ändlig tillståndsomvandlare En ändlig tillståndsomvandlare är en variant av en ändlig automat som kan definieras som en mängd symboler, en mängd tillstånd och en mängd övergångar mellan dessa tillstånd. Övergångarna kan förklaras med grundtillståndet, sluttillståndet och en symbol. Det kan även illustreras med en riktad graf med noder och riktade kanter, varje nod kan endast peka på en annan nod, kanterna mellan noderna visar en övergång (Martin & Jurafsky, 1999). Till skillnad från en FSA har en FST två mängder symboler en från käll- och en från målspråket som motsvarar varandra. En FST kan därför sägas redogöra för relationer mellan ord som till

6 exempel översättning från två olika språk. Inputen hej skulle i en FST som var tränad på att översätta från svenska till engelska kunna ge outputen hi. En annan skillnad från en FSA är att en FST kan ge flera olika outputs till ett och samma input. Det finns både ordbaserade och frasbaserade FST-modeller. Ordbaserade FST-modeller bygger på tre olika steg. I steg ett räknar modellen ut hur många ord i målspråket som motsvarar källordet. Detta kallas för ett ords fertilitet. Varje ord kan ha en fertilitet på noll, ett eller flera, efter det multipliceras ordet med dess fertilitet. I steg två sker själva översättningen. Varje ord i källspråket översätts separat till målspråket. I steg tre flyttas orden om i en ordning som stämmer bättre överens med målspråkets. Det tredje steget är FST-modellernas största svaghet. I och med att en omvandlare är menad att matcha två symboler, i det här fallet två ord är det svårt att hitta ett bra sätt att jämföra olika ords placering i olika språk eftersom att det inte finns någon kontext på ordnivån. Frasbaserade FST-modeller översätter till skillnad från ordbaserade inte varje ord för sig. Istället delas varje mening in i fraser som översätts som en sekvens. Fertilitet är borta och varje sekvens översätts till exakt en sekvens i målspråket. De översatta fraserna kan dock ha olika längd från källspråket. Fördelen med frasbaserade modeller är att varje fras struktureras för sig, möjligheterna för ordningen på orden är därmed mer begränsad än i ordbaserade modeller. Precis som ordbaserade går frasbaserade modeller genom tre steg. Det första steget är att källmeningen delas in i fraser. Detta baseras på systemets tidigare erfarenheter om vilka ord som ofta förekommer tillsammans. I steg två översätts varje fras. I det tredje steget flyttas fraserna om för att förhoppningsvis bilda en grammatiskt korrekt mening. Omförflyttningen av fraser går till på samma sätt som den gör i ordbaserade modeller. Frasbaserade modeller kräver oftast större träningsdata än ordbaserade för att det är mindre sannolikhet att en hel fras förekommer än ett enskilt ord. Frasbaserade modeller är dock oftast bättre på att hantera hynonymer och sammansatta ord. (Tripathi & Sarkhel, 2010). Synkron kontextfri grammatik En SCFG-modell har flera fördelar jämfört med FST-modell. SCFG-modeller bygger på regler från de båda språken de översätter mellan. Detta gör att det är lättare att representera syntaktiska skillnader och likheter mellan språken. Det gör även att det är lättare att förflytta ord och fraser över långa avstånd i meningar. En SCFG-modell bygger på CFG vilket består av avslutade symboler i detta fall ord, och icke avslutade symboler i detta fall syntaktiska kategorier som till exempel verbfras. Processen börjar med en syntaktisk kategori, till exempel nominalfras, denna ersätts sedan enligt regler med antingen hierarkiskt lägre

7 syntaktiska kategorier eller genom en avslutad symbol, det vill säga ett ord. Denna process fortsätter fram till dess att alla icke avslutade symboler har ersatts med avslutade. Vilket kan illustreras i ett träddiagram (bild 1). Bild 1. Ett träddiagram från en SCFG-modell Parameterisering FST- och SCFG- modellerna tar fram många möjliga översättningar på ett givet input. Modeller hjälper oss hitta ord eller fraser som matchar varandra i två språk. Problemet med detta är som tidigare nämnts naturliga språks tvetydighet, ett och samma ord eller fras kan ha flera olika betydelser. Vilken av betydelserna som är korrekt kan endast avgöras av kontexten. Systemet behöver därför nåt sätt att välja den rätta betydelsen. Lösningen på detta kallas parameterisering. Parameterisering innebär att varje målmening poängsätts. Parameterisering kommer från maskininlärning och det finns ett antal olika modeller för det. Problemet som ska lösas är att hitta den målmening som bäst motsvarar källmeningen. För att göra detta måste man räkna ut sannolikheten för outputen i målspråket baserat på den givna inputen från källspråket, P(e f). Problemet är dock att det finns ett antal olika målmeningar och lösningen blir därför att summera alla möjliga härledningar till målmeningen, detta görs med funktionen P(e f) = d:y (d,e) P(e, d f). Denna beräkning är exponentiell i dess komplexitet, vilket gör den för beräkningsmässigt komplicerad för att användas i praktiken. Därför används oftast endast P(e, d f), där d är modellen som används, alltså FST eller SCFG. Med andra ord, sannolikheten för att det givna ordet från källspråket motsvarar ett givet ord på målspråket är summan av samtliga fall där dessa matchar varandra i de tvåspråkiga korpusarna, givet förhållanderegeln d. Även detta ställer till problem beräkningsmässigt. Eftersom e och f är meningar från olika språk finns det i princip oändligt många möjligheter att härleda dessa meningar till varandra. Därför görs en parameterisering av funktionen. Det finns ett antal sätt

8 att genomföra parameterisering men det vanligaste är att man använder generativa modeller, vilket förklaras mer ingående nedan. Generativa modeller Generativa modeller använder sig av kedjeregeln och Bayes regel för att förenkla uttrycket P(e, d f). Kedjeregeln fungerar enligt: P(x, y) = P(x y)p(y), och Bayes regel fungerar enligt: P(y x) = P(x y)p(y). Kedjeregeln och Bayes regel på funktionen P(e, d f) ger därför P(x) P(e, d f) = P(f,d e)p(e). Eftersom nämnaren P(f ) är samma för alla inputs kan den ignoreras. P(f) Kvar blir då P(e, d f) = P(f, d e)p(e). På denna funktion kan man applicera två olika modeller på problemet. Dessa modeller kallas språk- och översättningsmodeller. Genom att applicera två olika modeller får man en mer balanserad uträkning som i bästa fall väger upp för varandras svagheter. De båda modellerna kan ses som stokastiska modeller som bygger på heuristik från inlärningen av korpusar. Språkmodellen som använder sig av P(e) kan ses som en process som genererar stokastiska meningar på målspråket. Medan Översättningsmodellen som använder sig av P(f, d e) kan ses som en stokastisk process som genererar krypterade meningar från källspråket till målspråket. Brown et. al. (1993) skriver att översättningsmodellen ger stora sannolikheter för meningar i målspråket som har rätt ord för att förklara innebörden av källmeningen, oavsett hur välformulerade de är. Språkmodellens sannolikheter å andra sidan är stora för välformulerade meningar i målspråket, men saknar förankring i källspråket. När sannolikheterna från de båda modellerna multipliceras får de meningar som både förklarar innebörden och är välformulerade högst sannolikhet. Hur de båda modellerna fungerar förklaras mer ingående nedan. Språkmodeller Man använder som sagt språkmodellen för att ta fram välformulerade meningar i målspråket, eller med andra ord den mening som har störst sannolikheten att förekomma i målspråket. Detta kan skrivas genom funktionen P(e 1 I ). Om man applicerar kedjeregeln på denna funktion kommer man fram till att den betingade sannolikheten för e 1 I är summan av flera större sannolikheter som motsvarar sannolikheten för översättningen av varje enskilt ord, funktionen för detta ser ut såhär; P(e 1 I ) = I J=1 P (e i e i 1 1 ). Detta förenklar beräkningen något men den är fortfarande komplex. För att underlätta ytterligare kan man använda sig av betingad självständighet, det betyder att varje ord översätts oberoende av de andra orden i meningen. Detta gör dock översättningen mindre tillförlitlig, men det är nödvändigt för att hålla ner komplexiteten på beräkningen. För att hålla nere beräkningskomplexiteten men samtidigt

9 behålla lite kontext i meningsbyggnaden brukar man ha betingad självständighet för alla ord förutom de närmast föregående. Detta kallas för en n-gram språkmodell. Det vanligaste är att varje ord anses vara oberoende av alla ord förutom det precis innan, n-1, vilket medför lite mer tillförlitlighet men har fortfarande en beräkningsnivå som är möjlig. Detta kallas för en bigram modell och använder sig av funktionen e I 1 I n. En n-gram språkmodell använder sig därför av funktionen P(e 1 I = Översättningsmodeller I J=1 P (e i e i 1 i n ). Man använder sig av en översättningsmodell för att inkludera rätt ord i målmeningen för att förklara innebörden av källmeningen. Uppbyggnaden liknar språkmodellens men istället för att söka efter grammatiskt korrekt mening söker den efter en bra modell för hur den mening fås. Modellerna motsvarar övergångarna i en FST eller en hierarkisk ersättning i en SCFGmodell. För att behålla komplexiteten på en rimlig nivå vill man i en översättningsmodell precis som i en språkmodell ha sannolikheten för mindre enheter än hela meningen. Detta uppnås på samma sätt som i språkmodeller genom att använda sig av kedjeregeln. Vilken gör att varje steg i en FST-modell och varje övergång i en SCFG-modell representeras. Till slut kan man använda sig av betingad självständighet för att få ekvationen P(f 1 I, d 1 m e 1 I = J J=1 P(f j f j 1 1, f j 1 1, e I 1 M m=1 P( d m d m 1 1, e I 1 ). Parameteruppskattning När P(e, d f) har definierats måste det för att uppskatta vilken som är den bästa översättningen tilldelas ett värde till alla parametrar (Lopez, 2008). Detta kallas en parameteruppskattning och är en teknik som kommer från maskininlärning. I ett SMT-system används en parallell korpus för att låta programmet basera sannolikheter på dessa värden. Sannolikheterna måste uppskattas på grund av språks tvetydighet. Ett ord kan ha olika betydelse vilket gör att För att göra det antas att den parallella korpusen är översatt av programmet och att den är korrekt. Målet är att hitta den uppskattning som har maximal sannolikhet. Detta görs genom att anta att träningskorpusen är C (E F ), alla parametrar är Θ och sannolikheten för C under alla parametrar är P Θ (C). Målet är då att hitta alla parametrar som uppfyller funktionen och därefter välja ut den bästa. Om ett ord förekommer ofta i träningskorpusen är det större chans att uppskattningen ligger nära det faktiska värdet. Ju större träningskorpusen är desto bättre blir systemet på att uppskatta.

10 Avkodning Efter att parameteruppskattning har gjorts är det dags att avkoda den utdata som detta ger. Det är i det här steget man kan få ut nya översättningar. Detta görs genom att lösa maximeringsproblemet i följande ekvation. Funktionen kallas för beslutsregeln, det finns andra alternativ men just den här är den mest använda. Variablerna i ekvationen gör att det är en väldigt stor sökrymd. Det är därför viktigt att söka så effektivt som möjligt. FST och SCFG-modeller använder sig av två olika avkodningssystem. Avkodning i FST-modeller FST-modeller söker i en acyklisk riktat graf. Varje tillstånd i grafen består av: En delmängd med positionerna i källmeningen på de ord som blivit översatta. Vid n-gram modeller memoreras de n-1 föregående orden. Delhypotesen, det vill säga varje genererad nods, kostnad. Den uppskattade kvarvarande kostnaden för att komplettera delhypotesen. Eftersom att sökrymden oftast är väldigt stor och en översättning inte kan vara optimal används nästan aldrig en optimal sökmetod. A* kan räkna ut svaret på ekvationen exakt och därmed generera den översättning som har störst sannolikhet, men det är ett för beräkningskrävande alternativ. Istället används ofta Beam Search vilket är en metod för att begränsa sökningen. I beam search utökas endast de mest troliga noderna för varje tillstånd. Avkodning i SCFG-modeller Målet med avkodning i SCFG-modeller är att räkna ut det träd som har störst sannolikhet. Detta görs genom att hitta det träd som bäst motsvarar grammatiken från källmeningen för att sedan kopiera motsvarande träd för målmeningen. Tillstånden i sökrymden, trädens noder, kallas för spans och består av en del av meningen eller en icke avslutad symbol, samt regler från modellen för att kombinera spans. Sökningen går till genom att utgå från varje källord och generera en span. Sedan används modellens regler för att generera hierarkiskt högre kategorier tillsammans med närliggande spans för att generera nya spans. Detta itereras till dess att källspråksträdet har genererats därefter produceras själva översättningen. SCFG-avkodning är i teorin mindre komplext än FST-avkodning men med bra avgränsningar i den senare är det möjligt att skära ned på komplexiteten. I praktiken är nästan alla dagens FST-system snabbare än SCFG-systemen.

11 Diskussion Utvecklingen av MT och framför allt SMT har gått framåt mycket under de senaste årtiondena. Internet har efterfrågat en ny sorts översättning som inte behöver vara perfekt. Detta är något som både är en möjlighet och utmaning för SMT-system. I och med att det ett system kan lära sig av sig själv finns det stora möjligheter att utveckla det ytterligare och applicera det på specifika domäner. Utmaningen att översätta ospecifika texter, som ofta förekommer på internet, är därför också stor och kräver därmed vidare forskning. Men forskningsfältet är relativt ungt och det finns idag många olika modeller att använda sig av. Samspel mellan dessa modeller eller framsteg inom ett specifik modell kan tänkas utveckla nya synsätt på området. Många teorier och modeller inom SMT kommer från andra ämnen som natural language processing (NLP), att kunskapen inom dessa områden ökar kommer även SMT-system att tjäna på. Något som i blivit större är också interaktionen mellan SMT och dessa andra områden. I samspelet mellan NLP och SMT finns även problemet med domänlös översättning. Hur man kan lösa är en viktig fråga för vidare forskning.

12 Litteraturförteckning Bertoldi, N., & Federico, M. (2009). Domain Adaptation for Statistical Machine Translation with Monolingual Resources, 30, Brown, P., Della Pietra, V., Della Pietra, S., & Mercer, R. (1993). The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics, 19(2), Dorr, B. J., Jordan, P. W., & Benoit, J. W. (1998). A Survey in Current Paradigms in Machine Translation. Koehn, P. (2012). Statistical Machine Translation. New York: Cambridge University press. Lopez, A. (2008). Statistical machine translation. Edinburgh: University of Edinburgh. Martin, J. H., & Jurafsky, D. (1999). Speech and Language Processing. New Jersey: Prentice Hall. Tripathi, S., & Sarkhel, J. K. (2010). Approaches to machine translation. Annals of Library and Information Studies, 57,

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...

Läs mer

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...

Läs mer

Statistisk maskinöversättning

Statistisk maskinöversättning Statistisk maskinöversättning Åsa Holmqvist Asaho232 Artificiell Intelligens 729G43 Innehållsförteckning Introduktion... 1 Maskinöversättningens historia.... 1 Statistisk metod... 3 Brusiga kanalen....

Läs mer

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G

Statistisk Maskinöversättning. Anna Prytz Lillkull 729G Statistisk Maskinöversättning Anna Prytz Lillkull 729G11 annpr075@student.liu.se 2010-10-03 Innehållförteckning Inledning...3 Bakgund...3 Uppkomsten av maskinöversättning... 3 Ökat intresse för statistisk

Läs mer

Statistisk Maskinöversättning eller:

Statistisk Maskinöversättning eller: 729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...

Läs mer

SMT = ickefixerad maskinöversättning?

SMT = ickefixerad maskinöversättning? SMT = ickefixerad maskinöversättning? Richard Larsson (Linköpings universitet, 2016) 1 Introduktion För formella språk gäller bl.a. att det finns en exakt definierad uppsättning regler, som kallas för

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Probabilistisk logik 2

Probabilistisk logik 2 729G43 Artificiell intelligens / 2016 Probabilistisk logik 2 Marco Kuhlmann Institutionen för datavetenskap Översikt Probabilistiska modeller Probabilistisk inferens 1: Betingad sannolikhet Probabilistisk

Läs mer

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet

Läs mer

Maskinöversättning 2008

Maskinöversättning 2008 Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning LABEL byta SOURCE =byta.vb.1 TARGET =change.vb.1 TRANSFER LABEL byta-filter SOURCE

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Vad behövs för att skapa en tillståndsrymd?

Vad behövs för att skapa en tillståndsrymd? OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Maskinöversättning 2008

Maskinöversättning 2008 Maskinöversättning 2008 F7 Maskinöversättningens mål och möjligheter Systematiska språkskillnader sv-en sv-ty sv-fr sv-sp sv-ry Hur kan de beskrivas? Ge konkreta exempel. Hur kan de tas om hand i maskinöversättningen?

Läs mer

- ett statistiskt fråga-svarsystem

- ett statistiskt fråga-svarsystem - ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

2012-05-10. Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder 1 Leibniz, tidigt 1600 tal Descartes, tidigt 1600 tal Petr Smirnov

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Föreläsning 5: Grafer Del 1

Föreläsning 5: Grafer Del 1 2D1458, Problemlösning och programmering under press Föreläsning 5: Grafer Del 1 Datum: 2006-10-02 Skribent(er): Henrik Sjögren, Patrik Glas Föreläsare: Gunnar Kreitz Den här föreläsningen var den första

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad för att man skall

Läs mer

Föreläsninsanteckningar till föreläsning 3: Entropi

Föreläsninsanteckningar till föreläsning 3: Entropi Föreläsninsanteckningar till föreläsning 3: Entropi Johan Håstad, transkriberat av Pehr Söderman 2006-01-20 1 Entropi Entropi är, inom kryptografin, ett mått på informationsinnehållet i en slumpvariabel.

Läs mer

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning... LINKÖPINGS UNIVERSITET Innehåll 1. Inledning... 2 2. Terminologi... 3 3. Allmänt om Word2Vec... 3 4. Continous Skip-gram model... 4 Word2Vec Högkvalitativa vektorrepresentationer av ord tränat på stora

Läs mer

Cristina Eriksson oktober 2001

Cristina Eriksson oktober 2001 Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA

Automatateori (2) Idag: Sammanhangsfria språk. Dessa kan uttryckas med Grammatik PDA Automatateori (2) Idag: Sammanhangsfria språk Dessa kan uttryckas med Grammatik PDA Grammatik = språkregler Ett mer kraftfullt sätt att beskriva språk. En grammatik består av produktionsregler (andra ord

Läs mer

Probabilistisk logik 1

Probabilistisk logik 1 729G43 Artificiell intelligens / 2016 Probabilistisk logik 1 Marco Kuhlmann Institutionen för datavetenskap Osäkerhet 1.01 Osäkerhet Agenter måste kunna hantera osäkerhet. Agentens miljö är ofta endast

Läs mer

Anna: Bertil: Cecilia:

Anna: Bertil: Cecilia: Marco Kuhlmann 1 Osäkerhet 1.01 1.02 1.03 1.04 1.05 Intelligenta agenter måste kunna hantera osäkerhet. Världen är endast delvist observerbar och stokastisk. (Jmf. Russell och Norvig, 2014, avsnitt 2.3.2.)

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

DAB760: Språk och logik

DAB760: Språk och logik DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Maskinöversättning. F Anna Sågvall Hein

Maskinöversättning. F Anna Sågvall Hein Maskinöversättning F1 2008 Anna Sågvall Hein Vad menas med maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Optimering av depåpositioner för den minimala bensinförbrukningen i öknen

Optimering av depåpositioner för den minimala bensinförbrukningen i öknen Optimering av depåpositioner för den minimala bensinförbrukningen i öknen Frågeställning: En jeep kan sammanlagt ha 200 liter bensin i tanken samt i lösa dunkar. Jeepen kommer 2,5 km på 1 liter bensin.

Läs mer

MÖSG ht 2005 Maskinöversättningssystemet MATS

MÖSG ht 2005 Maskinöversättningssystemet MATS MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Korpusbaserad Maskinöversättning

Korpusbaserad Maskinöversättning Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

NEURAL MASKINÖVERSÄTTNING

NEURAL MASKINÖVERSÄTTNING Linköpings universitet 729G43 NEURAL MASKINÖVERSÄTTNING Moa Wallin Inledning Manuell översättning är en mycket tidskrävande process som kräver stor kunskap och bred kompetens och behovet av översättning

Läs mer

Antag att följande träd genereras i ett spelförande program om vi applicerar evalueringsfunktionen

Antag att följande träd genereras i ett spelförande program om vi applicerar evalueringsfunktionen 1. Komplexiteten hos en agent beror mycket på vilken omgivning den skall verka i. Vad innebär det att en omgivning är stokastisk, episodisk och dynamisk? Ge exempel på en omgivning som är stokastisk, episodisk

Läs mer

Matematiska metoder för språkvetare, 7,5 hp

Matematiska metoder för språkvetare, 7,5 hp Vårterminen 2017 Kurskod: LIN420 Matematiska metoder för språkvetare, 7,5 hp Kursbeskrivning Version: 19/3 2017 Institutionen för lingvistik, Avdelningen för datorlingvistik Undervisande lärare Kursansvarig

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Statistisk mönsterigenkänning

Statistisk mönsterigenkänning Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning

Läs mer

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1 Datakompression fö 2 p.1 Krafts olikhet En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om N 2 l i 1 Bevis: Antag att vi har en trädkod. Låt l max =max{l

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Lösning till tentamensskrivning i Diskret Matematik för CINTE, CL2 och Media 1, SF1610 och 5B1118, onsdagen den 17 augusti 2011, kl

Lösning till tentamensskrivning i Diskret Matematik för CINTE, CL2 och Media 1, SF1610 och 5B1118, onsdagen den 17 augusti 2011, kl Matematiska Institutionen KTH Lösning till tentamensskrivning i Diskret Matematik för CINTE, CL och Media, SF60 och 5B8, onsdagen den 7 augusti 0, kl 4.00-9.00. Examinator: Olof Heden Hjälpmedel: Inga

Läs mer

Automatiserad kvalitetsbedömning av SOS samtal. Frida Hermansson-TUCAP

Automatiserad kvalitetsbedömning av SOS samtal. Frida Hermansson-TUCAP Automatiserad kvalitetsbedömning av SOS samtal Frida Hermansson-TUCAP Automatiserad kvalitetsbedömning av SOS samtal Bakgrund Lösningar Tankar och slutsatser Bakgrund Bakgrund: Introduktion Hur kan vi

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar

Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar 1 Agenda Vad är Artificiell Intelligens (AI) Olika typer av AI och deras användningsområden Innovation med hjälp av AI Framtiden och etiska frågeställningar 2 Nuvarande AI Funktioner en grov Analogi Rekommendation,

Läs mer

Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.

Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står skrivna: Oändligt

Läs mer

729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581

729G11 Artificiell Intelligens Marcus Johansson Marjo581. Fuzzy logic. Marcus Johansson Marjo581 Fuzzy logic 880328-2535 Innehåll Fuzzy logic... 1 1. Inledning... 4 2. Jämförelse mellan fuzzy logic och tvåvärdeslogik.... 4 3. Fuzzy sets.... 4 4. Linvistiska variabler... 5 5. Operatorer... 5 6. If-

Läs mer

Tekniken bakom språket

Tekniken bakom språket Tekniken bakom språket Red. Rickard Domeij Småskrift utarbetad av SPRÅKRÅDET 2008 NORSTEDTS AKADEMISKA FÖRLAG INNEHÅLL Språkteknologi för språken i Sverige 13 Rickard Donieij Tekniken bakom språket 13

Läs mer

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1

Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1 Kattis Lektion 1 I kursen används onlinedomaren Kattis (från http://kattis.com) för att automatiskt rätta programmeringsproblem. För att få ett konto på Kattis anmäler du dig på Programmeringsolympiadens

Läs mer

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik

Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Idag: Reguljära språk Beskrivs av Reguljära uttryck DFA Grammatik Först några definitioner: Alfabet = en ändlig mängd av tecken. Ex. {0, 1}, {a,b}, {a, b,..., ö} Betecknas ofta med symbolen Σ Sträng =

Läs mer

Likhetstecknets innebörd

Likhetstecknets innebörd Modul: Algebra Del 5: Algebra som språk Likhetstecknets innebörd Följande av Görel Sterner (2012) översatta och bearbetade text bygger på boken: Carpenter, T. P., Franke, M. L. & Levi, L. (2003). Thinking

Läs mer

4 Fler deriveringsregler

4 Fler deriveringsregler 4 Fler deriveringsregler 4. Dagens Teori Derivatan av potensfunktioner. Potensfunktioner med heltalsexponenter, som du redan kan derivera, kallas polynomfunktioner, som till exempel: f(x) = 2x4 x3 + 2x

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Tal i bråkform. Kapitlet behandlar. Att förstå tal

Tal i bråkform. Kapitlet behandlar. Att förstå tal Tal i bråkform Kapitlet behandlar Test Användning av hälften och fjärdedel 2 Representation i bråkform av del av antal och av del av helhet 3, Bråkform i vardagssituationer Stambråk, bråkuttryck med 1

Läs mer

Extramaterial till Matematik X

Extramaterial till Matematik X LIBER PROGRMMERING OCH DIGITL KOMPETENS Extramaterial till Matematik X NIVÅ TRE Programmering LÄRRE I den här uppgiften får du och dina elever en introduktion till programmering. Uppgiften vänder sig först

Läs mer

Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen.

Föreläsning 9: Turingmaskiner och oavgörbarhet. Turingmaskinen. Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Föreläsning 9: Turingmaskiner och oavgörbarhet Turingmaskinen Den maximalt förenklade modell för beräkning vi kommer använda är turingmaskinen. Data är ett oändligt långt band där nollor och ettor står

Läs mer

Programmering II (ID1019)

Programmering II (ID1019) ID1019 Johan Montelius Instruktioner Betyg Programmering II (ID1019) 2019-03-08 Svaren skall lämnas på dessa sidor, använd det utrymme som nns under varje uppgift för att skriva ner ditt svar (inte på

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Föreläsning 1: Intro till kursen och programmering

Föreläsning 1: Intro till kursen och programmering Föreläsning 1: Intro till kursen och programmering Kursens hemsida http:www.it.uu.se/edu/course/homepage/prog1/vt11 Studentportalen http://www.studentportalen.uu.se Lärare: Tom Smedsaas, Tom.Smedsaas@it.uu.se

Läs mer

Matematik för språkteknologer

Matematik för språkteknologer 1 / 21 Matematik för språkteknologer 3.3 Kontext-fria grammatiker (CFG) Mats Dahllöf Institutionen för lingvistik och filologi Februari 2014 2 / 21 Dagens saker Kontext-fria grammatiker (CFG). CFG kan

Läs mer

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping

Fuzzy Logic. När oskarpa definitioner blir kristallklara. Åsa Svensson. Linköpings Universitet. Linköping Fuzzy Logic När oskarpa definitioner blir kristallklara Linköpings Universitet Linköping Sammanfattning I denna fördjupningsuppgift har jag fokuserat på Fuzzy Logic och försökt att beskriva det på ett

Läs mer

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet www.sprakenshus.se https://larportalen.skolverket.se/#/modul/4- specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet Faktorer av betydelse för en flerspråkig utveckling Sociala faktorer

Läs mer

Statistikens grunder HT, dagtid Statistiska institutionen

Statistikens grunder HT, dagtid Statistiska institutionen Statistikens grunder 1 2013 HT, dagtid Statistiska institutionen Orsak och verkan N Kap 2 forts. Annat ord: kausalitet Något av det viktigaste för varje vetenskap. Varför? Orsakssamband ger oss möjlighet

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

Stokastiska processer och simulering I 24 maj

Stokastiska processer och simulering I 24 maj STOCKHOLMS UNIVERSITET LÖSNINGAR MATEMATISKA INSTITUTIONEN Stokastiska processer och simulering I Avd. Matematisk statistik 24 maj 2016 Lösningar Stokastiska processer och simulering I 24 maj 2016 9 14

Läs mer

Likhetstecknets innebörd

Likhetstecknets innebörd Likhetstecknets innebörd Följande av Görel Sterner översatta och bearbetade text bygger på boken: arithmetic & algebra in elementary school. Portsmouth: Heinemann Elever i åk 1 6 fick följande uppgift:

Läs mer

Föreläsning 5 Innehåll

Föreläsning 5 Innehåll Föreläsning 5 Innehåll Algoritmer och effektivitet Att bedöma och jämföra effektivitet för algoritmer Begreppet tidskomplexitet Datavetenskap (LTH) Föreläsning 5 VT 2019 1 / 39 Val av algoritm och datastruktur

Läs mer

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4 Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 014-015 Denna lektion ska vi studera rekursion. Lektion 4 Principen om induktion Principen om induktion är ett vanligt sätt att bevisa

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

Kontextfria grammatiker

Kontextfria grammatiker Kontextfria grammatiker Kontextfria grammatiker 1 Kontextfria grammatiker En kontextfri grammatik består av produktioner (regler) på formen S asb S T T # Vänsterledet består av en icke-terminal (variabel)

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

FUZZY LOGIC. Christopher Palm chrpa087

FUZZY LOGIC. Christopher Palm chrpa087 FUZZY LOGIC 900223-1554 Innehållsförteckning INLEDNING...2 HUR DET FUNGERAR...3 Crisp Sets och Fuzzy Sets...3 Operatorer...5 IF THEN regler...7 FUZZY INFERENCE...7 Fuzzification...8 Regelsättning...8

Läs mer

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm

Reguljära uttryck Grammatiker Rekursiv nedåkning Allmänna kontextfria grammatiker. Syntaxanalys. Douglas Wikström KTH Stockholm Syntaxanalys Douglas Wikström KTH Stockholm popup-help@csc.kth.se Reguljära uttryck Reguljära uttryck förutsätter att en mängd bokstäver är givna, ett så kallat alfabet, som oftast betecknas med Σ. Uttryck

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Artificiell Intelligens

Artificiell Intelligens Omtentamen Artificiell Intelligens Datum: 2014-02-20 Tid: 14.00 18.00 Ansvarig: Resultat: Hjälpmedel: Gränser: Anders Gidenstam Redovisas inom tre veckor Inga G 8p, VG 12p, Max 16p Notera: Skriv läsbart!

Läs mer

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.) LINKÖPINGS TEKNISKA HÖGSKOLA Tekniska fakultetskansliet FÖRSLAG TILL PROGRAMNÄMND INFÖR ÅR NÄMND/NÄMNDER: Förslagsställare (Namn, funktion, Inst/Enhet) FÖRSLAGET GÄLLER: a) EXISTERANDE KURS (Ange kurskod

Läs mer

Föreläsning 1: Intro till kursen och programmering

Föreläsning 1: Intro till kursen och programmering Föreläsning 1: Intro till kursen och programmering λ Kursens hemsida http:www.it.uu.se/edu/course/homepage/prog1/mafykht11/ λ Studentportalen http://www.studentportalen.uu.se UNIX-konton (systemansvariga

Läs mer

DATORER OCH PROGRAM. Datorn är en symbolmaskin

DATORER OCH PROGRAM. Datorn är en symbolmaskin DATORER OCH PROGRAM Datorn är en symbolmaskin men kan ha såväl symboliska som fysiska gränssnitt till omvärlden Program beteendeplan och beteendegenerator Programmerade maskiner Generalitet och portabilitet

Läs mer

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide FOR BETTER UNDERSTANDING Kom igång med WordFinder Snabbguide Installationsanvisning 1 Sätt i programskivan i datorn. Installationsprogrammet startar automatiskt. En gemensam startbild för WordFinder Professional,

Läs mer

Objektorienterad modellering och diskreta strukturer. 13. Problem. Sven Gestegård Robertz. Datavetenskap, LTH

Objektorienterad modellering och diskreta strukturer. 13. Problem. Sven Gestegård Robertz. Datavetenskap, LTH Objektorienterad modellering och diskreta strukturer 13. Problem Sven Gestegård Robertz Datavetenskap, LTH 2014 Rekaputilation Vi har talat om satslogik och härledning predikatlogik och substitution mängder

Läs mer

Pre-editering och maskinöversättning. Convertus AB

Pre-editering och maskinöversättning. Convertus AB Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning

Läs mer

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade HT 2011 Inlämningsuppgift 1 Statistisk teori med tillämpningar Instruktioner Ett av problemen A, B eller C tilldelas gruppen vid första övningstillfället. Rapporten ska lämnas in senast 29/9 kl 16.30.

Läs mer

Dependensregler - Lathund

Dependensregler - Lathund Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas

Läs mer

Inledande programmering med C# (1DV402) Introduktion till programmering

Inledande programmering med C# (1DV402) Introduktion till programmering Introduktion till programmering Upphovsrätt för detta verk Detta verk är framtaget i anslutning till kursen Inledande programmering med C# vid Linnéuniversitetet. Du får använda detta verk så här: Allt

Läs mer

Från ljusenergi till en kub som går att stå på Hur man får en dator att känna igen olika former i visuell information

Från ljusenergi till en kub som går att stå på Hur man får en dator att känna igen olika former i visuell information ARTIFICIELL INTELLIGENS II INSTITUTUINEN FÖR DATAVETENSKAP LINKÖPINGS UNIVERSITET Från ljusenergi till en kub som går att stå på Hur man får en dator att känna igen olika former i visuell information Anna

Läs mer