Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

Storlek: px
Starta visningen från sidan:

Download "Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning..."

Transkript

1 LINKÖPINGS UNIVERSITET Innehåll 1. Inledning Terminologi Allmänt om Word2Vec Continous Skip-gram model... 4 Word2Vec Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data Hierarchical softmax Negative Sampling Subsampling av frekventa ord Tillämpning och implementation Exempel på tillämpningar Test av implementationen i Python Avslutning Personlig reflektion Litteraturförteckning... 10, 1

2 1. Inledning 2. Terminologi Inom Natural Language Processing finns stora problem med hög beräkningskomplexitet. De senaste åren har det kommit ett genombrott och en möjlighet att träna neurala nät på stora mängder rå data för att komma åt så precisa representationer av ord som möjligt. Genombrottet gjordes på Google av en forskargrupp som leds av Tomas Mikolov och kommer att beskrivas och diskuteras. Denna rapport är en undersökning och sammanfattning av två av Mikolovs artiklar. Den första (Mikolov, Chen, Corrado, & Dean, 2013) introducerar Word2Vec och två modeller. Den andra artikeln (Mikolov, Sutskever, Chen, Corrado, & Dean, 2013) avhandlar en av modellerna, skip-gram. Word2Vec-implementationen i Python 2.7 (Gensim) har även undersökts och kod finns bifogat. Både skip-gram och CBOW har använts för att träna två modeller, men fokus i rapporten är på skip-gram. En vektor kan enligt olika discipliner beskrivas på olika sätt. Enligt användningen i denna rapport kan en vektor beskrivas som en ordnad sekvens av värden. För enkelhetens skull kan läsaren tänka sig en lista med värden. En vektor existerar i vektorrum med n dimensioner (Russel & Norvig, 2013, s ). Korpus är en stor samling språkliga data i textform som används av forskare i lingvistik. Texter som finns i en korpus kan vara antingen transkriberat tal eller vanlig text. Vanligt för en korpus är att texterna är av naturligt språkbruk (Kann, 2006). 3. Allmänt om Word2Vec På Google har ett forskarlag (Mikolov, Chen, et al., 2013) utvecklat två modeller för bearbetning av naturligt språk genom text som går under paraplytermen Word2Vec. Den är uppbyggd av C-kod och har öppen källkod. Även textfiler som krävs för att testa precision finns i öppen källkod. Studiens huvudtes är att mycket stora obearbetade datamängder (som innehåller flera miljarder ord) kan användas för att kontinuerligt skapa ordrepresentationer. Representationerna är högkvalitativa ordvektorer som skapas med en av de två modellerna som introduceras i artikeln. Inom tidigare Natural Language Processing-arkitekturer har ordrepresentationer tränats på hundratals miljoner ord med lägre dimensionalitet på vektorerna (50-100) än Word2Vec (300 dimensioner). Den största rapporterade datamängden Word2Vec har tränas på är 30 miljarder token. Utöver att ha tränats på mindre datamängder så har tidigare modellarkitekturer som använder vektorer hög beräkningskomplexitet jämfört med Word2Vec. Modellerna i Word2Vec tränas genom stokastisk gradientsökning och backpropagation. Likt människor predicerar vilket ord som kommer näst i en mening kan man lära ett neuralt nätverk att förutsäga ett ord givet kontextord P(W C), samt kontext givet ett ord P(C W). Dessa två representerar Word2Vecs två modeller; Continous Bag of Words (CBOW) som förutsäger ord givet kontextord respektive Skip-gram som förutsäger kontext givet ord (Mikolov, Chen, et al., 2013a). Skip-gram kommer att undersökas vidare senare i rapporten. Båda modellerna bygger på att ord kan representeras genom högkvalitativa ordvektorer med egenskaper. De är utmarkerade i vektorrummet. Om sträckan mellan två vektorer är liten 2 3

3 indikerar detta semantisk och/eller syntaktisk relation mellan dessa. Sträcka mellan ordvektorer i vektorrummet mäts i cosinusavstånd (eng. cosine distance). Ord som ofta förekommer tillsammans i träningskorpusen kommer att vara inprickade nära varandra i vektorrummet (Ghodsi, 2015a, 2015b). Det finns många olika sorters likheter mellan ord (Mikolov, Chen, et al., 2013), till exempel finns det skillnader mellan syntaktiska relationer. Med anledning av detta kan kvaliteten på ordvektorerna inte utforskas endast genom att generera ord som är mest lika ett antal exempelord, vilket tidigare forskning inom ämnet gjort. Istället, för att undersöka kvaliteten av ordvektorerna, kan en fråga ställas: What is the word most that is similar to small in the same sense as biggest is similar to big? (formen beskrivs hädanefter som A is to B as C is to D ). För att svara på denna fråga kan enkla algebraiska beräkningar göras på respektive ords vektorer; X = vektor( biggest ) vector( big ) + vector( small ). Vektorn som är mest lik och således närmast X bör vara smallest om representationerna mellan ord är högkvalitativa och vältränade vektorer. Om beräkningarna ger samma svar som de faktiska semantiska och syntaktiska relationerna i språket kan man anta att vektorerna är av hög kvalitet. Ett precisionstest beskrivs i studierna (Mikolov, Chen, et al., 2013; Mikolov, Sutskever, et al., 2013) som är i formen A is to B as C is to D med semantiska och syntaktiska relationer. Prestation på testet beskrivs i procent. Bearbetning av stora mängder träningsdata är väsentligt och därför låg beräkningskomplexitet prioriteras framför exakta representationer i Word2Vec (Mikolov, Chen, et al., 2013). 4. Continous Skip-gram model Som tidigare nämnt predicerar skip-gram modellen kontext givet ett ord (w(t)). Indata till modellen är en one-hot vektor. Det innebär att vektorn har samma längd som ordlistan med värdet 0 vid alla index utom det aktuella ordets index, där värdet är 1. One-hot vektorer leder till att användaren skapar träningsexempel från ren text och således finns en näst intill oändlig mängd möjlig träningsdata (Minnaar, 2015). Kontext, vilket motsvarar window i Gensim, är ett mått på hur många ord före och efter ordet (w(t)) som är kontexten. Om window=10 prediceras 5 ord innan (w-1, w-2, etc.) och 5 ord efter (w+1, w+2, etc.). Utdata från skip-gram modellen är vektorer som representerar ordets kontext, givet en längd på kontexten. Vid högre värden på window ökar kvaliteten på ordvektorerna, men som en konsekvens ökar beräkningskomplexiteten. En utjämning för relationen mellan ord (w(t-n)) som ligger nära respektive långt bort från w(t) görs genom att sampla mindre från orden långt bort vid träning. 4 Värden på window bör dock inte vara långt över 10 eftersom relationen mellan ord blir svagare ju längre bort de är från varandra. Varje ord (w) används som en input till en loglinjär klassificerare (Mikolov, Chen, et al., 2013). Med logistisk regression ämnar skip-gram maximera antal par i mängden D (Mikolov, Chen, et al., 2013). Formellt beskrivet är skip-gram modellens inlärningsmål att maximera där c är window. Den genomsnittliga logaritmiska sannolikheten p(w t+j w t) definieras av softmax-funktionen, vilken har stor beräkningskomplexitet (termernas storlek varierar från 10 5 till 10 7 )(Mikolov, Sutskever, et al., 2013). 4.1 Hierarchical softmax Ett alternativ till softmax-funktionen som har lägre beräkningskomplexitet är hierarchical softmax. Funktionen bygger ett binärt träd vars löv (W) representerar utdata-lagret. En stig till löven tilldelar sannolikheter till orden (W). I artikeln har Huffman-träd använts, vilket är en bra struktur för snabb inlärning (Mikolov, Sutskever, et al., 2013). 4.2 Negative Sampling Trots att hierarchial softmax har lägre beräkningskomplexitet ger den inte vektorer med högst kvalitet när den används med skip-gram. Studien (Mikolov, Sutskever, et al., 2013) visade att negative sampling med skip-gram (SGNS) gav högst precision på syntaktiska och semantiska A is to B as C is to D -test 1, 61 % (med samma resultat för subsampling 10-5 och kortare körtid). Negative sampling är en log-linjär funktion som gör om den objektiva funktionen till ett klassificeringsproblem med två klasser; D och D, där D är ett dataset innehållande par (w, c) som existerar i korpus och D innehåller par som inte finns i korpus. Klassificeraren bedömer således P(z=1 (w,c)) samt P(z=0 (w,c)). Negative sampling ämnar maximera P(z=1 (w,c)) och maximera P(z=0 (w,c)) för negativa par. De negativa paren är slumpmässigt utvalda och bygger på antagandet att slumpmässiga par (w, c) sannolikt inte finns i korpus (Ghodsi, 2015a, 2015b). I Gensim är negative sampling en variabel till 1 Testet finns på 5

4 gensim.models.word2vec.word2vec som heter negative (Rehurek, 2015). Värdet på negative anger antal negativa par per positivt par och bör vara mellan 5-20 för mindre storlek på korpus och 2-5 för större korpus (Mikolov, Sutskever, et al., 2013). 4.3 Subsampling av frekventa ord Några exempel på vanliga ord i en korpus på engelska är in, a och the. Dessa kan förekomma flera hundra miljoner gånger i en korpus, vilket leder till att dessa antas vara mindre viktiga än de ovanliga orden. De anses ha lägre informationsvärde. Genom subsampling av frekventa ord jämnas obalansen mellan vanliga och ovanliga ord ut. Det leder till att ovanliga ords vektorer får högre kvalitet. Utöver det förkortas även träningstiden och större mängd data kan testas. Vilka ord som ska subsamplas bestäms från formeln där f(w i) är frekvensen av ord w i och t är det valda gränsvärdet. Alla ord vars frekvens överskrider gränsvärdet subsamplas (Mikolov, Sutskever, et al., 2013). 7. Tillämpning och implementation 7.1 Exempel på tillämpningar Med anledning av att ordvektorerna har både syntaktiska och semantiska egenskaper kan dessa användas för att förbättra nuvarande tillämpningar av olika modeller inom naturliga språk. Några exempel är maskininlärning, informationssökning och fråga-svar-system. På grund av vektorernas kvalitet, men främst på grund av låg beräkningskomplexitet kan Word2Vec sannolikt möjliggöra framtida tillämpningar för naturligt språk (Mikolov, Chen, et al., 2013). 7.2 Test av implementationen i Python 2.7 Jag har testat Word2Vecs modell i Gensim (Rehurek, 2015) för att träna ett neuralt nät med skip-gram modellen. Min träningsdatamängd är de första 10 9 byte av Wikipedia, text8.txt 2. Jag har använt mig av gensim.models.word2vec.text8corpus som är en funktion som itererar över meningarna i text8. Gensim är ett bibliotek till Python 2.7 och kräver en C-kompilator. Jag använde mig av Visual C och Cython för att kompilera Gensim och därmed kunde jag använda mig av den optimerade C-koden som tillåter multitrådning. Detta tillät att variabeln workers>1. Både skip-gram och CBOW kallas på i samma funktion, Word2Vec, med olika variabler. Som default används skip-gram (sg=1) och hierarchial softmax (hs=1). Eftersom det har visats i en studie (Mikolov, Sutskever, et al., 2013) att skip-gram med negative sampling (SGNS) får högst kvalitet på vektorerna testade jag det. Jag testade med olika värden på variablerna, men alltid med skip-gram. Som mest fick jag 50,9 % träffsäkerhet på testet med syntaktiska och semantiska relationer som beskrevs tidigare i rapporten. Mina värden 3 var då size=200, window=8, alpha=0.05, min_count=5, workers=12, iter=15, hs=0, negative=25. Alphavärdets minimum är som default 0,0001, vilket ledde till att jag valde ett något högre värde att börja med. min_count=5 innebär att alla ord med lägre frekvens i hela korpusen ignoreras, vilket var runt 2 % av korpusen. workers=12 innebär att koden körs parallelliserat med 12 trådar. iter=15 innebär att testet körs 15 gånger (epoker) över hela korpusen. När negative=15 fick Mikolov, Sutskever, Chen, Corrado och Dean (2013) 61 % träffsäkerhet på ett test med syntaktiska och semantiska relationer. Noterbart är att det inte är beskrivet att testet är detsamma som finns med öppen källkod som jag har använt mig av. Med en större mängd testdata är det möjligt att jag skulle få högre träffsäkerhet, men i skrivande stund har inte min dator prestanda nog att klara det. Jag har också testat CBOW-modellen 4 med vilken jag fick 49,6 % träffsäkerhet på testet. 2 Finns att ladda ned här: 3 Mer om detta i TrainingK.py. 4 Modellen har tränats av TrainingJ.py. 6 7

5 Utöver att skapa modeller och testat deras träffsäkerhet har jag undersökt andra relationer i språket 5. Metoderna jag använde mig av finns i Word2Vec i Gensim. Metoden most_similar svarar på frågeformen beskriven i del 3: A is to B as C is to D. 8. Avslutning Den första artikeln (Mikolov, Chen, et al., 2013) introducerar modellerna och den andra artikeln (Mikolov, Sutskever, et al., 2013) vidareutvecklar skip-gram modellen och lägger till en implementation av frasanalys (skip-phrase). I den första artikeln är vektorerna endast ett ord, men i den andra artikeln beskrivs hur vissa ord som förekommer oftare tillsammans än med andra ord kan bearbetas som en enhet. Ett exempel på detta är New York som behandlas som new_york istället för separat. Tidigare har det funnits metoder för att representera ord som kontinuerliga vektorer, till exempel en neural network language model (NNLM) som bygger på en vektorrepresentation av ord samt en statistisk språkmodell. Modellen har ett icke-linjärt dolt lager och uppbyggt av ett feed-forward nät. Projektionslagret är linjärt. Det finns fler modeller som bygger på denna, men alla har de samma problem; hög beräkningskomplexitet vid träning av modellen (Mikolov, Chen, et al., 2013). När Word2Vec beskrivs i relation till andra modeller i artiklarna finns det, enligt mig, alltid ett jämförande resonemang kring Word2Vec och tidigare modeller. Word2Vec beskrivs som överlägset i och med sin lägre beräkningskomplexitet och därmed möjlighet att tränas på större mängder data. I den andra artikeln (Mikolov, Sutskever, et al., 2013) jämförs skip-phrase och tre andra liknande arkitekturer (med öppen källkod) som alla har tränats på ungefär 30 miljarder token. Som jämförelse skrivs tre token ut som är närmast fem ovanliga token. Två modeller saknade ordet i sin ordlista, och endast skip-phrase kunde bearbeta fraser. Skip-phrase hade överlägset bäst kvalitet på ordrepresentationerna. Mikolov, Sutskever, Chen, Corrado och Dean (2013) attributerar detta till att skip-gram modellen brukar använda denna mängd token för inlärning som jämfört med de andra modellernas vanliga träningsmängd är två till tre gånger större. Åter igen, enligt min tolkning, beskriver författarna skip-gram modellen som överlägsen givet uppenbara bevis, vilket är figur 6 i artikeln, trots att det saknas ett objektivt mått på prestation. Däremot är tidsåtgång för en körning av modellen rapporterat och skip-gram har betydligt mindre tidskomplexitet. 9. Personlig reflektion 5 Kod till detta är Queries.py. När jag har skrivit kod, försökt installera c-kompilator, läst artiklar och testat min kod har jag lärt mig mycket om hur Word2Vec faktiskt fungerar och olika möjliga användningsområden. Vikten av parallellisering och att hålla beräkningskomplexiteten låg har gått upp för mig när jag har testat kod utan parallellisering och med dimensionen på vektorerna satta till

6 10. Litteraturförteckning Ghodsi, A. (2015a). Lec [3,1]: Deep Learning, Word2vec. Retrieved January 1, 2016, from Ghodsi, A. (2015b). Lec [3,2]: Deep Learning, Word2vec. Retrieved January 1, 2016, from Kann, V. (2006). Korpusar. Retrieved January 7, 2016, from Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representation in Vector Space. In ICLR. Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. In NIPS. Minnaar, A. (2015). Word2Vec Tutorial Part I: The Skip-Gram Model. Retrieved January 7, 2016, from Rehurek, R. (2015). Deep learning with word2vec. Retrieved January 7, 2016, from Russel, S., & Norvig, P. (2013). Artificial Intelligence (3rd ed.). New Jersey: Pearson Education. 10

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

Neurala nätverk och språkigenkänning. Henrik Linnarsson. Linköping University

Neurala nätverk och språkigenkänning. Henrik Linnarsson. Linköping University Neurala nätverk och språk Henli807!1 Neurala nätverk och språkigenkänning Henrik Linnarsson Linköping University Neurala nätverk och språk Henli807!2 RNN, LSTM och språkigenkänning Inledning Idag är språkigenkänning

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full

Läs mer

Word2vec2syn. Tove Pettersson. Synonymidentifiering med Word2vec

Word2vec2syn. Tove Pettersson. Synonymidentifiering med Word2vec Linköpings universitet Institutionen för Datavetenskap Kandidatuppsats, 18 hp Kognitionsvetenskap Vårtermin 2019 LIU-IDA/KOGVET-G--19/001--SE Word2vec2syn Synonymidentifiering med Word2vec Tove Pettersson

Läs mer

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

Ett Neuralt Nätverk Tittar På Kläder

Ett Neuralt Nätverk Tittar På Kläder [Skriv här] [Skriv här] [Skriv här] 2019 Ett Neuralt Nätverk Tittar På Kläder ETT KONVOLUTIONELLT NEURALT NÄTVERK KATEGORISERAR FASHION MNIST DATASETET WILHELM BRODIN, WILBR797 1.1 Inledning En människas

Läs mer

Introduktion till programmering och Python Grundkurs i programmering med Python

Introduktion till programmering och Python Grundkurs i programmering med Python Introduktion till programmering och Python Hösten 2009 Dagens lektion Vad är programmering? Vad är en dator? Filer Att tala med datorer En första titt på Python 2 Vad är programmering? 3 VAD ÄR PROGRAMMERING?

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas

Läs mer

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion

Läs mer

Personifierad Netflix

Personifierad Netflix Linköpings universitet Personifierad Netflix Lisa Rönnqvist 2016-08-24 Sammanfattning INNEHÅLLSFÖRTECKNING 1. Inledning... 1 1.1 Bakgrund... 1 1.2 Syfte... 2 2. Netflix... Fel! Bokmärket är inte definierat.

Läs mer

Statistisk mönsterigenkänning

Statistisk mönsterigenkänning Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning

Läs mer

SF1911 Statistik för bioteknik: Autumn 2016 Lab 3 för CBIOT3. 1 Problem 1 - Fördelning av nukleotider i DNA

SF1911 Statistik för bioteknik: Autumn 2016 Lab 3 för CBIOT3. 1 Problem 1 - Fördelning av nukleotider i DNA Matematisk Statistik Introduktion SF1911 Statistik för bioteknik: Autumn 2016 Lab 3 för CBIOT3 Detta är handledningen till Laboration 3, ta med en en utskriven kopia av den till laborationen. Läs handledningen

Läs mer

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell

Läs mer

Algoritmer och maskininlärning

Algoritmer och maskininlärning Algoritmer och maskininlärning Olof Mogren Chalmers tekniska högskola 2016 De här företagen vill Tjäna pengar Hitta mönster i stora datamängder Göra förutsägelser Klassificera data Förstå människan Maskininlärning

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Automatisk synonymgenerering med Word2Vec för query expansion inom e-handel

Automatisk synonymgenerering med Word2Vec för query expansion inom e-handel Teknik och samhälle Datavetenskap och medieteknik Examensarbete 15 högskolepoäng, grundnivå Automatisk synonymgenerering med Word2Vec för query expansion inom e-handel Automatic synonym generation with

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs...

Fråga 5 (1 poäng) För att definiera ett sökproblem krävs... OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Statistisk Maskinöversättning eller:

Statistisk Maskinöversättning eller: 729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...

Läs mer

Ontologier. Cassandra Svensson 2014-01-09

Ontologier. Cassandra Svensson 2014-01-09 Ontologier Cassandra Svensson 2014-01-09 Sammanfattning Jag har läst Annika Flycht-Ericssons avhandling Design and Use of Ontoligies in information-providing Dialogue Systems. Med Annikas text som utgångspunkt

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

med hjälp av Deep Reinforcement Learning

med hjälp av Deep Reinforcement Learning Agent som kan spela Atarispel bättre än människor med hjälp av Deep Reinforcement Learning Sofie Adolfsson, sofad117@student.liu.se Artificiell Intelligens Linköpings Universitet 2017-01-12 SofieAdolfsson

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Comparing artificial neural network algorithms for classification of reviews

Comparing artificial neural network algorithms for classification of reviews EXAMENSARBETE INOM DATATEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2018 Jämförelse av artificiella neurala nätverksalgoritmer för klassificering av omdömen Comparing artificial neural network algorithms

Läs mer

Introduktion till programmering D0009E. Föreläsning 1: Programmets väg

Introduktion till programmering D0009E. Föreläsning 1: Programmets väg Introduktion till programmering D0009E Föreläsning 1: Programmets väg 1 Vad är en dator? En maskin vars beteende styrs av de innehållet (bitmönster) som finns lagrade i datorns minne (inte helt olikt förra

Läs mer

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4 Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 014-015 Denna lektion ska vi studera rekursion. Lektion 4 Principen om induktion Principen om induktion är ett vanligt sätt att bevisa

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2 Matematisk Statistik SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2 1 Introduktion Denna laboration är inte poänggivande utan är till för den som vill bekanta sig med MATLAB. Fokusera

Läs mer

Matematiska Institutionen KTH. Lösning till tentamensskrivning på kursen Linjär algebra II, SF1604, den 9 juni 2011 kl

Matematiska Institutionen KTH. Lösning till tentamensskrivning på kursen Linjär algebra II, SF1604, den 9 juni 2011 kl 1 Matematiska Institutionen KTH Lösning till tentamensskrivning på kursen Linjär algebra II, SF1604, den 9 juni 2011 kl 08.00-1.00. OBS: Inga hjälpmedel är tillåtna på tentamensskrivningen. Bonuspoäng

Läs mer

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna

Läs mer

SPEECH RECOGNITION USING ARTIFICIAL NEURAL NETWORKS. Linköpings Universitet 729G43 Artificiell Intelligens

SPEECH RECOGNITION USING ARTIFICIAL NEURAL NETWORKS. Linköpings Universitet 729G43 Artificiell Intelligens SPEECH RECOGNITION USING ARTIFICIAL NEURAL NETWORKS Oscar Lundblad Osclu399@student.liu.se 2017-01-05 Linköpings Universitet 729G43 Artificiell Intelligens Innehållsförteckning Introduktion 3 Rapportens

Läs mer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

MATEMATIK GU. LLMA60 MATEMATIK FÖR LÄRARE, GYMNASIET Analys, ht 2014. Block 5, översikt

MATEMATIK GU. LLMA60 MATEMATIK FÖR LÄRARE, GYMNASIET Analys, ht 2014. Block 5, översikt MATEMATIK GU H4 LLMA6 MATEMATIK FÖR LÄRARE, GYMNASIET Analys, ht 24 I block 5 ingår följande avsnitt i Stewart: Kapitel 2, utom avsnitt 2.4 och 2.6; kapitel 4. Block 5, översikt Första delen av block 5

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 24: Tidsserieanalys III

Tillämpad statistik (A5), HT15 Föreläsning 24: Tidsserieanalys III Tillämpad statistik (A5), HT15 Föreläsning 24: Tidsserieanalys III Sebastian Andersson Statistiska institutionen Senast uppdaterad: 16 december 2015 är en prognosmetod vi kan använda för serier med en

Läs mer

Prov i DAT 312: Algoritmer och datastrukturer för systemvetare

Prov i DAT 312: Algoritmer och datastrukturer för systemvetare Prov i DAT 312: Algoritmer och datastrukturer för systemvetare Jacek Malec Datavetenskap, LU 11 april 2003 Datum 11 april 2003 Tid 14 19 Ansvarig lärare Jacek Malec (tel. 03 9890431) Hjälpmedel inga Antal

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Textklassificering Marco Kuhlmann Institutionen för datavetenskap Textklassificering Skräppostfiltrering spam ham Författaridentifiering Alexander Hamilton

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 8 Statistiska metoder 1 Dagens föreläsning o Chi-två-test Analys av enkla frekvenstabeller Analys av korstabeller (tvåvägs-tabeller) Problem med detta test o Fishers exakta test 2 Analys av

Läs mer

Hitta k största bland n element. Föreläsning 13 Innehåll. Histogramproblemet

Hitta k största bland n element. Föreläsning 13 Innehåll. Histogramproblemet Föreläsning 13 Innehåll Algoritm 1: Sortera Exempel på problem där materialet i kursen används Histogramproblemet Schemaläggning Abstrakta datatyper Datastrukturer Att jämföra objekt Om tentamen Skriftlig

Läs mer

Föreläsning 7. Felrättande koder

Föreläsning 7. Felrättande koder Föreläsning 7 Felrättande koder Antag att vi vill skicka ett meddelande som består av bokstäver a,b,c,d. Vi kan koda a,b,c,d. Antag att det finns en viss sannolikhet att en bit i ett meddelande som skickas

Läs mer

Tentamen i Matematik 3: M0031M.

Tentamen i Matematik 3: M0031M. Tentamen i Matematik 3: M0031M. Datum: 2009-10-26 Skrivtid: 09:00 14:00 Antal uppgifter: 6 ( 30 poäng ). Jourhavande lärare: Norbert Euler Telefon: 0920-492878 Tillåtna hjälpmedel: Inga Till alla uppgifterna

Läs mer

TDDI16 Datastrukturer och algoritmer. Algoritmanalys

TDDI16 Datastrukturer och algoritmer. Algoritmanalys TDDI16 Datastrukturer och algoritmer Algoritmanalys 2017-08-28 2 Översikt Skäl för att analysera algoritmer Olika fall att tänka på Medelfall Bästa Värsta Metoder för analys 2017-08-28 3 Skäl till att

Läs mer

Synonymutvärdering: Synonymlexikon slår ordvektormetod. Anna Westin Augusti 2018

Synonymutvärdering: Synonymlexikon slår ordvektormetod. Anna Westin Augusti 2018 Synonymvärdering: Synonymlexikon slår ordvektormetod Anna Westin Augusti 2018 1 1 Abstrakt En synonymvärdering fördes genom en onlinenkät, och resultatet blev att det nuvarande synonymlexikonet vi använder

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd.

I en deterministisk omgivning beror nästa tillstånd bara av agentens handling och nuvarande tillstånd. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Översikt. Stegvis förfining. Stegvis förfining. Dekomposition. Algoritmer. Metod för att skapa ett program från ett analyserat problem

Översikt. Stegvis förfining. Stegvis förfining. Dekomposition. Algoritmer. Metod för att skapa ett program från ett analyserat problem Översikt Stegvis förfining Pseudokod Flödesdiagram Dekomposition KISS-regeln Procedurell dekomposition DRY-regeln Algoritmer Sortering och sökning Stegvis förfining Metod för att skapa ett program från

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2018-05-31 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

Vad behövs för att skapa en tillståndsrymd?

Vad behövs för att skapa en tillståndsrymd? OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

KUNDCASE. Inovia gjorde sin AI-utveckling 10 gånger snabbare med Power-plattformen

KUNDCASE. Inovia gjorde sin AI-utveckling 10 gånger snabbare med Power-plattformen KUNDCASE Inovia gjorde sin AI-utveckling 10 gånger snabbare med Power-plattformen MÖT INOVIA Inovia är ett marknadsledande bolag som är specialiserade på Big Data och AI där lösningarna utvecklas av ett

Läs mer

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson

Uppsala Universitet Matematiska Institutionen Thomas Erlandsson Uppsala Universitet Matematiska Institutionen Thomas Erlandsson MATRISER MED MERA VEKTORRUM DEFINITION Ett vektorrum V är en mängd av symboler u som vi kan addera samt multiplicera med reella tal c så

Läs mer

Att använda Weka för språkteknologiska problem

Att använda Weka för språkteknologiska problem Att använda Weka för språkteknologiska problem Systemet WEKA (Waikato Environment for Knowledge Acquisition) är en verktygslåda med olika maskininlärningsalgoritmer, metoder för att behandla indata, möjligheter

Läs mer

NEURAL MASKINÖVERSÄTTNING

NEURAL MASKINÖVERSÄTTNING Linköpings universitet 729G43 NEURAL MASKINÖVERSÄTTNING Moa Wallin Inledning Manuell översättning är en mycket tidskrävande process som kräver stor kunskap och bred kompetens och behovet av översättning

Läs mer

Föreläsning 5: Grafer Del 1

Föreläsning 5: Grafer Del 1 2D1458, Problemlösning och programmering under press Föreläsning 5: Grafer Del 1 Datum: 2006-10-02 Skribent(er): Henrik Sjögren, Patrik Glas Föreläsare: Gunnar Kreitz Den här föreläsningen var den första

Läs mer

Föreläsning 13 Innehåll

Föreläsning 13 Innehåll Föreläsning 13 Innehåll Exempel på problem där materialet i kursen används Hitta k största bland n element Histogramproblemet Schemaläggning PFK (Föreläsning 13) VT 2013 1 / 15 Hitta k största bland n

Läs mer

Klassificering av homonymer Inlämningsuppgift språkteknologi

Klassificering av homonymer Inlämningsuppgift språkteknologi Klassificering av homonymer Inlämningsuppgift språkteknologi 2013-01-10 Kurskod: DD2418 Författare Gustav Ribom 910326-0593 Erik Aalto 861108-0212 Kontaktperson Johan Boye Abstract Ordet fil har flera

Läs mer

Tentamen i Beräkningsvetenskap I/KF, 5.0 hp,

Tentamen i Beräkningsvetenskap I/KF, 5.0 hp, Uppsala universitet Institutionen för informationsteknologi Teknisk databehandling Tentamen i Beräkningsvetenskap I/KF, 5. hp, 215-3-17 Skrivtid: 14 17 (OBS! Tre timmars skrivtid!) Hjälpmedel: Bifogat

Läs mer

Taligenkänning med fördjupning på Hidden Markov Models

Taligenkänning med fördjupning på Hidden Markov Models IDA, Linköpings Universitet Artificiell Intelligens II, 729G11 HT 2008 Taligenkänning med fördjupning på Hidden Markov Models 870524-0045 jearu017@student.liu.se Sammanfattning Taligenkänning är en teknik

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2017-06-01 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen

Läs mer

Höftledsdysplasi hos dansk-svensk gårdshund

Höftledsdysplasi hos dansk-svensk gårdshund Höftledsdysplasi hos dansk-svensk gårdshund Sjö A Sjö B Förekomst av parasitdrabbad öring i olika sjöar Sjö C Jämföra medelvärden hos kopplade stickprov Tio elitlöpare springer samma sträcka i en för dem

Läs mer

GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON

GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON 2018 GRIDWORLD OCH MDP PROJEKTRAPPORT 729G43 MICHAEL JONASSON Innehåll Inledning & Bakgrund... 2 Förstärkt inlärning... 2 MDP... 2 Gridworld... 3 Nytta och policy... 4 Värdefunktion och Bellmanekvationer...

Läs mer

Tentamen ID1004 Objektorienterad programmering October 29, 2013

Tentamen ID1004 Objektorienterad programmering October 29, 2013 Tentamen för ID1004 Objektorienterad programmering (vilande kurs), 29 oktober 2013, 9-13 Denna tentamen examinerar 3.5 högskolepoäng av kursen. Inga hjälpmedel är tillåtna. Tentamen består av tre sektioner.

Läs mer

. (2p) 2x + 2y + z = 4 y + 2z = 2 4x + 3y = 6

. (2p) 2x + 2y + z = 4 y + 2z = 2 4x + 3y = 6 Kursen bedöms med betyg, 4, 5 eller underkänd, där 5 är högsta betyg För godkänt betyg krävs minst 4 poäng från uppgifterna -7 Var och en av dessa sju uppgifter kan ge maximalt poäng För var och en av

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Distributionella representationer av ord för effektiv informationssökning

Distributionella representationer av ord för effektiv informationssökning EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2017 Distributionella representationer av ord för effektiv informationssökning Algoritmer för sökning i kundsupportforum TIM LACHMANN JOHAN

Läs mer

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, SMT En fördjupning i statistiska maskinöversättningssystem johka299@student.liu.se 2010-10-01 Innehållsförteckning 1. Introduktion till översättning...

Läs mer

Np MaB vt Låt k = 0 och rita upp de båda linjerna. Bestäm skärningspunkten mellan linjerna.

Np MaB vt Låt k = 0 och rita upp de båda linjerna. Bestäm skärningspunkten mellan linjerna. Vid bedömning av ditt arbete med uppgift nummer 17 kommer läraren att ta hänsyn till: Hur väl du beräknar och jämför trianglarnas areor Hur väl du motiverar dina slutsatser Hur väl du beskriver hur arean

Läs mer

Regression med Genetiska Algoritmer

Regression med Genetiska Algoritmer Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet

Läs mer

SELF- ORGANIZING MAPS

SELF- ORGANIZING MAPS LINKÖPINGS UNIVERSITET Kognitionsvetenskapliga Programmet Examinator: Arne Jönsson SELF- ORGANIZING MAPS - Ett fördjupningsarbete inom Artificiell Intelligens Fack 52 katwa676@student.liu.se Sammanfattning

Läs mer

MVE022 Urval av bevis (på svenska)

MVE022 Urval av bevis (på svenska) MVE22 Urval av bevis (på svenska) J A S, VT 218 Sats 1 (Lay: Theorem 7, Section 2.2.) 1. En n n-matris A är inverterbar precis när den är radekvivalent med indentitesmatrisen I n. 2. När så är fallet gäller

Läs mer

SHAZAM! En!smart!musiktjänst! Linha108! Fördjupningsarbete!729G43!

SHAZAM! En!smart!musiktjänst! Linha108! Fördjupningsarbete!729G43! SHAZAM Ensmartmusiktjänst Linha108 Fördjupningsarbete729G43 Sammanfattning Shazam är en musiktjänst som genom en sökalgoritm kan känna igen ljud och returnera låt och artist till användaren. Detta sker

Läs mer

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1 Datakompression fö 2 p.1 Krafts olikhet En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om N 2 l i 1 Bevis: Antag att vi har en trädkod. Låt l max =max{l

Läs mer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer Laboration 2 i 5B52, Grundkurs i matematisk statistik för ekonomer Namn: Elevnummer: Laborationen syftar till ett ge information och träning i Excels rutiner för statistisk slutledning, konfidensintervall,

Läs mer

Tommy Färnqvist, IDA, Linköpings universitet. 2 Strukturer 2 2.1 Domäner... 2 2.2 Tolkningar... 3

Tommy Färnqvist, IDA, Linköpings universitet. 2 Strukturer 2 2.1 Domäner... 2 2.2 Tolkningar... 3 Föreläsning 2 Semantik 729G06 Logikdelen Föreläsningsanteckningar i Programmering och logik 27 januari 2014 Tommy Färnqvist, IDA, Linköpings universitet 2.1 Innehåll Innehåll 1 Lite mer syntax 1 2 Strukturer

Läs mer

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten.

Antag att b är förgreningsfaktorn, d sökdjupet, T (d) tidskomplexiteten och M(d) minneskomplexiteten. OS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervalsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

TMV166 Linjär Algebra för M. Tentamen

TMV166 Linjär Algebra för M. Tentamen MATEMATISKA VETENSKAPER TMV66 6 Chalmers tekniska högskola 6 3 6 kl. 8:3 :3 (SB Multisal) Examinator: Tony Stillfjord Hjälpmedel: ordlistan från kurshemsidan, ej räknedosa Telefonvakt: Tony Stillfjord,

Läs mer

Sub-symbolisk kognition & Konnektionism. Kognitionsvetenskaplig Introduktionskurs (729G01) Mats Andrén,

Sub-symbolisk kognition & Konnektionism. Kognitionsvetenskaplig Introduktionskurs (729G01) Mats Andrén, Sub-symbolisk kognition & Konnektionism Kognitionsvetenskaplig Introduktionskurs (729G01) Mats Andrén, mats.andren@liu.se 1 Konnektionism Neutrala nät baseras på en (förenklad) modell av hur hjärnan fungerar.

Läs mer

Datastrukturer. Erik Forslin. Rum 1445, plan 4 på Nada

Datastrukturer. Erik Forslin. Rum 1445, plan 4 på Nada Datastrukturer Vad är en datastruktur? Vad är en datatyp? Primitiva datatyper i Java Icke-primitiva datatyper i Java Minnesexempel med datastrukturer Vektorer i Java Erik Forslin efo@nada.kth.se Rum 1445,

Läs mer

Prestanda och skalbarhet

Prestanda och skalbarhet Prestanda och skalbarhet Grama et al. Introduction to Parallel Computing Kapitel 5 Erik Elmroth Översikt 2 Exekveringstid Uppsnabbning Effektivitet Kostnad Kostnadsoptimal algoritm Ahmdals lag Gustafson-Barsis

Läs mer

TMV142/186 Linjär algebra Z/TD

TMV142/186 Linjär algebra Z/TD MATEMATIK Hjälpmedel: ordlistan från kurshemsidan, ej räknedosa Chalmers tekniska högskola Datum: 2018-08-27 kl 1400 1800 Tentamen Telefonvakt: Anders Hildeman ank 5325 TMV142/186 Linjär algebra Z/TD Skriv

Läs mer

2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit.

2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit. 2D1432 Artificiella Neuronnät och andra lärande system Lösningsförslag till Tentamen 2003-03-06 Inga hjälpmedel. Uppgift 1 Vilka av följande påståenden är sanna? Korrigera de som är fel. 1. Potentialen

Läs mer

International Olympiad in Informatics 2011 22 29 July 2011, Pattaya City, Thailand Tävlingsuppgifter Dag 2 Svenska 1.3. Papegojor

International Olympiad in Informatics 2011 22 29 July 2011, Pattaya City, Thailand Tävlingsuppgifter Dag 2 Svenska 1.3. Papegojor Papegojor Yanee är fågelentusiast. Sedan hon läst om IP over Avian Carriers (IPoAC), har hon spenderat mycket tid med att träna en flock papegojor att leverera meddelanden över långa avstånd. Yanees dröm

Läs mer

Grundkurs i programmering - intro

Grundkurs i programmering - intro Grundkurs i programmering - intro Linda Mannila 4.9.2007 Dagens föreläsning Allmän kursinformation: mål, syfte, upplägg, examination, litteratur, etc. Hur arbetar en dator? Hur vi får datorn att förstå

Läs mer

Inledning. Vad är ett datorprogram, egentligen? Olika språk. Problemlösning och algoritmer. 1DV433 Strukturerad programmering med C Mats Loock

Inledning. Vad är ett datorprogram, egentligen? Olika språk. Problemlösning och algoritmer. 1DV433 Strukturerad programmering med C Mats Loock Inledning Vad är ett datorprogram, egentligen? Olika språk Problemlösning och algoritmer 1 (14) Varför använda en dator? Genom att variera de program som styr datorn kan den användas för olika uppgifter.

Läs mer

JavaScript del 2 DocumentWrite, Prompt och ParseInt

JavaScript del 2 DocumentWrite, Prompt och ParseInt JavaScript del 2 DocumentWrite, Prompt och ParseInt Senast kollade vi lite på vad JavaScript är för något, hur man skapar variabler samt hur vi kan skicka ut ett meddelande till användaren genom alert.

Läs mer

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1

Bakgrund och motivation. Definition av algoritmer Beskrivningssätt Algoritmanalys. Algoritmer. Lars Larsson VT 2007. Lars Larsson Algoritmer 1 Algoritmer Lars Larsson VT 2007 Lars Larsson Algoritmer 1 1 2 3 4 5 Lars Larsson Algoritmer 2 Ni som går denna kurs är framtidens projektledare inom mjukvaruutveckling. Som ledare måste ni göra svåra beslut

Läs mer

Matriser och vektorer i Matlab

Matriser och vektorer i Matlab CTH/GU LABORATION 2 TMV157-2014/2015 Matematiska vetenskaper Matriser och vektorer i Matlab 1 Inledning Först skall vi se lite på matriser, vilket är den grundläggande datatypen i Matlab, sedan skall vi

Läs mer

Teoretisk del. Facit Tentamen TDDC (6)

Teoretisk del. Facit Tentamen TDDC (6) Facit Tentamen TDDC30 2014-08-29 1 (6) Teoretisk del 1. (6p) "Snabba frågor" Alla svar motiveras väl. a) Vad är skillnaden mellan synligheterna public, private och protected? (1p) Svar:public: Nåbar för

Läs mer

Sökning och sortering

Sökning och sortering Sökning och sortering Programmering för språkteknologer 2 Sara Stymne 2013-09-16 Idag Sökning Analys av algoritmer komplexitet Sortering Vad är sökning? Sökning innebär att hitta ett värde i en samling

Läs mer

Installera Anaconda Python

Installera Anaconda Python Maskininlärning Installera Anaconda Python Nummergisslek Vi ska bygga ett litet program, RIDER, som ska gissa vilket nummer som du tänker på. Reglerna är att du tänker på ett heltal mellan 1 och 100. RIDER

Läs mer

Introduktion Schenker-BTL AB, Stab IT Beskrivning över informationsintegreringmed Schenker, metodbeskrivning version 1.

Introduktion Schenker-BTL AB, Stab IT Beskrivning över informationsintegreringmed Schenker, metodbeskrivning version 1. Schenker har interna system som handhar information som är av intresse för våra kunder/partners. Idag finns ett flertal av dem tillgängliga via Internet, sk Online-tjänster. Dessa erbjuder inte bara hämtning

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0

Taligenkänning. Sanna Aronsson sanar429 Artificiell Intelligens, HKGBB0 Taligenkänning, HKGBB0 Abstract Ett taligenkänningssystem är att ett system som har som uppgift att identifiera enstaka ord eller hela sekvenser av ord. Detta gör den genom att jämföra denna ordsekvens

Läs mer