TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
|
|
- Ann-Charlotte Jonasson
- för 5 år sedan
- Visningar:
Transkript
1 TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap
2 Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta ordklass, givet en mängd möjliga ordklasser. Utmaning 1: Flertydighet orsakar kombinatorisk explosion. Utmaning 2: Ordklasstaggning måste även kunna hantera okända ord. Hon tog fram tre nya boskar ur skåpet.
3 Ordklasser En ordklass är en mängd av ord som delar någon egenskap. substantiv kan deklineras, verb kan konjugeras Det finns många olika uppsättningar av ordklasser. varierar bl.a. med språk, lingvistisk teori och korpus Man brukar skilja mellan två typer av ordklasser: öppna ordklasser slutna ordklasser substantiv, adjektiv, verb artiklar, pronomen, prepositioner
4 Universella ordklasser (öppna klasser) tagg kategori exempel ADJ adjektiv glad ADV adverb inte INTJ interjektion ja NOUN substantiv pudding PROPN proper noun Ingmar VERB verb kasta Universal Dependencies:
5 Universella ordklasser (slutna klasser) tagg kategori exempel ADP adposition (preposition, postposition) över AUX hjälpverb har CONJ konjunktion och DET determinerare denna NUM räkneord för grundtal tre PART partikel ut PRON pronomen hon SCONJ subjunktion att
6 Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN
7 Översikt över dagens föreläsning Introduktion till ordklasstaggning Utvärdering av ordklasstaggare Metod 1: Regelbaserad taggning Metod 2: Taggning med Hidden Markov-modeller Metod 3: Taggning med perceptroner
8 Utvärdering av ordklasstaggare
9 Att utvärdera ordklasstaggare För att träna och utvärdera taggare behöver vi en guldstandard, dvs. meningar med redan taggade ord. Stockholm Umeå Corpus (SUC) Utvärderingen kan då ske med avseende på standardmått: korrekthet, precision och täckning.
10 Påminnelse: Utvärderingsmetodologi Träningsdata (eng. training data; t.ex. 80%) används för att träna taggaren Utvecklingsdata (eng. development data; t.ex. 10%) används för att utvärdera taggaren under utvecklingsperioden Testdata (eng. test data; t.ex. 10%) används för att utvärdera den färdiga taggaren innan den finaliseras, t.ex. innan den skickas till en kund
11 Stockholm Umeå Corpus (SUC) SUC är den största manuellt annoterade korpusen för skriven svenska, ett samarbete mellan Stockholms och Umeås universitet. skapades i början på 1990-talet Den innehåller 1,2 miljoner ord (token) annoterade med bl.a. ordklass, morfologisk analys och lemma. SUC är en balanserad korpus med texter från olika genrer.
12 Korrekthet DT JJ NN PP VB 307 DT JJ NN PP VB predicerad tagg guldstandardtagg
13 Precision på NN DT JJ NN PP VB 264 DT JJ NN PP VB predicerad tagg guldstandardtagg
14 Täckning (recall) på NN DT JJ NN PP VB 26 DT JJ NN PP VB predicerad tagg guldstandardtagg
15 Metod 1: Regelbaserad taggning
16 Regelbaserad taggning Använd ett tagglexikon för att tilldela varje ord en begränsad mängd möjliga taggar. t.ex. alla taggar som förekommer åtminstone 5 gånger i träningsdatan Använd handskrivna disambigueringsregler för att reducera antalet möjliga taggar per ord till 1.
17 Disambigueringsregler Formulerad som transformationsregler, till exempel: Om ordet slutar på -iska, ersätt taggen med JJ. problem: piska/nn Ändra VB till NN om nästa tagg är VB. mina/ps händer/vb är/vb så/ab kalla/jj
18 Två knep för bättre regelbaserad taggning Använd reguljära uttryck för att tagga enkla eller strukturerade token som tal och telefonnummer. Hitta en bra defaulttagg som kan sättas på ord vars ordklass inte kunnat bestämmas på annat sätt. SUC: NN (substantiv; ca. 20%)
19 Fördelningen över ordklasserna Fördelningen av ord över ordklasser är väldigt skev: Några ord(typer) förekommer med många olika taggar. SUC: en kan vara DT, PN, RG, AB, UO, PM eller NN De allra flesta ord förekommer med endast en tagg. SUC: 96,18%
20 Zipfs lag f(w r ) 1/r Ett ords frekvens är invers proportionell mot dess position i frekvensrangordningen the of that was his have as which me be him no upon your what were very
21 Metod 2: Taggning med Hidden Markov-modeller
22 Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN
23 Olika taggar förekommer olika ofta PN VB PP DT JJ NN jag bad om en kort bit
24 Olika taggföljder förekommer olika ofta PN VB PP DT JJ NN PN VB PP DT JJ NN
25 Hidden Markov-modell En Hidden Markov-modell (HMM) är en generaliserad Markovmodell med två olika typer av sannolikheter: övergångssannolikheter P(tagg 2 tagg 1 ) Hur sannolikt är det att se ett verb efter att ha sett ett pronomen? observationssannolikheter P(ord tagg) Hur sannolikt är det att se ordet bad som ett verb?
26 P(w 1 w 1 ) w 1 P(w 1 BOS) P(EOS w 1 ) BOS P(w 2 w 1 ) P(w 1 w 2 ) EOS P(w 2 BOS) P(EOS w 2 ) w 2 P(w 2 w 2 )
27 P(VB VB) w P(w VB) jag 0, VB bad 0, P(VB BOS) P(EOS VB) BOS P(PN VB) P(VB PN) EOS P(PN BOS) P(EOS PN) PN w P(w PN) jag 0, P(PN PN) bad 0,000006
28 Skattning av sannolikheterna i en HMM Vi kan skatta sannolikheterna i en HMM på en taggad korpus med hjälp av Maximum Likelihood-skattning: exempel för övergångssannolikheter: P(VB PN) När vi ser taggen PN, hur ofta ser vi taggen VB efteråt? exempel för observationssannolikheter: P(jag PN) När vi ser taggen PN, hur ofta är det taggade ordet jag? Vi kan använda additiv utjämning precis som förr.
29 Sannolikheten för en taggad mening P(bad VB) P(kort JJ) P(jag PN) P(om PP) P(en DT) P(bit NN) jag bad om en kort bit PN VB PP DT JJ NN P(PN BOS) P(PP VB) P(JJ DT) P(EOS NN) P(VB PN) P(DT PP) P(NN JJ) Sannolikheten för en taggad mening är produkten av alla övergångs- och observationssannolikheter.
30 HMM-taggning Given en mening vill vi räkna ut en sekvens av taggar sådan att sannolikheten för den taggade meningen är maximal. Taggsekvensen är inte given i förväg; den är hidden (dold)! För en och samma mening finns det många olika taggsekvenser med många olika sannolikheter; sökrymden är stor. 384 olika möjligheter för exempelmeningen Trots detta kan den mest sannolika taggsekvensen beräknas på ett effektivt sätt med hjälp av Viterbi-algoritmen.
31 Viterbi-algoritmen (extramaterial)
32 Sannolikheten för en taggad mening P(bad VB) P(kort JJ) P(jag PN) P(om PP) P(en DT) P(bit NN) jag bad om en kort bit PN VB PP DT JJ NN P(PN BOS) P(PP VB) P(JJ DT) P(EOS NN) P(VB PN) P(DT PP) P(NN JJ) Sannolikheten för en taggad mening är produkten av alla övergångs- och observationssannolikheter.
33 HMM-taggning Given en mening vill vi räkna ut en sekvens av taggar sådan att sannolikheten för den taggade meningen är maximal. Taggsekvensen är inte given i förväg; den är hidden (dold)! För en och samma mening finns det många olika taggsekvenser med många olika sannolikheter; sökrymden är stor. 384 olika möjligheter för exempelmeningen Trots detta kan den mest sannolika taggsekvensen beräknas på ett effektivt sätt med hjälp av Viterbi-algoritmen.
34 Beskrivning Algoritmen tar in en HMM och en mening och beräknar den mest sannolika taggsekvensen för meningen i modellen. Algoritmen fyller en matris som innehåller en rad för varje möjlig tagg och en kolumn för varje möjlig position i meningen. I den här presentation fyller vi matrisen med negativa logsannolikheter; vi kan tolka dessa som kostnader i kronor. för att undvika flyttalsbottning
35 Målbeskrivning Algoritmen ska se till att matrisvärdet i rad t, kolumn i blir den lägsta möjliga kostnaden för att tagga de första i orden i meningen på ett sådant sätt att ord nummer i får tagg t. Kom ihåg att lägsta möjliga kostnad = högsta möjliga sannolikhet. Om algoritmen kan åstadkomma detta kan vi läsa av den lägsta möjliga kostnaden för att tagga hela meningen från den sista raden av matrisen. eller nästan
36 Viterbi-matrisen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15
37 Övergångskostnader PN VB PP DT JJ NN EOS BOS 1,69 3,58 2,25 2,50 3,37 1,76 11,19 PN 4,00 0,69 2,34 4,00 3,69 3,85 7,94 VB 1,95 2,17 2,04 2,56 2,97 2,18 6,87 PP 3,09 6,42 5,49 1,82 2,43 0,85 8,38 DT 5,61 10,22 5,26 5,82 0,93 0,84 10,22 JJ 5,73 3,62 2,98 5,68 3,28 0,43 6,35 NN 5,30 1,70 1,49 5,17 4,23 3,11 4,30
38 Observationskostnader jag bad om en kort bit PN 3,66 12,08 12,08 6,08 12,08 12,08 VB 12,53 8,79 12,53 12,53 12,53 12,53 PP 12,33 12,33 3,83 12,33 12,33 12,33 DT 11,99 11,99 11,99 2,29 11,99 11,99 JJ 12,09 12,09 12,09 12,09 7,25 12,09 NN 9,47 10,33 12,73 12,03 9,78 8,19
39 Den första kolumnen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 JJ NN PN PP VB P(DT BOS) + P(jag DT) = 2, ,99 = 14,49
40 Den första kolumnen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 JJ 15,46 NN 11,22 PN 5,35 PP VB P(PN BOS) + P(jag PN) = 1,69 + 3,66 = 5,35
41 De övriga kolumnerna: Flera möjligheter jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 35,15 JJ 15,46 21,13 29,88 NN 11,22 19,53 29,74 PN 5,35 21,43 28,86 PP 14,59 20,02 20,70 VB 16,11 14,83 29,53 28,86 + P(DT PN) + P(en DT) = 28,86 + 4,00 + 2,29 = 35,15
42 De övriga kolumnerna: Flera möjligheter jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 24,82 JJ 15,46 21,13 29,88 NN 11,22 19,53 29,74 PN 5,35 21,43 28,86 PP 14,59 20,02 20,70 VB 16,11 14,83 29,53 20,70 + P(DT PP) + P(en DT) = 20,70 + 1,82 + 2,29 = 24,82
43 Välja ut den bästa cellen i sista kolumnen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 45,93 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15 41,63 + P(EOS NN) = 41,63 + 4,30 = 45,93
44 Följ backpointers för att rekonstruera den bästa taggsekvensen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 45,93 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15
45 Den bästa taggsekvensen är inte nödvändigtvis sekvensen av de bästa taggarna! jag 1 skrev 2 på 3 utan 4 att 5 tveka 6 IE 17,22 21,69 30,02 33,79 34,63 54,70 PL 21,77 21,20 22,10 39,77 49,28 55,06 PN 5,35 21,43 27,87 33,85 44,12 48,09 PP 14,59 20,02 18,69 28,95 44,66 50,70 SN 15,83 21,51 29,20 34,29 35,24 51,40 VB 16,11 13,84 28,54 37,64 43,96 44,86 51,74
46 Viterbi-algoritmen i all korthet För att beräkna kostnaden för en tagg i den första ordkolumnen: övergångskostnaden från BOS + observationskostnaden för det första ordet För att beräkna kostnaden för en tagg i någon annan ordkolumn: välj en tagg i föregående ordkolumn som minimerar denna summa: redan beräknad kostnad för denna tagg i föregående ordkolumn + övergångskostnaden från denna tagg + observationskostnaden för det aktuella ordet För att beräkna kostnaden för den fullständiga meningen: välj en tagg i den sista ordkolumnen som minimerar denna summa: redan beräknad kostnad för denna tagg i den sista ordkolumnen + övergångskostnaden till EOS
47 Övningsuppgift till Viterbi-algoritmen övergångssannolikheter observationssannolikheter PL PN PP VB EOS jag skrev på BOS PL PL PN PN PP PP VB VB
48 Övningsuppgift till Viterbi-algoritmen jag 1 skrev 2 på 3 BOS PL PN PP VB EOS
49 Övningsuppgift till Viterbi-algoritmen jag 1 skrev 2 på 3 BOS 0 PL PN PP VB EOS 21
50 Övningsuppgifter
51 Uppgift: Utvärdering av en ordklasstaggare NN JJ VB NN JJ VB Ställ upp bråk för följande: taggarens precision på substantiv taggarens täckning (recall) på adjektiv Ange en annan förväxlingsmatris där taggarens korrekthet är densamma som i den angivna matrisen men där taggarens täckning på adjektiv är 0%.
52 Uppgift Du vill räkna ut den totala sannolikheten som en HMM tilldelar nedanstående ord tagg-sekvens. Du kan fråga modellen efter dess atomära sannolikheter, men varje sådan fråga kostar 1 krona. Vilka frågor måste du ställa, och hur många kronor måste du betala? jag skrev på utan att tveka PN VB PL PP IE VB
53 Metod 3: Perceptron-taggning
54 Ordklasstaggning som klassifikation Ordklasstaggning kan brytas ned till en sekvens av klassifikationsproblem: en klassifikation per ord. Utifrån denna idé kan vilken klassifikationsmetod som helst byggas om till en metod för ordklasstaggning. beslutsträd, neuronnät, Naive Bayes Här använder vi en av de enklaste modellerna för klassifikation, perceptronen.
55 Multiklass-perceptron x 1 θ 1 Σ z(x 1, x 2 ) θ 1 x 2 θ 2 θ 2 Σ z(x 1, x 2 ) De två enheterna bjuder; den enhet som vinner får predicera klassen.
56 Perceptrontaggning jag bad om en kort bit NN 09,36 PN 81,72 VB 9,18
57 Perceptrontaggning jag bad om en kort bit PN 81,72 NN 09,36 VB 9,18
58 Perceptrontaggning jag bad om en kort bit PN NN 16,08 PN 4,02 VB 64,32
59 Perceptrontaggning jag bad om en kort bit PN VB 64,32 NN 16,08 PN 4,02
60 Perceptrontaggning jag bad om en kort bit PN VB
61 Skillnader mellan de två metoderna HMM-taggning uttömmande sökning efter den bästa sekvensen begränsade möjligheter att definiera särdrag aktuellt ord, föregående tagg Perceptron-taggning ingen sökning; endast lokalt optimala beslut girig sökning större möjligheter att definiera särdrag
62 Girig sökning med HMM:er Välj den tagg som ger den högsta kombinerade övergångs-/observationssannolikheten: tagg för ordet w i = argmax t P(t t i 1 ) P(w i t) Om man använder HMM:er på detta sätt får man inte den globalt bästa taggsekvensen utan bara de lokalt bästa taggarna!
63 Jämförelse mellan de två metoderna HMM Perceptron Viterbi girig sökning HMM-särdrag bättre särdrag 92,71% 89,97% 88,86% 95,30% taggarens korrekthet på SUCs testmängd Perceptron-baserade ordklasstaggare ger state-of-the-art-resultat på flera språk och datamängder.
64 Guider med viktade särdrag Beskriv datan i fönstret genom särdrag (eng. features). Särdragens roll under träningen Träningen ska vikta särdragen: Talar detta särdrag för eller emot antagandet att det aktuella ordet har en given ordklass? perceptroninlärning vikterna förstärks eller försvagas Särdragens roll under taggningen De viktade särdragen läggs ihop till en taggspecifik summa och taggaren väljer den tagg som har fått den högsta summan.
65 Särdragsfönster HMM:er tittar bakåt; men ibland är det bra att titta framåt också! Jag bad om en kort bit. Samtidigt vill vi inte ta in alltför mycket information. effektivitet, datagleshet En kompromiss är att definiera ett avgränsat särdragsfönster.
66 Särdragsfönster jag bad om en kort bit BOS PN EOS Med detta särdragsfönster kan särdrag extraheras från aktuellt ord, föregående ord, föregående tagg, nästa ord.
67 Särdragsfönster jag bad om en kort bit BOS PN VB EOS Under taggningen flyttas särdragsfönstret över meningen.
68 Viktade särdrag särdrag vikt särdrag vikt word=jag 2,94 word=jag 1,17 word=bad 1,56 word=bad 0,43 word=om 4,10 word=om 3,90 word=en 4,08 word=en 4,95 word=kort 0,39 word=kort 1,92 VB NN
69 Exempel på särdrag Om vi tror att det aktuella ordet är det enda som räknas: [current_word=bad] Om vi tror att det nästa ordet är också viktigt: [current_word=bad, next_word=om] Om vi tror att det är deras kombination som är mest prediktiv: [current_word=bad+next_word=om]
70 Begränsningar av perceptronen x 2 x x x 1 linjär separerbar inte linjär separerbar
71 Nya särdrag till hjälp! x x 3 x 3 = 0 0 x 1
72 Nya särdrag till hjälp! x x x 1 x 3 = xor(x 1, x 2 )
73 Feature engineering versus feature learning Nästan alla problem blir linjärt separerbara om man bara kan hitta på bra särdrag. Detta mappar det ursprungliga problemet till en ny särdragsrymd. Problemet är att man måste hitta på dessa särdrag för hand. feature engineering På senare tid har man därför blivit alltmer intresserad av artificiella neuronnät, som kan lära sig relevanta särdrag. feature learning
74 Sammanfattning: Ordklasstaggning Ordklasstaggning går ut på att tagga alla ord i en mening med fördefinierade ordklasser. Viktiga begrepp: förväxlingsmatris, tagglexikon, Hidden Markovmodel, Viterbi-algoritm, multiklass-perceptron, särdragsfönster Läsanvisningar: JM kapitel , 5.7
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merTentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merTentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Läs merPerceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Läs mer729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion
Läs mer729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med
Läs mer729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen
Läs merTDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Läs merTDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merpoäng i del B Lycka till!
TDDD02 Språkteknologi för informationssökning (2016) Tentamen 2017-01-11 Examinator: Marco Kuhlmann Denna tentamen består av två delar: 1. Del A består av 5 uppgifter som prövar din förståelse av de grundläggande
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merTDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Textklassificering Marco Kuhlmann Institutionen för datavetenskap Textklassificering Skräppostfiltrering spam ham Författaridentifiering Alexander Hamilton
Läs merARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap
ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merMarco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014
Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merLösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Läs merStatistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merPAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ
Nyckel till SUCs taggset i PAROLE-format Från Språkbanken: http://spraakbanken.gu.se/ PAROLE Exempel Förklaring SUC PARTICIP AF00000A tf particip förkortning PC AN AF00PG0S deporterades AF00PN0S kallade
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merFrasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Läs merKursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs mer729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap
729G17 Språkteknologi / 2016 Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera
Läs merKungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merSå, ska det taggas som adverb?
UPPSALA UNIVERSITET Institutionen för nordiska språk EXAMENSARBETE, 15 hp Svenska språket/nordiska språk C Vt 2017 Så, ska det taggas som adverb? En granskning av hur annoteringsverktyget Swegram ordklasstaggar
Läs merSpråkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merPartiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Läs merInlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Läs mer729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna
Läs merTDDD02 Föreläsning 7 HT-2013
TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning
Läs merPrestanda och skalbarhet
Prestanda och skalbarhet Grama et al. Introduction to Parallel Computing Kapitel 5 Erik Elmroth Översikt 2 Exekveringstid Uppsnabbning Effektivitet Kostnad Kostnadsoptimal algoritm Ahmdals lag Gustafson-Barsis
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merTDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs merSWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi
SWEGRAM Annotering och analys av svenska texter Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1 1 Institutionen för lingvistik och filologi 2 Institutionen för nordiska språk Uppsala universitet 2 Förord
Läs merde var svåra att implementera och var väldigt ineffektiva.
OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs merAutomatisk extraktion av idiom ur text ANDREAS PETTERSSON
Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merMaskininlärning. Regler eller ML?
Maskininlärning Field of study that gives computers the ability to learn without being explicitly programmed (Samuel, 1959) DD2418 Språkteknologi, Johan Boye Regler eller ML? System som bygger på handskrivna
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merKlassificering av homonymer Inlämningsuppgift språkteknologi
Klassificering av homonymer Inlämningsuppgift språkteknologi 2013-01-10 Kurskod: DD2418 Författare Gustav Ribom 910326-0593 Erik Aalto 861108-0212 Kontaktperson Johan Boye Abstract Ordet fil har flera
Läs merBootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs merKarp. Övningar Språkbankens höstworkshop oktober 2017
Karp Övningar Språkbankens höstworkshop 2017 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2017 ÖVERSIKT I nuläget finns det över 25 olika lexikon i Karp. När du går in på https://spraakbanken.
Läs merFraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Läs merOlika typer av satser
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Olika typer av satser Översikt i stolpform. Terminologin
Läs mer2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit.
2D1432 Artificiella Neuronnät och andra lärande system Lösningsförslag till Tentamen 2003-03-06 Inga hjälpmedel. Uppgift 1 Vilka av följande påståenden är sanna? Korrigera de som är fel. 1. Potentialen
Läs merUPPSALA UNIVERSITET Institution för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf HT 2015 (korrigerad 151126) Depdsgrammatik Dna introduktion till depdsgrammatik försöker följa d standard
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merDåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'
Substantiv*! namnpåsakerochting! kansättaordet jävla framför(jävlatomten,jävlakratta,jävlakärlek)! ägandebetecknasmeds.k.genitiv!s:tomtens,krattans " Adjektiv*! beskrivandeord,beskriverhursakerochtingär(obs!jmf.medadverb:
Läs merDependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Läs merGrundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Ordklasstaggning (Sätta
Läs merLabb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Läs merDelkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015
Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merAsymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.
OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet
Läs merÖvergripande planering
Övergripande planering Ämne: Svenska Årskurs: 7 Ansvarig lärare: Marie Nilsson Torbjörn Wahlén Resurs: Reviderad: Bilaga 1. Kursplan för ämnet Bilaga 2. Kunskapskrav Bilaga 3. Planering för året Bilaga
Läs merSatser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer
Läs merEnlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät
Artificiella Neuronnät 1 Karaktäristiska egenskaper Användningsområden Klassiska exempel Biologisk bakgrund 2 Begränsningar Träning av enlagersnät 3 Möjliga avbildningar Backprop algoritmen Praktiska problem
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs mer729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merFolket har makten över ordet
Folket har makten över ordet Ett ordboksredigeringssystem för allmänheten PATRIK LILJA Examensarbete Stockholm, Sverige 2011 Folket har makten över ordet Ett ordboksredigeringssystem för allmänheten PATRIK
Läs merORDKLASSERNA I SVENSKA SPRÅKET
ORDKLASSERNA I SVENSKA SPRÅKET SUBSTANTIV 1 Namn på saker, människor, djur, växter. Du kan sätta en, ett eller flera, den det eller de framför ordet. Konkreta substantiv: stol, bord, gubbe, boll (du kan
Läs merTaggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger
Läs merGränssnitt för FakeGranska. Lars Mattsson
Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merMaskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Läs merXenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram
Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Martin WARIN STP, Uppsala Universitet m warin@hotmail.com Abstract Här beskrivs en metod att identifiera ord i en text vilka är
Läs merAutomatisk nyckelfrasextraktion ur html-sidor
Automatisk nyckelfrasextraktion ur html-sidor DANIEL WENNLUND Examensarbete Stockholm, Sverige 2005 TRITA-NA-E05083 Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science
Läs mer1 Duala problem vid linjär optimering
Krister Svanberg, april 2012 1 Duala problem vid linjär optimering Detta kapitel handlar om två centrala teoretiska resultat för LP, nämligen dualitetssatsen och komplementaritetssatsen. Först måste vi
Läs merFöreläsning 12. Söndra och härska
Föreläsning 12 Söndra och härska Föreläsning 12 Söndra och härska Maximal delsekvens Skyline Closest pair Växel Söndra och härska (Divide and conquer) Vi stötte på dessa algoritmer när vi tittade på sortering.
Läs mer- ett statistiskt fråga-svarsystem
- ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...
Läs merMorfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Läs mer729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp
729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer
Läs merMaskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi
Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med
Läs mer729G43 Artificiell intelligens (2016) Maskininlärning 1. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 1 Marco Kuhlmann Institutionen för datavetenskap Introduktion Maskininlärning Tack vare maskininlärning kan AI-system idag bl.a. producera och förstå
Läs merTDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi (2016) Syntaktisk analys Marco Kuhlmann Institutionen för datavetenskap Syntax pragmatik semantik analys generering syntax morfologi Syntaktisk parsning Syntaktisk parsning är uppgiften
Läs merSmåprat Small talk (stressed vowels are underlined)
Småprat Small talk (stressed vowels are underlined) Vad heter du? Varifrån kommer du? Vad har du för modersmål (1 st language)? Vad studerar du? Var bor du? Hur gammal är du? Cyklar du till universitetet?
Läs merCSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)
Svenska med didaktisk inriktning för ämneslärare i grundskolans årskurs 7-9 4,0 högskolepoäng Provmoment: Språkkunskap A Ladokkod: CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A Tentamen ges
Läs merSyntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Läs merTDDD02 Språkteknologi för informationssökning / 2015. Textklassificering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Textklassificering Marco Kuhlmann Institutionen för datavetenskap Textklassificering UK China Elections Sports congestion London Olympics Beijing recount
Läs merHomework Three. Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo. 28 november Time series analysis
Homework Three Time series analysis Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo 28 november 25 1 Vi ska här analysera en datamängd som består av medeltemperaturen månadsvis i New York mellan
Läs mer