TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Storlek: px
Starta visningen från sidan:

Download "TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap"

Transkript

1 TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap

2 Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta ordklass, givet en mängd möjliga ordklasser. Utmaning 1: Flertydighet orsakar kombinatorisk explosion. Utmaning 2: Ordklasstaggning måste även kunna hantera okända ord. Hon tog fram tre nya boskar ur skåpet.

3 Ordklasser En ordklass är en mängd av ord som delar någon egenskap. substantiv kan deklineras, verb kan konjugeras Det finns många olika uppsättningar av ordklasser. varierar bl.a. med språk, lingvistisk teori och korpus Man brukar skilja mellan två typer av ordklasser: öppna ordklasser slutna ordklasser substantiv, adjektiv, verb artiklar, pronomen, prepositioner

4 Universella ordklasser (öppna klasser) tagg kategori exempel ADJ adjektiv glad ADV adverb inte INTJ interjektion ja NOUN substantiv pudding PROPN proper noun Ingmar VERB verb kasta Universal Dependencies:

5 Universella ordklasser (slutna klasser) tagg kategori exempel ADP adposition (preposition, postposition) över AUX hjälpverb har CONJ konjunktion och DET determinerare denna NUM räkneord för grundtal tre PART partikel ut PRON pronomen hon SCONJ subjunktion att

6 Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN

7 Översikt över dagens föreläsning Introduktion till ordklasstaggning Utvärdering av ordklasstaggare Metod 1: Regelbaserad taggning Metod 2: Taggning med Hidden Markov-modeller Metod 3: Taggning med perceptroner

8 Utvärdering av ordklasstaggare

9 Att utvärdera ordklasstaggare För att träna och utvärdera taggare behöver vi en guldstandard, dvs. meningar med redan taggade ord. Stockholm Umeå Corpus (SUC) Utvärderingen kan då ske med avseende på standardmått: korrekthet, precision och täckning.

10 Påminnelse: Utvärderingsmetodologi Träningsdata (eng. training data; t.ex. 80%) används för att träna taggaren Utvecklingsdata (eng. development data; t.ex. 10%) används för att utvärdera taggaren under utvecklingsperioden Testdata (eng. test data; t.ex. 10%) används för att utvärdera den färdiga taggaren innan den finaliseras, t.ex. innan den skickas till en kund

11 Stockholm Umeå Corpus (SUC) SUC är den största manuellt annoterade korpusen för skriven svenska, ett samarbete mellan Stockholms och Umeås universitet. skapades i början på 1990-talet Den innehåller 1,2 miljoner ord (token) annoterade med bl.a. ordklass, morfologisk analys och lemma. SUC är en balanserad korpus med texter från olika genrer.

12 Korrekthet DT JJ NN PP VB 307 DT JJ NN PP VB predicerad tagg guldstandardtagg

13 Precision på NN DT JJ NN PP VB 264 DT JJ NN PP VB predicerad tagg guldstandardtagg

14 Täckning (recall) på NN DT JJ NN PP VB 26 DT JJ NN PP VB predicerad tagg guldstandardtagg

15 Metod 1: Regelbaserad taggning

16 Regelbaserad taggning Använd ett tagglexikon för att tilldela varje ord en begränsad mängd möjliga taggar. t.ex. alla taggar som förekommer åtminstone 5 gånger i träningsdatan Använd handskrivna disambigueringsregler för att reducera antalet möjliga taggar per ord till 1.

17 Disambigueringsregler Formulerad som transformationsregler, till exempel: Om ordet slutar på -iska, ersätt taggen med JJ. problem: piska/nn Ändra VB till NN om nästa tagg är VB. mina/ps händer/vb är/vb så/ab kalla/jj

18 Två knep för bättre regelbaserad taggning Använd reguljära uttryck för att tagga enkla eller strukturerade token som tal och telefonnummer. Hitta en bra defaulttagg som kan sättas på ord vars ordklass inte kunnat bestämmas på annat sätt. SUC: NN (substantiv; ca. 20%)

19 Fördelningen över ordklasserna Fördelningen av ord över ordklasser är väldigt skev: Några ord(typer) förekommer med många olika taggar. SUC: en kan vara DT, PN, RG, AB, UO, PM eller NN De allra flesta ord förekommer med endast en tagg. SUC: 96,18%

20 Zipfs lag f(w r ) 1/r Ett ords frekvens är invers proportionell mot dess position i frekvensrangordningen the of that was his have as which me be him no upon your what were very

21 Metod 2: Taggning med Hidden Markov-modeller

22 Flertydighet orsakar kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN

23 Olika taggar förekommer olika ofta PN VB PP DT JJ NN jag bad om en kort bit

24 Olika taggföljder förekommer olika ofta PN VB PP DT JJ NN PN VB PP DT JJ NN

25 Hidden Markov-modell En Hidden Markov-modell (HMM) är en generaliserad Markovmodell med två olika typer av sannolikheter: övergångssannolikheter P(tagg 2 tagg 1 ) Hur sannolikt är det att se ett verb efter att ha sett ett pronomen? observationssannolikheter P(ord tagg) Hur sannolikt är det att se ordet bad som ett verb?

26 P(w 1 w 1 ) w 1 P(w 1 BOS) P(EOS w 1 ) BOS P(w 2 w 1 ) P(w 1 w 2 ) EOS P(w 2 BOS) P(EOS w 2 ) w 2 P(w 2 w 2 )

27 P(VB VB) w P(w VB) jag 0, VB bad 0, P(VB BOS) P(EOS VB) BOS P(PN VB) P(VB PN) EOS P(PN BOS) P(EOS PN) PN w P(w PN) jag 0, P(PN PN) bad 0,000006

28 Skattning av sannolikheterna i en HMM Vi kan skatta sannolikheterna i en HMM på en taggad korpus med hjälp av Maximum Likelihood-skattning: exempel för övergångssannolikheter: P(VB PN) När vi ser taggen PN, hur ofta ser vi taggen VB efteråt? exempel för observationssannolikheter: P(jag PN) När vi ser taggen PN, hur ofta är det taggade ordet jag? Vi kan använda additiv utjämning precis som förr.

29 Sannolikheten för en taggad mening P(bad VB) P(kort JJ) P(jag PN) P(om PP) P(en DT) P(bit NN) jag bad om en kort bit PN VB PP DT JJ NN P(PN BOS) P(PP VB) P(JJ DT) P(EOS NN) P(VB PN) P(DT PP) P(NN JJ) Sannolikheten för en taggad mening är produkten av alla övergångs- och observationssannolikheter.

30 HMM-taggning Given en mening vill vi räkna ut en sekvens av taggar sådan att sannolikheten för den taggade meningen är maximal. Taggsekvensen är inte given i förväg; den är hidden (dold)! För en och samma mening finns det många olika taggsekvenser med många olika sannolikheter; sökrymden är stor. 384 olika möjligheter för exempelmeningen Trots detta kan den mest sannolika taggsekvensen beräknas på ett effektivt sätt med hjälp av Viterbi-algoritmen.

31 Viterbi-algoritmen (extramaterial)

32 Sannolikheten för en taggad mening P(bad VB) P(kort JJ) P(jag PN) P(om PP) P(en DT) P(bit NN) jag bad om en kort bit PN VB PP DT JJ NN P(PN BOS) P(PP VB) P(JJ DT) P(EOS NN) P(VB PN) P(DT PP) P(NN JJ) Sannolikheten för en taggad mening är produkten av alla övergångs- och observationssannolikheter.

33 HMM-taggning Given en mening vill vi räkna ut en sekvens av taggar sådan att sannolikheten för den taggade meningen är maximal. Taggsekvensen är inte given i förväg; den är hidden (dold)! För en och samma mening finns det många olika taggsekvenser med många olika sannolikheter; sökrymden är stor. 384 olika möjligheter för exempelmeningen Trots detta kan den mest sannolika taggsekvensen beräknas på ett effektivt sätt med hjälp av Viterbi-algoritmen.

34 Beskrivning Algoritmen tar in en HMM och en mening och beräknar den mest sannolika taggsekvensen för meningen i modellen. Algoritmen fyller en matris som innehåller en rad för varje möjlig tagg och en kolumn för varje möjlig position i meningen. I den här presentation fyller vi matrisen med negativa logsannolikheter; vi kan tolka dessa som kostnader i kronor. för att undvika flyttalsbottning

35 Målbeskrivning Algoritmen ska se till att matrisvärdet i rad t, kolumn i blir den lägsta möjliga kostnaden för att tagga de första i orden i meningen på ett sådant sätt att ord nummer i får tagg t. Kom ihåg att lägsta möjliga kostnad = högsta möjliga sannolikhet. Om algoritmen kan åstadkomma detta kan vi läsa av den lägsta möjliga kostnaden för att tagga hela meningen från den sista raden av matrisen. eller nästan

36 Viterbi-matrisen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15

37 Övergångskostnader PN VB PP DT JJ NN EOS BOS 1,69 3,58 2,25 2,50 3,37 1,76 11,19 PN 4,00 0,69 2,34 4,00 3,69 3,85 7,94 VB 1,95 2,17 2,04 2,56 2,97 2,18 6,87 PP 3,09 6,42 5,49 1,82 2,43 0,85 8,38 DT 5,61 10,22 5,26 5,82 0,93 0,84 10,22 JJ 5,73 3,62 2,98 5,68 3,28 0,43 6,35 NN 5,30 1,70 1,49 5,17 4,23 3,11 4,30

38 Observationskostnader jag bad om en kort bit PN 3,66 12,08 12,08 6,08 12,08 12,08 VB 12,53 8,79 12,53 12,53 12,53 12,53 PP 12,33 12,33 3,83 12,33 12,33 12,33 DT 11,99 11,99 11,99 2,29 11,99 11,99 JJ 12,09 12,09 12,09 12,09 7,25 12,09 NN 9,47 10,33 12,73 12,03 9,78 8,19

39 Den första kolumnen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 JJ NN PN PP VB P(DT BOS) + P(jag DT) = 2, ,99 = 14,49

40 Den första kolumnen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 JJ 15,46 NN 11,22 PN 5,35 PP VB P(PN BOS) + P(jag PN) = 1,69 + 3,66 = 5,35

41 De övriga kolumnerna: Flera möjligheter jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 35,15 JJ 15,46 21,13 29,88 NN 11,22 19,53 29,74 PN 5,35 21,43 28,86 PP 14,59 20,02 20,70 VB 16,11 14,83 29,53 28,86 + P(DT PN) + P(en DT) = 28,86 + 4,00 + 2,29 = 35,15

42 De övriga kolumnerna: Flera möjligheter jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 24,82 JJ 15,46 21,13 29,88 NN 11,22 19,53 29,74 PN 5,35 21,43 28,86 PP 14,59 20,02 20,70 VB 16,11 14,83 29,53 20,70 + P(DT PP) + P(en DT) = 20,70 + 1,82 + 2,29 = 24,82

43 Välja ut den bästa cellen i sista kolumnen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 45,93 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15 41,63 + P(EOS NN) = 41,63 + 4,30 = 45,93

44 Följ backpointers för att rekonstruera den bästa taggsekvensen jag 1 bad 2 om 3 en 4 kort 5 bit 6 DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 45,93 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15

45 Den bästa taggsekvensen är inte nödvändigtvis sekvensen av de bästa taggarna! jag 1 skrev 2 på 3 utan 4 att 5 tveka 6 IE 17,22 21,69 30,02 33,79 34,63 54,70 PL 21,77 21,20 22,10 39,77 49,28 55,06 PN 5,35 21,43 27,87 33,85 44,12 48,09 PP 14,59 20,02 18,69 28,95 44,66 50,70 SN 15,83 21,51 29,20 34,29 35,24 51,40 VB 16,11 13,84 28,54 37,64 43,96 44,86 51,74

46 Viterbi-algoritmen i all korthet För att beräkna kostnaden för en tagg i den första ordkolumnen: övergångskostnaden från BOS + observationskostnaden för det första ordet För att beräkna kostnaden för en tagg i någon annan ordkolumn: välj en tagg i föregående ordkolumn som minimerar denna summa: redan beräknad kostnad för denna tagg i föregående ordkolumn + övergångskostnaden från denna tagg + observationskostnaden för det aktuella ordet För att beräkna kostnaden för den fullständiga meningen: välj en tagg i den sista ordkolumnen som minimerar denna summa: redan beräknad kostnad för denna tagg i den sista ordkolumnen + övergångskostnaden till EOS

47 Övningsuppgift till Viterbi-algoritmen övergångssannolikheter observationssannolikheter PL PN PP VB EOS jag skrev på BOS PL PL PN PN PP PP VB VB

48 Övningsuppgift till Viterbi-algoritmen jag 1 skrev 2 på 3 BOS PL PN PP VB EOS

49 Övningsuppgift till Viterbi-algoritmen jag 1 skrev 2 på 3 BOS 0 PL PN PP VB EOS 21

50 Övningsuppgifter

51 Uppgift: Utvärdering av en ordklasstaggare NN JJ VB NN JJ VB Ställ upp bråk för följande: taggarens precision på substantiv taggarens täckning (recall) på adjektiv Ange en annan förväxlingsmatris där taggarens korrekthet är densamma som i den angivna matrisen men där taggarens täckning på adjektiv är 0%.

52 Uppgift Du vill räkna ut den totala sannolikheten som en HMM tilldelar nedanstående ord tagg-sekvens. Du kan fråga modellen efter dess atomära sannolikheter, men varje sådan fråga kostar 1 krona. Vilka frågor måste du ställa, och hur många kronor måste du betala? jag skrev på utan att tveka PN VB PL PP IE VB

53 Metod 3: Perceptron-taggning

54 Ordklasstaggning som klassifikation Ordklasstaggning kan brytas ned till en sekvens av klassifikationsproblem: en klassifikation per ord. Utifrån denna idé kan vilken klassifikationsmetod som helst byggas om till en metod för ordklasstaggning. beslutsträd, neuronnät, Naive Bayes Här använder vi en av de enklaste modellerna för klassifikation, perceptronen.

55 Multiklass-perceptron x 1 θ 1 Σ z(x 1, x 2 ) θ 1 x 2 θ 2 θ 2 Σ z(x 1, x 2 ) De två enheterna bjuder; den enhet som vinner får predicera klassen.

56 Perceptrontaggning jag bad om en kort bit NN 09,36 PN 81,72 VB 9,18

57 Perceptrontaggning jag bad om en kort bit PN 81,72 NN 09,36 VB 9,18

58 Perceptrontaggning jag bad om en kort bit PN NN 16,08 PN 4,02 VB 64,32

59 Perceptrontaggning jag bad om en kort bit PN VB 64,32 NN 16,08 PN 4,02

60 Perceptrontaggning jag bad om en kort bit PN VB

61 Skillnader mellan de två metoderna HMM-taggning uttömmande sökning efter den bästa sekvensen begränsade möjligheter att definiera särdrag aktuellt ord, föregående tagg Perceptron-taggning ingen sökning; endast lokalt optimala beslut girig sökning större möjligheter att definiera särdrag

62 Girig sökning med HMM:er Välj den tagg som ger den högsta kombinerade övergångs-/observationssannolikheten: tagg för ordet w i = argmax t P(t t i 1 ) P(w i t) Om man använder HMM:er på detta sätt får man inte den globalt bästa taggsekvensen utan bara de lokalt bästa taggarna!

63 Jämförelse mellan de två metoderna HMM Perceptron Viterbi girig sökning HMM-särdrag bättre särdrag 92,71% 89,97% 88,86% 95,30% taggarens korrekthet på SUCs testmängd Perceptron-baserade ordklasstaggare ger state-of-the-art-resultat på flera språk och datamängder.

64 Guider med viktade särdrag Beskriv datan i fönstret genom särdrag (eng. features). Särdragens roll under träningen Träningen ska vikta särdragen: Talar detta särdrag för eller emot antagandet att det aktuella ordet har en given ordklass? perceptroninlärning vikterna förstärks eller försvagas Särdragens roll under taggningen De viktade särdragen läggs ihop till en taggspecifik summa och taggaren väljer den tagg som har fått den högsta summan.

65 Särdragsfönster HMM:er tittar bakåt; men ibland är det bra att titta framåt också! Jag bad om en kort bit. Samtidigt vill vi inte ta in alltför mycket information. effektivitet, datagleshet En kompromiss är att definiera ett avgränsat särdragsfönster.

66 Särdragsfönster jag bad om en kort bit BOS PN EOS Med detta särdragsfönster kan särdrag extraheras från aktuellt ord, föregående ord, föregående tagg, nästa ord.

67 Särdragsfönster jag bad om en kort bit BOS PN VB EOS Under taggningen flyttas särdragsfönstret över meningen.

68 Viktade särdrag särdrag vikt särdrag vikt word=jag 2,94 word=jag 1,17 word=bad 1,56 word=bad 0,43 word=om 4,10 word=om 3,90 word=en 4,08 word=en 4,95 word=kort 0,39 word=kort 1,92 VB NN

69 Exempel på särdrag Om vi tror att det aktuella ordet är det enda som räknas: [current_word=bad] Om vi tror att det nästa ordet är också viktigt: [current_word=bad, next_word=om] Om vi tror att det är deras kombination som är mest prediktiv: [current_word=bad+next_word=om]

70 Begränsningar av perceptronen x 2 x x x 1 linjär separerbar inte linjär separerbar

71 Nya särdrag till hjälp! x x 3 x 3 = 0 0 x 1

72 Nya särdrag till hjälp! x x x 1 x 3 = xor(x 1, x 2 )

73 Feature engineering versus feature learning Nästan alla problem blir linjärt separerbara om man bara kan hitta på bra särdrag. Detta mappar det ursprungliga problemet till en ny särdragsrymd. Problemet är att man måste hitta på dessa särdrag för hand. feature engineering På senare tid har man därför blivit alltmer intresserad av artificiella neuronnät, som kan lära sig relevanta särdrag. feature learning

74 Sammanfattning: Ordklasstaggning Ordklasstaggning går ut på att tagga alla ord i en mening med fördefinierade ordklasser. Viktiga begrepp: förväxlingsmatris, tagglexikon, Hidden Markovmodel, Viterbi-algoritm, multiklass-perceptron, särdragsfönster Läsanvisningar: JM kapitel , 5.7

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Tentamen Del A. Marco Kuhlmann

Tentamen Del A. Marco Kuhlmann TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas

Läs mer

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

poäng i del B Lycka till!

poäng i del B Lycka till! TDDD02 Språkteknologi för informationssökning (2016) Tentamen 2017-01-11 Examinator: Marco Kuhlmann Denna tentamen består av två delar: 1. Del A består av 5 uppgifter som prövar din förståelse av de grundläggande

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Lingvistiska grundbegrepp

Lingvistiska grundbegrepp 729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Textklassificering Marco Kuhlmann Institutionen för datavetenskap Textklassificering Skräppostfiltrering spam ham Författaridentifiering Alexander Hamilton

Läs mer

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014 Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng

Läs mer

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil? Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ Nyckel till SUCs taggset i PAROLE-format Från Språkbanken: http://spraakbanken.gu.se/ PAROLE Exempel Förklaring SUC PARTICIP AF00000A tf particip förkortning PC AN AF00PG0S deporterades AF00PN0S kallade

Läs mer

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Frasstrukturgrammatik

Frasstrukturgrammatik 729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON

Läs mer

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019) 729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap 729G17 Språkteknologi / 2016 Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Så, ska det taggas som adverb?

Så, ska det taggas som adverb? UPPSALA UNIVERSITET Institutionen för nordiska språk EXAMENSARBETE, 15 hp Svenska språket/nordiska språk C Vt 2017 Så, ska det taggas som adverb? En granskning av hur annoteringsverktyget Swegram ordklasstaggar

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

Prestanda och skalbarhet

Prestanda och skalbarhet Prestanda och skalbarhet Grama et al. Introduction to Parallel Computing Kapitel 5 Erik Elmroth Översikt 2 Exekveringstid Uppsnabbning Effektivitet Kostnad Kostnadsoptimal algoritm Ahmdals lag Gustafson-Barsis

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen

Läs mer

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,

Läs mer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår

Läs mer

SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi

SWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi SWEGRAM Annotering och analys av svenska texter Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1 1 Institutionen för lingvistik och filologi 2 Institutionen för nordiska språk Uppsala universitet 2 Förord

Läs mer

de var svåra att implementera och var väldigt ineffektiva.

de var svåra att implementera och var väldigt ineffektiva. OBS! För flervalsfrågorna gäller att flera alternativ eller inget alternativ kan vara korrekt. På flervalsfrågorna kan man bara ha rätt eller fel, dvs frågan måste vara helt korrekt besvarad. Totalt kan

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

Maskininlärning. Regler eller ML?

Maskininlärning. Regler eller ML? Maskininlärning Field of study that gives computers the ability to learn without being explicitly programmed (Samuel, 1959) DD2418 Språkteknologi, Johan Boye Regler eller ML? System som bygger på handskrivna

Läs mer

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,

Läs mer

Klassificering av homonymer Inlämningsuppgift språkteknologi

Klassificering av homonymer Inlämningsuppgift språkteknologi Klassificering av homonymer Inlämningsuppgift språkteknologi 2013-01-10 Kurskod: DD2418 Författare Gustav Ribom 910326-0593 Erik Aalto 861108-0212 Kontaktperson Johan Boye Abstract Ordet fil har flera

Läs mer

Bootstrapping för substantivtaggning

Bootstrapping för substantivtaggning Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

Karp. Övningar Språkbankens höstworkshop oktober 2017

Karp.   Övningar Språkbankens höstworkshop oktober 2017 Karp Övningar Språkbankens höstworkshop 2017 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2017 ÖVERSIKT I nuläget finns det över 25 olika lexikon i Karp. När du går in på https://spraakbanken.

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

Olika typer av satser

Olika typer av satser UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Olika typer av satser Översikt i stolpform. Terminologin

Läs mer

2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit.

2D Potentialen i en nervcell definieras normalt som skillnaden i spänning mellan dess axon och dendrit. 2D1432 Artificiella Neuronnät och andra lärande system Lösningsförslag till Tentamen 2003-03-06 Inga hjälpmedel. Uppgift 1 Vilka av följande påståenden är sanna? Korrigera de som är fel. 1. Potentialen

Läs mer

UPPSALA UNIVERSITET Institution för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf HT 2015 (korrigerad 151126) Depdsgrammatik Dna introduktion till depdsgrammatik försöker följa d standard

Läs mer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara

Läs mer

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.' Substantiv*! namnpåsakerochting! kansättaordet jävla framför(jävlatomten,jävlakratta,jävlakärlek)! ägandebetecknasmeds.k.genitiv!s:tomtens,krattans " Adjektiv*! beskrivandeord,beskriverhursakerochtingär(obs!jmf.medadverb:

Läs mer

Dependensregler - Lathund

Dependensregler - Lathund Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Ordklasstaggning (Sätta

Läs mer

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen

Läs mer

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015 Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Övergripande planering

Övergripande planering Övergripande planering Ämne: Svenska Årskurs: 7 Ansvarig lärare: Marie Nilsson Torbjörn Wahlén Resurs: Reviderad: Bilaga 1. Kursplan för ämnet Bilaga 2. Kunskapskrav Bilaga 3. Planering för året Bilaga

Läs mer

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer

Läs mer

Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät

Enlagersnät Flerlagersnät Generalisering. Artificiella Neuronnät Artificiella Neuronnät 1 Karaktäristiska egenskaper Användningsområden Klassiska exempel Biologisk bakgrund 2 Begränsningar Träning av enlagersnät 3 Möjliga avbildningar Backprop algoritmen Praktiska problem

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys

Läs mer

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och

Läs mer

Folket har makten över ordet

Folket har makten över ordet Folket har makten över ordet Ett ordboksredigeringssystem för allmänheten PATRIK LILJA Examensarbete Stockholm, Sverige 2011 Folket har makten över ordet Ett ordboksredigeringssystem för allmänheten PATRIK

Läs mer

ORDKLASSERNA I SVENSKA SPRÅKET

ORDKLASSERNA I SVENSKA SPRÅKET ORDKLASSERNA I SVENSKA SPRÅKET SUBSTANTIV 1 Namn på saker, människor, djur, växter. Du kan sätta en, ett eller flera, den det eller de framför ordet. Konkreta substantiv: stol, bord, gubbe, boll (du kan

Läs mer

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001 Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger

Läs mer

Gränssnitt för FakeGranska. Lars Mattsson

Gränssnitt för FakeGranska. Lars Mattsson Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Maskinöversättning och språkgranskning. F6: Grammatikkontroll Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.

Läs mer

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Martin WARIN STP, Uppsala Universitet m warin@hotmail.com Abstract Här beskrivs en metod att identifiera ord i en text vilka är

Läs mer

Automatisk nyckelfrasextraktion ur html-sidor

Automatisk nyckelfrasextraktion ur html-sidor Automatisk nyckelfrasextraktion ur html-sidor DANIEL WENNLUND Examensarbete Stockholm, Sverige 2005 TRITA-NA-E05083 Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science

Läs mer

1 Duala problem vid linjär optimering

1 Duala problem vid linjär optimering Krister Svanberg, april 2012 1 Duala problem vid linjär optimering Detta kapitel handlar om två centrala teoretiska resultat för LP, nämligen dualitetssatsen och komplementaritetssatsen. Först måste vi

Läs mer

Föreläsning 12. Söndra och härska

Föreläsning 12. Söndra och härska Föreläsning 12 Söndra och härska Föreläsning 12 Söndra och härska Maximal delsekvens Skyline Closest pair Växel Söndra och härska (Divide and conquer) Vi stötte på dessa algoritmer när vi tittade på sortering.

Läs mer

- ett statistiskt fråga-svarsystem

- ett statistiskt fråga-svarsystem - ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...

Läs mer

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag) Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver

Läs mer

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp 729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer

Läs mer

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 1. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 1. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 1 Marco Kuhlmann Institutionen för datavetenskap Introduktion Maskininlärning Tack vare maskininlärning kan AI-system idag bl.a. producera och förstå

Läs mer

TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi (2016) Syntaktisk analys. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi (2016) Syntaktisk analys Marco Kuhlmann Institutionen för datavetenskap Syntax pragmatik semantik analys generering syntax morfologi Syntaktisk parsning Syntaktisk parsning är uppgiften

Läs mer

Småprat Small talk (stressed vowels are underlined)

Småprat Small talk (stressed vowels are underlined) Småprat Small talk (stressed vowels are underlined) Vad heter du? Varifrån kommer du? Vad har du för modersmål (1 st language)? Vad studerar du? Var bor du? Hur gammal är du? Cyklar du till universitetet?

Läs mer

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16) Svenska med didaktisk inriktning för ämneslärare i grundskolans årskurs 7-9 4,0 högskolepoäng Provmoment: Språkkunskap A Ladokkod: CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A Tentamen ges

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

TDDD02 Språkteknologi för informationssökning / 2015. Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / 2015. Textklassificering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Textklassificering Marco Kuhlmann Institutionen för datavetenskap Textklassificering UK China Elections Sports congestion London Olympics Beijing recount

Läs mer

Homework Three. Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo. 28 november Time series analysis

Homework Three. Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo. 28 november Time series analysis Homework Three Time series analysis Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo 28 november 25 1 Vi ska här analysera en datamängd som består av medeltemperaturen månadsvis i New York mellan

Läs mer