ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
|
|
- Ingvar Sandström
- för 8 år sedan
- Visningar:
Transkript
1 ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap
2 Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
3 Markov-modell En Markov-modell är en (deterministisk) finit automat vars övergångar är försedda med sannolikheter. Exempel: tillstånd = ord, övergångar = P(w 1 w 2 ) Man kan använda den för att räkna ut sannolikheten för tillståndssekvenser eller generera tillståndssekvenser. Exempel: bigram-modell ordsekvenser
4 P(w 1 w 1 ) w 1 P(w 1 -BOS-) P(-EOS- w 1 ) -BOS- P(w 2 w 1 ) P(w 1 w 2 ) -EOS- P(w 2 -BOS-) P(-EOS- w 2 ) w 2 P(w 2 w 2 )
5 Struktur Ordklasstaggning Metod 1: Regelbaserad taggning Utvärdering av ordklasstaggare Metod 2: Taggning med Hidden Markov-modeller (HMM)
6 Ordklasstaggning
7 Ordklasser En ordklass är en mängd av ord som delar någon egenskap. Exempel: substantiv (kan deklineras), verb (kan konjugeras) Man brukar skilja mellan två typer av ordklasser: öppna ordklasser slutna ordklasser Exempel: substantiv, adjektiv, verb Exempel: artiklar, pronomen, prepositioner
8 Stockholm Umeå Corpus (SUC) Den största manuellt annoterade textkorpusen för skriven svenska; ett samarbete mellan Stockholms och Umeås universitet. Innehåller 1,2 miljon ord (token) annoterade med bl.a. ordklass, morfologisk analys och lemma (grundform). Balanserad korpus med texter från olika genrer.
9 Ordklasser i SUC (1) förkortning kategori exempel NN substantiv pudding VB verb kasta PP preposition över AB adverb inte JJ adjektiv glad PN pronomen hon DT determinerare denna KN konjunktion och PM egennamn Mats SUC manual:
10 Ordklasser i SUC (2) förkortning kategori exempel PC particip utsänd SN subjunktion att RG räkneord (grundtal) tre HP frågande/relativt pronomen som IE infinitivmärke att PL partikel ut SUC manual:
11 Ordklasser i SUC (3) förkortning kategori exempel PS possessivt pronomen hennes HA frågande/relativt adverb när UO utländskt ord the RO räkneord (ordningstal) tredje IN interjektion ja HD frågande/relativt determinerare vilken HS frågande/relativt possessivt pronomen vars SUC manual:
12 Universella ordklasser (öppna klasser) förkortning kategori exempel ADJ adjektiv glad ADV adverb inte INTJ interjektion ja NOUN substantiv pudding PROPN proper noun Ingmar VERB verb kasta Universal Dependencies:
13 Universella ordklasser (slutna klasser) förkortning kategori exempel ADP adposition (preposition, postposition) över AUX hjälpverb har CONJ konjunktion och DET determinerare denna NUM räkneord för grundtal tre PART partikel ut PRON pronomen hon SCONJ subjunktion att Universal Dependencies:
14 Ordklasstaggning Predicera den korrekta klassen för ett ord, given en mängd möjliga ordklasser. Ordklasstaggning måste även kunna hantera okända ord. Exempel: Hon tog fram tre nya boskar ur skåpet.
15 Kombinatorisk explosion jag bad om en kort bit PN VB PP DT JJ NN NN NN SN PN AB VB PL RG NN AB NN 384 möjliga analyser
16 Utvärdering av ordklasstaggare
17 Att utvärdera taggare För att träna och utvärdera taggare behöver vi en guldstandard, dvs. redan taggade ord. Exempel: Stockholm Umeå Corpus (SUC) Utvärderingen kan då ske med avseende på standardmått: korrekthet, precision och täckning (per klass)
18 Förväxlingsmatris DT JJ NN PP VB guldstandard DT JJ NN PP VB system
19 Precision DT JJ NN PP VB DT JJ NN precision på NN PP VB
20 Täckning (recall) DT JJ NN PP VB DT JJ NN PP VB täckning på NN
21 Utvärderingsmetodologi träningsdata (80%): används för att skatta sannolikheter eller på annat sätt träna taggaren utvecklingsdata (10%): används för att utvärdera taggarens kvalité under utvecklingsperioden testdata (10%): används för att utvärdera den färdiga taggaren innan den finaliseras, t.ex. innan den skickas till en kund
22 Övningsuppgift En Shared Task är en tävling där ett antal forskningsteam tävlar om att bygga det bästa systemet för att lösa en given uppgift. Utvärderingen av systemen sker ofta med hjälp av guldstandarddata. Det är vanligt att testdatan för en Shared Task hålls hemliga för deltagarna; de skickar istället in sina system till organisatörerna som sedan genomför utvärderingen. Förklara varför man gör så!
23 Gränser Baseline: välj den mest frekventa taggen för varje ord Exempel: Brown corpus: 91% korrekthet Ceiling: jämför med mänskliga experter Exempel: Brown corpus: överensstämmelse på 96% av taggarna
24 Metod 1: Regelbaserad taggning
25 Regelbaserad taggning Använd ett tagglexikon för att tilldela varje ord en mängd möjliga taggar. Använd handskrivna disambigueringsregler för att reducera antalet möjliga taggar per ord till 1.
26 Zipfs lag f(w r ) 1/r Ett ords frekvens är invers proportionell mot dess position i frekvensrangordningen. Källa:
27 Zipfs lag i samband med ordklasstaggning Många ord(typer) förekommer med endast en tagg. SUC: 96,18% Några ord förekommer med många olika taggar. SUC: en kan vara DT, PN, RG, AB, UO, PM eller NN
28 Disambigueringsregler Formulerad som transformationsregler, till exempel: Om ordet slutar på -iska, ersätt taggen med JJ. Exempel: portugisiska/jj Ändra VB till NN om nästa tag är VB. Exempel: mina/ps händer/vb är/vb så/ab kalla/jj
29 Lite knep Använd reguljära uttryck för att tagga enkla eller strukturerade token som tal och telefonnummer. Hitta en bra defaulttagg som kan sättas på ord vars ordklass inte kunnat bestämmas på annat sätt. SUC: NN (ca. 20%)
30 Metod 2: HMM-taggning
31 Olika taggar har olika frekvenser jag bad om en kort bit PN VB PP DT JJ NN NN 25 NN 10 SN 2333 PN 402 AB 35 VB 0 PL 402 RG 388 NN 18 AB 150 NN 1
32 Ord/tagg-frekvenser PN VB PP DT JJ NN jag bad om en kort bit
33 Tagg/följande tagg-frekvenser PN VB PP DT JJ NN följande tagg PN VB PP DT JJ NN tagg
34 Hidden Markov-modell En Hidden Markov-modell (HMM) är en generaliserad Markovmodell med två olika typer av sannolikheter: övergångssannolikheter observationssannolikheter P(tagg tagg) P(ord tagg)
35 w P(w VB) jag 0, P(VB VB) bad 0, VB P(VB -BOS-) P(-EOS- VB) -BOS- P(PN VB) P(VB PN) -EOS- P(PN -BOS-) P(-EOS- PN) PN P(PN PN) w P(w PN) jag 0, bad 0,000006
36 HMM-taggning Vi vill räkna ut en taggsekvens med maximal sannolikhet. Problem: För en och samma ordsekvens finns det många olika taggsekvenser; sökrymden är stor. Lösning: Viterbi-algoritmen (dynamisk programmering; JM kapitel 5.5.3)
37 Taggning med HMM:er Börja med p = -BOS-. För varje ord w i sekvensen, från vänster till höger: Tagga ordet w med någon tagg t. Betala log P(t p) och log P(w t). Sätt p = t. Betala log P(-EOS- p).
38 Viterbi-tabellen Obs! Istället för sannolikheter anges negerade logaritmer! jag bad om en kort bit DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15
39 Fas 1: Initialisering; räkna ut värdena i den första kolumnen jag bad om en kort bit DT 14,49 JJ NN PN PP VB T[DT][0] = P(DT -BOS-) + P(jag DT) = 2, ,99 = 14,49
40 Fas 1: Initialisering; räkna ut värdena i den första kolumnen jag bad om en kort bit DT 14,49 JJ 15,46 NN 11,22 PN 5,35 PP VB T[PN][0] = P(PN -BOS-) + P(jag PN) = 1,69 + 3,66 = 5,35
41 Fas 2: Rekursion; räkna ut värdena i de mellersta kolumnerna jag bad om en kort bit DT 14,49 21,33 29,38 35,15 JJ 15,46 21,13 29,88 NN 11,22 19,53 29,74 PN 5,35 21,43 28,86 PP 14,59 20,02 20,70 VB 16,11 14,83 29,53 T[PN][2] + P(DT PN) + P(en DT) = 28,86 + 4,00 + 2,29 = 35,15
42 Fas 2: Rekursion; räkna ut värdena i de mellersta kolumnerna jag bad om en kort bit DT 14,49 21,33 29,38 24,82 JJ 15,46 21,13 29,88 NN 11,22 19,53 29,74 PN 5,35 21,43 28,86 PP 14,59 20,02 20,70 VB 16,11 14,83 29,53 T[PP][2] + P(DT PP) + P(en DT) = 20,70 + 1,82 + 2,29 = 24,82
43 Fas 2: Rekursion (slut) jag bad om en kort bit DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15
44 Fas 3: Terminering; hitta den bästa cellen i den sista kolumnen jag bad om en kort bit DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15 T[NN][6] + P(-EOS- NN) = 41,63 + 4,30 = 45,93
45 Extrahera den bästa taggsekvensen jag bad om en kort bit DT 14,49 21,33 29,38 24,82 42,62 50,67 JJ 15,46 21,13 29,88 35,22 33,00 48,36 NN 11,22 19,53 29,74 33,58 35,44 41,63 PN 5,35 21,43 28,86 29,86 42,50 50,81 PP 14,59 20,02 20,70 38,53 42,41 48,32 VB 16,11 14,83 29,53 39,65 43,08 49,15
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merPerceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning
Läs merPAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ
Nyckel till SUCs taggset i PAROLE-format Från Språkbanken: http://spraakbanken.gu.se/ PAROLE Exempel Förklaring SUC PARTICIP AF00000A tf particip förkortning PC AN AF00PG0S deporterades AF00PN0S kallade
Läs merTentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Läs merTentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs merTDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs merSå, ska det taggas som adverb?
UPPSALA UNIVERSITET Institutionen för nordiska språk EXAMENSARBETE, 15 hp Svenska språket/nordiska språk C Vt 2017 Så, ska det taggas som adverb? En granskning av hur annoteringsverktyget Swegram ordklasstaggar
Läs merDåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'
Substantiv*! namnpåsakerochting! kansättaordet jävla framför(jävlatomten,jävlakratta,jävlakärlek)! ägandebetecknasmeds.k.genitiv!s:tomtens,krattans " Adjektiv*! beskrivandeord,beskriverhursakerochtingär(obs!jmf.medadverb:
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merKungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merKarp. Övningar Språkbankens höstworkshop oktober 2017
Karp Övningar Språkbankens höstworkshop 2017 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2017 ÖVERSIKT I nuläget finns det över 25 olika lexikon i Karp. När du går in på https://spraakbanken.
Läs merglad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa
Träningshäfte - ordklasser- facit Substantiv 1. Stryk under substantiven bland följande ord. (8 ord) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte
Läs merLösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merSWEGRAM. Annotering och analys av svenska texter. Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1. Institutionen för lingvistik och filologi
SWEGRAM Annotering och analys av svenska texter Beáta Megyesi 1, Anne Palmér 2, Jesper Näsman 1 1 Institutionen för lingvistik och filologi 2 Institutionen för nordiska språk Uppsala universitet 2 Förord
Läs merORDKLASSERNA I SVENSKA SPRÅKET
ORDKLASSERNA I SVENSKA SPRÅKET SUBSTANTIV 1 Namn på saker, människor, djur, växter. Du kan sätta en, ett eller flera, den det eller de framför ordet. Konkreta substantiv: stol, bord, gubbe, boll (du kan
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs merMarco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014
Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merOlika typer av satser
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Olika typer av satser Översikt i stolpform. Terminologin
Läs merMorfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Läs merTräningshäfte ordklasser facit
Träningshäfte ordklasser facit Substantiv 1. Stryk under substantiven bland följande ord (8 st) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte
Läs merBootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Läs merStatistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Läs merRyska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat
Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på
Läs merOrdklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs merTDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merTräningshäfte ordklasser (Venus)
Träningshäfte ordklasser (Venus) Substantiv 1. Stryk under substantiven bland följande ord (8 st) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merSUBSTANTIV = namn på saker, personer, känslor
KONKRETA = de du ta på, ex: hus, Kalle ABSTRAKTA = de du inte kan ta på, ex: mod, sanning, kärlek SUBSTANTIV = namn på saker, personer, känslor EGENNAMN Ex: Linda, Sverige, Vättern, Sydsvenskan NUMERUS
Läs merSubstantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.
Ordklasser Substantiv Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv. Konkreta och abstrakta substantiv Konkreta substantiv kallas
Läs mergrammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Läs merInlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Läs merpoäng i del B Lycka till!
TDDD02 Språkteknologi för informationssökning (2016) Tentamen 2017-01-11 Examinator: Marco Kuhlmann Denna tentamen består av två delar: 1. Del A består av 5 uppgifter som prövar din förståelse av de grundläggande
Läs merSvensk minigrammatik
Svensk minigrammatik För dig som vill repetera dina kunskaper i svensk grammatik Materialet är producerat av Mats Nyström.Det kan laddas hem på www.rlconsulting.se Materialet får ej saluföras. INNEHÅLLSFÖRTECKNING
Läs merAutomatisk extraktion av idiom ur text ANDREAS PETTERSSON
Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng
Läs merSatser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merStudenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala
Läs merKursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
Läs merSvenska förkortningar Utskrivbar övning från Glosor.eu
Instruktioner 1. Vik bak högra delen av pappret så att svaren inte syns. Vik här 2. Skriv ner svaren på frågorna i utrymmet under dem. 3. Vik tillbaka pappret och rätta genom att jämföra med svaren till
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs mer2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.
Ordklasser SUBSTANTIV 1. Substantiv kan delas in i följande grupper: egennamn (Nilsson, Kalle, Märsta, SAAB) växter (gräs, träd, buske) personer (häxa, flicka, svensk) djur (lejon, hund, spindel) föremål,
Läs merOrd och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merSvensk grammatik Ordklasser!
Svensk grammatik Ordklasser! Grammatik är läran om ett språk, hur detta språk är uppbyggt och hur det fungerar i tal/skrift. Alla ord betyder något och kan delas in i olika ordklasser. Det finns 9 olika
Läs merFraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Läs merMorfologi och syntax. Föreläsning 1 & 2
Morfologi och syntax Föreläsning 1 & 2 Lotta Plejert Kognitionsvetenskapliga programmet, ht2012 november 2012 1 1 Språk som system Olika nivåer Text/diskurs mening sats fras ord morfem fonem text och diskurs
Läs merLabb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Läs merSvenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57
Studiehandledning vt 2018 Svenska språket 1, Delkurs Språkets byggstenar, grammatikdelen 5 hp Svenska språket Svenska språkets byggstenar, grammatikdelen 5 hp Välkommen till grammatikdelen i Svenska språket
Läs merTDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Textklassificering Marco Kuhlmann Institutionen för datavetenskap Textklassificering Skräppostfiltrering spam ham Författaridentifiering Alexander Hamilton
Läs merUPPSALA UNIVERSITET Institution för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf HT 2015 (korrigerad 151126) Depdsgrammatik Dna introduktion till depdsgrammatik försöker följa d standard
Läs merGrammatikprov åk 8 ORDKLASSER
Grammatikprov åk 8 ORDKLASSER Gör hela provet innan du rättar med facit. Du sätter själv ut dina poäng när du rättar! A. Placera de 30 orden efter rätt ordklass katt, vi, springer, men, vacker, eftersom,
Läs merFrasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merElementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merObesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll
Läs merPartiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Läs merKort och gott Svenskt basordförråd. Katarina Mühlenbock, DART
Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast)
Läs merSvenska språket. Grammatik. www.sofiadistans.nu
Svenska språket Grammatik www.sofiadistans.nu 1 Innehåll Grammatik De 9 ordklasserna... 4 Substantiv... 5 Adjektiv... 6 Verb... 7 Pronomen... 8 Personliga pronomen... 8 Possessiva pronomen... 9 Relativa
Läs merHuvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute
Ordklasser Huvudordklasser NAMN substantiv adjektiv verb EXEMPEL misse, hus, mjölk ursinnig, god, glad äta, dricka, cykla Övriga ordklasser NAMN adverb pronomen räkneord prepositioner konjunktioner subjunktioner
Läs merStudiebrev 13. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I 05.70.03 (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is.
Háskóli Íslands Svenska lektoratet Höstterminen Grammatik I 05.70.03 (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.is Studiebrev 13 Uppgift 1 I det här sista Studiebrevet vill jag att du kommer med lite
Läs merDelkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015
Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)
Läs merFacit Mango Grammatik Ordklasser Fortsättning
1 Facit Mango Grammatik Ordklasser Fortsättning Mera verb s. 68-71 1. a) Beatrice b) Felix c) Gustaf d) Anton e) Christoffer 2. a) Beatrice b) Felix c) Gustaf d) Anton e) Chistoffer 3. a) skriven b) stängda
Läs merSatslära introduktion
Satslära introduktion Dolores Meden Dolores Meden 2010-08-27 1 Skillnaden mellan ordklass och ett ords funktion (syntax): * ett ords tillhörighet i en ordklass är konstant och påverkas inte av användningen
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merXenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram
Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Martin WARIN STP, Uppsala Universitet m warin@hotmail.com Abstract Här beskrivs en metod att identifiera ord i en text vilka är
Läs merSvenska - Läxa ORD att kunna förklara
Svenska - Läxa ORD att kunna förklara Substantiv är namn på ting; t ex boll och ring Adjektiven sen oss lär hurudana tingen är Verb det är vad man kan göra; skriva läsa, se och höra Ordklasser som vi lärt
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merVälkommen till den första delkursen i svenska!
Välkommen till den första delkursen i svenska! Som lärare i svenska är språket ditt främsta arbetsredskap, oavsett om du arbetar med läsning, skrivande eller muntliga aktiviteter. Denna delkurs syftar
Läs merRepetition ordklasser och satsdelar Bas och Fortsättning (s. 8-95)
1 Repetition ordklasser och satsdelar Bas och Fortsättning (s. 8-95) 1. Leta upp och ringa in adjektiven som är insprängda i rutmönstret! Orden står både vågrätt och lodrätt. 2. Här kommer en tempusövning!
Läs merGrim. Några förslag på hur du kan använda Grim. Version 0.8
Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,
Läs merSpråkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Läs merSpråkgranskningsverktyg. Grammatikkontroll i Word
Språkgranskningsverktyg Grammatikkontroll i Word Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial.
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merMaskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Läs merAnnoteringsvägledning SWE-TIGER
Institutionen för lingvistik Datorlingvistik Stockholms universitet Annoteringsvägledning SWE-TIGER TIGER-annotering av svenska i Annotate Yvonne Samuelsson Version 1.1 (Uppdaterad Juni 2007) Innehåll
Läs merFacit för diagnostiska provet i grammatik
Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954
Läs merKort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998
Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998 1-5. Formlära och syntax, lexikon, homonymer, morfem, ord och ordklass.
Läs merSvenska Rum 2: Grammatikövningar
Grammatikövningar Svenska Rum 2: Grammatikövningar Författarna och Liber AB Får kopieras 1 Se Lathund i grammatik s. 330 Ordklasser 1. Vilka av de nio ordklasserna är de understrukna orden exempel på?
Läs merPraktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1
Förmågor som eleverna ska utveckla i svenska Praktisk Svenska 1 Praktisk Svenska 2 Praktisk Svenska 3 Kunskapskrav i svenska Formulera sig och kommunicera i tal och skrift. Jag kan Formulera positiva tankar
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs mer