Grundläggande textanalys, VT2013
|
|
- Ellen Axelsson
- för 8 år sedan
- Visningar:
Transkript
1 Grundläggande textanalys, VT2013 Rum (Tack till Sofia Gustafson-Capkovâ för material.)
2 Idag - Ordklasstaggning (Sätta ordklass på ord) - Laboration 2 2
3 Kort repetition Meningssegmentering dela upp texten i dess meningar Exempel: Före meningssegmentering: Detta är en mening. Detta är en till mening. Efter meningssegmentering: Detta är en mening. Detta är en till mening. 3
4 Kort repetition Tokenisering Dela upp texten i ordbitar. Exempel: Före tokenisering: Detta är en mening. Efter tokenisering: Detta är en mening. 4
5 Kort repetition Morfologisk segmentering/analys dela upp orden i rotmorfen, prefix, suffix,etc Exempel (med transduktorer): Ytnivå : foxes Mellannivå : fox^s# Lexikalnivå : fox+n+pl# 5
6 Kort repetition Morfologisk segmentering/analys dela upp orden i rotmorfen, prefix, suffix,etc Exempel (med transduktorer): Ytnivå : foxes Mellannivå : fox^s# Lexikalnivå : fox+n+pl# Lemmatisering: Bryt ner ordet till dess rotform. Exempel: foxes fox 6
7 Kort repetition Morfologisk segmentering/analys dela upp orden i rotmorfen, prefix, suffix,etc Exempel (med transduktorer): Ytnivå : foxes Mellannivå : fox^s# Lexikalnivå : fox+n+pl# Lemmatisering: Bryt ner ordet till dess rotform. Exempel: foxes fox När vi kommit så här långt är det dags att bestämma vilken ordklass ordet har, detta kallas för ordklasstaggning. 7
8 Ordklasstaggning Part-of-Speech (PoS tagging) 8
9 Ordklasstaggning Part-of-Speech (PoS tagging) - Ordklasstaggning innebär att man annoterar varje token med sin ordklass. Exempel: Katten NN(substantiv) sover VB(verb) 9
10 Ordklasstaggning Part-of-Speech (PoS tagging) - Ordklasstaggning innebär att man annoterar varje token med sin ordklass. Exempel: Katten NN(substantiv) sover VB(verb) - Vad kan man göra efter att man har taggat alla ord med en ordklass? Hitta ickeöverlappande konstituenter av ord (chunking) Exempel: [NP en ovanlig ordklass] Hitta den syntaktiska strukturen (syntaktisk parsning) (frasstrukturer, dependensrelationer) 10
11 Ordklasstaggning Part-of-Speech (PoS tagging) - Det är enkelt att tagga ord som inte är flertydliga: Exempel: eller, till, från 11
12 Ordklasstaggning Part-of-Speech (PoS tagging) - Det är enkelt att tagga ord som inte är flertydliga: Exempel: eller, till, från - Det är svårare att tagga icke-triviala ord: Exempel: modern - kan vara substantiv eller adjektiv såg - kan vara verb eller substantiv För att lösa detta problem kan man titta på de taggar som finns runt om kring: Exempel: Modern såg flickan 12
13 Ordklasstaggning Part-of-Speech (PoS tagging) - Det är enkelt att tagga ord som inte är flertydliga: Exempel: eller, till, från - Det är svårare att tagga icke-triviala ord: Exempel: modern - kan vara substantiv eller adjektiv såg - kan vara verb eller substantiv För att lösa detta problem kan man titta på de taggar som finns runt om kring: Exempel: Modern såg flickan - Det är svårt att tagga ord man inte sett tidigare 13
14 Ordklasstaggning - Metoder Manuella metoder: Problem: tidskrävande, inkonsekventa fel Automatiska metoder: - Snabba, konsekventa fel - Tekniker: regelbaserade (SWETWOL, ENGCL) Datadrivna/Statistiska (TnT, Hunpos) Hybridsystem(Brill) 14
15 Regelbaserad vs datadrivna ansatser - Regelbaserade: Baseras på en regeluppsättning Kräver expertkunskap Vanliga fram till 90-talet Användes till: tokenisering, morfologisk parsning, ordklasstaggning, syntaktisk parsning 15
16 Regelbaserad vs datadrivna ansatser - Regelbaserade: Baseras på en regeluppsättning Kräver expertkunskap Vanliga fram till 90-talet Användes till: tokenisering, morfologisk parsning, ordklasstaggning, syntaktisk parsning - Datadrivna: Skapar automatiskt en språkmodell Kräver träningsdata Supervised learning: Man lär sig med hjälp av en instruktör Unsupervised learning: Man lär sig utan hjälp av en instruktör Kan lätt användas för olika domäner Snabb, effektiv, robust Man kan kombinera system 16
17 Maskininlärning Datadrivna metoder - En autmatisk inlärning av en struktur givet data Man får exempel och lär sig strukturen - Olika typer av algoritmer: Statistiska transformationsbaserade, exempelbaserade vektorbaserade m.m. 17
18 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) 18
19 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) 19
20 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) - Informations teoretiska ansatser: Maximum Entropy modelling(ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) 20
21 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) - Informations teoretiska ansatser: Maximum Entropy modelling(ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) - Decision trees (Quinlan, Daelemans) 21
22 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) - Informations teoretiska ansatser: Maximum Entropy modelling(ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) - Decision trees (Quinlan, Daelemans) - Inductive Logic Programming (Cussems, Lindberg & Eineborg, etc) Man gör slutsatser utifrån givna regler Exempel: IF Mother(x,y) AND MALE(y) THEN SON(y) 22
23 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) - Informations teoretiska ansatser: Maximum Entropy modelling(ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) - Decision trees (Quinlan, Daelemans) - Inductive Logic Programming (Cussems, Lindberg & Eineborg, etc) Man gör slutsatser utifrån givna regler Exempel: IF Mother(x,y) AND MALE(y) THEN SON(y) Support Vector Machines (Vapnik, Joachims, etc) 23
24 Regelbaserade taggare 24
25 Regelbaserade taggare - Metod: 1. Använd ett lexikon för att ge varje ord en uppsättning av möjliga taggar 2. För att avgöra vilket alternativ av taggar som ska användas, använder man en handskriven regelmängd. - Man kan göra lexikonet och regelmängden större. - Olösta ambiguiteter kan lämnas kvar för att lösas manuellt. 25
26 Regelbaserade taggare - Lingvister konstruerar reglerna för hand - Ofta lämnas ambiguiteter kvar vid osäkerhet till exempel hos TWOL, ENGTWOL, SWETWOL - Första ordklassarna skapades: Harris 1962 Klein och Simmons 1963 Green och Rubin
27 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater 27
28 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) 28
29 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. 29
30 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. - Om man vill skapa egna regler kan man använda PCKIMMO: 30
31 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. - Om man vill skapa egna regler kan man använda PCKIMMO: - Utvecklat av Kimmo Koskenniemi
32 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. - Om man vill skapa egna regler kan man använda PCKIMMO: - Utvecklat av Kimmo Koskenniemi Lauri Karttungen implementerade detta för engelska
33 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. - Om man vill skapa egna regler kan man använda PCKIMMO: - Utvecklat av Kimmo Koskenniemi Lauri Karttungen implementerade detta för engelska Fredik Karlsson utvecklade detta för svenska
34 TWOL - bygger på tvånivåmorfologi - Abstrakta lexikonformer med 2 nivåer: ortografisk: ytnivå lexikal-morfologisk: djupnivå - Finite-state-system: De två nivåerna relateras med transduktorer - Möjliggör analys och generering 34
35 Transduktor repetition En transduktor består av två parallella band med symboler: - ett för den övre nivån - ett för den undre nivån Exempel: lexikal nivå mellannivå f S o S x S1 f 2 o 3 x 4 ε 5 6 +Sg # S +N S +Pl ^s# S Lexikal nivå :fox+n+sg Mellannivå: fox# resultatet när vi kört färdigt transduktorn på fox+n+sg 35
36 Transduktor repetition En transduktor består av två parallella band med symboler: - ett för den övre nivån - ett för den undre nivån Exempel: mellannivå ytnivå f S o S x S1 f 2 o 3 x 4 ε 5 6 S ^ s s S S7 # ε S Mellannivå: fox# # ε Ytnivå : fox resultatet när vi kört färdigt transduktorn på fox# 36
37 Transduktor repetition - De övre och den undre symbolerna kan paras ihop med : : Exempel: f:f o:o x:o +N:ε +Sl:# 37
38 Transduktor Exempel Övre band: aab Undre band: ab Notation: <aab, ab> Kan läsas på olika sätt: a:a a:b b:ε a:a a:ε b:b a:ε a:a b:b a:ε a:ε b:ε ε:a ε:b: 38
39 De två nivåerna Morfolgisk gräns: + eller ^ Null character : 0, Ø, eller? Strängslut : # Lexikalisk : bil+ar+na+s Ortografisk : bil0ar0na0s Korresponderande par: b:b i:i l:l +:0 a:a r:r +:0 n:n a:a +:0 s:s 39
40 Tvånivåmorfologi - Tvånivåregler - Syntax: <realisering> <operator> <kontext> X:x LC_RC X:x realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel: fågel fåglar Abstrakt lexikalform: E:0 V(C)C_L+V V vokal C - konsonant E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: 40
41 Tvånivåmorfologi - Tvånivåregler - Syntax: <realisering> <operator> <kontext> X:x LC_RC X:x realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel: fågel fåglar Abstrakt lexikalform: E:0 V(C)C_L+V V vokal C - konsonant E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: 41
42 Tvånivåmorfologi - Tvånivåregler - Syntax: <realisering> <operator> <kontext> X:x LC_RC X:x realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel: fågel fåglar Abstrakt lexikalform: E:0 V(C)C_L+V V vokal C - konsonant E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: fåg0l0ar 42
43 TWOL - Körexempel "<sticksugna>" "stick#suga" V PCP2 UTR/NEU DEF SG NOM "stick#suga" V PCP2 UTR/NEU DEF/INDEF PL NOM "stick#sugen" A UTR/NEU DEF SG NOM "stick#sugen" A UTR/NEU DEF/INDEF PL NOM "<getingarna>" "geting" N UTR DEF PL NOM Källa: 43
44 Regelbaserade taggare - Constraint grammar 44
45 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL 45
46 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson,
47 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson,
48 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi 48
49 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi - behandlar de mest produktiva avledningar 49
50 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi - behandlar de mest produktiva avledningar - man gör en sammansättningsanalys 50
51 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi - behandlar de mest produktiva avledningar - man gör en sammansättningsanalys - kärnvokabulären består av ord 51
52 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi - behandlar de mest produktiva avledningar - man gör en sammansättningsanalys - kärnvokabulären består av ord - De flesta ordformerna får en morfologisk analys 52
53 Regelbaserade taggare - Constraint Grammar Exempel: EngCG tagger (Voutolainen 1995, 1999) Varje ord körs igenom en lexikon/morfologisk analys, t. ex. TWOL Resultat: Man får potentiella taggar för varje ord Om ordet inte finns i lexikonet använder man en morfologisk heuristisk För att disambiguera använder man en regelmängd av villkor 53
54 Regelbaserade taggare - Constraint grammar Exempel: Constraint/villkor (@w=0 VFIN (-1 TO)) Om ett ord får analysen VFIN (finit verb) och om ordet före är TO så ska analysen för ordet tas bord 54
55 Regelbaserade taggare Regelutvecklingen för EngCG: - Består av kontextfria regler - För att förbättra taggningen, korrigerar en lingvist ordningen för regeltillämpningen (löpande) - Vid varje iteration förändras reglerna förändringarna baseras på taggningsfelen 55
56 Constraint Grammar EngCG för morfologisk disambiguering av PoS och morfologi: grammatisk baserade villkor för disambiguering - Accuracy: 99,7 100 % % morfologisk ambiguitet lämnas kvar - För att lösa 50 % av de kvarvarande ambiguiteterna används 200 heuristiska villkor 56
57 Constraint Grammar - Exempel I started work Annoterad text: "<*i>" "i" <*> <NonMod> PRON PERS NOM SG1 "<started>" "start" <SV> <SVO> <P/on> V PAST "<work>" "work" N NOM Källa: 57
58 Constraint Grammar - Andra tillämpningar - Svenska (SWECG) - PALAVRAS parser för portugisiska (Bick 2000) finns med generaliserade dependensmarkörer och semantiska prototyptaggar - DanGram - The Oslo-Bergen Tagger (Bokmål och nynorsk) - Samiska, franska, tyska, katalan, estniska, spanska, esperando etc 58
59 Constraint Grammar nyare versioner av CG - CG2 (Tapanainen 1996) och VISL CG2 - VISL CG3 möjlighet till dependensparsning 59
60 Datadriven ordklasstaggare 60
61 Datadriven ordklasstaggare Övervakad inlärning (suvervised learning) - Man utgår från en färdigtaggad korpus och lär ett program hur man taggar en text. 61
62 Datadriven ordklasstaggare Övervakad inlärning (suvervised learning) - Man utgår från en färdigtaggad korpus och lär ett program hur man taggar en text. - Inlärningsfasen: Man använder en algoritm för att hitta den bästa förklaringen på det man observerar i korpusen. 62
63 Datadriven taggning Mål Varje ord i en text tilldelas en unik ordklass Steg Input: text Lexikonuppslagning: taggning med default-taggar Disambiguering: tvetydliga och okända ord får en rätt tagg 63
64 Datadriven taggning Vi behöver bestämma följande: Vilken inlärningsmetod vi vill använda Representera taggarna (taggset) Eventuellt inkludera särdrag/attribut Bestämma datamängderna: --- Träningsmängd --- Testmängd --- Valideringsmängd Utvärderingsmetod 64
65 Exempel på klassrepresentationer Pelle PM_NOM tillfrågades VB_PRT_SFO inte AB RG0S i PP SPS frågan NN_UTR_SIN_DEF_NOM NCUSN@DS. MAD FE 65
66 Särdrag/Attribut Info TBL TnT ord + + suffix 4 10 prefix 4 - versalisering + + siffror - - ord före 3 - Ord efter 3 - Tagg före 3 2 Tagg efter 3-66
67 Transformationsbaserad inlärning(tbl) 67
68 Transformationsbaserad inlärning(tbl) - Eric Brill 1992, En av de mest sprida och använda datadrivna taggarna i världen. - Transformation-Based Error-Driven Learning - Bygger på regler eller transformationer - Systemet lär sig genom att upptäcka fel - Grammatiken härleds direkt från en träningskorpus supervised learning 68
69 Transformationsbaserad taggning - Grundprincipen Lexikonuppslagning: - välj den tagg med högst frekvens för ett ord enligt ett lexikon. om det saknas använd heuristik Disambiguering: - titta på kontexten och ändra på den initiala taggen Trigger: - Kontextuella och lexikala särdrag utlöser transformationsregler Transformationer: - omskrivningsregler som ändrar en tagg vid en viss trigger 69
70 Transformationsbaserad taggning - Man använder två typer av regler: lexikala regler: för att annotera okända ord kontextuella regler: för att förbättra taggningen av den lexikala modulen Regelformen: - Lexikal: om villkor, tagga ordet med taggen T - villkor: - ordet innehåller tecken X. - ordet har prefix/suffix som är max 4 tecken långa och om dem tas bort/läggs till får man ett känt ord 70
71 Transformationsbaserad taggning - regelmallar - Kontextuell: om villkor byt tagg T1 mot T2 Villkor: ordet i fråga, taggarna eller orden i kontexten schema t i 3 t i 2 t i 1 t i t i+1 t i+2 t i+3 1 * 2 * 3 * 4 * 5 * 6 * 7 * 8 * 9 * Tabell 10.7, M&S s
72 Transformationsbaserad taggning Transformationsregler: ursprungstagg ersättsningstagg trigger NN VB Föregående tagg är TO: to go to school VBP VB En av föregående taggar är MD: can cut VBP VB Föregående ord är en av n't eller don't Tabell 10.8 M&S s
73 Transformationsbaserad taggning - Hur skapar vi reglerna? från en taggad korpus supervised maskininlärning 1. Definiera omskrivningsmönster 2. Träna på en träningskorpus 73
74 Transformationsbaserad inlärning 1. Initialisera modellen: - Varje ord i korpusen får den mest frekventa taggen. 2. Undersök alla transformationer och välj den som mest reducerar antalet taggningsfel ( error rate = antal feltaggade ord) 3. Använd den valda transformationen och tillämpa den på korpusen. Om det blev förbättring så fortsätter man med steg Spara reglerna i samma ordning som de användes och avsluta inlärningsprocessen. 74
75 Transformationsbaserad inlärning - Resultat - inlärningsresultat: ordnade omskrivningsregler reglerna kan läsas och modifieras långsam inlärning precisionen för taggningen är ungefär densamma som för de statistiska taggarna 75
76 Transformationsbaserad inlärning Implementationer: - fntbl (Grace Ngai & Florian Radu 2000) snabb - µtbl(lager, 2000) Implementerat i Prolog (logikprogrammering) ( 76
77 Transformationsbaserad inlärning - Egenskaper Fördelar: rikt system med lexikala och kontextuella mallar man kan lägga till nya mallar reglerna är tolkningsbara reglerna kan ändras enkel att förstå Nackdelar: reglerna är ordnade långsam 77
78 Stokastiska taggare 78
79 Stokastiska taggare - Använd en träningskorpus för lära sannolikeheten att ett ord har en viss tagg i en given kontext. - Hidden Markov Model eller HMM-tagger HMM-taggning innebär att man väljer den sekvens av taggar som har högst sannolikhet Taggning blir ett klassificeringsproblem: Vad är den bästa sekvens av taggar som motsvarar en viss ordsekvens? 79
80 Hur fungerar en HMM-taggare? - Givet: Alla möjliga sekvenser av taggar En sekvens av n ord - Algoritmen för en HMM-taggare väljer den taggsekvens som maximerar produkten av dessa två termer: sannolikheter för ord-tagg-kombination sannolikhet för taggsekvensen: argmax t 1 n n i=1 P (w i t i ) P(t i t i 1 ) 80
81 Hur fungerar en HMM-taggare? - Räkna fram taggfrekvenser för varje tagg - Räkna fram sannolikheterna,, talar om sannolikheten för att en given tagg är kopplat till ordet w i P (w i t i ) t i - Räkna fram sannolikheterna för en taggsekvens (bigramfrekvenser) P (t i t i 1 ) - Räkna fram produkten av lexikala sannolikheter och kontextuella sannolikheter och välj den tagg med högst sannolikhet 81
82 Den mest sannolika taggsekvensen Secretariat/NNS is/vbz expected/vbn to/to race/vb tomorrow/nr Exempel: race/vb eller race/nn? - NNS VBZ VBN TO VB NR - NNS VBZ VBN TO NN NR - Ambiguiteten löses global och den taggsekvens med högst sannolighet avgör. 82
83 Den mest sannolika taggsekvensen t 1 n =argmax t 1 n P (t 1 n w 1 n ) - Av alla taggsekvenser med längden n letar vi efter den taggsekvens som maximerar t 1 n P (t 1 n w 1 n ) - PROBLEM: Vi känner inte till P (t 1 n w 1 n ) 83
84 Den mest sannolika taggsekvensen t 1 n =argmax t 1 n P (t 1 n w 1 n ) - Vi kan skriva om formeln med bayes lag: t 1 n =argmax t 1 n P (w 1 n t 1 n ) P (t 1 n ) P(w 1 n ) P (w 1 n ) - Då inte påverkas av taggsekvensen, kan vi utesluta den: t 1 n =argmax t 1 n P (w 1 n t 1 n ) P (t 1 n ) PROBLEM: Vi kan inte räkna ut det här så vi behöver förenkla ytterligare 84
85 Den mest sannolika taggsekvensen - Förenklingar - Sannolikheten för ett ord beror endast på dess egna ordklass och inte på de ord/ordklasser runt omkring: P (w 1 n t 1 n ) i=1 n P (w i t i ) - The bigram assumption : Sannolikheten för en tagg är endast beroende av den föregående taggen (snarare än hela sekvensen av taggar). n P (t 1 n ) i=1 P(t i t i 1 ) Vi kan nu skriva om formeln så här: t 1 n =argmax t 1 n P (t 1 n w 1 n ) argmax t 1 n n i=1 P (w i t i ) P (t i t i 1 ) 85
86 Den mest sannolika taggsekvensen - Vad är sannolikheten att race har VB eller NN som PoS-tagg? P (w i t i ) - De lexikala sannolikheterna kan vi räkna fram utifrån korpusen: P (race NN )= (Hur stor är sannolikheten att substantivet är race?) P (race VB)= (Hur stor är sannolikheten att verbet är race?) 86
87 Den mest sannolika taggsekvensen - Hur stor är sannolikheten för VB respektive NN givet den föregående taggen (TO)? P (t i t i 1 )= C (t i 1,t i ) C (t i 1 ) =#(t i 1,t i ) #(t i 1 ) - Vi härleder den maximala sannolikheten (maximum likelihood estimate) för taggövergången från korpusen: P ( NN TO)= P (VB TO)= C (TO, NN ) = C (TO) C (TO,VB) =0.83 C (TO) 87
88 Den mest sannolika taggsekvensen - Vad är sannolikheten för den efterföljande taggen (tomorrow/nr)? - Vi härleder den maximala sannolikheten (maximum likelihood estimate) för taggövergången från korpusen: P ( NR VB)= P ( NR NN )= P (t i t i 1 )= C (t i 1,t i ) C (t i 1 ) =#(t i 1,t i ) #(t i 1 ) C (VB, NR) = C (VB) C ( NN, NR) = C ( NN ) 88
89 Den mest sannolika taggsekvensen - Vi får följande resultat: argmax t 1 n n i=1 P(w i t i ) P(t i t i 1 ) - TO VB NR - sekvensen: P (race VB) P (VB TO) P( NR VB) = * 0.83 * = TO NN NR sekvensen: P (race NN ) P( NN TO) P ( NR NN ) = * * = Sannolikheten för sekvensen med taggen VB är högre, vilket medför att race taggas med VB. 89
90 Den mest sannolika taggsekvensen - Vi får följande resultat: argmax t 1 n n i=1 P(w i t i ) P(t i t i 1 ) - TO VB NR - sekvensen: P (race VB) P (VB TO) P( NR VB) = * 0.83 * = TO NN NR sekvensen: P (race NN ) P( NN TO) P ( NR NN ) = * * = Sannolikheten för sekvensen med taggen VB är högre, vilket medför att race taggas med VB. Detta hände trots att den lexikala sannolikheten för att race är ett verb är lägre. 90
91 Ordklasstaggning är grundläggande i NLP Taggning är ett standardproblem Det finns olika typer av taggare för många språk Samma princip gäller för andra uppgifter: --- Maskinöversättning --- Informationsextraktion (IE: Information extraction) --- parsning --- Fråge-svarssystem (QA: question answering) --- Information retrieval (IR) --- Text-till-tal system (TTS: Text-to-Speech System) --- Namnigenkänning (named entity recognition) 91
92 Utvärdering 92
93 Utvärdering - När man tränat en taggare, exekverar man den på en testmängd som består av ord. resultat: orden blir tilldelad en varsin tagg - Vid utvärdering jämför man en taggares utdata med en guldstandard(facit) för de taggade orden. - Man använder följande mått: Accuracy, Precision, Täckning och F-measure 93
94 Utvärdering - mått Accuracy Den procentdel där taggningen i utdatan och guldstandarden stämmer överens. 94
95 Utvärdering - mått Precision: procentandelen korrekt annoterade taggar jämfört med alla annoterade taggar. Precision= # korrekt taggade token med PoStag X totalt # taggade token med PoStag X 95
96 Utvärdering - mått Täckning: procentandelen korrekt annoterade taggar jämfört med guldstandarden. Recall= # korrekt taggade token med PoStag X totalt # taggade token med PoStag X i guldstandard 96
97 Utvärdering - mått F-measure: Det harmoniska medelvärdet, ett sätt att kombinera Precision och Täckning. F β = (β2 +1) Precision Recall β 2 ( Precision+Recall ) - Parametern β viktar precision och täckning om β<1 betonas precision om β>1 betonas recall om β=1 viktas precision och recall lika kallas för - measure F 1 F 1 = 2 Precision Recall Precision+Recall F = 2 P R P+R 97
98 Utvärdering - Exempel Taggarens analys av Maria såg en bra film på TV. Maria/N såg/n en/d bra/adv film/n på/p TV/N./F Guldstandard: Maria/N såg/v en/d bra/a film/n på/p TV/N./F Accuracy: 6/8 = 0,75 98
99 Utvärdering - Exempel Taggarens analys av Maria såg en bra film på TV. Maria/N såg/n en/d bra/adv film/n på/p TV/N./F Guldstandard: Maria/N såg/v en/d bra/a film/n på/p TV/N./F N: Precision = 3/4 = 0,75 Recall = 3/3 = 1 F = 2 * 0,75 * 1 / (0,75 +1) = 0,86 D: Precision = 1/1 = 1,0 Recall = 1/1 = 1,0 F = 2 * 1 * 1 / (1 +1) = 1 99
100 Utvärdering - Exempel Taggarens analys av Maria såg en bra film på TV. Maria/N såg/n en/d bra/adv film/n på/p TV/N./F Guldstandard: Maria/N såg/v en/d bra/a film/n på/p TV/N./F Adv: Precision = 0/1 = 0 Recall = 0/0 = - F = 2 * 0 * 0 / (0 +0) = - P: Precision = 1/1 = 1,0 Recall = 1/1 = 1,0 F = 2 * 1 * 1 / (1 +1) = 1 100
101 Utvärdering - Exempel Taggarens analys av Maria såg en bra film på TV. Maria/N såg/n en/d bra/adv film/n på/p TV/N./F Guldstandard: Maria/N såg/v en/d bra/a film/n på/p TV/N./F F: Precision = 1/1 = 1 Recall = 1/1 = 1 F = 2 * 1 * 1 / (1 +1) = 1 A: Precision = 0/0 = - Recall = 0/1 = 0 F = 2 * 0 * 0 / (0 +0) = 0 101
102 Utvärdering - Metod - Ange en baseline, dvs det värde som systemet bör klara av utan någon specifik kunskap. - Dela upp korpusen i följande delar: träningsdel (80%) : --- används när man tränar taggaren testdel (10 %) : --- Används när man testar hur bra taggaren skulle kunna fungera i verkligheten valideringsdel(10 %): --- Används när man försöker hitta vilka inställningar som fungerar bäst för taggaren, Exempel: När man vill komma fram till vilken storlek på n-grammen som är bäst 102
103 Testmängd vs valideringsmängd Verkligheten baseline: kör på testmängden Optimering baseline: kör på valideringsmängden - ändra en inställning - kör på valideringsmängden - jämför med baseline om bättre, kom ihåg den nya inställningen - upprepa tills du är nöjd med resultatet - använd de nya inställningarna och kör på testmängden - jämför med baseline 103
104 Utvärdering - Metod Man kan använda n-fold-cross validation när det är meningsfullt och lämpligt. Exempel ( n=5): 1. Dela upp träningsmängden i 5 lika stora delar 2. Skapa nya träningsmängder och utvärdera enligt följande mall: Träningsmängd: 1,2,3,4 Utvärdera på del: 5 Träningsmängd: 1,2,3,5 Utvärdera på del: 4 Träningsmängd: 1,2,4,5 Utvärdera på del: 3 Träningsmängd: 1,3,4,5 Utvärdera på del: 2 Träningsmängd: 2,3,4,5 Utvärdera på del: 1 3. Beräkna medelvärde på utvärderingsresultaten 104
105 Viktiga saker att tänka på: - Storleken på korpus, ju större korpus desto bättre - Storleken på taggset - Typ av tränings- och testmängd 105
106 Resultat för ordklasstaggning av svenska ACCURACY TBL TNT Total(%) 89,06 93,55 Known(%) 94,35 95,50 Unknown(%) 58,52 82,29 Accuracy för alla ord, och accuracy för kända och okända ord uppdelat på olika taggar. Åtskilda tränings- och taggset, 100k tokens, taggset 139 taggar. 106
107 Vanligaste felen Korrekt adjektiv(aqpnsnis) partikel(qs) Felaktig tagg adverb(rgps) preposition(sps) Substantiv pluralis(ncnpnis) Substantiv singularis(ncnsnis) Adjective singularis(a...s...) adverb(rg0s) Adjectiv pluralis(a...p...) partikel(qs) 107
108 Resultat size TBL TnT ,10 67, ,44 74, ,49 81, ,62 85, ,32 88, ,33 91, ,84 93, ,40 94, ,45 95, ,74 95,89 108
109 Nästa gång: - Stavningskontroll - Laboration 3 - Fördjupningsuppgift 109
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,
Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix
Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll
Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)
Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Grundläggande textanalys, VT2012
Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Partiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Maskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?
Morfologi 2002 Ola Knutsson knutsson@nada.kth.se Innehåll Ord och ordbildning Enkel morfologisk analys Tvånivå-modellen Statistisk morfologisk analys När är det bra med morfologi? Morfologisk parsning
Obesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll
När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem
Morfologi (formlära) Ordbildning och ordböjning Automatisk morfologisk analys När är det bra med morfologi? Stavnings- och grammatikkontroll Sökmotorer Textsammanfattning i all språkteknik, alltid Ordbildning
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Tentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Språkgranskningsverktyg. Grammatikkontroll i Word
Språkgranskningsverktyg Grammatikkontroll i Word Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial.
Statistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Tekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Word- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Parsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Tentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Dependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska
Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser
Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser Richard Johansson richard.johansson@svenska.gu.se 19 februari 2014 praktiska detaljer: tenta vilket datum föredrar ni när det gäller tentan?
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-
Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Bootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning
1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5 2.
Maria Holmqvist x02marho@ida.liu.se Linköpings universitet, IDA 24 april 2003 1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5
Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Parsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014
Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng
Kursplaneöversättaren. Lina Stadell
Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad
Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
DAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?
Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning. Granska Att skriva regler i Granska.
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Grammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
MÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Innehåll Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Olika frastyper och regler för dessa Dependensgrammatik Olika
Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi
Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med
Datorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON
Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Grammatifix Svensk grammatikkontroll i MS Word
2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix 3 2.1 Detektering av grammatiska fel i Grammatifix 4 2.1.1 Förbehandling 4 2.1.2
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson
Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...
Ord och morfologi. Morfologi
Ord och morfologi DH2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
International Olympiad in Informatics 2011 22 29 July 2011, Pattaya City, Thailand Tävlingsuppgifter Dag 2 Svenska 1.3. Papegojor
Papegojor Yanee är fågelentusiast. Sedan hon läst om IP over Avian Carriers (IPoAC), har hon spenderat mycket tid med att träna en flock papegojor att leverera meddelanden över långa avstånd. Yanees dröm
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Automatisk morfologisk segmentering för svenska substantiv
Automatisk morfologisk segmentering för svenska substantiv Veronika Ekström verek@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Institutionen för lingvistik och filologi Uppsala
Språkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
Ord och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Maskininlärning. Regler eller ML?
Maskininlärning Field of study that gives computers the ability to learn without being explicitly programmed (Samuel, 1959) DD2418 Språkteknologi, Johan Boye Regler eller ML? System som bygger på handskrivna
2. Utgångspunkter och angreppssätt för automatisk språkgranskning
Översikt och läsanvisning 2. Utgångspunkter och angreppssätt för automatisk språkgranskning Detta kapitel beskriver utgångspunkter och angreppssätt för automatisk språkgranskning för svenska. I kapitlet
Grammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram
Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Martin WARIN STP, Uppsala Universitet m warin@hotmail.com Abstract Här beskrivs en metod att identifiera ord i en text vilka är
Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Statistisk Maskinöversättning eller:
729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...
- ett statistiskt fråga-svarsystem
- ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...
Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...
LINKÖPINGS UNIVERSITET Innehåll 1. Inledning... 2 2. Terminologi... 3 3. Allmänt om Word2Vec... 3 4. Continous Skip-gram model... 4 Word2Vec Högkvalitativa vektorrepresentationer av ord tränat på stora
Maskinöversättning möjligheter och gränser
Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?
1 Inledning 1. 4 Utvärdering 7. 5 Diskussion 7
Innehåll 1 Inledning 1 2 Bakgrund 1 2.1 Svensk fonetik.................................. 1 2.1.1 IPA.................................... 1 2.1.2 ASTA................................... 1 2.2 Svensk fonotax..................................
Online MT output (EN-SE) Kriterier på bra översättning
Språkteknologi vt09: Maskinöversättning Användning av maskinöversättning Automatisk översättning Användning, problem, utvärdering Olika metoder Direktöversättning Transfer Interlingua Statistisk MT Automatgenerering
språkgranskning, ht 2007
Maskinöversättning och språkgranskning, ht 2007 Föreläsning 3 Grammatikkontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem
Frasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med
Inlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?
Ordklasser Särdrag, lexikon och syntax Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv, adjektiv, verb, adverb Ständiga nybildningar
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion
Parsning = analys Maskinell analys av naturligt språks strukturer Uppgiften som en parser löser är 1. Acceptera en sträng som grammatisk, samt oftast 2. Ge en strukturell representation av strängen som
Språkgranskningsverktyg. Grammatikkontroll med Scarrie
Språkgranskningsverktyg Grammatikkontroll med Scarrie Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar
Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Neurolingvistik - Grammatik
Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -
Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)
Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)
Grafisk manual (kort version)
Grafisk manual (kort version) Innehåll 1. Grafisk profil 2. Idé 3. Logotyp Lathund 4. Fri yta 5. Balans 6. Storlek 7. Med andra logotyper 8. Typografi Museo Sans 500 Georgia 9. Färger Huvudfärger 10. Språk
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Grammatisk teori III Praktisk analys
Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas
poäng i del B Lycka till!
TDDD02 Språkteknologi för informationssökning (2016) Tentamen 2017-01-11 Examinator: Marco Kuhlmann Denna tentamen består av två delar: 1. Del A består av 5 uppgifter som prövar din förståelse av de grundläggande
Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson
Grundläggande Textanalys VT 2016 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift