Grundläggande textanalys, VT2013

Storlek: px
Starta visningen från sidan:

Download "Grundläggande textanalys, VT2013"

Transkript

1 Grundläggande textanalys, VT2013 Rum (Tack till Sofia Gustafson-Capkovâ för material.)

2 Idag - Ordklasstaggning (Sätta ordklass på ord) - Laboration 2 2

3 Kort repetition Meningssegmentering dela upp texten i dess meningar Exempel: Före meningssegmentering: Detta är en mening. Detta är en till mening. Efter meningssegmentering: Detta är en mening. Detta är en till mening. 3

4 Kort repetition Tokenisering Dela upp texten i ordbitar. Exempel: Före tokenisering: Detta är en mening. Efter tokenisering: Detta är en mening. 4

5 Kort repetition Morfologisk segmentering/analys dela upp orden i rotmorfen, prefix, suffix,etc Exempel (med transduktorer): Ytnivå : foxes Mellannivå : fox^s# Lexikalnivå : fox+n+pl# 5

6 Kort repetition Morfologisk segmentering/analys dela upp orden i rotmorfen, prefix, suffix,etc Exempel (med transduktorer): Ytnivå : foxes Mellannivå : fox^s# Lexikalnivå : fox+n+pl# Lemmatisering: Bryt ner ordet till dess rotform. Exempel: foxes fox 6

7 Kort repetition Morfologisk segmentering/analys dela upp orden i rotmorfen, prefix, suffix,etc Exempel (med transduktorer): Ytnivå : foxes Mellannivå : fox^s# Lexikalnivå : fox+n+pl# Lemmatisering: Bryt ner ordet till dess rotform. Exempel: foxes fox När vi kommit så här långt är det dags att bestämma vilken ordklass ordet har, detta kallas för ordklasstaggning. 7

8 Ordklasstaggning Part-of-Speech (PoS tagging) 8

9 Ordklasstaggning Part-of-Speech (PoS tagging) - Ordklasstaggning innebär att man annoterar varje token med sin ordklass. Exempel: Katten NN(substantiv) sover VB(verb) 9

10 Ordklasstaggning Part-of-Speech (PoS tagging) - Ordklasstaggning innebär att man annoterar varje token med sin ordklass. Exempel: Katten NN(substantiv) sover VB(verb) - Vad kan man göra efter att man har taggat alla ord med en ordklass? Hitta ickeöverlappande konstituenter av ord (chunking) Exempel: [NP en ovanlig ordklass] Hitta den syntaktiska strukturen (syntaktisk parsning) (frasstrukturer, dependensrelationer) 10

11 Ordklasstaggning Part-of-Speech (PoS tagging) - Det är enkelt att tagga ord som inte är flertydliga: Exempel: eller, till, från 11

12 Ordklasstaggning Part-of-Speech (PoS tagging) - Det är enkelt att tagga ord som inte är flertydliga: Exempel: eller, till, från - Det är svårare att tagga icke-triviala ord: Exempel: modern - kan vara substantiv eller adjektiv såg - kan vara verb eller substantiv För att lösa detta problem kan man titta på de taggar som finns runt om kring: Exempel: Modern såg flickan 12

13 Ordklasstaggning Part-of-Speech (PoS tagging) - Det är enkelt att tagga ord som inte är flertydliga: Exempel: eller, till, från - Det är svårare att tagga icke-triviala ord: Exempel: modern - kan vara substantiv eller adjektiv såg - kan vara verb eller substantiv För att lösa detta problem kan man titta på de taggar som finns runt om kring: Exempel: Modern såg flickan - Det är svårt att tagga ord man inte sett tidigare 13

14 Ordklasstaggning - Metoder Manuella metoder: Problem: tidskrävande, inkonsekventa fel Automatiska metoder: - Snabba, konsekventa fel - Tekniker: regelbaserade (SWETWOL, ENGCL) Datadrivna/Statistiska (TnT, Hunpos) Hybridsystem(Brill) 14

15 Regelbaserad vs datadrivna ansatser - Regelbaserade: Baseras på en regeluppsättning Kräver expertkunskap Vanliga fram till 90-talet Användes till: tokenisering, morfologisk parsning, ordklasstaggning, syntaktisk parsning 15

16 Regelbaserad vs datadrivna ansatser - Regelbaserade: Baseras på en regeluppsättning Kräver expertkunskap Vanliga fram till 90-talet Användes till: tokenisering, morfologisk parsning, ordklasstaggning, syntaktisk parsning - Datadrivna: Skapar automatiskt en språkmodell Kräver träningsdata Supervised learning: Man lär sig med hjälp av en instruktör Unsupervised learning: Man lär sig utan hjälp av en instruktör Kan lätt användas för olika domäner Snabb, effektiv, robust Man kan kombinera system 16

17 Maskininlärning Datadrivna metoder - En autmatisk inlärning av en struktur givet data Man får exempel och lär sig strukturen - Olika typer av algoritmer: Statistiska transformationsbaserade, exempelbaserade vektorbaserade m.m. 17

18 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) 18

19 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) 19

20 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) - Informations teoretiska ansatser: Maximum Entropy modelling(ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) 20

21 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) - Informations teoretiska ansatser: Maximum Entropy modelling(ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) - Decision trees (Quinlan, Daelemans) 21

22 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) - Informations teoretiska ansatser: Maximum Entropy modelling(ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) - Decision trees (Quinlan, Daelemans) - Inductive Logic Programming (Cussems, Lindberg & Eineborg, etc) Man gör slutsatser utifrån givna regler Exempel: IF Mother(x,y) AND MALE(y) THEN SON(y) 22

23 Kända datadrivna metoder i NLP - Transformation-Based Error Driven Learning (Brill, 1992) - Memory-based learning (Daelemans, 1996) Spara undan information i en tabell och använd informationen i tabellen för att göra nya slutsatser (icke-parametriserade metoder) - Informations teoretiska ansatser: Maximum Entropy modelling(ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) - Decision trees (Quinlan, Daelemans) - Inductive Logic Programming (Cussems, Lindberg & Eineborg, etc) Man gör slutsatser utifrån givna regler Exempel: IF Mother(x,y) AND MALE(y) THEN SON(y) Support Vector Machines (Vapnik, Joachims, etc) 23

24 Regelbaserade taggare 24

25 Regelbaserade taggare - Metod: 1. Använd ett lexikon för att ge varje ord en uppsättning av möjliga taggar 2. För att avgöra vilket alternativ av taggar som ska användas, använder man en handskriven regelmängd. - Man kan göra lexikonet och regelmängden större. - Olösta ambiguiteter kan lämnas kvar för att lösas manuellt. 25

26 Regelbaserade taggare - Lingvister konstruerar reglerna för hand - Ofta lämnas ambiguiteter kvar vid osäkerhet till exempel hos TWOL, ENGTWOL, SWETWOL - Första ordklassarna skapades: Harris 1962 Klein och Simmons 1963 Green och Rubin

27 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater 27

28 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) 28

29 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. 29

30 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. - Om man vill skapa egna regler kan man använda PCKIMMO: 30

31 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. - Om man vill skapa egna regler kan man använda PCKIMMO: - Utvecklat av Kimmo Koskenniemi

32 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. - Om man vill skapa egna regler kan man använda PCKIMMO: - Utvecklat av Kimmo Koskenniemi Lauri Karttungen implementerade detta för engelska

33 Regelbaserade taggare TWOL / SWETWOL / ENGTWOL - Består av handskrivna regler som kompileras till finita automater - För att minimera taggningsfelen kan en lingvist ändra på reglerna (iterativt) - Vid varje iteration körs reglerna på korpusen och för att korrigera de allvarligaste felen, ändras reglerna. - Om man vill skapa egna regler kan man använda PCKIMMO: - Utvecklat av Kimmo Koskenniemi Lauri Karttungen implementerade detta för engelska Fredik Karlsson utvecklade detta för svenska

34 TWOL - bygger på tvånivåmorfologi - Abstrakta lexikonformer med 2 nivåer: ortografisk: ytnivå lexikal-morfologisk: djupnivå - Finite-state-system: De två nivåerna relateras med transduktorer - Möjliggör analys och generering 34

35 Transduktor repetition En transduktor består av två parallella band med symboler: - ett för den övre nivån - ett för den undre nivån Exempel: lexikal nivå mellannivå f S o S x S1 f 2 o 3 x 4 ε 5 6 +Sg # S +N S +Pl ^s# S Lexikal nivå :fox+n+sg Mellannivå: fox# resultatet när vi kört färdigt transduktorn på fox+n+sg 35

36 Transduktor repetition En transduktor består av två parallella band med symboler: - ett för den övre nivån - ett för den undre nivån Exempel: mellannivå ytnivå f S o S x S1 f 2 o 3 x 4 ε 5 6 S ^ s s S S7 # ε S Mellannivå: fox# # ε Ytnivå : fox resultatet när vi kört färdigt transduktorn på fox# 36

37 Transduktor repetition - De övre och den undre symbolerna kan paras ihop med : : Exempel: f:f o:o x:o +N:ε +Sl:# 37

38 Transduktor Exempel Övre band: aab Undre band: ab Notation: <aab, ab> Kan läsas på olika sätt: a:a a:b b:ε a:a a:ε b:b a:ε a:a b:b a:ε a:ε b:ε ε:a ε:b: 38

39 De två nivåerna Morfolgisk gräns: + eller ^ Null character : 0, Ø, eller? Strängslut : # Lexikalisk : bil+ar+na+s Ortografisk : bil0ar0na0s Korresponderande par: b:b i:i l:l +:0 a:a r:r +:0 n:n a:a +:0 s:s 39

40 Tvånivåmorfologi - Tvånivåregler - Syntax: <realisering> <operator> <kontext> X:x LC_RC X:x realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel: fågel fåglar Abstrakt lexikalform: E:0 V(C)C_L+V V vokal C - konsonant E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: 40

41 Tvånivåmorfologi - Tvånivåregler - Syntax: <realisering> <operator> <kontext> X:x LC_RC X:x realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel: fågel fåglar Abstrakt lexikalform: E:0 V(C)C_L+V V vokal C - konsonant E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: 41

42 Tvånivåmorfologi - Tvånivåregler - Syntax: <realisering> <operator> <kontext> X:x LC_RC X:x realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel: fågel fåglar Abstrakt lexikalform: E:0 V(C)C_L+V V vokal C - konsonant E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: fåg0l0ar 42

43 TWOL - Körexempel "<sticksugna>" "stick#suga" V PCP2 UTR/NEU DEF SG NOM "stick#suga" V PCP2 UTR/NEU DEF/INDEF PL NOM "stick#sugen" A UTR/NEU DEF SG NOM "stick#sugen" A UTR/NEU DEF/INDEF PL NOM "<getingarna>" "geting" N UTR DEF PL NOM Källa: 43

44 Regelbaserade taggare - Constraint grammar 44

45 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL 45

46 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson,

47 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson,

48 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi 48

49 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi - behandlar de mest produktiva avledningar 49

50 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi - behandlar de mest produktiva avledningar - man gör en sammansättningsanalys 50

51 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi - behandlar de mest produktiva avledningar - man gör en sammansättningsanalys - kärnvokabulären består av ord 51

52 Regelbaserade taggare Constraint grammar - Man använder en anpassad variant av TWOL - Fred Karlsson, behandlar alla aspekter av böjningsmorfologi - behandlar de mest produktiva avledningar - man gör en sammansättningsanalys - kärnvokabulären består av ord - De flesta ordformerna får en morfologisk analys 52

53 Regelbaserade taggare - Constraint Grammar Exempel: EngCG tagger (Voutolainen 1995, 1999) Varje ord körs igenom en lexikon/morfologisk analys, t. ex. TWOL Resultat: Man får potentiella taggar för varje ord Om ordet inte finns i lexikonet använder man en morfologisk heuristisk För att disambiguera använder man en regelmängd av villkor 53

54 Regelbaserade taggare - Constraint grammar Exempel: Constraint/villkor (@w=0 VFIN (-1 TO)) Om ett ord får analysen VFIN (finit verb) och om ordet före är TO så ska analysen för ordet tas bord 54

55 Regelbaserade taggare Regelutvecklingen för EngCG: - Består av kontextfria regler - För att förbättra taggningen, korrigerar en lingvist ordningen för regeltillämpningen (löpande) - Vid varje iteration förändras reglerna förändringarna baseras på taggningsfelen 55

56 Constraint Grammar EngCG för morfologisk disambiguering av PoS och morfologi: grammatisk baserade villkor för disambiguering - Accuracy: 99,7 100 % % morfologisk ambiguitet lämnas kvar - För att lösa 50 % av de kvarvarande ambiguiteterna används 200 heuristiska villkor 56

57 Constraint Grammar - Exempel I started work Annoterad text: "<*i>" "i" <*> <NonMod> PRON PERS NOM SG1 "<started>" "start" <SV> <SVO> <P/on> V PAST "<work>" "work" N NOM Källa: 57

58 Constraint Grammar - Andra tillämpningar - Svenska (SWECG) - PALAVRAS parser för portugisiska (Bick 2000) finns med generaliserade dependensmarkörer och semantiska prototyptaggar - DanGram - The Oslo-Bergen Tagger (Bokmål och nynorsk) - Samiska, franska, tyska, katalan, estniska, spanska, esperando etc 58

59 Constraint Grammar nyare versioner av CG - CG2 (Tapanainen 1996) och VISL CG2 - VISL CG3 möjlighet till dependensparsning 59

60 Datadriven ordklasstaggare 60

61 Datadriven ordklasstaggare Övervakad inlärning (suvervised learning) - Man utgår från en färdigtaggad korpus och lär ett program hur man taggar en text. 61

62 Datadriven ordklasstaggare Övervakad inlärning (suvervised learning) - Man utgår från en färdigtaggad korpus och lär ett program hur man taggar en text. - Inlärningsfasen: Man använder en algoritm för att hitta den bästa förklaringen på det man observerar i korpusen. 62

63 Datadriven taggning Mål Varje ord i en text tilldelas en unik ordklass Steg Input: text Lexikonuppslagning: taggning med default-taggar Disambiguering: tvetydliga och okända ord får en rätt tagg 63

64 Datadriven taggning Vi behöver bestämma följande: Vilken inlärningsmetod vi vill använda Representera taggarna (taggset) Eventuellt inkludera särdrag/attribut Bestämma datamängderna: --- Träningsmängd --- Testmängd --- Valideringsmängd Utvärderingsmetod 64

65 Exempel på klassrepresentationer Pelle PM_NOM tillfrågades VB_PRT_SFO inte AB RG0S i PP SPS frågan NN_UTR_SIN_DEF_NOM NCUSN@DS. MAD FE 65

66 Särdrag/Attribut Info TBL TnT ord + + suffix 4 10 prefix 4 - versalisering + + siffror - - ord före 3 - Ord efter 3 - Tagg före 3 2 Tagg efter 3-66

67 Transformationsbaserad inlärning(tbl) 67

68 Transformationsbaserad inlärning(tbl) - Eric Brill 1992, En av de mest sprida och använda datadrivna taggarna i världen. - Transformation-Based Error-Driven Learning - Bygger på regler eller transformationer - Systemet lär sig genom att upptäcka fel - Grammatiken härleds direkt från en träningskorpus supervised learning 68

69 Transformationsbaserad taggning - Grundprincipen Lexikonuppslagning: - välj den tagg med högst frekvens för ett ord enligt ett lexikon. om det saknas använd heuristik Disambiguering: - titta på kontexten och ändra på den initiala taggen Trigger: - Kontextuella och lexikala särdrag utlöser transformationsregler Transformationer: - omskrivningsregler som ändrar en tagg vid en viss trigger 69

70 Transformationsbaserad taggning - Man använder två typer av regler: lexikala regler: för att annotera okända ord kontextuella regler: för att förbättra taggningen av den lexikala modulen Regelformen: - Lexikal: om villkor, tagga ordet med taggen T - villkor: - ordet innehåller tecken X. - ordet har prefix/suffix som är max 4 tecken långa och om dem tas bort/läggs till får man ett känt ord 70

71 Transformationsbaserad taggning - regelmallar - Kontextuell: om villkor byt tagg T1 mot T2 Villkor: ordet i fråga, taggarna eller orden i kontexten schema t i 3 t i 2 t i 1 t i t i+1 t i+2 t i+3 1 * 2 * 3 * 4 * 5 * 6 * 7 * 8 * 9 * Tabell 10.7, M&S s

72 Transformationsbaserad taggning Transformationsregler: ursprungstagg ersättsningstagg trigger NN VB Föregående tagg är TO: to go to school VBP VB En av föregående taggar är MD: can cut VBP VB Föregående ord är en av n't eller don't Tabell 10.8 M&S s

73 Transformationsbaserad taggning - Hur skapar vi reglerna? från en taggad korpus supervised maskininlärning 1. Definiera omskrivningsmönster 2. Träna på en träningskorpus 73

74 Transformationsbaserad inlärning 1. Initialisera modellen: - Varje ord i korpusen får den mest frekventa taggen. 2. Undersök alla transformationer och välj den som mest reducerar antalet taggningsfel ( error rate = antal feltaggade ord) 3. Använd den valda transformationen och tillämpa den på korpusen. Om det blev förbättring så fortsätter man med steg Spara reglerna i samma ordning som de användes och avsluta inlärningsprocessen. 74

75 Transformationsbaserad inlärning - Resultat - inlärningsresultat: ordnade omskrivningsregler reglerna kan läsas och modifieras långsam inlärning precisionen för taggningen är ungefär densamma som för de statistiska taggarna 75

76 Transformationsbaserad inlärning Implementationer: - fntbl (Grace Ngai & Florian Radu 2000) snabb - µtbl(lager, 2000) Implementerat i Prolog (logikprogrammering) ( 76

77 Transformationsbaserad inlärning - Egenskaper Fördelar: rikt system med lexikala och kontextuella mallar man kan lägga till nya mallar reglerna är tolkningsbara reglerna kan ändras enkel att förstå Nackdelar: reglerna är ordnade långsam 77

78 Stokastiska taggare 78

79 Stokastiska taggare - Använd en träningskorpus för lära sannolikeheten att ett ord har en viss tagg i en given kontext. - Hidden Markov Model eller HMM-tagger HMM-taggning innebär att man väljer den sekvens av taggar som har högst sannolikhet Taggning blir ett klassificeringsproblem: Vad är den bästa sekvens av taggar som motsvarar en viss ordsekvens? 79

80 Hur fungerar en HMM-taggare? - Givet: Alla möjliga sekvenser av taggar En sekvens av n ord - Algoritmen för en HMM-taggare väljer den taggsekvens som maximerar produkten av dessa två termer: sannolikheter för ord-tagg-kombination sannolikhet för taggsekvensen: argmax t 1 n n i=1 P (w i t i ) P(t i t i 1 ) 80

81 Hur fungerar en HMM-taggare? - Räkna fram taggfrekvenser för varje tagg - Räkna fram sannolikheterna,, talar om sannolikheten för att en given tagg är kopplat till ordet w i P (w i t i ) t i - Räkna fram sannolikheterna för en taggsekvens (bigramfrekvenser) P (t i t i 1 ) - Räkna fram produkten av lexikala sannolikheter och kontextuella sannolikheter och välj den tagg med högst sannolikhet 81

82 Den mest sannolika taggsekvensen Secretariat/NNS is/vbz expected/vbn to/to race/vb tomorrow/nr Exempel: race/vb eller race/nn? - NNS VBZ VBN TO VB NR - NNS VBZ VBN TO NN NR - Ambiguiteten löses global och den taggsekvens med högst sannolighet avgör. 82

83 Den mest sannolika taggsekvensen t 1 n =argmax t 1 n P (t 1 n w 1 n ) - Av alla taggsekvenser med längden n letar vi efter den taggsekvens som maximerar t 1 n P (t 1 n w 1 n ) - PROBLEM: Vi känner inte till P (t 1 n w 1 n ) 83

84 Den mest sannolika taggsekvensen t 1 n =argmax t 1 n P (t 1 n w 1 n ) - Vi kan skriva om formeln med bayes lag: t 1 n =argmax t 1 n P (w 1 n t 1 n ) P (t 1 n ) P(w 1 n ) P (w 1 n ) - Då inte påverkas av taggsekvensen, kan vi utesluta den: t 1 n =argmax t 1 n P (w 1 n t 1 n ) P (t 1 n ) PROBLEM: Vi kan inte räkna ut det här så vi behöver förenkla ytterligare 84

85 Den mest sannolika taggsekvensen - Förenklingar - Sannolikheten för ett ord beror endast på dess egna ordklass och inte på de ord/ordklasser runt omkring: P (w 1 n t 1 n ) i=1 n P (w i t i ) - The bigram assumption : Sannolikheten för en tagg är endast beroende av den föregående taggen (snarare än hela sekvensen av taggar). n P (t 1 n ) i=1 P(t i t i 1 ) Vi kan nu skriva om formeln så här: t 1 n =argmax t 1 n P (t 1 n w 1 n ) argmax t 1 n n i=1 P (w i t i ) P (t i t i 1 ) 85

86 Den mest sannolika taggsekvensen - Vad är sannolikheten att race har VB eller NN som PoS-tagg? P (w i t i ) - De lexikala sannolikheterna kan vi räkna fram utifrån korpusen: P (race NN )= (Hur stor är sannolikheten att substantivet är race?) P (race VB)= (Hur stor är sannolikheten att verbet är race?) 86

87 Den mest sannolika taggsekvensen - Hur stor är sannolikheten för VB respektive NN givet den föregående taggen (TO)? P (t i t i 1 )= C (t i 1,t i ) C (t i 1 ) =#(t i 1,t i ) #(t i 1 ) - Vi härleder den maximala sannolikheten (maximum likelihood estimate) för taggövergången från korpusen: P ( NN TO)= P (VB TO)= C (TO, NN ) = C (TO) C (TO,VB) =0.83 C (TO) 87

88 Den mest sannolika taggsekvensen - Vad är sannolikheten för den efterföljande taggen (tomorrow/nr)? - Vi härleder den maximala sannolikheten (maximum likelihood estimate) för taggövergången från korpusen: P ( NR VB)= P ( NR NN )= P (t i t i 1 )= C (t i 1,t i ) C (t i 1 ) =#(t i 1,t i ) #(t i 1 ) C (VB, NR) = C (VB) C ( NN, NR) = C ( NN ) 88

89 Den mest sannolika taggsekvensen - Vi får följande resultat: argmax t 1 n n i=1 P(w i t i ) P(t i t i 1 ) - TO VB NR - sekvensen: P (race VB) P (VB TO) P( NR VB) = * 0.83 * = TO NN NR sekvensen: P (race NN ) P( NN TO) P ( NR NN ) = * * = Sannolikheten för sekvensen med taggen VB är högre, vilket medför att race taggas med VB. 89

90 Den mest sannolika taggsekvensen - Vi får följande resultat: argmax t 1 n n i=1 P(w i t i ) P(t i t i 1 ) - TO VB NR - sekvensen: P (race VB) P (VB TO) P( NR VB) = * 0.83 * = TO NN NR sekvensen: P (race NN ) P( NN TO) P ( NR NN ) = * * = Sannolikheten för sekvensen med taggen VB är högre, vilket medför att race taggas med VB. Detta hände trots att den lexikala sannolikheten för att race är ett verb är lägre. 90

91 Ordklasstaggning är grundläggande i NLP Taggning är ett standardproblem Det finns olika typer av taggare för många språk Samma princip gäller för andra uppgifter: --- Maskinöversättning --- Informationsextraktion (IE: Information extraction) --- parsning --- Fråge-svarssystem (QA: question answering) --- Information retrieval (IR) --- Text-till-tal system (TTS: Text-to-Speech System) --- Namnigenkänning (named entity recognition) 91

92 Utvärdering 92

93 Utvärdering - När man tränat en taggare, exekverar man den på en testmängd som består av ord. resultat: orden blir tilldelad en varsin tagg - Vid utvärdering jämför man en taggares utdata med en guldstandard(facit) för de taggade orden. - Man använder följande mått: Accuracy, Precision, Täckning och F-measure 93

94 Utvärdering - mått Accuracy Den procentdel där taggningen i utdatan och guldstandarden stämmer överens. 94

95 Utvärdering - mått Precision: procentandelen korrekt annoterade taggar jämfört med alla annoterade taggar. Precision= # korrekt taggade token med PoStag X totalt # taggade token med PoStag X 95

96 Utvärdering - mått Täckning: procentandelen korrekt annoterade taggar jämfört med guldstandarden. Recall= # korrekt taggade token med PoStag X totalt # taggade token med PoStag X i guldstandard 96

97 Utvärdering - mått F-measure: Det harmoniska medelvärdet, ett sätt att kombinera Precision och Täckning. F β = (β2 +1) Precision Recall β 2 ( Precision+Recall ) - Parametern β viktar precision och täckning om β<1 betonas precision om β>1 betonas recall om β=1 viktas precision och recall lika kallas för - measure F 1 F 1 = 2 Precision Recall Precision+Recall F = 2 P R P+R 97

98 Utvärdering - Exempel Taggarens analys av Maria såg en bra film på TV. Maria/N såg/n en/d bra/adv film/n på/p TV/N./F Guldstandard: Maria/N såg/v en/d bra/a film/n på/p TV/N./F Accuracy: 6/8 = 0,75 98

99 Utvärdering - Exempel Taggarens analys av Maria såg en bra film på TV. Maria/N såg/n en/d bra/adv film/n på/p TV/N./F Guldstandard: Maria/N såg/v en/d bra/a film/n på/p TV/N./F N: Precision = 3/4 = 0,75 Recall = 3/3 = 1 F = 2 * 0,75 * 1 / (0,75 +1) = 0,86 D: Precision = 1/1 = 1,0 Recall = 1/1 = 1,0 F = 2 * 1 * 1 / (1 +1) = 1 99

100 Utvärdering - Exempel Taggarens analys av Maria såg en bra film på TV. Maria/N såg/n en/d bra/adv film/n på/p TV/N./F Guldstandard: Maria/N såg/v en/d bra/a film/n på/p TV/N./F Adv: Precision = 0/1 = 0 Recall = 0/0 = - F = 2 * 0 * 0 / (0 +0) = - P: Precision = 1/1 = 1,0 Recall = 1/1 = 1,0 F = 2 * 1 * 1 / (1 +1) = 1 100

101 Utvärdering - Exempel Taggarens analys av Maria såg en bra film på TV. Maria/N såg/n en/d bra/adv film/n på/p TV/N./F Guldstandard: Maria/N såg/v en/d bra/a film/n på/p TV/N./F F: Precision = 1/1 = 1 Recall = 1/1 = 1 F = 2 * 1 * 1 / (1 +1) = 1 A: Precision = 0/0 = - Recall = 0/1 = 0 F = 2 * 0 * 0 / (0 +0) = 0 101

102 Utvärdering - Metod - Ange en baseline, dvs det värde som systemet bör klara av utan någon specifik kunskap. - Dela upp korpusen i följande delar: träningsdel (80%) : --- används när man tränar taggaren testdel (10 %) : --- Används när man testar hur bra taggaren skulle kunna fungera i verkligheten valideringsdel(10 %): --- Används när man försöker hitta vilka inställningar som fungerar bäst för taggaren, Exempel: När man vill komma fram till vilken storlek på n-grammen som är bäst 102

103 Testmängd vs valideringsmängd Verkligheten baseline: kör på testmängden Optimering baseline: kör på valideringsmängden - ändra en inställning - kör på valideringsmängden - jämför med baseline om bättre, kom ihåg den nya inställningen - upprepa tills du är nöjd med resultatet - använd de nya inställningarna och kör på testmängden - jämför med baseline 103

104 Utvärdering - Metod Man kan använda n-fold-cross validation när det är meningsfullt och lämpligt. Exempel ( n=5): 1. Dela upp träningsmängden i 5 lika stora delar 2. Skapa nya träningsmängder och utvärdera enligt följande mall: Träningsmängd: 1,2,3,4 Utvärdera på del: 5 Träningsmängd: 1,2,3,5 Utvärdera på del: 4 Träningsmängd: 1,2,4,5 Utvärdera på del: 3 Träningsmängd: 1,3,4,5 Utvärdera på del: 2 Träningsmängd: 2,3,4,5 Utvärdera på del: 1 3. Beräkna medelvärde på utvärderingsresultaten 104

105 Viktiga saker att tänka på: - Storleken på korpus, ju större korpus desto bättre - Storleken på taggset - Typ av tränings- och testmängd 105

106 Resultat för ordklasstaggning av svenska ACCURACY TBL TNT Total(%) 89,06 93,55 Known(%) 94,35 95,50 Unknown(%) 58,52 82,29 Accuracy för alla ord, och accuracy för kända och okända ord uppdelat på olika taggar. Åtskilda tränings- och taggset, 100k tokens, taggset 139 taggar. 106

107 Vanligaste felen Korrekt adjektiv(aqpnsnis) partikel(qs) Felaktig tagg adverb(rgps) preposition(sps) Substantiv pluralis(ncnpnis) Substantiv singularis(ncnsnis) Adjective singularis(a...s...) adverb(rg0s) Adjectiv pluralis(a...p...) partikel(qs) 107

108 Resultat size TBL TnT ,10 67, ,44 74, ,49 81, ,62 85, ,32 88, ,33 91, ,84 93, ,40 94, ,45 95, ,74 95,89 108

109 Nästa gång: - Stavningskontroll - Laboration 3 - Fördjupningsuppgift 109

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,

Läs mer

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll

Läs mer

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol) Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

Grundläggande textanalys, VT2012

Grundläggande textanalys, VT2012 Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

Partiell parsning Parsning som sökning

Partiell parsning Parsning som sökning Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Maskinöversättning och språkgranskning. F6: Grammatikkontroll Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.

Läs mer

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?

Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys? Morfologi 2002 Ola Knutsson knutsson@nada.kth.se Innehåll Ord och ordbildning Enkel morfologisk analys Tvånivå-modellen Statistisk morfologisk analys När är det bra med morfologi? Morfologisk parsning

Läs mer

Obesvarade frågor från F1

Obesvarade frågor från F1 Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll

Läs mer

När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem

När är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem Morfologi (formlära) Ordbildning och ordböjning Automatisk morfologisk analys När är det bra med morfologi? Stavnings- och grammatikkontroll Sökmotorer Textsammanfattning i all språkteknik, alltid Ordbildning

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Tentamen Del A. Marco Kuhlmann

Tentamen Del A. Marco Kuhlmann TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det

Läs mer

Språkgranskningsverktyg. Grammatikkontroll i Word

Språkgranskningsverktyg. Grammatikkontroll i Word Språkgranskningsverktyg Grammatikkontroll i Word Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial.

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil? Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Parsningens olika nivåer

Parsningens olika nivåer Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser

Läs mer

Dependensregler - Lathund

Dependensregler - Lathund Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska

Läs mer

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser Richard Johansson richard.johansson@svenska.gu.se 19 februari 2014 praktiska detaljer: tenta vilket datum föredrar ni när det gäller tentan?

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-

Läs mer

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)

Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag) Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver

Läs mer

Bootstrapping för substantivtaggning

Bootstrapping för substantivtaggning Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas

Läs mer

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning

Läs mer

1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5 2.

1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5 2. Maria Holmqvist x02marho@ida.liu.se Linköpings universitet, IDA 24 april 2003 1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5

Läs mer

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax? Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika

Läs mer

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,

Läs mer

Parsningens olika nivåer

Parsningens olika nivåer Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas

Läs mer

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014 Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng

Läs mer

Kursplaneöversättaren. Lina Stadell

Kursplaneöversättaren. Lina Stadell Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

DAB760: Språk och logik

DAB760: Språk och logik DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg

Läs mer

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns? Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning. Granska Att skriva regler i Granska.

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

MÖSG ht 2005 Maskinöversättningssystemet MATS

MÖSG ht 2005 Maskinöversättningssystemet MATS MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?

Läs mer

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,

Läs mer

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Innehåll Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Olika frastyper och regler för dessa Dependensgrammatik Olika

Läs mer

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,

Läs mer

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON

Johan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Grammatifix Svensk grammatikkontroll i MS Word

Grammatifix Svensk grammatikkontroll i MS Word 2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix 3 2.1 Detektering av grammatiska fel i Grammatifix 4 2.1.1 Förbehandling 4 2.1.2

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg

TDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer

Läs mer

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...

Läs mer

Ord och morfologi. Morfologi

Ord och morfologi. Morfologi Ord och morfologi DH2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

International Olympiad in Informatics 2011 22 29 July 2011, Pattaya City, Thailand Tävlingsuppgifter Dag 2 Svenska 1.3. Papegojor

International Olympiad in Informatics 2011 22 29 July 2011, Pattaya City, Thailand Tävlingsuppgifter Dag 2 Svenska 1.3. Papegojor Papegojor Yanee är fågelentusiast. Sedan hon läst om IP over Avian Carriers (IPoAC), har hon spenderat mycket tid med att träna en flock papegojor att leverera meddelanden över långa avstånd. Yanees dröm

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Automatisk morfologisk segmentering för svenska substantiv

Automatisk morfologisk segmentering för svenska substantiv Automatisk morfologisk segmentering för svenska substantiv Veronika Ekström verek@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Institutionen för lingvistik och filologi Uppsala

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

Ord och morfologi. Morfologi

Ord och morfologi. Morfologi Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande

Läs mer

Maskininlärning. Regler eller ML?

Maskininlärning. Regler eller ML? Maskininlärning Field of study that gives computers the ability to learn without being explicitly programmed (Samuel, 1959) DD2418 Språkteknologi, Johan Boye Regler eller ML? System som bygger på handskrivna

Läs mer

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

2. Utgångspunkter och angreppssätt för automatisk språkgranskning Översikt och läsanvisning 2. Utgångspunkter och angreppssätt för automatisk språkgranskning Detta kapitel beskriver utgångspunkter och angreppssätt för automatisk språkgranskning för svenska. I kapitlet

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Martin WARIN STP, Uppsala Universitet m warin@hotmail.com Abstract Här beskrivs en metod att identifiera ord i en text vilka är

Läs mer

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer

Läs mer

Statistisk Maskinöversättning eller:

Statistisk Maskinöversättning eller: 729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...

Läs mer

- ett statistiskt fråga-svarsystem

- ett statistiskt fråga-svarsystem - ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...

Läs mer

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik? Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet

Läs mer

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning... LINKÖPINGS UNIVERSITET Innehåll 1. Inledning... 2 2. Terminologi... 3 3. Allmänt om Word2Vec... 3 4. Continous Skip-gram model... 4 Word2Vec Högkvalitativa vektorrepresentationer av ord tränat på stora

Läs mer

Maskinöversättning möjligheter och gränser

Maskinöversättning möjligheter och gränser Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?

Läs mer

1 Inledning 1. 4 Utvärdering 7. 5 Diskussion 7

1 Inledning 1. 4 Utvärdering 7. 5 Diskussion 7 Innehåll 1 Inledning 1 2 Bakgrund 1 2.1 Svensk fonetik.................................. 1 2.1.1 IPA.................................... 1 2.1.2 ASTA................................... 1 2.2 Svensk fonotax..................................

Läs mer

Online MT output (EN-SE) Kriterier på bra översättning

Online MT output (EN-SE) Kriterier på bra översättning Språkteknologi vt09: Maskinöversättning Användning av maskinöversättning Automatisk översättning Användning, problem, utvärdering Olika metoder Direktöversättning Transfer Interlingua Statistisk MT Automatgenerering

Läs mer

språkgranskning, ht 2007

språkgranskning, ht 2007 Maskinöversättning och språkgranskning, ht 2007 Föreläsning 3 Grammatikkontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem

Läs mer

Frasstrukturgrammatik

Frasstrukturgrammatik 729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till? Ordklasser Särdrag, lexikon och syntax Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv, adjektiv, verb, adverb Ständiga nybildningar

Läs mer

Syntaktisk parsning (Jurafsky & Martin kapitel 13)

Syntaktisk parsning (Jurafsky & Martin kapitel 13) Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning

Läs mer

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion

Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion Parsning = analys Maskinell analys av naturligt språks strukturer Uppgiften som en parser löser är 1. Acceptera en sträng som grammatisk, samt oftast 2. Ge en strukturell representation av strängen som

Läs mer

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Språkgranskningsverktyg. Grammatikkontroll med Scarrie Språkgranskningsverktyg Grammatikkontroll med Scarrie Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar

Läs mer

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen

Läs mer

Neurolingvistik - Grammatik

Neurolingvistik - Grammatik Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2) Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)

Läs mer

Grafisk manual (kort version)

Grafisk manual (kort version) Grafisk manual (kort version) Innehåll 1. Grafisk profil 2. Idé 3. Logotyp Lathund 4. Fri yta 5. Balans 6. Storlek 7. Med andra logotyper 8. Typografi Museo Sans 500 Georgia 9. Färger Huvudfärger 10. Språk

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

Grammatisk teori III Praktisk analys

Grammatisk teori III Praktisk analys Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas

Läs mer

poäng i del B Lycka till!

poäng i del B Lycka till! TDDD02 Språkteknologi för informationssökning (2016) Tentamen 2017-01-11 Examinator: Marco Kuhlmann Denna tentamen består av två delar: 1. Del A består av 5 uppgifter som prövar din förståelse av de grundläggande

Läs mer

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson Grundläggande Textanalys VT 2016 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift

Läs mer