Korpuslingvistik vt 2007
|
|
- Malin Jonasson
- för 7 år sedan
- Visningar:
Transkript
1 Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1
2 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys, lemmatisering ordklasstaggning chunkning syntaktisk parsning (frasstrukturer, dependensrelationer) 2
3 Metoder manuell automatisk regelbaserad datadriven hybrid kombination 3
4 Manuell vs automatisk Manuell görs för hand - tidskrävande - risk för inkonsekventa fel Automatisk program som utför + snabb + konsekventa fel 4
5 Regelbaserade en uppsättning regler kräver expertkunskap många system utvecklats på talet använts inom bl a tokenisering, automatisk morfologisk segmentering och syntaktisk parsning 5
6 Datadrivna metoder automatiskt bygga en modell använder någon maskininlärningsalgoritm lite mänsklig kraft kräver data att lära sig från supervised vs unsupervised inlärning lätt att applicera på nya domäner snabb, effektiv och robust kan kombinera system 6
7 Maskininlärning automatisk inlärning av struktur givet data, data-drivna metoder / korpusbaserade metoder givet några exempel - lär strukturen olika typer av ML algoritmer: statistiska, transformationsbaserade, exempelbaserade, vektorbaserade, mm. symbiotisk relation mellan korpusbyggande och datadrivna klassificerare 7
8 Kända datadrivna metoder inom NLP Transformation-Based Error Driven Learning (Brill 1992) Memory-based learning (Daelemans, 1996) Information-theoretic Approaches: Maximum entropy modeling (Ratnaparkhi, etc) Hidden Markov Model (Charniak, Brants, etc) Decision trees (Quinlan, Daelemans) Inductive Logic Programming (Cussens, Lindberg & Eineborg, etc.) Support Vector Machines (Vapnik, Joachims, etc.) 8
9 Maskininlärning för NLP PoS taggning chunkning parsning semantisk analys (word sense disambiguation) språk: 90-talet mest för germanska språk, idag slaviska, turkiska, romanska, etc. 9
10 Ordklasstaggning engelska: Part-of-Speech (PoS) tagging mål: tilldela varje ord i en text en unik ordklass (taggning) tagg representerar PoS med eller utan morfologisk information modern N / NC / NN UTR SIN DEF NOM A / JJ POS UTR SIN DEF NOM 10
11 Ordklasstaggning, forts. Trivialt icke-tvetydiga ord som vi känner till Icke trivialt: tvetydiga ord modern/n A såg/v N Modern såg flickan okända ord som inte finns med i träningskorpus 11
12 Metoder för ordklasstaggning för hand tids- och resurskrävande risk för inkonsekvenser, otillåtna taggar, mm automatisk snabb, effektiv kräver ett automatiskt taggningssystem, s.k. taggare 12
13 Typer av taggare Regelbaserade reglerna är konstruerade för hand av lingvister ofta lämnar ambiguiteter kvar vid osäkerhet t.ex. TWOL, ENGTWOL, SWETWOL (Koskenniemi, 1983) 13
14 Regelbaserade taggare TWOL/SWETWOL/ENGTWOL handskrivna regler kompileras till finita automater en lingvist ändrar en uppsättning regler iterativt för att minimera taggningsfelen vid varje iteration körs reglerna på korpusen och reglerna ändras för att rätta till de mest seriösa felen. Utvecklad av Kimmo Koskenniemi 1983 Implementerad av Lauri Karttunen 1983 (engelska) Svenska: Fred Karlsson,
15 PCKIMMO: för att bygga egna regler 15
16 Regelbaserade taggare: TWOL bygger på tvånivåmorfologi metod för att beskriva morfo-fonematiska förhållanden Abstrakta lexikonformer med 2 nivåer: ortografisk; ytnivå lexikal-morfologisk: djupnivå Finite-state system: de två nivåerna relateras med finita automater, sk tranduktorer (transducers) tranduktorerna är finita automater som läser ihopparade band möjliggör för analys och generering 16
17 Tvånivåmorfologi Två parallella band med symboler: ett övre och ett undre Övre band: den djupare lexikal-fonologiska nivån Undre band: ytnivån av ljud/grafer Övre och undre symbol paras ihop: X : Y. Även nollsymbol - Ø- tillåts för det fall då man har en symbol utan att koppla den till en symbol på det andra bandet, X : Ø, Ø : Y. 17
18 Exempel Övre band: aab Undre band: ab Notation: <aab, ab> Kan läsas på flera sätt: a:a, a:ø, b:b. a:ø, a:a, b:b. a:a, a:b, b:ø. a:ø, a:ø, b:ø, Ø:a, Ø:b. 18
19 De två nivåerna Morfologisk gräns: + eller ˆ Null character: 0, Ø eller? Strängslut: # Lexikalisk: bil+ar+na+s Ortografisk: bil0ar0na0s Korresponderande par: b:b i:i l:l +:0 a:a r:r +0: n:n a:a +:0 s:s 19
20 Tvånivåregler Syntax: realisering operator kontext X:x LC RC X:x X realiseras som x om vänsterkontexten är LC och högerkontexten är RC Exempel fågel fåglar Abstrakt lexikonform: E:0 V(C)C L+V, E:e annars Lexikal nivå: fågel+ar Ortografisk nivå: fåg0l0ar 20
21 Regelbaserade taggare: SWETWOL Fred Karlsson, alla aspekter av böjningsmorfologi behandlas de mest produktiva avledningarna behandlas sammansättningsanalys görs kärnvokabulären är lexikonord nästan alla ordformer får en morfologisk analys 21
22 Exempel "\<de\>" "de" ART UTR/NEU DEF PL NOM "de" PRON UTR/NEU DEF/INDEF PL NOM "\<sticksugna\>" "stick#suga" <N> # V ACT PCP2 UTR/NEU DEF SG NOM "stick#suga" <N> # V ACT PCP2 UTR/NEU DEF/INDEF PL NOM "stick#sugen" <N> # A UTR/NEU DEF SG NOM "stick#sugen" <N> # A UTR/NEU DEF/INDEF PL NOM "\<getingarna\>" "geting" N UTR DEF PL NOM } 21-1
23 Typer av taggare Datadrivna datorn lär sig hur man taggar från en färdigtaggad korpus (supervised/ övervakad inlärning) inlärning: använder en algoritm för att leta efter den bästa förklaringen för det som observeras i en korpus klassifikationsproblem (diskreta klasstillhörigheter) 22
24 Datadriven taggning mål: tillordna varje ord i en text en unik ordklass (inga ambiguiteter lämnas kvar) Vanliga steg i taggningsprocessen: Input: text/transkriberat tal Lexikonuppslagning: taggning med default taggar Disambiguering: tvetydiga och okända ord får rätt tagg 23
25 Att bestämma algoritm/inlärningsmetod att använda representera klasserna särdrag/attribut att inkludera (lingvistisk analys) datamängder träningsmängd valideringsmängd testmängd utvärderingsmetod 24
26 Exempel på metoder transformationsbaserad inlärning exempelbaserad/minnesbaserad inlärning informationsteoretiska, statistiska metoder 25
27 Klassrepresentation Mats PM NOM till f rågades VB PRT SFO V@IIPS inte AB RG0S i PP SPS f rågan NN UT R SIN DEF NOM NCUSN@DS. MAD FE (1) 26
28 Särdrag/Attribut Info MB ME TBL TnT ord suffix prefix versalisering siffror ord före ord efter tagg före tagg efter
29 Transformationsbaserad inlärning (TBL) Eric Brill 1992, 1995 en av de första mest spridda och använda datadrivna taggrarna Transformation-Based Error-Driven Learning bygger på regler eller transformationer systemet lär sig genom att detektera fel grammatiken härleds direkt från en träningskorpus = supervised learning 28
30 Transformationsbaserad taggning Grundprincip lexikonuppslagning: välj den mest frekventa taggen för varje ord enligt ett lexikon annars använd heuristik disambiguering: ändra den initiala taggningen m.h.a. kontexten (taggar & ord) trigger: lexikala och kontextuella särdrag som utlöser transformationsregler transformationer: omskrivningsregler som förändrar en tagg vid en viss kontext (trigger) 29
31 Transformationsbaserad taggning (forts) 2 typer av regler: Lexikala: för att annotera okända ord Kontextuella: för att förbättra taggningen av lexikala modulen Regelformen: Lexikal: om villkor, tagga ordet med tagg T Villkor: ordet innehåller tecken X, har prefix/suffix om max 4 tecken, om prefix/suffix tas bort/läggs till får man ett känt ord, bigrams 30
32 Transformationsbaserad taggning, regler Kontextuell: om villkor, byt tagg T1 mot T2 Villkor: ordet i fråga, taggarna eller orden i kontexten 31
33 schema t i 3 t i 2 t i 1 t i t i+1 t i+2 t i+3 1 * 2 * 3 * 4 * 5 * 6 * 7 * 8 * 9 * Tabell 10.7, M&S, s
34 Transformationsbaserad taggning (forts) transformationsregler: ursprungstagg ersättningstagg trigger NN VB föregående tagg är TO go to school VBP VB en av föregående tre taggar är MD cut JJR RBR nästa tagg är JJ more valuable player VBP VB en av föregående två ord är n t don t Tabell 10.8, M&S, s
35 Transformationsbaserad taggning (forts) Hur får vi reglerna? från en taggad korpus supervised maskininlärning 1. definiera omskrivningsmönster 2. träna på en träningskorpus 33
36 Transformationsbaserad inlärning 1. initialisera modellen: varje ord i korpusen får den mest frekventa taggen 2. kolla på alla möjliga transformationer och välj den bästa som reducerar taggningsfelet mest ( error rate =antal feltaggade ord) 3. använd transformationen som valdes och applicera den på korpusen, och fortsätt med 2. så länge en meningsfull förbättring sker 4. sluta med inlärningsprocessen och spara reglerna i samma ordningsföljd som de användes 34
37 Transformationsbaserad inlärning inlärningsresultat: omskrivningsregler istället för sannolikhetsparametrar (kategoriell/symbolisk metod) reglerna är ordnade (dvs ordningsföljden spelar roll) reglerna kan läsas och modifieras inlärning är långsam precision för taggning är ungefär samma som för statistiska 35
38 Transformationsbaserad inlärning Fördelar rikt mallsystem (lexikala och kontextuella mallar) nya mallar kan läggas till tolkningsbara regler reglerna kan ändras enkel att ta till sig/förstå Nackdelar långsam reglerna är ordnade 36
39 Transformationsbaserad inlärning Olika implementationer: fntbl (Grace Ngai & Florian Radu, 2000) snabb version finns även för chunkning, word-sense disambiguation, etc. µt BL(Lager, 2000) implementation i prolog finns för många applikationer (PoS tagging, NP chunking, Dialog act tagging, Word sense disambiguation 37
40 Taggning är grundläggande i NLP taggning är ett standardproblem finns för många språk samma principer gäller för andra uppgifter, t.ex. chunkning ytlig/partiell parsning ( shallow parsing ) namnigenkänning (named entity recognition) 38
41 Tillämpningsområden partiell parsning maskinöversättning informationsextraktion (IE: information extraction) fråge-svarssystem (QA: question answering) information retrieval (IR) text-till-tal system (TTS: Text-to-Speech System) 39
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Ordklasstaggning (Sätta
Läs merMorfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix
Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merTvå-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merOrdklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)
Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merInnehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?
Morfologi 2002 Ola Knutsson knutsson@nada.kth.se Innehåll Ord och ordbildning Enkel morfologisk analys Tvånivå-modellen Statistisk morfologisk analys När är det bra med morfologi? Morfologisk parsning
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merPartiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merNär är det bra med morfologi? Morfologi (formlära) Vad är ett ord? Ordbildning och ordböjning. Antal bokstäver i mamma? Morfem
Morfologi (formlära) Ordbildning och ordböjning Automatisk morfologisk analys När är det bra med morfologi? Stavnings- och grammatikkontroll Sökmotorer Textsammanfattning i all språkteknik, alltid Ordbildning
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merMaskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Läs merParsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merSpråkgranskningsverktyg. Grammatikkontroll i Word
Språkgranskningsverktyg Grammatikkontroll i Word Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial.
Läs merObesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll
Läs merLösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merGrundläggande textanalys, VT2012
Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merStatistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Läs merSpråkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
Läs merBootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Läs merGrammatifix Svensk grammatikkontroll i MS Word
2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix 3 2.1 Detektering av grammatiska fel i Grammatifix 4 2.1.1 Förbehandling 4 2.1.2
Läs merMorfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Läs merMaskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi
Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med
Läs merParsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Läs merPerceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs merGrundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merOrdklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Läs merIntroduktion till språkteknologi
Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.
Läs merOnline MT output (EN-SE) Kriterier på bra översättning
Språkteknologi vt09: Maskinöversättning Användning av maskinöversättning Automatisk översättning Användning, problem, utvärdering Olika metoder Direktöversättning Transfer Interlingua Statistisk MT Automatgenerering
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merSpråkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser
Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser Richard Johansson richard.johansson@svenska.gu.se 19 februari 2014 praktiska detaljer: tenta vilket datum föredrar ni när det gäller tentan?
Läs merMÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merKursplaneöversättaren. Lina Stadell
Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad
Läs merInformationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)
Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)
Läs merKungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Läs merMaskininlärning. Regler eller ML?
Maskininlärning Field of study that gives computers the ability to learn without being explicitly programmed (Samuel, 1959) DD2418 Språkteknologi, Johan Boye Regler eller ML? System som bygger på handskrivna
Läs merTentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Läs merJohan Karlsson Johka490. Statistical machine translation JOHAN KARLSSON
Johan Karlsson Johka490 Statistical machine translation JOHAN KARLSSON Innehåll Introduktion... 2 Bakgrund... 3 Statistiska maskinöversättningssystem... 3 Hur ett SMT-system fungerar... 4 Motsvarighetsmodell
Läs merStatistisk Maskinöversättning eller:
729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs mer- ett statistiskt fråga-svarsystem
- ett statistiskt fråga-svarsystem 2010-09-28 Artificiell intelligens II Linnea Wahlberg linwa713 1 Innehåll Introduktion... 1 Grundprinciper för asked!... 2 Retrieval model... 4 Filter model... 6 Komponenter...
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merInnehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?
Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning. Granska Att skriva regler i Granska.
Läs merTDDD02 Föreläsning 2 HT-2013. Reguljära uttryck och reguljära språk Lars Ahrenberg
TDDD02 Föreläsning 2 HT-2013 Reguljära uttryck och reguljära språk Lars Ahrenberg Översikt Reguljära uttryck sökproblem i texter definitioner och exempel UNIX-funktionen grep Reguljära transformationer
Läs merMaskinöversättning möjligheter och gränser
Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?
Läs merDependensregler - Lathund
Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas
Läs merTentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Läs merAutomatisk morfologisk segmentering för svenska substantiv
Automatisk morfologisk segmentering för svenska substantiv Veronika Ekström verek@stp.ling.uu.se Examensarbete i datorlingvistik Språkteknologiprogrammet Institutionen för lingvistik och filologi Uppsala
Läs merEntitetsklassificering med hjälp av aktiv maskininlärning J OHAN WESSMAN
Entitetsklassificering med hjälp av aktiv maskininlärning J OHAN WESSMAN Examensarbete Stockholm, Sverige 2011 Entitetsklassificering med hjälp av aktiv maskininlärning J OHAN WESSMAN Examensarbete i datalogi
Läs merBetydelse och betydelse
Betydelse och betydelse Ordbetydelsedisambiguering i praktiken Stian Rødven Eide stian@fripost.org Självständigt arbete i lingvistik, 15 hp Göteborgs universitet Institutionen för filosofi, lingvistik
Läs merGrafisk manual (kort version)
Grafisk manual (kort version) Innehåll 1. Grafisk profil 2. Idé 3. Logotyp Lathund 4. Fri yta 5. Balans 6. Storlek 7. Med andra logotyper 8. Typografi Museo Sans 500 Georgia 9. Färger Huvudfärger 10. Språk
Läs merMarco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014
Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng
Läs merOrd och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs mer1 Inledning. 1.1 Bakgrund
1 Inledning 1.1 Bakgrund Vid språkvetenskapligt arbete och bearbetning av texter av olika slag är morfosyntaktisk uppmärkning (ordklasstaggning) oftast ett av de första stegen. Ordklasstaggning kan utföras
Läs merHUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng
Utbildningsplan Dnr G 2017/293 HUMANISTISKA FAKULTETEN Språkteknologi, masterprogram, 60-120 högskolepoäng Master in Language Technology (One year Programkod: H2MLT 1. Fastställande Utbildningsplanen är
Läs merLingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Läs merLinköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson
Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...
Läs merLinköpings universitet. Kognitionsvetenskap. Instutitionen för datavetenskap. Kandidatuppsats 15 ECTS. CogFLUX
Linköpings universitet Kognitionsvetenskap Instutitionen för datavetenskap Kandidatuppsats 15 ECTS CogFLUX Grunden till ett automatiskt textförenklingssystem för svenska Författare: Jonas Rybing Christian
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merAlgoritmer och maskininlärning
Algoritmer och maskininlärning Olof Mogren Chalmers tekniska högskola 2016 De här företagen vill Tjäna pengar Hitta mönster i stora datamängder Göra förutsägelser Klassificera data Förstå människan Maskininlärning
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs mer1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5 2.
Maria Holmqvist x02marho@ida.liu.se Linköpings universitet, IDA 24 april 2003 1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Innehåll Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merTDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs merMålet är att ge maskiner förmågan att plocka ut information ur
Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet:
Läs merTeoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
Läs merVad kan statistik avslöja om svenska sammansättningar?
Vad kan statistik avslöja om svenska sammansättningar? 199 Vad kan statistik avslöja om svenska sammansättningar? Ur Språk & stil NF 16, 2006 Av JONAS SJÖBERGH och VIGGO KANN I många språktekniska datortillämpningar
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merSärdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Läs merSyntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Läs merspråkgranskning, ht 2007
Maskinöversättning och språkgranskning, ht 2007 Föreläsning 3 Grammatikkontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem
Läs merLyssna, Skriv och Läs!
Lyssna, Skriv och Läs! Läsinlärning från grunden Gunnel Wendick Innehållsförteckning Introduktion 5-8 Sidhänvisningar till uppgifterna 9 Förklaring av uppgifterna 10-13 O o 15-19 S s 20-24 A a 25-29 L
Läs merDagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering
Information retrieval & ordbetydelsedisambiguering Leif Grönqvist (leifg@ling.gu.se) Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi)
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merOrd och morfologi. Morfologi
Ord och morfologi DH2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Läs merWord sense disambiguation med Svenskt OrdNät
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:34 ISSN 1404-0891 Word sense disambiguation med Svenskt OrdNät JENS CHRISTIANSSON
Läs merAutomatisk generering av grammatikövningar utifrån grammatiskt analyserad text
Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text Magisteruppsats i Språkteknologi, 30hp Institutionen för lingvistik och lologi Uppsala Universitet Camilla Liljhammar, camlilj@stp.lingl.uu.se
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Föreläsning 2, 729G09, VT15 Reguljära uttryck Lars Ahrenberg 150409 Plan för föreläsningen Användning av reguljära uttryck Formella språk Reguljära språk Reguljära
Läs merStudenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merKlassificering av homonymer Inlämningsuppgift språkteknologi
Klassificering av homonymer Inlämningsuppgift språkteknologi 2013-01-10 Kurskod: DD2418 Författare Gustav Ribom 910326-0593 Erik Aalto 861108-0212 Kontaktperson Johan Boye Abstract Ordet fil har flera
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs mer