Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)
|
|
- Alexandra Hansson
- för 6 år sedan
- Visningar:
Transkript
1 Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den ytliga informationen i en text underskattad Minimalt lexikon med funktionsord Mönstermatchning av morfologiska och ytsyntaktiska ytmönster Märker orden med ordklass, känner igen vissa NP och PP. Jabberwocky (Källgren, 1992) De iggla skviggarna trassade vombigt i den harliga gopen. -Hurk, najdade den ena skviggen, maffar pem en bunne? -Snå, bebbade den umre skviggen aldrigt. Snafs på nerfen. - Lytrik snafs det? -Pej gemmer det fraskar för kloxigt. Så vatrik jeggade skviggen snafen bunne. Mer Jabberwocky (Lewis Carrol) Olika översättningar till 29 språk. Brills tagger Maskininlärning Det behövs en taggad korpus Ord-tagg-frekvenser Korrigeringsregler Dependensgrammatik Tesnière (1959), Mel'cuk (1988) Grammatiska relationer: Subjekt, finit verb (main), och objekt viktiga, huvud och modifierare Mycket generella semantiska relationer 1
2 Constraint grammar Ett språkoberoende system för att analysera löpande text The dog sniffs at the meat and the fish "<*the>" "the" <*> <Def> DET CENTRAL ART "<dog>" "dog" N NOM <sniffs>" "sniff" <SV> <SVO> V PRES SG3 "<at>" "at" "<meat>" "meat" <-Indef> N NOM "<and>" "and" "<fish>" "fish" N NOM "<$.>" The dog sniffs at the meat and the cat sniffs at the fish. "<*the>" "the" <*> <Def> DET CENTRAL ART "<dog>" "dog" N NOM "<sniffs>" "sniff" <SV> <SVO> V PRES SG3 "<at>" "at" "<meat>" "meat" <-Indef> N NOM "<and>" "and" "<cat>" "cat" N NOM "<sniffs>" "sniff" <SV> <SVO> V PRES SG3 "<at>" "at" "<fish>" "fish" N NOM "<$.>" CG:s målsättningar Perfekt analys: Perfekt täckning & perfekt precision Rätt- tolkning skall ges av den kontexten som finns för handen Om flera analyser ges och endast en av de är rätt räknas som felaktig analys Om flera analyser ges och det inte går att att avgöra med kontexten vilken som är rätt rätt analys All indata skall ges någon analys Parsern skall kunna analysera obegränsad text (unrestricted text) den skall vara robust. Tar inga beslut om vad som är grammatiskt ogrammatiskt I praktiken måste man ändå satsa på att hantera de ord och meningar som kan anses tillhöra språket (Master lexicon, Core Lexicon) Heuristiska metoder Grammatikformalismen skall vara språkoberoende Grammatikformalismen skall inte utgå från något speciellt språk Formalismen skall kunna rymma många olika språk från olika språkfamiljer Grammatikformalismen måste vara separerad från programkoden för att vara språkoberoende 2
3 Anpassning till olika texttyper Hur stort lexikon man än har så kommer det alltid att saknas ord Egennamn, Datatermer Vissa konstruktioner finns endast i vissa texter Tillåta att ha möjlighet att anpassa systemet till texttypen Domänlexikon Gissare för okända ord Förprocessning är ett viktigt steg Tokenisering Idiom-igenkänning Stavningskontroll Grammatikformalismen skall kunna använda typografisk information Viktig information finns i typografin; den bör tas tillvara: Olika skiljetecken Rubriker Verasaler/gemener SGML Utdata skall vara läsbart och inte nersölat med ett ohanterbart antal analysalternativ. Många system reducerar inte tolkningsmöjligheter utan introduerar istället nya möjliga tolkningar. En kärna av regelbaserade restriktioner Men det skall finnas möjlighet till probabilistiska (alt. heuristiska) villkor på toppen på ett lingvistiskt sätt Korpusstudier viktiga för att formulera regler basera grammatiken på hur det verkligen ser ut. Det är en styrka om så många regler som möjligt är icke-heuristiska Det är upp till grammatikern att använda heuristik och ta risker (kan vara nödvändigt för vissa språk/tillämpningar). Det viktiga är att tilldela meningar en analys Jensen, Heidorn: trying to write a grammar to describe explicity all and only the sentences of a natural language is about as practical as trying to find the Holy Grail Varje grammatik läcker. Att eliminera ogrammatiska tolkningar är mer rimligt än att avgöra vad som är absolut grammatiskt/ogrammatiskt 3
4 Morfologisk och lexikal analys är grunden Full lexikal täckning: alla böjningsformer, basformsreduktion, hantering av sammansättningar (ej lexikaliserade) TWOL Minst lexem (kärnvokabulären) ENGTWOL: SWETWOL: Morfologisk heuristik Flertydighet är kärnproblemet Gazdar-Mellish (1989): Flertydighet är det enskilt största problemet inom NLP. CG vill lyfta fram beskrivningen av flertydighet. CG är i grunden ett system för att skriva disambigueringsregler CG bryter upp parsningsproblemet i tre delar Morfologisk disambiguering Bestäm satsgränserna inom en mening Ytsyntaktisk disambiguering Disambiguering skall ske på alla tre delproblemen Utgå från värsta fallet: Tilldelning av alla möjliga tolkningar. Målet med varje restriktion är att förkasta så många alternativ som möjligt. En lyckosam parsning gör meningen morfologiskt och syntaktiskt otvetydig Den syntaktiska beskrivningen Varje ord skall tilldelas en ytsyntaktisk funktion Beskrivningen ger också grundläggande dependensrelationer inom satsen och meningen. En platt representation (inget träd). Parserdesign Verktyg för att testa, debugga och optimera enskilda constraints och hela grammatiken. Användaren skall ha mycket kontrollbestämma grad av återstående tvetydighet Parsern skall kunna komma ihåg disambigueringsbeslut Snabb ( ord/s) Kunna implementeras med ändliga automater 4
5 Constraint grammar parsing Förinställda steg: 1. Satsgränsmappning 2. Kontextkänslig morfologisk disambiguering 3. Satsgränsmappning (ny kan ha uppstått) 4. Kontextkänslig morfologisk disambiguering 5. Satsgränsmappning 6. Morfosyntaktisk mappning 7. Syntaktisk analys Deklarationer och disambigueringsregler Deklarationer: Meningsavgränsare:.!? Mängder: (PREMOD A DET) Syntaktiska funktioner: ) Tre operatorer för morfologisk disambiguering =!! Väljer analys om alla villkor är uppfyllda, tar bort analys om villkoren är falska. =! Välj analys (selection rules) =0 ta bort analys (deletion rules) Regelsyntax Morfosyntaktisk mappning: <matchningsankare kontextvillkor syntaktiska_taggar> Ex: ((N) ((-1C PREP) (1 <<<)) (@<P)) N tilldelas den syntaktiska funktionen prepositinskomplement om N föregås av en preposition och följs av meningsslut. Regelsyntax: Disambiguerande regler: (matchningsankare operator tolkning villkor) 50-ordsfönster: 25 ord matchningsankare 25 ord (@w =0 VFIN (-1 TO)) ( <for> =! (CS) (NOT 1 VFIN) (1 TO) (2 INF) (*3 VFIN)) Templates Två typer av templates: Med positioner angivna: ($$(DEF-NP ((1 DET) (2 N))) Systemet räknar själv ut positionerna: (&&NP (((N)) ((A) (N)) ((DET) (N)) ((A) (A) (N)) ((DET (A) (N)))) 5
6 Satsgränser Satsgränsuppmärkning Många möjliga satsgränser hämtas direkt från lexikon, t.ex. subjunktioner och relativa pronomen (t.ex. som ) Regler för satsgränsmappning: (@w=**clb (CC) (1C VFIN)) och gick (@w=**clb VFIN (-1C VFIN)) boken som han läser är tråkig. Syntaktiska regler =s!väljer en tolkning och förkastar övriga =s0 förkastar en tolkning sparar övriga Ej matchning av är standard vilket ord som helst Jag spelar fotboll (@w =s! (@SUBJ) (1 VFIN) (1 ACTIVE) (NOT (NOT SWECG Material hämtat från: Juhani Birn på Lingsoft har skrivit reglerna i SWECG. Indata: löpande text 1. Förprocessning 2. Morfologisk analys 3. Morfologisk heuristik 4. Morfologisk disambiguation 5. Morfosyntaktisk mappning 6. Syntaktisk disambiguering Utdata: CG-taggad text 1. Förprocessning Dessa entreprenöriella faktorer hade än så länge dämpat explosionen *dessa entreprenöriella faktorer hade än_så_länge dämpat explosionen $. 2. Morfologisk analys "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL "denna" <**c> <DEM> PRON UTR/NEU DEF PL NOM "<entreprenöriella>" "<faktorer>" "faktor" N UTR INDEF PL NOM "<hade>" "ha" <AUX> V ACT PAST "<än_så_länge>" "än_så_länge" <COLLOCATION> ADV "<dämpat>" "dämpa" V ACT SUPINE "dämpa" <PCP2> A NEU INDEF SG NOM "<explosionen>" "explosion" N UTR DEF SG NOM <$.>" "$." CLB <PUNCT> 6
7 3. Morfologisk heuristik Analys av ord som inte analyseras av SWETWOL 60 regler baserade på ordformer "<entreprenöriella>" "entreprenöriella" <NON- SWETWOL> A UTR/NEU DEF SG NOM "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM Saknas regel tilldelas ordet substantiv-taggar 4. Morfologisk disambiguering Över 50 % av orden i svenskan är flertydiga (SVD, 1.9 milj. ord. SWETWOL-analys) 1.82 tolkningar/ord i medeltal Testresultat: 4631 ord (4304 full disambiguering) Täckning: % Precision: % Utvärderingsproblem: för lite testdata, vad som är en korrekt tolkning avgjordes av regelskrivaren Förbättringar: Allt som går att göra är inte gjort, framförallt behövs det en större utvecklingskorpus i nuläget ord. "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL "<entreprenöriella>" "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF PL NOM "<faktorer>" "faktor" N UTR INDEF PL NOM "<hade>" "ha" <AUX> V ACT PAST "<än_så_länge>" "än_så_länge" <COLLOCATION> ADV "<dämpat>" "dämpa" V ACT SUPINE "<explosionen>" "explosion" N UTR DEF SG NOM <$.>" "$." CLB <PUNCT> 5. Morfosyntaktisk mappning Huvudsyfte: Lägga på den syntaktiska flertydigheten. Syntaktiska huvudtyper: verbfunktion huvudverb, verbkedjeverb, finita/infinita verb subjekt, objekt och adverbial (ord med huvudfunktion i satsen) modifierare bestämningar till huvudorden "<*dessa>" "denna" <**c> <DEM> <MD> DET UTR/NEU DEF PL "<entreprenöriella> "entreprenöriella" <NON-SWETWOL> A UTR/NEU DEF/INDEF @<P "<faktorer>" "faktor" N UTR INDEF Syntaktisk disambiguerining inte fullt utvecklad 400 regler finns i nuläget Det behövs 3-4 * 400 regler för att lösa upp alla tvetydigheter Inga resultat finns att tillgå eftersom denna del inte är fullt utvecklad Denna del används inte i grammatikontrollen i Word
8 Testa ENGCG Uppstickare: SweCG-2 EngCG-2 Functional Dependency Grammar Functional Dependency Grammar (Tapanainen & Järvinen, 1997) Syntaxträd, länkar mellan ord, inte konstituenter Ca 35 dependensrelationer Grammatiska funktioner Huvud modifierare Enkla semantiska relationer The dog sniffs at the meat and the fish. utvärdering The dog sniffs at the meat and the cat sniffs at the fish. 0 1 The the DET SG/PL 2 dog dog N NOM SG 3 sniffs sniff V PRES SG3 4 at at PREP 5 the the DET SG/PL 6 meat meat N NOM SG 7 and and CC 8 the the DET SG/PL 9 cat cat N NOM SG 10 sniffs sniff V PRES SG3 11 at at PREP 12 the the DET SG/PL 13 fish fish N NOM SG/PL 8
Parsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Parsningens olika nivåer
Parsning Språkteknologi DH418 Ola Knutsson 008 Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)
Språkgranskningsverktyg. Grammatikkontroll i Word
Språkgranskningsverktyg Grammatikkontroll i Word Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial.
Obesvarade frågor från F1
Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll
Maskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Grammatifix Svensk grammatikkontroll i MS Word
2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix 3 2.1 Detektering av grammatiska fel i Grammatifix 4 2.1.1 Förbehandling 4 2.1.2
språkgranskning, ht 2007
Maskinöversättning och språkgranskning, ht 2007 Föreläsning 3 Grammatikkontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem
Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson
Grundläggande Textanalys VT 2014 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
2. Utgångspunkter och angreppssätt för automatisk språkgranskning
Översikt och läsanvisning 2. Utgångspunkter och angreppssätt för automatisk språkgranskning Detta kapitel beskriver utgångspunkter och angreppssätt för automatisk språkgranskning för svenska. I kapitlet
Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson
Grundläggande Textanalys VT 2016 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift
Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus
Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word Eva Pettersson UU/Convertus evapet@stp.lingfil.uu.se Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll
Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?
Ordklasser Särdrag, lexikon och syntax Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv, adjektiv, verb, adverb Ständiga nybildningar
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Tekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser
Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,
Grammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix
Morfologi, särdrag, lexikon och syntax Ordbildning och ordböjning Automatisk morfologisk analys Lexikon Särdrag, attribut och värden Syntax När är det bra med morfologi? Stavnings- och grammatikkontroll
Morfologi och automatisk morfologisk analys och generering. Varför är morfologi viktigt? Vad är ett ord (idag vs. i dag)
Morfologi och automatisk morfologisk analys och generering Språkteknologi DH2418 Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver
Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Innehåll Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Olika frastyper och regler för dessa Dependensgrammatik Olika
Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
NORDISKE STUDIER I LEKSIKOGRAFI
NORDISKE STUDIER I LEKSIKOGRAFI Titel: Forfatter: Morfologisk analys och disambiguering som stöd i skapandet av frekvensordlistor Fredrik Westerlund, Sjur Nørstebø Moshagen, Eva Grava og Juhani Birn Kilde:
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Ordklasstaggning (Sätta
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Frasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.
Föreläsningsöversikt Metoder och tillämpningar inom språkteknologin, ht 2006 Språkgranskning evapet@stp.lingfil.uu.se Allmänt om språkgranskning Stavningskontroll Grammatikkontroll Stilkontroll Några exempel
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01
Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan
Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Partiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data
Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen
Lexikon: ordbildning och lexikalisering
Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke
Grammatisk teori II Attributvärdesgrammatik
Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska
Word- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Grammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Cristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Språkgranskningsverktyg. Grammatikkontroll med Scarrie
Språkgranskningsverktyg Grammatikkontroll med Scarrie Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar
Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Grammatisk teori III Praktisk analys
Grammatisk teori III Praktisk analys 1. Satser Till skillnad från fraser har satser inga givna strukturella huvuden. Olika teorier gör olika antaganden om vad som utgör satsens huvud. Den lösning som förespråkas
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Fraser, huvuden och bestämningar
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin
Lingvistiska grundbegrepp
729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Inlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5 2.
Maria Holmqvist x02marho@ida.liu.se Linköpings universitet, IDA 24 april 2003 1 INTRODUKTION...3 1.1 SUPERLÄNKAR...3 1.2 SCOTS...3 1.3 TEXTER...3 1.4 ÖVERSÄTTNING...4 2 RESURSER FÖR ÖVERSÄTTNINGSSYSTEMET...5
Datorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2011 Satser Satserna utgör den mest mångfacetterade
Neurolingvistik - Grammatik
Neurolingvistik - Grammatik Innehåll Grammatik-störningar vid afasi: syndrom, agrammatism och paragrammatism Verbets roll Morfologi - forskning och resultat från olika språk 3 teorier om agrammatism -
Ord och morfologi. Morfologi
Ord och morfologi DD2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Datorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?
Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning. Granska Att skriva regler i Granska.
Statistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Bootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Trädrepresentation. Parentesrepresentation
- 17 - BENGT SIGURD Inst för Fonetik och Lingvistik, LUNDS Universitet Helgonabacken 12, S-22362 LUND REFERENTGRAMMATIK - EN KORT PRESENTATION Satsdelsanalvs (funktionell analvs) I analys av meningar och
Tentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
UPPSALA UNIVERSITET Institution för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf HT 2015 (korrigerad 151126) Depdsgrammatik Dna introduktion till depdsgrammatik försöker följa d standard
Parsning I. Disposition. Parsning användingsområden. Vad menas med parsning inom språkteknologin? Top-down parsning. Parsning som sökning
Parsning I Disposition Ola Knutsson knutsson@nada.kth.se Del 1: Traditionell parsning och parsningsteknik Del 2: Alternativa metoder och synsätt Språkteknologi 2D1418 HT 2001 Parsning användingsområden
Språkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer
UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Satser och satsdelar Översikt i stolpform. Terminologin följer
Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering
Pilotstudie om maskinöversättning inom ramen för Projekt Kursdatabas - Utveckling av språkliga resurser för ett vetenskapsområde samt utvärdering Eva Pettersson evapet@stp.ling.uu.se Uppsala universitet
Språkgranskningsverktyg, vt 2008
, vt 2008 Föreläsning 7 Chartparsning i allmänhet och UCP i synnerhet evapet@stp.lingfil.uu.se 1 Djupstruktur och ytstruktur Jag läste en bok igår Igår läste jag en bok 2 Chartparsning - bakgrund Utvecklades
Innehåll. Morfologi Kan man inte bara köpa de här systemen och plugga in? Varför morfologisk analys?
Morfologi 2002 Ola Knutsson knutsson@nada.kth.se Innehåll Ord och ordbildning Enkel morfologisk analys Tvånivå-modellen Statistisk morfologisk analys När är det bra med morfologi? Morfologisk parsning
Grammatisk teori III - Seminarium
Grammatisk teori III - Seminarium Attributvärdesanalys Gör en attributvärdesanalys av satserna nedan: 1. Länsstyrelsen vill ha fler spår. 2. Piraterna är klara för slutspel. 3. En buss och en stadsjeep
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin
Datorlingvistisk grammatik OH-serie 1: introduktion http://stp.lingfil.uu.se/~matsd/uv/uv09/dlg/ LEKTION 1: innehåll Kursformalia Grammatik formell grammatik. Metod och data (lite). Språkteknologisk relevans.
ORDKLASSERNA I. Ett sätt att sortera våra ord
ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV
ANDREAS ISSA SVENSKA SPRÅKET
ANDREAS ISSA SVENSKA SPRÅKET Kopieringsförbud! Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden. Den som bryter mot lagen om upphovsrätt kan
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka
Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka Håkan Jansson*, Therese Lindström Tiedemann**, Elena Volodina*** *Högskolan Väst, **Helsingfors universitet / Uppsala
Datorlingvistisk grammatik
Datorlingvistisk grammatik Svenskans satser m.m. http://stp.lingfil.uu.se/~matsd/uv/uv10/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Januari 2010 Satser Satserna utgör den mest mångfacetterade
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska
Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-
Automatisk igenkänning av nominalfraser i löpande text
A b str a k t Automatisk igenkänning av nominalfraser i löpande text B jö r n R a u c h S to c k h o lm I uppsatsen redogörs för en samling algoritmer för automatisk nominalfrasmarkering i löpande text.
Automatisk språkgranskning av svensk text
Automatisk språkgranskning av svensk text Ola Knutsson TRITA-NA-0105 Licentiatavhandling Kungliga Tekniska Högskolan Institutionen för numerisk analys och datalogi Automatisk språkgranskning av svensk
Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad
Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort
Datorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Ord och morfologi. Morfologi
Ord och morfologi DH2418 Språkteknologi Johan Boye Morfologi Läran om hur orden är uppbyggda av mindre betydelsebärande enheter som kallas morfem. Morfem tillhör en av två klasser: stam: den grundläggande
Parsning = analys. Parsningsalgoritmer. Användningsområden. L1: Introduktion
Parsning = analys Maskinell analys av naturligt språks strukturer Uppgiften som en parser löser är 1. Acceptera en sträng som grammatisk, samt oftast 2. Ge en strukturell representation av strängen som
Datum: Date: Provkodr: KTR1 Exam code:
Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. En dag upptäcker min treåriga dotter (1) att det finns kärnor i äpplen. En snabb (2) genomgång av hur och varför visar (3) sig bli
Språkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Lingvistik V Satsdelar, huvud- och bisatser
Lingvistik V Satsdelar, huvud- och bisatser 1. Form och funktion I språklig analys gör man en skillnad mellan en konstituents form, dvs hur den är morfologiskt och syntaktiskt uppbyggd, och dess funktion,
Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat
Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på