Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Relevanta dokument
Elementära verktyg för korpusbearbetning

Lingvistik I Delmoment: Datorlingvistik

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Språk, datorer och textbehandling

Lingvistik I Delmoment: Datorlingvistik

Datorbaserade verktyg i humanistisk forskning

Lingvistik I Delmoment: Datorlingvistik

Datorbaserade verktyg i humanistisk forskning

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Korpuslingvistik vt 2007

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpusuppbyggnad Från textsamling till korpus

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpuslingvistik vt 2007

Grundläggande textanalys. Joakim Nivre

729G09 Språkvetenskaplig databehandling

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Tekniker för storskalig parsning

Grammatik för språkteknologer

Språk, datorer och textbehandling

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Korpusmått, korpusbalans och korpusrepresentativitet

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Grammatik för språkteknologer

Grammatik för språkteknologer

Grammatik för språkteknologer

Språkteknologi och Open Source

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning: Grundbegrepp

Lingvistiska grundbegrepp

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Datorlingvistisk grammatik

Datorlingvistisk grammatik

Tekniker för storskalig parsning

Teoretisk lingvistik och datalingvistik. Robin Cooper

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Lingvistiskt uppmärkt text

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Meningssegmentering i SUC och Talbanken

Tekniker för storskalig parsning

Korpussökning och korpusmått 1(44)

Ordförråd och Ordbildning

Kungliga Tekniska Högskolan Patrik Dallmann

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

Introduktion till språkteknologi. Datorstöd för språkgranskning

Språk, datorer och textbehandling

HUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng

Karp. Övningar Språkbankens höstworkshop oktober 2016

Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text

Språk, datorer och textbehandling

Statistisk grammatikgranskning

Korpusar och deras användning

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Inlämningsuppgift: Pronomenidentifierare

Svensk nationell datatjänst, SND BAS Online

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Partiell parsning Parsning som sökning

Målet är att ge maskiner förmågan att plocka ut information ur

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Språkteknologi. Språkteknologi

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

729G09 Språkvetenskaplig databehandling

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Språk, datorer och textbehandling

Ord, lexem, ordformer (repetition) Ord och morfem (repetition) Fraser/konstituenter (repetition) Grammatisk analys i språkteknologin

Frasstrukturgrammatik

Maskinöversättning möjligheter och gränser

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

MÖSG ht 2005 Maskinöversättningssystemet MATS

Kort presentation av Korp, Sveriges nationalkorpus

Tentamen Del A. Marco Kuhlmann

Tentamen Marco Kuhlmann

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Språkteknologiprogrammet

REGERINGSRÄTTENS BESLUT

Suffixet som kom smygandes tillbaka

Svenskans digitala resurser. Elzbieta Strzelecka

Transkript:

Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet som korpus Mattias Nilsson mattias.nilsson@lingfil.uu.se Vad är en korpus? En större samling språkliga data hämtade från autentiskt språkbruk Inom språkteknologin ofta synonymt med en elektroniskt lagrad textsamling sammanställd enligt fördefinierade urvalskrav annoterad med lingvistisk information textsamling = skriftspråk, talspråk (tal) viktig resurs i både lingvistik och språkteknologi Vad är korpuslingvistik? Språkforskning baserad på empiriska data Gammal idé men främst förverkligad de senaste 20 åren genom modern teknik och tillgång till maskinläsbar text Rationalism vs. Empirism Kvantitativa språkstudier: Frekvensanalys. Testa här (för engelska): http://www.natcorp.ox.ac.uk/ Kollokation Sekvens av ord som ofta förekommer i samma kontext Konkordans En lista av förekomster av ett ord eller ordsekvens med tillhörande kontext. Testa här: http://spraakbanken.gu.se/lb/konk/ Korpusdata som underlag till statistiska modeller för automatisk språkanalys. Stor användning inom nästan alla språkteknologiska tillämpningsområden: Maskinöversättning Taligenkänning och talteknologi Automatisk grammatisk analys, d.v.s. parsning Lexikonskapande m.m. m.m. 1

1980-tal Datorlingvistiken starkt influerad av samtida lingvistisk teori Symboliska och regelbaserade metoder dominerar Every time I fire a linguist the performance of the recognizer goes up (F. Jelinek, IBM Research Group) Problem med regelbaserade system Språkliga konstruktioner betraktas som acceptabla eller icke acceptabla. Ingen gradskillnad. Inga preferensregler bland tvetydiga satser 1990-tal, 2000-tal, idag! dominerar Preferens och gradskillnad uttrycks m.h.a sannolikhet Statistiska metoder är robusta (man får alltid ett svar) Maskininlärning: Datorn lär sig automatiskt från exempel (korpusdata) Korpustyper Balanserad En balanserad korpus utgör ett representativt sampel av ett språk och täcker in olika texttyper och stilististiska varianter av språket Monitor/Open-ended ständigt växande, sammansättningen växlar (t.ex. Bank of English) Parallellkorpus består av samma texter på olika språk (t.ex.europarl) Synkron (samtida) diakron (historisk) Korpusurval (Sampling) En korpus bör fungera som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Genom att undersöka ett representativt sampel kan vi dra slutsatser om populationen i stort Därför viktigt att åstadkomma ett representativt sampel Precis som i opinionsundersökningar! Korpussammanställning Att tänka på innan man påbörjar en korpusinsamling Vad är syftet med korpussammanställningen? Vilken/vilka genrer skall korpusen täcka? Hur väljer vi ett representativt sampel för den/de genrer vi vill täcka? Hur stor bör min korpus vara för att vara relevant? Vilken lingvistisk information skall annoteras? Annotering Uppmärkning av korpusen med lingvistisk information Manuell annotering görs för hand, tidskrävande kräver expertkunskap risk för inkonsekventa fel Automatisk annotering utförs av program, snabb kräver data att lära sig ifrån konsekventa fel 2

Annotering Ordklass / morfosyntaktisk annotering Lemmatisering Syntaktisk annotering (parsning) Semantisk annotering Textlingvistisk annotering (stil, diskurs) Fonetisk annotering Annotering Ordklasstaggning bestämning av ordklass traditionella ordklasser: substantiv, adjektiv, verb etc. dock ej självklart vilka eller hur många ordklasser som faktiskt finns morfosyntaktisk bestämning: genus, numerus, bestämdhet etc. Vad avgör graden av specificitet? syftet med taggningen språkets uppbyggnad (rik morfologi rik tagguppsättning) SUC - Stockholm Umeå Corpus Ca 1 miljon löpord Balanserad, svensk 1900-talstext 500 texter med ca 2000 ord per text 9 huvudgenrer med undergenrer, t.ex. K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KR humor Manuellt uppmärkt med ordklass och lemma samt morfosyntaktiska särdrag, såsom kasus genus och numerus Exempel ur SUC Brown Corpus Pionjärkorpus Sammanställdes och datalagrades redan i början av 60- talet vid Brown University. Tidig modell för många korpora av samma typ (t.ex. SUC) Ej ordklasstaggad Ca 1 miljon löpord skriven amerikansk engelska BNC - British National Corpus Ca 100 miljoner löpord talad och skriven brittisk engelska Balanserad Automatiskt ordklasstaggad utan manuell efterredigering 61 olika taggar Delmängd på 2 miljoner ord rikare taggad och manuellt efterredigerad 139 olika taggar 3

Exempel ur BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJO-NN1>dancing <w NN2>masters Lemmatisering Bestämning av grundform Exempel på lemmatiserade korpusar: Susanne - Surface and underlying structural analysis of natural english 130 000 löpord skriven amerikansk engelska SUC Lemmatisering i Susanne A01:0460a - AT The the [O[S[Ns:s. A01:0460b - NN1c jury jury.ns:s] A01:0460c - VVDv said say [Vd.Vd] A01:0460d - PPH1 it it [Fn:o[Ni:s.Ni:s] A01:0460e - VVDt found find [Vd.Vd] A01:0460f - AT the the [Fn:o[Ns:s. A01:0460g - NNJ1n court court.ns:s] A01:0460h - YIL <ldquo> -. A01:0460i - VHZ +has have [Vzf. A01:0460j - VVNv incorporated incorporate.vzf] A01:0460k - II into into [P:t. A01:0470a - APPGh1 its its [Np. A01:0470b - VVGv operating operate [Tg[Vg.Vg]Tg] A01:0470c - NN2 procedures procedure.np]p:t] A01:0470d - AT the the [Np:o. A01:0470e - NN2 recommendations recommendation. Syntaktisk annotering Parsning, d.v.s. grammatisk analys av texten Automatisk parsning ger lägre precision än automatisk ordklasstaggning. Trädbank = syntaktiskt annoterad korpus frasstruktur (S, NP, VP, AP, etc.) dependensstruktur (subjekt, objekt, adverbial etc.) The Penn Treebank: ca 1 miljon löpord http://www.cis.upenn.edu/~treebank/ Frasstruktur i The Penn Treebank ( (S (NP-SBJ (NNP Rolls-Royce) (NNP Motor) (NNPS Cars) (NNP Inc.) ) (VP (VBD said) (SBAR (-NONE- 0) (S (NP-SBJ (PRP it) ) (VP (VBZ expects) (S (NP-SBJ (PRP$ its) (NNP U.S.) (NNS sales) ) (VP (TO to) (VP (VB remain) (ADJP-PRD (JJ steady) ) (PP-LOC-CLR (IN at) (NP (QP (IN about) (CD 1,200) ) (NNS cars) )) (PP-TMP (IN in) (NP (CD 1990) ))))))))) (..) )) Semantisk annotering Två typer: 1.Uppmärkning av semantiska relationer (agent, patient etc.) FrameNethttp://framenet.icsi.berkely.edu/ 2.Uppmärkning av ordbetydelse, t.ex. lexikala relationer (synonymi, hyponymi etc.) WordNet http://wordnet.princeton.edu/ 4

Textlingvistisk annotering Diskurstaggar London-Lund Corpus of Spoken English: ursäkter, sorry hälsningar, hello artighetsfraser, please m.fl. Anaforisk annotering (pronomenreferens) Fonetisk annotering Transkribering MARSEC: The Machine Readable Spoken English Corpus Prosodi London-Lund Corpus of Spoken English Parallellkorpusar Hansard engelsk-fransk parallellkorpus bestående av kanadensiska parlamentsprotokoll ca 15 miljoner löpord delvis taggad och parsad EuroParl parallellkorpus bestående av officiella Europaparlamentstexter tillgängliga på 11 olika EU-språk ca 20 miljoner löpord; 740 000 meningar per språk http://people.csail.mit.edu/koehn/publications/europarl Parallellkorpusar - användningsområden Maskinöversättning Flerspråkiga lexikon Flerspråkig informationssökning Andraspråksinlärning Internet som korpus Enorm mängd data Fritt tillgänglig Ständigt uppdaterad, blir ej omodern Konkordans baserad på träffar i olika sökmotorer: Testa här: http://www.webcorp.org.uk/ Problematik annotering (endast ordformer är sökbara) balans: ingen möjlighet att begränsa sökningar till en viss stil eller genre upphovsrätt 5