Elementära verktyg för korpusbearbetning

Relevanta dokument
Språk, datorer och textbehandling

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Lingvistik I Delmoment: Datorlingvistik

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik

Grammatik för språkteknologer

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Grammatik för språkteknologer

Lingvistiskt uppmärkt text

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Grammatik för språkteknologer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpusuppbyggnad Från textsamling till korpus

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Kursbeskrivning med litteraturlista HT-13

Meningssegmentering i SUC och Talbanken

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Språk, datorer och textbehandling

729G09 Språkvetenskaplig databehandling

Svenskans struktur, 7,5 hp Tentamensexempel 1

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Facit för diagnostiska provet i grammatik

Välkommen till den första delkursen i svenska!

Nederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Ordklasser och satsdelar

Grundläggande textanalys. Joakim Nivre

Korpuslingvistik vt 2007

KURSPLAN Engelska, hp, 30 högskolepoäng

grammatik Ordklasser, nominalfraser, substantiv

Grammatik för språkteknologer

Lingvistiskt uppmärkt text

KURSPLAN Engelska, hp, 30 högskolepoäng

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Karp. Övningar Språkbankens höstworkshop oktober 2016

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Datorlingvistisk grammatik

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Tabell 4. Indelningar av enskilda språk och språkfamiljer

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Kort presentation av Korp, Sveriges nationalkorpus

Grammatisk teori II Attributvärdesgrammatik

Lingvistiska grundbegrepp

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Kursbeskrivning med litteraturlista VT-14

KURSPLAN Engelska, 1-60 hp, 60 högskolepoäng

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

KURSPLAN Engelska, 1-30 hp, 30 högskolepoäng

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Svensk minigrammatik

Föreläsningsserie: Introduktion till språk- och litteraturvetenskap

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Datorlingvistisk grammatik

Korpusmått, korpusbalans och korpusrepresentativitet

Svensk nationell datatjänst, SND BAS Online

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

729G09 Språkvetenskaplig databehandling

BETYGSKRITERIER OCH BETYGSÄTTNING

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

TENTAMEN: Svenskans struktur, 7,5 högskolepoäng inom Svenska språket/nordiska språk A och som enskild kurs

Språk, datorer och textbehandling

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Uppsala universitet Institutionen för nordiska språk. TENTAMEN: Svenskans struktur, 7,5 högskolepoäng för Svenska språket/nordiska språk A

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Lingvistik II Ord, ordklasser, lexikon. Mikael Svensson Lingvistik, 2 April

Engelska B Eller: Engelska 6 (Områdesbehörighet 2/A2 med ett eller flera undantag)

Grammatik skillnader mellan svenska och engelska

SUBSTANTIV = namn på saker, personer, känslor

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Översikt i stolpform. Terminologin följer i stort sett Gunlög Josefsson (2009), Svensk universitetsgrammatik för nybörjare, Lund: Studentlitteratur.

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Språk, datorer och textbehandling

Kursinformation och schema Lingvistik 729G08 (6 hp)

ORDKLASSERNA I SVENSKA SPRÅKET

Syntax, Ordklasser och Satsdelar. Allmän Grammatik och Fonetik HT10 Dag 3

Ordklasser. Varför ordklasser? Morfologi. Litet test: Ange ordklasser. Klassificeringsprinciper. Litet test: Ange ordklasser

Kursplan för kurs på grundnivå

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Kursplan för kurs på grundnivå

Svenska Ämnets syfte och roll i utbildningen Mål att sträva mot Lyssna/tala Läsa

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

Satslära introduktion

Grundläggande syntaktiska funktioner och roller

Transkript:

Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1

Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar grundläggande tekniker för språkvetenskaplig bearbetning av stora textsamlingar (korpusar). Tyngdpunkten ligger på praktisk användning av verktyg för korpusanalys. 2

Kursplan Innehåll och upplägg Texturval och representativitet. Olika sätt att representera text i datorer. Olika språk olika teckenuppsättningar. Befintliga språkvetenskapliga korpusar. Separering av ord och meningar. Olika kvantitativa analyser. Grammatisk analys och uppmärkning av korpusar. Användning av parallella korpusar, där texter på olika språk som är varandras översättningar ställs jämte varandra. Korpusbaserad lexikografi. 3

Examination Kunskapskontroll sker genom: obligatoriska labbrapporter projektuppgift Betyget på kursen bestäms av: labbarna den muntliga och skriftliga presentationen av projektuppgiften 4

Kurslitteratur och hemsida Tony McEnery, Richard Xiao och Ykiou Tono, 2006. Corpus Based Language Studies an advanced resource book. Routledge Applied Linguistics Kurssida: http://stp.lingfil.uu.se/~evapet/undervisning/ ElemKorpLing/ Kompletterande litteratur, läsrekommendationer och diverse intressanta länkar finns på hemsidan! 5

Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering Korpustyper Exempel på korpusar 6

Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: textmängd som är föremål för språkvetenskapligt studium Samling språkliga data som: består av en samling skrivna texter eller transkriptioner av talspråk är mer eller mindre representativt för språket i fråga lagras elektroniskt Internet = Världens största korpus! 7

Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: När började man skriva ''mejl'' istället för ''mail''? Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80 talet) 8

Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker 9

Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: representativt urval begränsad storlek (inte alltid) elektronisk form standardreferens 10

Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: definiera populationen ( sampling frame ) fastställ den hierarkiska strukturen i populationen ( strata ) genrer, texttyper, ursprung bestäm storleken (vad är den optimala storleken?) 11

Korpusar som standardreferens Korpusar används som standardreferens för jämförande studier: jämför speciell språkanvändning med en standardreferens (korpus) 12

Korpusannotering Att märka upp korpusen med lingvistisk information, ex: Ordklass (part of speech) Böjningsinformation (morfo syntaktisk information) Lemma (grundform, d.v.s. uppslagsord i lexikon) Syntax Fonetik (uttal) transkription Semantik Annoteringen kan göras för hand eller automatiskt. 13

Ordklasser Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC korpusen 23 ordklasser, bl.a. finare adverbindelning och skillnad mellan grundtal och ordningstal 14

Böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt) 15

Syntax Grammatisk analys Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser Satsdelar subjekt, objekt, adverbial etc. 16

Semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: Ordbetydelse Semantiska relationer (agent, patient etc.) 17

Annoteringsprinciper (Leech 1993) En annoterad korpus ska kunna återställas till sin oannoterade form Annoteringen ska gå att extrahera från texten för att sparas separat Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren Det ska klargöras hur och av vem annotationen gjordes Slutanvändaren ska informeras om att annoteringen inte är God's truth utan endast ett användbart verktyg Annoteringsscheman ska baseras på accepterade och teori neutrala principer Inget annoteringsschema är en standard på förhand. Standarder växer fram. 18

Korpustyper Skriftspråkskorpusar Talspråkskorpusar Balanserade korpusar Består av olika texttyper i bestämda proportioner, avsett att representera ett språk eller en aspekt av ett språk. Monitorkorpusar Korpusen växer ständigt. Möjliggör studier av hur språkbruket förändras över tiden. 19

Fler korpustyper Trädbanker (Grammatiskt uppmärkta korpusar) Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Specialkorpusar Korpusar som utvecklats för att studera en viss språktyp, t.ex. ungdomsspråk eller fornengelska. 20

Välkända korpusar Engelska BNC (British National Corpus, 100 milj ord) Brown corpus (1 milj ord) Svenska SUC (Stockholm-Umeå Corpus, 1 milj ord) PAROLE (19 milj ord) Flerspråkiga Hansard (Kanadensiska parlamentstexter på engelska och franska) EUROPARL (Europaparlamentstexter på EU-språk) 21

Exempel på korpusar 22

SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation 23

Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose 24

Exempel ur SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 25

SUC (ordklasser) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 26

SUC (böjningsinformation) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 27

SUC (lemma) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 28

BNC British National Corpus http://www.natcorp.ox.ac.uk/ Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt 29

Exempel ur BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 30

BNC: ordklasser och böjning <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 31

Talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) 1,5 miljoner inspelade ord Transkriberad och uppmärkt med ordklasser London Lund Corpus (LLC) http://khnt.hit.uib.no/icame/manuals/londlund/ 500 000 ord Talad, brittisk engelska Transkriberad 32

Monitorkorpusar Språkbanken (Göteborgs universitet) http://spraakbanken.gu.se/ Bank of English (COBUILD) Talad och skriven engelska 33

EUROPARL European Parliament Proceedings Parallel Corpus http://people.csail.mit.edu/koehn/publications/europarl/ Parallellkorpus Europaparlamentstexter från perioden 1996 2003 Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare 34

Trädbanker Penn Treebank Engelsk tidningstext (Wall Street Journal) Talbanken En av de äldsta trädbankerna (70 talet) Talad och skriven svenska 35

Exempel ur Talbanken P10120048001 0000 << GM 046 P10120048002 *DESSUTOM ABOC +A 046 P10120048003 KOMMER KVPS FV 046 P10120048004 EN EN SSDT 046 P10120048005 ENSAMSTÅENDE AJ SS SSAT 046 P10120048006 FOLKPENSIONÄR NN HS SS 046 P10120048007 ATT IM IM 046 P10120048008 KUNNA QVIV IV 046 P10120048009 HA HVIV IX 046 P10120048010 EN EN OODT 046 P10120048011 INKOMST NN OO 046 P10120048012 OM PR OOETPR 046 P10120048013 1500 RO OOETDT 046 P10120048014 KR NN OOET 046 P10120048015 VID PR AAPR 046 P10120048016 SIDAN ID AAPR 046 P10120048017 AV ID AAPR 046 P10120048018 FOLKPENSIONEN NNDDSS AA 046 P10120048019 1000 +F +F 046 P101200480201000 OCH ++ ++ 046 P101200480211000 ÄNDOCK ABMN +B 046 P101200480221000 BLI BVIV FV 046 P101200480231000 SKATTEFRI AJ SP 046 P10120048024. IP IP 046 36

ASU-korpusen Andraspråkets StrukturUtveckling Specialkorpus inriktad mot studier av svenskt inlärarspråk i dess utvecklingsfaser och jämförelser mellan inlärares och inföddas språkbruk Inspelade samtal och skrivna texter från vuxna inlärare av svenska Kompletterad med jämförbart material från infödda svenskar 490 000 löpord (415 000 ord samtal och 75 000 ord skrift) 37

Nästa gång Samläsning med studenter på Språkteknologiprogrammet Mer om korpusannotering Textkodning Textnormalisering 38