Språk, datorer och textbehandling



Relevanta dokument
Elementära verktyg för korpusbearbetning

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning

Lingvistik I Delmoment: Datorlingvistik

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Grammatik för språkteknologer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Grammatik för språkteknologer

Lingvistiskt uppmärkt text

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Grammatik för språkteknologer

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Lingvistik I Delmoment: Datorlingvistik

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Kursbeskrivning med litteraturlista HT-13

Lingvistik I Delmoment: Datorlingvistik

729G09 Språkvetenskaplig databehandling

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Facit för diagnostiska provet i grammatik

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Kursinformation och schema Lingvistik 729G08 (6 hp)

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Språk, datorer och textbehandling

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Meningssegmentering i SUC och Talbanken

Grammatik för språkteknologer

Korpusuppbyggnad Från textsamling till korpus

Lingvistiska grundbegrepp

Välkommen till den första delkursen i svenska!

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

grammatik Ordklasser, nominalfraser, substantiv

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

Ordklasser och satsdelar

Nederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng

Datorlingvistisk grammatik

Karp. Övningar Språkbankens höstworkshop oktober 2016

KURSPLAN Engelska, hp, 30 högskolepoäng

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Kort presentation av Korp, Sveriges nationalkorpus

b) Ge minst ett exempel på en tonlös konsonant och dess tonande motsvarighet.

Datorlingvistisk grammatik

Grundläggande textanalys. Joakim Nivre

Tabell 4. Indelningar av enskilda språk och språkfamiljer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

729G09 Språkvetenskaplig databehandling

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

KURSPLAN Engelska, hp, 30 högskolepoäng

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Kort grammatisk översikt tänkt att fungera som studiehandledning till Stroh-Wollin, Koncentrerad nusvensk formlära och syntax, 1998

Kursplan för kurs på grundnivå

Svensk nationell datatjänst, SND BAS Online

Lingvistiskt uppmärkt text

Svenskans struktur, 7,5 hp Tentamensexempel 1

KURSPLAN Engelska, 1-30 hp, 30 högskolepoäng

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Kursbeskrivning med litteraturlista VT-14

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

15410/17 MLB/cc DGC 1A

ANNEX BILAGA. till. förslag till rådets beslut

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN

Svensk minigrammatik

Grammatisk teori II Attributvärdesgrammatik

BILAGA. till. förslaget till rådets beslut

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Kursplan SP1046. Spanska I med didaktisk inriktning 30 högskolepoäng, Grundnivå 1

Språkteknologi. Språkteknologi

EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits

Kursplan för kurs på grundnivå

I Nationalbibliografin redovisad utgivning (monografier)

Satslära introduktion

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

För delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

Engelska B Eller: Engelska 6 (Områdesbehörighet 2/A2 med ett eller flera undantag)

KURSPLAN Engelska, 1-60 hp, 60 högskolepoäng

Love Peace and Understandning

Föreläsningsserie: Introduktion till språk- och litteraturvetenskap

Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv)

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Grammatik skillnader mellan svenska och engelska

SVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle

För delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Satser och satsdelar. 1 Satser och satsdelar inledning. 2 Primära satsdelar predikatet. 2.1 Översikt. Grammatik för språkteknologer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Isländska NOI 320 Isländska, 1-20 p 20? NOI 324 Island: Historia, språk och kultur, 5 p 5? NOI 325 Isländska, inledningskurs, 5 p 5?

Transkript:

Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1

Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla grundläggande kunskaper om datasystem och databehandling som bas för språkvetenskapliga studier och behandlar grundläggande tekniker för språkvetenskaplig bearbetning av stora textsamlingar (korpusar). Fokus ligger på praktisk användning av verktyg för korpusanalys. 2

Kursplan Innehåll och upplägg Begreppen operativsystem och filsystem och deras användning, med praktiska övningar i de datormiljöer som används i utbildningen. Representation och bearbetning i datasystem av text och textelement: teckenrepresentationer och dokumentbeskrivningsspråk. Konstruktion av enkla program för textbearbetning. Introduktion till Internet och WWW. 3

Kursplan Innehåll och upplägg Befintliga språkvetenskapliga korpusar. Separering av ord (tokenisering). Olika kvantitativa analyser. Grammatisk analys och uppmärkning av korpusar. Användning av parallella korpusar (där texter på olika språk som är varandras översättningar ställs jämte varandra). 4

Examination Kunskapskontroll sker genom: obligatoriska labbrapporter seminarier projektuppgift Betyget på kursen bestäms av: den muntliga och skriftliga presentationen av labbarna och projektuppgiften 5

Kurslitteratur och hemsida McEnery, Tony & Andrew Wilson (2001) Corpus linguistics, 2nd edition. Edinburgh: Edinburgh University Press. alt. Tony McEnery, Richard Xiao och Ykiou Tono, 2006. Corpus-Based Language Studies an advanced resource book. Routledge Applied Linguistics Kurssida: http://stp.lingfil.uu.se/~evapet/undervisning/sdt07/ Kompletterande litteratur, läsrekommendationer och diverse intressanta länkar finns på kurssidan! 6

Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Korpusen som begrepp och dess innehåll Korpusannotering Korpustyper Exempel på korpusar 7

Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: textmängd som är föremål för språkvetenskapligt studium Samling språkliga data som: består av en samling skrivna texter eller transkriptioner av talspråk är mer eller mindre representativt för språket i fråga lagras elektroniskt Internet = Världens största korpus! 8

Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: När började man skriva ''mejl'' istället för ''mail''? Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet) 9

Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker 10

Korpusen som begrepp och dess innehåll En korpus i modern lingvistik är inte bara en samling texter, utan uppfyller också (oftast) följande: representativt urval begränsad storlek (inte alltid) elektronisk form standardreferens 11

Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) Biber (Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar: definiera populationen ( sampling frame ) fastställ den hierarkiska strukturen i populationen ( strata ) - genrer, texttyper, ursprung bestäm storleken (vad är den optimala storleken?) 12

Korpusar som standardreferens Korpusar används som standardreferens för jämförande studier: jämför speciell språkanvändning med en standardreferens (korpus) 13

Korpusannotering Att märka upp korpusen med lingvistisk information, ex: Ordklass (part-of-speech) Böjningsinformation (morfo-syntaktisk information) Lemma (grundform, d.v.s. uppslagsord i lexikon) Syntax Fonetik (uttal) - transkription Semantik Annoteringen kan göras för hand eller automatiskt. 14

Ordklasser Ej trivialt hur många ordklasser det finns Traditionellt 9 st: substantiv, adjektiv, verb, pronomen, räkneord, adverb, prepositioner, konjunktioner, interjektioner Ska dessa vara egna ordklasser? subjunktioner, artiklar, particip, verbpartiklar, infinitivmärke, egennamn SUC-korpusen har 23 ordklasser, bl.a. finare adverbindelning och skillnad mellan grundtal och ordningstal 15

Böjningsinformation Substantiv genus (en/ett), numerus (singular/plural), bestämdhet (bestämd/obestämd), kasus (nominativ/genitiv) Verb tempus (presens/preteritum), diates (aktiv/passiv), modus (indikativ/imperativ/konjunktiv) Adjektiv komparationsgrad (positiv/komparativ/superlativ) Pronomen kasus (subjekt/objekt) 16

Syntax Grammatisk analys Frasstruktur nominalfraser, adjektivfraser, adverbfraser, prepositionsfraser, verbfraser Satsdelar subjekt, objekt, adverbial etc. 17

Semantik Av grekiska semainein = betyda, beteckna Beskriver språkliga uttrycks betydelse, till skillnad från syntax som beskriver strukturen Semantisk annotering i korpusar: Ordbetydelse Semantiska relationer (agent, patient etc.) 18

Korpustyper Skriftspråkskorpusar Talspråkskorpusar Balanserade korpusar Består av olika texttyper i bestämda proportioner, avsett att representera ett språk eller en aspekt av ett språk. Monitorkorpusar Korpusen växer ständigt. Möjliggör studier av hur språkbruket förändras över tiden. 19

Fler korpustyper Trädbanker (Grammatiskt uppmärkta korpusar) Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Specialkorpusar Korpusar som utvecklats för att studera en viss språktyp, t.ex. ungdomsspråk eller fornengelska. 20

Välkända korpusar Engelska BNC (British National Corpus, 100 milj ord) Brown corpus (1 milj ord) Svenska SUC (Stockholm-Umeå Corpus, 1 milj ord) PAROLE (19 milj ord) Flerspråkiga Hansard (Kanadensiska parlamentstexter på engelska och franska) EUROPARL (Europaparlamentstexter på EU-språk) JRC-Acquis (Lagtexter från EU) 21

Exempel på korpusar 22

SUC SUC = Stockholm Umeå Corpus Ca 1 miljon löpord Balanserad 500 texter med cirka 2000 ord per text 9 huvudgenrer, med undergenrer, t.ex: K (skönlitteratur) KK allmän skönlitteratur KL deckare och science fiction KN triviallitteratur KR humor Manuellt uppmärkt med ordklass, lemma och böjningsinformation 23

Genreindelning i SUC A. Press: Reportage B. Press: Editorial C. Press: Reviews E. Skills, Trades and Hobbies F. Popular Lore G. Belles Lettres, Biography, Memoirs H. Miscellaneous J. Learned and Scientific Writing K. Imaginative prose 24

Exempel ur SUC <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 25

SUC (ordklasser) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 26

SUC (böjningsinformation) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 27

SUC (lemma) <s id=aa01a-007> <w n=68>särskilt<ana><ps>ab<b>särskilt</w> <w n=69>smygrustningen<ana><ps>nn<m>utr SIN DEF NOM<b>smygrustning</w> <w n=70>vad<ana><ps>ha<b>vad</w> <w n=71>gäller<ana><ps>vb<m>prs AKT<b>gälla</w> <w n=72>missiler<ana><ps>nn<m>utr PLU IND NOM<b>missil</w> <w n=73>oroar<ana><ps>vb<m>prs AKT<b>oroa</w> <d n=74>.<ana><ps>mad<b>.</d> </s> 28

BNC British National Corpus http://www.natcorp.ox.ac.uk/ Ca 100 miljoner löpord Talad (10%) och skriven (90%) brittisk engelska Balanserad Ordklasser och böjningsinformation har tilldelats helt automatiskt 29

Exempel ur BNC <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 30

BNC: ordklasser och böjning <w DT0>Each <w NN1>dance <w VVD-VVN>followed <w AJ0>particular <w NN2>rules <w VVD-VVN>laid <w AVP>down <w PRP>by <w AT0>the <w AJ0-NN1>dancing <w NN2>masters 31

Talspråkskorpusar Göteborg Spoken Language Corpus (GSLC) 1,5 miljoner inspelade ord Transkriberad och uppmärkt med ordklasser London-Lund Corpus (LLC) http://khnt.hit.uib.no/icame/manuals/londlund/ 500 000 ord Talad, brittisk engelska Transkriberad 32

Monitorkorpusar Språkbanken (Göteborgs universitet) http://spraakbanken.gu.se/ Bank of English (COBUILD) Talad och skriven engelska 33

EUROPARL European Parliament Proceedings Parallel Corpus http://people.csail.mit.edu/koehn/publications/europarl/ Parallellkorpus Europaparlamentstexter från perioden 1996-2003 Inkluderar 11 språk: franska, italienska, spanska, portugisiska, engelska, nederländska, tyska, danska, svenska, grekiska och finska Uppmärkt med information om talare 34

JRC-Acquis http://langtech.jrc.it/jrc-acquis.html Parallellkorpus (monitorkorpus) EU-lagtexter Ca 8 000 dokument och 9 miljoner ord per språk Inkluderar 22 språk: Bulgariska, tjeckiska, danska, tyska, grekiska, engelska, spanska, estniska, finska, franska, ungerska, italienska, litauiska, lettiska, maltesiska, holländska, polska, portugisiska, rumänska, slovakiska, slovenska och svenska 35

Länkning Metod för att hitta översättningsrelationer i parallellkorpusar Ett datorprogram parar automatiskt ihop segment i det ena språket med segment i det andra språket meningslänkning ordlänkning 36

Meningslänkning Att para ihop meningar i källspråket (originaldokumentet) med motsvarande meningar i målspråket (den översatta texten) Kan göras automatiskt med mycket hög korrekthet Ex. på ledtrådar som datorn utnyttjar: styckeindelning, meningslängd, lexikon, sifferuttryck och liknande, som inte förändras mellan två språk. Inte alltid ett ett-till-ett-förhållande mellan meningar på de olika språken 37

Meningslänkning, exempel 1:1 I didn't know what to say. Jag visste inte vad jag skulle säga. 2:3 Her brother said to her, ''Why does Ras always say 'longwedge' for - 'language', he talks about African 'longwedges'? Sounds so funny.'' ''Hur kommer det sig att Ras alltid säger 'sprak' i stället för 'språk'? Han talar om afrikanska 'sprak'. Det låter så roligt.'' 2:1 ''Go to hell.'' Emanuelle sat up straight. ''Dra åt skogen!'' sade Emanuelle och satte sig kapprak. 38

Ordlänkning Att para ihop ord och fraser i källspråket (originaldokumentet) med motsvarande ord och fraser i målspråket (den översatta texten) Svårare att uppnå hög korrekthet automatiskt än för meningslänkning Ex. på ledtrådar som datorn utnyttjar stränglikhet samförekomst ordklassuppmärkning lexikon 39

Trädbanker Penn Treebank Engelsk tidningstext (Wall Street Journal) Talbanken En av världens äldsta trädbanker (70-talet) Talad och skriven svenska 40

Exempel ur Talbanken P10120048001 0000 << GM 046 P10120048002 *DESSUTOM ABOC +A 046 P10120048003 KOMMER KVPS FV 046 P10120048004 EN EN SSDT 046 P10120048005 ENSAMSTÅENDE AJ SS SSAT 046 P10120048006 FOLKPENSIONÄR NN HS SS 046 P10120048007 ATT IM IM 046 P10120048008 KUNNA QVIV IV 046 P10120048009 HA HVIV IX 046 P10120048010 EN EN OODT 046 P10120048011 INKOMST NN OO 046 P10120048012 OM PR OOETPR 046 P10120048013 1500 RO OOETDT 046 P10120048014 KR NN OOET 046 P10120048015 VID PR AAPR 046 P10120048016 SIDAN ID AAPR 046 P10120048017 AV ID AAPR 046 P10120048018 FOLKPENSIONEN NNDDSS AA 046 P10120048019 1000 +F +F 046 P101200480201000 OCH ++ ++ 046 P101200480211000 ÄNDOCK ABMN +B 046 P101200480221000 BLI BVIV FV 046 P101200480231000 SKATTEFRI AJ SP 046 P10120048024. IP IP 046 41

ASU-korpusen Andraspråkets StrukturUtveckling Specialkorpus inriktad mot studier av svenskt inlärarspråk i dess utvecklingsfaser och jämförelser mellan inlärares och inföddas språkbruk Inspelade samtal och skrivna texter från vuxna inlärare av svenska Kompletterad med jämförbart material från infödda svenskar 490 000 löpord (415 000 ord samtal och 75 000 ord skrift) 42

Nästa gång Mer om korpusannotering Textkodning Textnormalisering 43