Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

Relevanta dokument
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 1

Korp. Övningar Språkbankens höstworkshop oktober 2016

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Kort presentation av Korp, Sveriges nationalkorpus

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

729G09 Språkvetenskaplig databehandling

Lingvistiskt uppmärkt text

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Elementära verktyg för korpusbearbetning

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

Grammatik för språkteknologer

GU-ISS Korp 6 - Användarmanual

Lingvistik I Delmoment: Datorlingvistik

Datorbaserade verktyg i humanistisk forskning

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Språkteknologi och Open Source

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Karp. Övningar Språkbankens höstworkshop oktober 2016

Datorbaserade verktyg i humanistisk forskning

Sofie Johansson Kokkinakis

Svensk nationell datatjänst, SND BAS Online

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Grundläggande textanalys. Joakim Nivre

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Språkteknologi (SV2122) Föreläsning 3: Programmering i Python

Svenskans digitala resurser. Elzbieta Strzelecka

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Informationssökning. Joakim Nivre. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data

Språkbanken en (inter)nationell forskningsinfrastruktur

Kursplan i svenska Skriva. Förskoleklass Skriva sitt namn Spåra och rita mönster Träna skrivriktning Träna pennfattning

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Meningssegmentering i SUC och Talbanken

Mediafostran och användandet av nya kommunikativa redskap påbörjas redan på nybörjarstadiet.

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Sovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Mål som eleverna skall ha uppnått i slutet av det femte skolåret.

ÄLTA SKOLAS LOKALA KURSPLAN

Korpusuppbyggnad Från textsamling till korpus

Maskinöversättning 2008

En dansk version av detta dokument kan laddas ned här: people/hagerman/retningslinjer.pdf (pdf, 500 kb)

Tema Antiken år 6 Svenska

Korpuslingvistik vt 2007

INNEHÅLLSFÖRTECKNING... 1 INLEDNING ORDBOKEN I VERKTYGSLISTEN ORDBOKEN... 3

Nordiska språk. Cecilia Jonsson Smedshagsskolan

GU-ISS Korpblickar. om möjliga ingångar med sökverktyget Korp för studier av orden tänka och tanke i korpusar.

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

729G09 Språkvetenskaplig databehandling

Skrivstrategier. En framgångsrik språkinlärare: Tror på sin förmåga att lära sig. Är motiverad. Är medveten om varför hon/han vill lära sig

En jämförelse av ilex och Elan

Grammatik för språkteknologer

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Prövning i Engelska 5, ENGENG05, 100 poäng

ORDKLASSERNA I. Ett sätt att sortera våra ord

Kvantitativ samhällsanalys med språkteknologiska metoder.

Datum: Date: Provkodr: KTR1 Exam code:

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Korpuslingvistik (SV2119) Föreläsning 4: Statistiska metoder

Tekniker för storskalig parsning

Persiska. Albin Finne. Mark Peldius D1418 Språkteknologi

Datum: Date: Provkodr: KTR1 Exam code:

Språkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren

Ordbok arabiska - svenska

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Inlämningsuppgift: Pronomenidentifierare

Statistisk grammatikgranskning

X som en gnu. GÖTEBORGS UNIVERSITET Institutionen för svenska språket. [adjektiv/verb] + [som] + [en] + [gnu] Linn Trieb

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

grammatik Ordklasser, nominalfraser, substantiv

Arbetsplan i Thailändska

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

Influensarapport för vecka 11, 2015 Denna rapport publicerades den 19 mars 2015 och redovisar influensaläget vecka 11 (9/3-15/3).

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

MANUAL BISNODE NORDIC BUSINESS MONITOR

Cristina Eriksson oktober 2001

Transkript:

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering Richard Johansson richard.johansson@svenska.gu.se 24 januari 2014

översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning

vad är korpusar och korpuslingvistik? korpusar är samlingar med autentiska texter, utvalda, datoriserade, och annoterade (lingvistiskt analyserade), med ett syfte i åtanke, (SAOL sg. en korpus, pl. korpusar; engelska sg. corpus, pl. corpora)

(stora) textsamlingar... text = skriftspråk, (transkriberat) talspråk... typiskt miljoner ord: SUC (Stockholm Umeå Corpus): 1 miljon ord [publicerat skriftspråk] Språkbankens moderna korpustexter >1 miljard ord, mest skriftspråk BNC (British National Corpus) och andra nationella korpusar 100 miljoner ord [skrift/talspråk]

... utvalda... korpussammanställning är som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldenierad population för att kunna ställa frågor och få svar som ger (statistiskt) signikant information om populationen

... och annoterade... metadata på olika nivåer tid författare (och information om författaren) kategori... strukturmärkning morfologisk analys och disambiguering / ordklass-taggning syntaxanalys (trädbanker) länkning (av parallellkorpusar) länkning (av modaliteter) språkfel dialogakter...

... med ett syfte i åtanke korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vitt och vagt korpusarna kan ofta vara användbara för andra syften också tänkbara syften: språkvetenskapligt: empirisk lingvistisk forskning (belägg, frekvens) kulturvårdande: bevarande och tillgängliggörande av äldre texter, döda eller döende språk språkteknologiskt

... användning av korpusar i språkteknologin utvärdering: jämförelse av ett automatiskt verktyg med facit (gold standard) vår ordklassmärkare hittar rätt ordklass för 97% av orden i vår testkorpus utveckling: språkteknologiska verktyg är ofta uppbyggda genom att ett program observerar språk och lär sig av det sannolikheten att hälsa är ett substantiv är 85% sannolikheten att ett verb följs av ett substantiv är 60%

typer av korpusar modalitet: skrivet, talat, tal, tecknat, multimodal språktyp, genre, etc. språk: ett, två, många; relation mellan språken (parallell, jämförbar) storlek typ av annotering: ingen, morfologisk, syntaktisk,...

några korpusar, exempel: typisk blandad SUC (allmänsvenskt skriftspråk): 500 texter om c:a 2000 ord 9 huvudgenrer, med undergenrer: K imaginative prose KK general ction KL science ction and mystery KN light reading KR humour Brown corpus (Francis & Ku era, 1964)

några korpusar, exempel: begränsad mängd Skriven nsk romani (Borin et al): c:a 110.000 ord en betydande del av den totala skrivna produktionen på nsk romani

några korpusar, exempel: parallella Europarl: http://www.statmt.org/europarl Europaparlamentsprotokoll 19962006 Protokollen översätts till alla medlemsspråk 20 språk, 1050 miljoner ord/språk Alla språk länkade meningsvis till engelska EN: Technical requirements for inland waterway vessels (vote) ET: Siseveelaevade tehnilised nõuded (hääletus) SV: Tekniska föreskrifter för fartyg i inlandssjöfart (omröstning) Föregångaren: Hansard (engelskafranska) Bibeln (eller delar av den) på 100 språk: http://homepages.inf.ed.ac.uk/s0787820/bible/

några korpusar, exempel: jämförbar Wikipedia (http://sv.wikipedia.org,... ) länkad artikelartikel (287 språk) texterna likartade men inte översatta innehåller också användbar halvstrukturerad information Sverige, ociellt Konungariket Sverige (info), är ett nordiskt land på Skandinaviska halvön i Nordeuropa. Sverige har landgräns i väst med Norge (svensk-norska gränsen) och i nordost med Finland, samt en fast förbindelse över havet med Danmark via Öresundsbron i sydväst. Med en area på 449 964 km 2 är Sverige det storleksmässigt femte största landet i Europa och har en befolkning på 9,5 miljoner människor. Sverige har en låg befolkningstäthet med 21 invånare per km 2 men med en betydligt högre täthet i södra halvan av landet.... La Svèsia (449 964 km 2 ; 9 082 995) la xe un Stado del nord de l'eoropa inte la Penisola Scandinava. La so cavedal la xe Stocolma che La gà 765 044 abitanti. Altre cità importante le xe Göteborg, Uppsala, Malmö e Lund. La conna co la Norveja a nord-ovest e co la Finlandia a est; la xe coligada co la Danimarca traverso del Ponte del Øresund. La xe bagnà dal Mar Baltego. La ga na densità demografega pitosto bassa e despensada iregolarmente. El so teritorio el xe sior de legne, fero e aqua. I Svedesi i gode de un bon livel de vita...

några korpusar, exempel: talat barnspråk CHILDES (http://childes.psy.cmu.edu) *NOR: did you wash your hands Jinny? *JIN: yeah. *NOR: you did already? *JIN: already. *NOR: you forgot the candy off from around your mouth huh? <n is wiping J's face> *JIN: yeah. *NOR: <laughs> okay <% N goes back to sit down>. *JIN: do I look dirty?

översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning

konkordanser konkordans: de olika sammanhangen för ett ord, för t.ex. lexikogra, översikt över olika betydelser undervisning och självstudier Språkbankens sökverktyg Korp är ett konkordansverktyg http://spraakbanken.gu.se/korp

korpusar i Språkbanken http://spraakbanken.gu.se/swe/resurser/corpus modern dagstidningstext modern romantext populärvetenskap sociala medier (bloggar, twitter) 1800-talslitteratur (Litteraturbanken) medeltida text (fornsvenska) färöisk textkorpus (dagstidningstext) parallella korpusar (skönlitteratur) inlärarkorpusar... och en hel rad andra

fördelning Bloggar: 392M Tidningar: 304M Twitter: 250M Wikipedia: 122M Web: 115M Finlandssvenskt: 66M Vetenskapligt: 46M Riksdag och EU-parlament: 38M Romaner: 22M... Totalt: 1402M

om annotering för att göra intressantare analyser behöver vi mer information än bara texten i sig annoteringsmodell: hur beskriver vi vad som nns i korpusen? vilka enheter nns? texter, meningar, ord,...? hur är enheterna relaterade? vilka attribut har respektive enhet? textens författare, publiceringsdatum,...? ordets böjningsform,...?

annotering i Språkbankens korpusar vilka enheter nns? korpusar, dokument, meningar, ord hur hänger enheterna ihop? en korpus består av dokument ett dokument består av meningar en mening består av ord ett ord består av fritext ett ord kan vara länkat till ett annat ord genom dependensrelation vilken information nns om enheterna? ett dokument har textattribut (korpusberoende) ett ord har ordattribut

ordattribut ordet i sig grundform ordklass, t.ex. verb formbeskrivning (msd), t.ex. verb presens aktiv förled och efterled i sammansättning...

varifrån kommer annoteringen? korpusar och dokument är givna (eller manuellt indelade) texterna är antingen elektroniska i ursprungsformen (t.ex. GP) eller digitaliserade (ibland med OCR) i de esta fall automatiskt indelade i ord och meningar i de esta fall automatiskt lingvistiskt analyserade

enkla sökningar i Korp sökning på enskilt ord sökning på grundform välj korpusar att söka i tips: om det går väldigt långsamt, välj ett mindre antal korpusar resultatikar: KWIC, statistik, ordbild

statistik sammanställning och rangordning exportera

ordbild visar vanliga syntaktiska sammanhang adjektiv: vanliga substantiv substantiv: vanliga adjektiv, prepositioner och verb verb: vanliga substantiv och adverbial

utökade sökningar i Korp sök på ordattribut kombination av villkor: och, eller sökning på en kombination samma resultatikar: KWIC, statistik, ordbild

exempel verb som följs av Göteborg? vanligaste substantiv i partiprogrammen inför valet 2002?

trenddiagram: exempel på en neologism välj visa trenddiagram under statistikiken

översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning

annoteringsmodell för att göra intressantare analyser behöver vi mer information än bara texten i sig annoteringsmodell: hur beskriver vi vad som nns i korpusen? med en formaliserad vokabulär och struktur vilka enheter nns? texter, meningar, ord,...? hur är enheterna relaterade? vilka attribut har respektive enhet? textens författare, publiceringsdatum,...? ordets böjningsform,...? bygger kanske på någon lingvistisk teori, men konkretiserat

att standardisera sin lingvistiska vokabulär deniera i förväg vilka kategorier som ska beskrivas exempel: ordklass: verb, substantiv, preposition,... fraser: verbfras, nominalfras,... i många fall kan det vara möjligt att använda kategorier som redan är denierade i en standard som ISOcat då kan man slippa återuppnna hjulet, och det blir lättare att återanvända i andra sammanhang http://spraakbanken.gu.se/swe/forskning/saldo/taggmängd http://www.isocat.org/rest/dc/1333

exempel: syntaktiska relationer i Talbanken/MAMBA

annoteringsmanual / specikationer när vi har vår modell är det dags att skriva ned den i en praktisk manual manualens kvalitet påverkar resultatets kvalitet kan behöva xas efter hand några lämpliga saker att ta med annoteringsprojektets syfte en denition av de begrepp som modellen innehåller... och praktiska förklaringar av hur de ska användas en lagom mängd exempel beskriv svåra fall, gråzoner beskrivning av praktiska frågor t.ex. arbetsgång och verktyg

exempel: Karins manual

exempel: MAMBA

exempel på annotering i text: namnannotering KARLSTADSRESAN. I. Vad man än kan ha emot Thea Sundler, så får man erkänna, att hon bättre än någon annan förstod sig på att handskas med Karl-Artur Ekenstedt. Om man till exempel tänker på Charlotte Löwensköld, så hade hon också velat förmå honom att resa till Karlstad och försona sig med sin mor. Men för att beveka honom härtill hade hon påmint honom om allt det, som modern hade varit för honom, och till sist hade hon verkligen försökt skrämma honom med att han inte skulle kunna predika så bra som hittilldags, om han visade sig otacksam emot sin mor. Platsnamn: KARLSTAD, Karlstad Personnamn: Thea Sundler, Karl-Artur Ekenstedt, Charlotte Löwensköld

exempel på ett verktyg för uppmärkning: Callisto

ett web-baserat verktyg: Brat (här namn)

dependenssyntax med Brat (Turku Dependency Treebank)

Språkbankens pågående annoteringsprojekt med Synpathy

om annoterarna motsäger varandra problem med den lingvistiska modellen? oprecis annoteringsmanual? har vi beskrivit vanliga svåra fall? har annoterarna fått ordentliga instruktioner och blivit tränade? är uppgiften svår i sig?

översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning

lågnivåkodning (serialisering) när vi har en annoteringsmodell måste vi bestämma hur annoteringen ska lagras: vi behöver ett format återanvändbarhet är att föredra om möjligt så att vårt arbete kan utnyttjas av andra läsbarhet för maskiner är nödvändigt: formatet måste vara entydigt mänsklig läsbarhet är inte en nackdel men inte en hög prioritet med ett bra verktyg behöver vi aldrig se formatet

exempel på format, sent 1970-tal

exempel på primitiva lågnivåkodningar för kategori: med lnamn eller kataloger Excel-ark hemmagjorda textformat Penn Treebank: struktur markeras med parenteser SBARQ SQ VP WHADVP SBJ *T* PRP ADVP NP NP Why would intelligent beings kidnap seven Soviet mailmen *T*?

kodning av struktur med XML XML (extensible markup language) är en standard för att beskriva strukturerade data XML består av fritext blandad med strukturmärkning start- och slutmärken används för att visa inneslutning man kan använda attribut <document author="selma Lagerlöf" title="anna Svärd"> <chapter title="karlstadsresan"> <paragraph> <sentence> <word pos="conj">men</word> <word pos="name">thea</word> <word pos="name">sundler</word> <word pos="verb">bar</word>... </sentence>... </paragraph>... </chapter> </document>

exempel på kodning av namn med XML (alternativ 1) ett alternativ: namn märks upp direkt i texten (inline) <DOCUMENT> Om man till exempel tänker på <PERSON>Charlotte Löwensköld</PERSON>, så hade hon också velat förmå honom att resa till <LOCATION>Karlstad</LOCATION> och försona sig med sin mor. </DOCUMENT>

exempel på kodning av namn med XML (alternativ 3) stand-o: själva texten hålls separat och oförändrad den lingvistiska informationen sitter vid sidan av (kanske i en annan l), och refererar till texten <DOCUMENT> <TEXT> Om man till exempel tänker på Charlotte Löwensköld, så hade hon också velat förmå honom att resa till Karlstad och försona sig med sin mor. </TEXT> <NAMES> <PERSON start="31" end="51"/> <LOCATION start="140" end="148"/> </NAMES> </DOCUMENT>

översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning

nästa föreläsning en mycket översiktlig inledning till datorprogrammering vi kommer att använda programspråket Python och språkteknologiverktyget NLTK detta är också temat för första datorövningen på onsdag i samma sal!