1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

Relevanta dokument
vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Elementära verktyg för korpusbearbetning

Språk, datorer och textbehandling

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Att undersöka språkmöten med datorn

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Datorbaserade verktyg i humanistisk forskning

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

Korpusuppbyggnad Från textsamling till korpus

Tekniker för storskalig parsning

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Datorbaserade verktyg i humanistisk forskning

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Lingvistik I Delmoment: Datorlingvistik

Meningssegmentering i SUC och Talbanken

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Korpusmått, korpusbalans och korpusrepresentativitet

Tekniker för storskalig parsning

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Introduktion till språkteknologi. Datorstöd för språkgranskning

729G09 Språkvetenskaplig databehandling

ASU-korpusen. Dess sy&e, uppbyggnad och särart. Björn Hammarberg Stockholms universitet, för

Språk, datorer och textbehandling

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Språk, datorer och textbehandling

Teoretisk lingvistik och datalingvistik. Robin Cooper

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Språkbanken under åren Verksamhet och budget. Reviderad version, 16 januari 2004

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Lingvistiskt uppmärkt text

Språkteknologi och Open Source

Språk, datorer och textbehandling

Lingvistik I Delmoment: Datorlingvistik

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

Tekniker för storskalig parsning: Grundbegrepp

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Grundläggande textanalys. Joakim Nivre

Korpussökning och korpusmått 1(44)

On the role of corpora in cross-linguistic research, Stig Johansson (3-24)

Anna-Lena Godhe. Sylvana Sofkova Hashemi. docent i utbildningsvetenskap. lektor i pedagogik. Institutionen för pedagogik kommunikation och lärande

Lingvistik I Delmoment: Datorlingvistik

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)

Korpusar och deras användning

Korpusbaserad Maskinöversättning

Korpuslingvistik vt 2007

Svenskans digitala resurser. Elzbieta Strzelecka

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Språkbanken en (inter)nationell forskningsinfrastruktur

Konventionaliserade fraser i en akademisk ordlista

INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK

Språkteknologiprogrammet

Språk, datorer och textbehandling

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Är icke-sannolikhetsurval aldrig representativa?

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Word- sense disambiguation

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Hur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren

Grammatik för språkteknologer

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

UNIVERSITETSRANKINGEN FRÅN QS 2013

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

UNIVERSITETSRANKNINGEN FRÅN QS 2015

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Sofie Johansson Kokkinakis

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Inlämningsuppgift: Pronomenidentifierare

Korp. Övningar Språkbankens höstworkshop oktober 2016

Bootstrapping för substantivtaggning

Språkbanken. Årsrapport 2010

Tekniker för storskalig parsning

Bibliometri & publiceringsstrategiska knep SOLD. Viktor Öman, bibliotekarie viktor.oman@mdh.se

SPRÅKTEKNOLOGIPROGRAMMET

Korpuslingvistik (SV2119) Föreläsning 1

Kognitionsvetenskap Kandidatprogrammet

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Transkript:

1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade med ett syfte i åtanke, så, korpuslingvistik innebär: (för vilkets uppfyllande man utvecklar) (dator)verktyg

(stora) textsamlingar, 1 text = skriftspråk, talspråk (tal) typiskt miljoner ord: SUC (Stockholm Umeå Corpus) =1 miljon ord [skriftspråk] Språkbankens PAROLE-korpus =20 miljoner ord [skriftspråk] BNC (British National Corpus) =100 miljoner ord [skrift/talspråk] (stora) textsamlingar, 2 ett språk flera språk(former) parallella (översättningsrelation), t.ex. ETAP, PLUG, TELRI jämförbara, t.ex. Oslo Multilingual Corpus

sammanställda... korpussammanställning är precis som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen... och annoterade... strukturmärkning och textmetadata ordklass -taggning syntaxanalys ( trädbanker ) länkning (av parallellkorpusar) länkning (av modaliteter) dialogakter, m.m.

... med ett syfte i åtanke korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vitt och vagt korpusarna kan ofta vara användbara för andra syften också det finns två korpuslingvistiktraditioner och två syftestyper så: varför korpuslingvistik? om inte den empiriskaste, så i alla fall mycket objektiv lingvistik enda sättet att undersöka frekvens (se N. Ellis, Frequency effects in lg processing, Studies in SLA 24 (2002): 143-188, + fler i samma nummer)

två sorters korpuslingvistik språkvetenskap språkteknologi olika bakgrund, syften, verktyg, sammanslutningar, konferenser, tidskrifter empirisk språkforskning (halv)automatisk extraktion av språklig kunskap för språkteknologiska tillämpningar språkvetenskap bakgrund: empirisk lingvistik syfte: traditionell språkforskning verktyg: konkordans/ordliste/- statistikprogram (för ordformer) konferenser: ICAME, ASLA, TALC tidskrifter: International J. of Corpus Linguistics Literary & Linguistic Computing Computers and the Humanities

språkteknologi bakgrund: datalogi, mat. lingvistik syfte: (induktiv) maskininlärning verktyg: taggare, parsrar, länkare konferenser: EMNLP, WVLC, CoNLL, COLING tidskrifter: Computational Linguistics J. Natural Language Engineering J. Machine Learning Research "So, a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration." (McEnery and Wilson 2001: 32)

korpustyper: parametrar modalitet: skrivet, talat, tal, tecknat, multimodal språktyp, genre, etc. språk: ett, två, många; relation mellan språken (parallell, jämförbar,...) storlek några korpusar/korpustyper, 1 SUC (allmänsvenskt skriftspråk): 500 texter om c:a 2000 ord 9 huvudgenrer, med undergenrer: K imaginative prose KK general fiction KL science fiction and mystery KN light reading KR humour

några korpusar/korpustyper, 2 Scania: teknisk text (bilverkstadsmanualer) flera miljoner ord, 8 språk, översättningar från svenska Skriven finsk romani: c:a 110.000 ord en betydande del av den totala skrivna produktionen på finsk romani några korpusar/korpustyper, 3 inlärarkorpusar (inlärarspråk): ICLE (International Corpus of Learner English) ASU (Andraspråkets StrukturUtveckling) USE (Uppsala Student English corpus) SFI och SSM

några korpusar/korpustyper, 4 monitorkorpusar (växer hela tiden): Språkbanken, Bank of English, KTH News Corpus virtuella korpusar; två sorter: 1: bildas på begäran 2: består av länkar talkorpusar, multimodala korpusar några korpusar/korpustyper, 5 Trädbanker: Tal- och Skrivsyntax (Lund) SynTag (Göteborg) Penn Treebank (UPenn) ICE-GB (London) NEGRA (Saarbrücken) Prague Dependency Treebank

SUC, format 1 (original TEI) <s id=kl01-002> <w n=9>tror<ana><ps>vb<m>prs AKT<b>tro</w> <w n=10>dom<ana><ps>pn<m>utr/neu PLU DEF SUB/OBJ<b>dom</w> <w n=11>att<ana><ps>sn<b>att</w> <w n=12>han<ana><ps>pn<m>utr SIN DEF SUB<b>han</w> <w n=13>rusar<ana><ps>vb<m>prs AKT<b>rusa</w> <w n=14>dit<ana><ps>ab<b>dit</w> <w n=15>med<ana><ps>pp<b>med</w> <w n=16>mössan<ana><ps>nn<m>utr SIN DEF NOM<b>mössa</w> <w n=17>i<ana><ps>pp<b>i</w> <w n=18>näven<ana><ps>nn<m>utr SIN DEF NOM<b>näve</w> <w n=19>för<ana><ps>pp<b>för</w> <w n=20>att<ana><ps>ie<b>att</w> <w n=21>ta<ana><ps>vb<m>inf AKT<b>ta</w> <w n=22>sitt<ana><ps>ps<m>neu SIN DEF<b>sin</w> <w n=23>straff<ana><ps>nn<m>neu SIN IND NOM<b>straff</w> <d n=24>?<ana><ps>mad<b>?</d> </s> SUC, format 2 (PAROLE-taggar) <s id=kl01-002> <w lem='tro' msd='v@ipas' n=9>tror</w> <w lem='dom' msd='pf@0p0@s' n=10>dom</w> <w lem='att' msd='css' n=11>att</w> <w lem='han' msd='pf@uss@s' n=12>han</w> <w lem='rusa' msd='v@ipas' n=13>rusar</w> <w lem='dit' msd='rg0s' n=14>dit</w> <w lem='med' msd='sps' n=15>med</w> <w lem='mössa' msd='ncusn@ds' n=16>mössan</w> <w lem='i' msd='sps' n=17>i</w> <w lem='näve' msd='ncusn@ds' n=18>näven</w> <w lem='för' msd='sps' n=19>för</w> <w lem='att' msd='cis' n=20>att</w> <w lem='ta' msd='v@n0as' n=21>ta</w> <w lem='sin' msd='ps@ns0@s' n=22>sitt</w> <w lem='straff' msd='ncnsn@is' n=23>straff</w> <c lem='?' msd='fe' n=24>?</c> </s>

Skrivsyntax, bruksprosa P21200000001 0000 TX TX 000 P21201000002 0000 ST ST 000 P21201001001 0000 << GM 001 P21201001002 *PSYKOLOGERNA NNDDHH SS 001 P21201001003 UTARBETAR VVPSSM FV 001 P21201001004 ALLT POKP OODT 001 P21201001005 FLER ID OODT 001 P21201001006 FÖRFINADE TP PAOOAT 001 P21201001007 TEST NN OO 001 P21201001008 FÖR PR AAPR 001 P21201001009 1000 IF AA 001 P2120100101010001ATT IM IM 001 P2120100101110001FÅ FVIV IV 001 P2120100101210001RÄTT POSU OODT 001 P2120100101310001MAN NN HH OO 001 P2120100101410001PLACERAD TP PAOP 001 P2120100101510001PÅ PR RAPR 001 P2120100101610001RÄTT POSU RADT 001 P2120100101710001PLATS NN RA 001 P2120100101810001I PR RAETPR 001 P2120100101910001PRODUKTIONEN VNDD RAET 001 P21201001020. IP IP 001 lingvistisk korpuslingvistik vilka problem vill man lösa? lexikografiska/lexikologiska språkbeskrivning för människor pedagogiska överhuvudtaget är korpusar en alternativ datakälla för traditionella språkvetenskapliga undersökningar

korpusverktyg konkordans-/ordliste-/statistik- /kollokationsprogram (WordSmith Tools, System Quirk) arbetsbänkar (IMS Corpus Workbench, SARA, [GATE,] etc.) taggare och taggargeneratorer (Brill, WinBrill, µtbl, TnT, etc.) meningslänkare (för parallellkorpusar) dessutom: robusta parsrar CG Constraint Grammar /Lingsoft/, FDG Functional Dependency Grammar /Conexor/, chunking, etc. ordlänkare för översättningslexikonextraktion ; UWA - Uppsala Word Aligner, LWA - Linköping Word Aligner

länkning av parallelltext Number of matches: 1482 # id2 xid2 xid3 (1) Vaagos sas Lau, ta Lau sas Deevelesko neere, ta Lau sas Deevel. [I början var Ordet, och Ordet var hos Gud, och Ordet var Gud.] (2) Alussa oli Sana. (2) Sana oli Jumalan luona, ja Sana oli Jumala. # id3 xid4 (1) Jou sas vaagos Deevelesko neere. [Det var först hos Gud.] (2) Jo alussa Sana oli Jumalan luona. [Länkad med UWA, utvecklat av Jörg Tiedemann, Inst. för lingvistik, UU]

två sorter: korpusarbetsbänkar korpuscentrerade (IMS CWB; System Quirk; SARA) språkteknologicentrerade (GATE och kopior)

korpussöksystem (med visualisering) (ingår i arbetsbänkar, men också specialiserade, t.ex.:) Språkbanken (webbaserad) ICECUP, TIGER (för trädbanker) GSearch (syntaktisk analys av ordklasstaggade korpusar) webcorp m.fl. (WWW-konkordanser) korpusstatistik unigramstatistik (textord, lemman, ordklasstaggar, etc.) type-token-statistik (lömsk!) samförekomststatistik statistiskt signifikanta likheter och skillnader mellan korpusar (Kilgarriff)

1.2: korpusuppbyggnad: urval och sammansättning korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 korpusurvalet styrs av syftet undersökning av (eller undervisning om/i): allmänspråk stora balanserade korpusar genre/delspråk ( sublanguage ) små (specialiserade) korpusar inlärarspråk inlärarkorpusar (och flerspråkiga korpusar) översättning/språkkontakt/språktypologi flerspråkiga korpusar

korpusurval och -representativitet Clear ( Corpus sampling, 1992) och Biber ('Representativeness in corpus design', 1993) diskuterar representativitet i texturval för korpusar sampling för representativitet bestäm populationen (syftet viktigt!) bestäm samplingsprincip: proportionell stratifierad bestäm sampelstorlek och -mängd cyklisk, iterativ process (Biber)

vilken är 'populationen'? [1] samtal brev, etc. övr. skrivande Biber: språkproduktion vilken är 'populationen'? [2] uppläst tal samtal monolog tidskrifter böcker div. skrivet opubl. skrivet Clear: språkintag

stratumegenskaper genrer/register eller texttyper? genrer/register säger Biber (åtminstone i första iterationen; de är ju utomspråkligt definierade) stratumparametrar (Biber) modalitet/kanal format miljö mottagare avsändare faktualitet ändamål ämne

viktiga urvalstyper (Biber) publicerat skrivet språk (enligt kataloger) opublicerat skrivet språk: institutionellt/offentligt/privat talspråk: institutionellt/offentligt/privat uppläst (tal)språk: institutionellt/offentliga media/annat proportionalitetsproblem (ofta) hela den språkliga variationsvidden intressant, inte bara 'centrala' fenomen många variabler med olika distribution ( olika sampelstorlekar)

representativitet... beror således på vad man undersöker: högfrekventa språkdrag korta textsnuttar sällsynta språkdrag långa textsnuttar språkdragstyper följer Zipfs lag och kräver lagom långa textsnuttar men från många texttyper variation är att föredra framför längd