1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade med ett syfte i åtanke, så, korpuslingvistik innebär: (för vilkets uppfyllande man utvecklar) (dator)verktyg

(stora) textsamlingar, 1 text = skriftspråk, talspråk (tal) typiskt miljoner ord: SUC (Stockholm Umeå Corpus) =1 miljon ord [skriftspråk] Språkbankens PAROLE-korpus =20 miljoner ord [skriftspråk] BNC (British National Corpus) =100 miljoner ord [skrift/talspråk] (stora) textsamlingar, 2 ett språk flera språk(former) parallella (översättningsrelation), t.ex. ETAP, PLUG, TELRI jämförbara, t.ex. Oslo Multilingual Corpus

sammanställda... korpussammanställning är precis som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen... och annoterade... strukturmärkning och textmetadata ordklass -taggning syntaxanalys ( trädbanker ) länkning (av parallellkorpusar) länkning (av modaliteter) dialogakter, m.m.

... med ett syfte i åtanke korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vitt och vagt korpusarna kan ofta vara användbara för andra syften också det finns två korpuslingvistiktraditioner och två syftestyper så: varför korpuslingvistik? om inte den empiriskaste, så i alla fall mycket objektiv lingvistik enda sättet att undersöka frekvens (se N. Ellis, Frequency effects in lg processing, Studies in SLA 24 (2002): 143-188, + fler i samma nummer)

två sorters korpuslingvistik språkvetenskap språkteknologi olika bakgrund, syften, verktyg, sammanslutningar, konferenser, tidskrifter empirisk språkforskning (halv)automatisk extraktion av språklig kunskap för språkteknologiska tillämpningar språkvetenskap bakgrund: empirisk lingvistik syfte: traditionell språkforskning verktyg: konkordans/ordliste/- statistikprogram (för ordformer) konferenser: ICAME, ASLA, TALC tidskrifter: International J. of Corpus Linguistics Literary & Linguistic Computing Computers and the Humanities

språkteknologi bakgrund: datalogi, mat. lingvistik syfte: (induktiv) maskininlärning verktyg: taggare, parsrar, länkare konferenser: EMNLP, WVLC, CoNLL, COLING tidskrifter: Computational Linguistics J. Natural Language Engineering J. Machine Learning Research "So, a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration." (McEnery and Wilson 2001: 32)

korpustyper: parametrar modalitet: skrivet, talat, tal, tecknat, multimodal språktyp, genre, etc. språk: ett, två, många; relation mellan språken (parallell, jämförbar,...) storlek några korpusar/korpustyper, 1 SUC (allmänsvenskt skriftspråk): 500 texter om c:a 2000 ord 9 huvudgenrer, med undergenrer: K imaginative prose KK general fiction KL science fiction and mystery KN light reading KR humour

några korpusar/korpustyper, 2 Scania: teknisk text (bilverkstadsmanualer) flera miljoner ord, 8 språk, översättningar från svenska Skriven finsk romani: c:a 110.000 ord en betydande del av den totala skrivna produktionen på finsk romani några korpusar/korpustyper, 3 inlärarkorpusar (inlärarspråk): ICLE (International Corpus of Learner English) ASU (Andraspråkets StrukturUtveckling) USE (Uppsala Student English corpus) SFI och SSM

några korpusar/korpustyper, 4 monitorkorpusar (växer hela tiden): Språkbanken, Bank of English, KTH News Corpus virtuella korpusar; två sorter: 1: bildas på begäran 2: består av länkar talkorpusar, multimodala korpusar några korpusar/korpustyper, 5 Trädbanker: Tal- och Skrivsyntax (Lund) SynTag (Göteborg) Penn Treebank (UPenn) ICE-GB (London) NEGRA (Saarbrücken) Prague Dependency Treebank

SUC, format 1 (original TEI) <s id=kl01-002> <w n=9>tror<ana><ps>vb<m>prs AKTtro</w> <w n=10>dom<ana><ps>pn<m>utr/neu PLU DEF SUB/OBJdom</w> <w n=11>att<ana><ps>snatt</w> <w n=12>han<ana><ps>pn<m>utr SIN DEF SUBhan</w> <w n=13>rusar<ana><ps>vb<m>prs AKTrusa</w> <w n=14>dit<ana><ps>abdit</w> <w n=15>med<ana><ps>ppmed</w> <w n=16>mössan<ana><ps>nn<m>utr SIN DEF NOMmössa</w> <w n=17>i<ana><ps>ppi</w> <w n=18>näven<ana><ps>nn<m>utr SIN DEF NOMnäve</w> <w n=19>för<ana><ps>ppför</w> <w n=20>att<ana><ps>ieatt</w> <w n=21>ta<ana><ps>vb<m>inf AKTta</w> <w n=22>sitt<ana><ps>ps<m>neu SIN DEFsin</w> <w n=23>straff<ana><ps>nn<m>neu SIN IND NOMstraff</w> <d n=24>?<ana><ps>mad?</d> </s> SUC, format 2 (PAROLE-taggar) <s id=kl01-002> <w lem='tro' msd='v@ipas' n=9>tror</w> <w lem='dom' msd='pf@0p0@s' n=10>dom</w> <w lem='att' msd='css' n=11>att</w> <w lem='han' msd='pf@uss@s' n=12>han</w> <w lem='rusa' msd='v@ipas' n=13>rusar</w> <w lem='dit' msd='rg0s' n=14>dit</w> <w lem='med' msd='sps' n=15>med</w> <w lem='mössa' msd='ncusn@ds' n=16>mössan</w> <w lem='i' msd='sps' n=17>i</w> <w lem='näve' msd='ncusn@ds' n=18>näven</w> <w lem='för' msd='sps' n=19>för</w> <w lem='att' msd='cis' n=20>att</w> <w lem='ta' msd='v@n0as' n=21>ta</w> <w lem='sin' msd='ps@ns0@s' n=22>sitt</w> <w lem='straff' msd='ncnsn@is' n=23>straff</w> <c lem='?' msd='fe' n=24>?</c> </s>

Skrivsyntax, bruksprosa P21200000001 0000 TX TX 000 P21201000002 0000 ST ST 000 P21201001001 0000 << GM 001 P21201001002 *PSYKOLOGERNA NNDDHH SS 001 P21201001003 UTARBETAR VVPSSM FV 001 P21201001004 ALLT POKP OODT 001 P21201001005 FLER ID OODT 001 P21201001006 FÖRFINADE TP PAOOAT 001 P21201001007 TEST NN OO 001 P21201001008 FÖR PR AAPR 001 P21201001009 1000 IF AA 001 P2120100101010001ATT IM IM 001 P2120100101110001FÅ FVIV IV 001 P2120100101210001RÄTT POSU OODT 001 P2120100101310001MAN NN HH OO 001 P2120100101410001PLACERAD TP PAOP 001 P2120100101510001PÅ PR RAPR 001 P2120100101610001RÄTT POSU RADT 001 P2120100101710001PLATS NN RA 001 P2120100101810001I PR RAETPR 001 P2120100101910001PRODUKTIONEN VNDD RAET 001 P21201001020. IP IP 001 lingvistisk korpuslingvistik vilka problem vill man lösa? lexikografiska/lexikologiska språkbeskrivning för människor pedagogiska överhuvudtaget är korpusar en alternativ datakälla för traditionella språkvetenskapliga undersökningar

korpusverktyg konkordans-/ordliste-/statistik- /kollokationsprogram (WordSmith Tools, System Quirk) arbetsbänkar (IMS Corpus Workbench, SARA, [GATE,] etc.) taggare och taggargeneratorer (Brill, WinBrill, µtbl, TnT, etc.) meningslänkare (för parallellkorpusar) dessutom: robusta parsrar CG Constraint Grammar /Lingsoft/, FDG Functional Dependency Grammar /Conexor/, chunking, etc. ordlänkare för översättningslexikonextraktion ; UWA - Uppsala Word Aligner, LWA - Linköping Word Aligner

länkning av parallelltext Number of matches: 1482 # id2 xid2 xid3 (1) Vaagos sas Lau, ta Lau sas Deevelesko neere, ta Lau sas Deevel. [I början var Ordet, och Ordet var hos Gud, och Ordet var Gud.] (2) Alussa oli Sana. (2) Sana oli Jumalan luona, ja Sana oli Jumala. # id3 xid4 (1) Jou sas vaagos Deevelesko neere. [Det var först hos Gud.] (2) Jo alussa Sana oli Jumalan luona. [Länkad med UWA, utvecklat av Jörg Tiedemann, Inst. för lingvistik, UU]

två sorter: korpusarbetsbänkar korpuscentrerade (IMS CWB; System Quirk; SARA) språkteknologicentrerade (GATE och kopior)

korpussöksystem (med visualisering) (ingår i arbetsbänkar, men också specialiserade, t.ex.:) Språkbanken (webbaserad) ICECUP, TIGER (för trädbanker) GSearch (syntaktisk analys av ordklasstaggade korpusar) webcorp m.fl. (WWW-konkordanser) korpusstatistik unigramstatistik (textord, lemman, ordklasstaggar, etc.) type-token-statistik (lömsk!) samförekomststatistik statistiskt signifikanta likheter och skillnader mellan korpusar (Kilgarriff)

1.2: korpusuppbyggnad: urval och sammansättning korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 korpusurvalet styrs av syftet undersökning av (eller undervisning om/i): allmänspråk stora balanserade korpusar genre/delspråk ( sublanguage ) små (specialiserade) korpusar inlärarspråk inlärarkorpusar (och flerspråkiga korpusar) översättning/språkkontakt/språktypologi flerspråkiga korpusar

korpusurval och -representativitet Clear ( Corpus sampling, 1992) och Biber ('Representativeness in corpus design', 1993) diskuterar representativitet i texturval för korpusar sampling för representativitet bestäm populationen (syftet viktigt!) bestäm samplingsprincip: proportionell stratifierad bestäm sampelstorlek och -mängd cyklisk, iterativ process (Biber)

vilken är 'populationen'? [1] samtal brev, etc. övr. skrivande Biber: språkproduktion vilken är 'populationen'? [2] uppläst tal samtal monolog tidskrifter böcker div. skrivet opubl. skrivet Clear: språkintag

stratumegenskaper genrer/register eller texttyper? genrer/register säger Biber (åtminstone i första iterationen; de är ju utomspråkligt definierade) stratumparametrar (Biber) modalitet/kanal format miljö mottagare avsändare faktualitet ändamål ämne

viktiga urvalstyper (Biber) publicerat skrivet språk (enligt kataloger) opublicerat skrivet språk: institutionellt/offentligt/privat talspråk: institutionellt/offentligt/privat uppläst (tal)språk: institutionellt/offentliga media/annat proportionalitetsproblem (ofta) hela den språkliga variationsvidden intressant, inte bara 'centrala' fenomen många variabler med olika distribution ( olika sampelstorlekar)

representativitet... beror således på vad man undersöker: högfrekventa språkdrag korta textsnuttar sällsynta språkdrag långa textsnuttar språkdragstyper följer Zipfs lag och kräver lagom långa textsnuttar men från många texttyper variation är att föredra framför längd