Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Relevanta dokument
Datorbaserade verktyg i humanistisk forskning

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Språk, datorer och textbehandling

Elementära verktyg för korpusbearbetning

Korpusuppbyggnad Från textsamling till korpus

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Språk, datorer och textbehandling

Korpussökning och korpusmått 1(44)

Grundläggande textanalys. Joakim Nivre

Datorbaserade verktyg i humanistisk forskning

Språk, datorer och textbehandling

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Lingvistik I Delmoment: Datorlingvistik

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Språk, datorer och textbehandling

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Korpusmått, korpusbalans och korpusrepresentativitet

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Korpusar och deras användning

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

729G09 Språkvetenskaplig databehandling

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

Svensk nationell datatjänst, SND BAS Online

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning: Grundbegrepp

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson

Betygskriterier. US610F - Språkdidaktik I, 30 hp

INSTITUTIONEN FÖR SVENSKA SPRÅKET

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Korpuslingvistik vt 2007

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Teoretisk lingvistik och datalingvistik. Robin Cooper

KURSPLAN Engelska, hp, 30 högskolepoäng

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Annette Lennerling. med dr, sjuksköterska

Språkteknologi och Open Source

SVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle

Pedagogik AV, Nätbaserat lärande, 7,5 hp

Session: Historieundervisning i högskolan

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)

för att komma fram till resultat och slutsatser

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Språk, datorer och textbehandling

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

Idrottsvetenskap AV, Magisterkurs i idrottsvetenskap, 30 hp

Introduktion till språkteknologi. Datorstöd för språkgranskning

On the role of corpora in cross-linguistic research, Stig Johansson (3-24)

Tekniker för storskalig parsning

KURSPLAN Engelska, hp, 30 högskolepoäng

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

INSTITUTIONEN FÖR SVENSKA SPRÅKET

Kristina Säfsten. Kristina Säfsten JTH

Engelska. Programkurs 30 hp English 973G06 Gäller från: Fastställd av. Fastställandedatum. Styrelsen för utbildningsvetenskap

Examensarbete i språkteknologi

Hur kan vi använda korpusmaterial och teckenspråkslexikon i språkutbildningen?

KURSPLAN Engelska, hp, 30 högskolepoäng

Kursbeskrivning. Språkvetenskaplig introduktion till svenskt teckenspråk, 5 hp. Teckenspråk i teori och praktik, 30 hp, LITU10

PEC: European Science Teacher: Scientific Knowledge, Linguistic Skills and Digital Media

Kursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Meningssegmentering i SUC och Talbanken

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

SPRÅKTEKNOLOGIPROGRAMMET


Grammatik för språkteknologer

ENGK01, Engelska: Kandidatkurs, 30 högskolepoäng English: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

NS2027 Språkkonsultprogrammet, Kurs 2, 30 hp

KURSPLAN Engelska, 1-60 hp, 60 högskolepoäng

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Korpusbaserad Maskinöversättning

ÄSVA11, Svenska 1, 30 högskolepoäng Swedish 1, 30 credits Grundnivå / First Cycle

Engelska B Eller: Engelska 6 (Områdesbehörighet 2/A2 med ett eller flera undantag)

Kursinformation och schema Lingvistik 729G08 (6 hp)

Kursplan och läromedelsförteckning

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Perspektiv på kunskap

Chapter 1 : Who do you think you are?

Engelska (31-55 hp) Programkurs 25 hp English (31-55 cr) 92EN31 Gäller från: Fastställd av. Fastställandedatum. Revideringsdatum

INSTITUTIONEN FÖR SVENSKA SPRÅKET

Är icke-sannolikhetsurval aldrig representativa?

Transkript:

Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41)

Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs. kvalitativa metoder Korpuslingvistik Lexikala databaser Korpusar 2(41)

Innehåll Befintliga språkresurser: textsamlingar, taldabaser, korpusar, trädbanker, parallella korpusar, parallella trädbanker Olika typer av korpora samt deras användning inom språkvetenskaplig forskning Olika typer av kvantitativa analyser såsom t.ex. ordfrekvens, meningslängd och nyckelordsanalys Att bygga en korpus: datainsamling, scanning, formatering, uppmärkning, annotering Befintliga verktyg för korpusuppbyggnad och analys Korpusar 3(41)

Lärandemål översiktligt redogöra för grundläggande begrepp inom korpuslingvistik; översiktligt redogöra för olika slags korpusar, inklusive parallella korpusar; redogöra för och i viss mån behärska tekniker för elementär kvantitativ analys av korpusar; översiktligt redogöra för grammatisk uppmärkning av korpusar och dess innebörd; exemplifiera och redogöra för en- eller flerspråkiga lexikala databaser och deras lingvistiska organisation. Korpusar 4(41)

Examination Fyra laborationer varav två med skriftlig redovisning Korpusar och korpusuppbyggnad Korpussökning med Webcorp Wordsmith Tools: 20/10 Korp: 27/10 Fördjupningsuppgift: referat av artikel (max 3 per grupp) Skriftlig rapport på 2 A4 sidor senast 4/11 till Bea Muntlig presentation, ca 10 minuter/grupp Dugga på alla begrepp som tagits upp på föreläsningarna Korpusar 5(41)

Litteratur och hemsida Baker, Paul (2006) Using Corpora in Discourse Analysis. London & New York: Continuum. Artiklar för fördjupningsuppgifter får gärna väljas ur: McCarthy, Michael, och O Keeffe Anne (2009) The Routledge Handbook of Corpus Linguistics, London och New York: Routledge. Course page: http://stp.lingfil.uu.se/~mats/uv/uv11/sdt/ Korpusar 6(41)

Innehåll Studiet av språk Korpuslingvistik Korpusar: definition och innehåll Arkiv och distribution Laboration Korpusar 7(41)

Studiet av språk Intuitionsbaserad traditionell hitta på exempel för analys representerar inte nödvändigtvis typisk språkanvändning vad som är acceptabelt är individuellt bör användas med försiktighet; kan påverkas av ens dialekt, sociolekt resultat som baseras på introspektion är inte observerbar och är svårt att verifiera Korpusar 8(41)

Studiet av språk Korpusbaserad undersöka språket genom att använda autentiska exempel som tas från textssamlingar, en korpus vad vi ser i en korpus är i stort sett grammatiskt och/eller acceptabelt en korpus kan ge tillförlitlig kvantitativ data Korpusar 9(41)

Kvinnospråk, Cederschiöld 1899 Naturligtvis skulle det säkraste och fullständigaste resultatet vinnas genom antecknande, granskande och jämförande af det språkliga material, som ett stort antal individer af hvartdera könet faktiskt vid bestämda tillfällen användt, - alltså genom vetenskaplig induktion enligt den vanliga, godkända metoden. Denna väg är emellertid mycket lång och besvärlig. Det insamlade materialet måste blifva ofantligt rikhaltigt och omfattande för att kunna tjäna till säker grundval för undersökningen. Också kommer det utan tvifvel att dröja länge, innan någon forskare underkastar sig mödan att göra dylika materialsamlingar. Korpusar 10(41)

Cederschiölds mål Att uppvisa, hvad som är karakteristiskt för kvinnornas språk i motsats till männens, hvad som konstituerar kvinnospråket. Att undersöka olika gruppers språk och försöka se vad som karakteriserar respektive grupps språk. Hur speglar språket identitet och grupptillhörighet? Korpusar 11(41)

Korpuslingvistik - Corpus linguistics Termen lanserades först på 1980-talet (Leech) Metoden användes redan på 20-talet Förr: texter på papper, manuell bearbetning Empiriskt, analysen baseras på observerad men liten mängd data Korpusar 12(41)

Vad är korpuslingvistik? Studera språket genom att studera en viss mängd av språket - en korpus! Gammal idé att upprätta en speciell mängd data språkliga data (dialektstudier, studier av utdöda språk, komparativ lingvistik, deskriptiv grammatik) förverkligad genom modern teknik (började på 60-talet, vanligt sedan 80-talet) Korpuslingvistik är empirisk lingvistik Jämför med s.k. fåtöljlingvistik där den egna intuitionen utgör måttstock. Korpusar 13(41)

Korpuslingvistik? hårt kritiserad av Chomsky... real language is riddled with performance-related errors, thus requiring careful analysis of small speech samples obtained in a highly controlled laboratory setting... Kombinera insamling av texter med modern datateknik Korpusar 14(41)

Studiet av språk Neither the corpus linguist of the 1950s, who rejected intuition, nor the general linguist of the 1960s, who rejected corpus data, was able to achieve the interaction of data coverage and the insight that characterise the many successful corpus analyses of recent years. (Leech, 1991) Korpusar 15(41)

Varför använda datorer? The immense scope of a modern corpus, and the range of computing resources that are available for exploiting it, make up a powerful force for deepening our awareness and understanding of language. (M.A.K. Halliday) Korpusar 16(41)

Varför använda datorer? lätt att söka, sortera, formatera data snabbt, konsekvent och (oftast) korrekt mer pålitliga resultat jämfört med människor kan annoteras automatiskt för att berika den lingvistiska analysen Korpusar 17(41)

Varför korpuslingvistik? Objektiv lingvistik genom att undersöka språk som det används i verkligheten Enda sättet att undersöka frekvens i språkbruket Två grenar av korpuslingvistik: språkvetenskap kontra språkteknologi Olika bakgrund, syften, verktyg, sammanslutningar, konferenser, tidskrifter Empirisk språkforskning kontra (halv)automatisk extraktion av språklig kunskap för språkteknologiska tillämpningar Korpusar 18(41)

Språkvetenskap Bakgrund: empirisk lingvistik Syfte: traditionell språkforskning Verktyg: konkordans/ordlista/statistikprogram Konferenser: t.ex. Tidskrifter: t.ex. Conference of the Int. Computer Archive of Modern/Mediaeval English (ICAME) Teaching and Language Corpora Conference (TALC) International Journal of Corpus Linguistics Korpusar 19(41)

Språkteknologi Bakgrund: datalogi, matematisk lingvistik Syfte: maskininlärning Verktyg: taggare, parser, länkningsverktyg Konferenser: t.ex. Tidskrifter: t.ex. Int. Conf. on Computational Linguistics (COLING) Meetings of the ACL (ACL, EACL, NAACL) Empirical Methods in NLP (EMNLP) Computational Linguistics, Journal of Natural Language Engineering Korpusar 20(41)

Vad är en korpus? (1) Term: korpus/korpusar vs corpus/corpora Definition: samling autentiska språkliga data (texter eller transkriptioner av talspråk) som är hopsamlad/samplad för att vara mer eller mindre representativ för språket i fråga och som lagras elektroniskt i databas Mål: Med hjälp av en korpus kan man upprätta och verifiera hypoteser om naturligt språk, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion används. Eftersom korpora är elektroniskt lagrade och sökbara, kan man raskt få fram alla förekomster av en viss företeelse. Korpusar 21(41)

Vad är en korpus? (2) A body of naturally occurring text Korpusar är (stora) textsamlingar eller transkriptioner av taldata, sammanställda för att vara en representativ samling av ett viss språk eller språkvariant ofta begränsad storlek och annoterade med ett syfte i åtanke Korpusar 22(41)

Vad är en korpus? (3) It should be added that computer corpora are rarely haphazard collections of textual material: They are generally assembled with particular purposes in mind, and are often assembled to be (informally speaking) representative of some language or text type. (Leech, 1992) A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (Sinclair, 1996) Korpusar 23(41)

Korpus: exempel SUC (Stockholm Umeå Corpus): 1 miljon ord (skrift) PAROLE corpus from Språkbanken: 19 miljon ord (skrift) BNC (Brittish National Corpus): 100 miljon ord (skrift/tal) London-Lund corpus: 0,5 miljon ord (tal) Korpusar 24(41)

... (stora) textsamlingar (2) Ett språk eller flera språk Parallella korpusar (t.ex. EuroParl) Synkronisk eller diakronisk Historisk Modern Diakronisk (Vad behöver man tänka på för att korpusen verkligen skall lämpa sig för diakroniska studier?). Korpusar 25(41)

... sammanställda Korpussammanställning är precis som opinionsundersökningar: Man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population... för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen Det är alltså mycket viktigt att planera hur stickprovet görs! Korpusar 26(41)

... och annoterade Textmetadata Strukturmärkning Lingvistisk annotering Ordklasstaggning Syntaxanalys (trädbank) Semantisk information Länkade på menings- och ordnivå (parallellkorpusar) Korpusar 27(41)

... med ett syfte i åtanke Korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vagt Korpusar kan ofta vara användbara för andra syften också t.ex. diakroniska korpusar: empiriska undersökningar av språkförändringar t.ex. parallella korpusar: inlärning av översättningsparametrar fär översättningssystem Korpusar kan vara standardrefererens för komparativa studier Korpusar 28(41)

Korpusar en korpus i modern lingvistik är inte bara en eller flera texter utgör också ett representativt urval (vad är det?) har en begränsad storlek (inte alltid) är maskinläsbar används som standardreferens Korpusar 29(41)

Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) med ett syfte i åtanke Biber ( Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar definiera populationen ( sampling frame ) fastställ den hierarkiska strukturen i populationen ( strata ) - genre, texttyper, ursprung bestäm storleken (vad är den optimala storleken?) Korpusar 30(41)

Korpustyper: parametrar modalitet: text, tal, tecknat, multimodalt material språktyp, genre, etc. språk: ett, två, många relation mellan språken (jämförbar, parallell,...) storlek: finit storlek (undantag: monitorkorpusar) analyserat, disambiguerat, typ av annotering Korpusar 31(41)

Korpustyper ett språk (monolingual corpus) eller flera språk (multilingual corpus) translation: original text and dess översättning till olika språk comparable: jämförbara originaltexter i olika språk, där texterna i varje språk har valts ut utifrån samma kriterier (genre, innehåll, publikation, datum, etc) parallel: översättningskorpus särkilt formaterad så att texterna är länkade (e.g. EuroParl) synkronisk, diakronisk, historisk eller modern Korpusar 32(41)

Typ av (annoterings)information Extra-textuell information (Metadata) Titel, författare, datum, språk, domän Ortografisk information Lingvistisk information Ordklass (part-of-speech) Lemma Semantisk uppmärkning Textlingvistisk annotering (t.ex. pragmatisk-retorisk, stilanalys) Fonetik Länkning (alignment) Korpusar 33(41)

Korpusar - ett par exempel SUC: allmänsvenskt skriftspråk från 1990-talet 500 texter, 2000 token per text 9 genrer, med subkategorier, t.ex. K - imaginative prose KK - general fiction KL - science fiction KN - light reading KR - humour info om lemma, ordklass (part-of-speech), namnuttryck (named entities) Korpusar 34(41)

Example: SUC <text id=suctext-aa01c> <body> <div type= sucdiv > <HEAD> <s id=aa01c-001> <w lem= sovjetisk msd= AQPNSNIS n=1952>sovjetiskt</w> <w lem= pansar msd= NCNSN@IS n=1953>pansar</w> <w lem= i msd= SPS n=1954>i</w> <NAME TYPE=PLACE> <w lem= Vilnius msd= NP00N@0S n=1955>vilnius</w> </NAME> </s> </HEAD> <BYLINE> <s id=aa01c-002> <w lem= av msd= SPS n=1956>av</w> <NAME TYPE=PERSON> <w lem= Michael msd= NP00N@0S n=1957>michael</w> <w lem= Winiarski msd= NP00N@0S n=1958>winiarski</w> </NAME> </s> <BYLINE> Korpusar 35(41)

Brown corpus Brown University Corpus (Brown corpus) 1964: http://helmer.aksis.uib.no/icame/brown/bcm.html släkt med SUC amerikansk engelska balanserad over 1 miljon ord 500 sampel med 2000 i varje ordklasstaggad (82 tags) W. Nelson Francis and Henry Kucera, 1964-1979 Korpusar 36(41)

Example: Brown THE AT A01001001E1 *FULTON NP-TL A01001002E1 *COUNTY NN-TL A01001003E1 *GRAND JJ-TL A01001004E1 *JURY NN-TL A01001005E1 SAID VBD A01001006E1 *FRIDAY NR A01001007E1 AN AT A01001008E1 INVESTIGATION NN A01001009E1 OF IN A01002001E1 *ATLANTA S NP A01002002E1 RECENT JJ A01002003E1 PRIMARY NN A01002004E1 ELECTION NN A01002005E1 PRODUCED VBD A01002006E1 NO AT A01002007E1 EVIDENCE NN A01002008E1 THAT CS A01002009E1 ANY DTI A01003001E1 IRREGULARITIES NNS A01003002E1 TOOK VBD A01003003E1 PLACE NN A01003004E1.. A01003005E1 Korpusar 37(41)

LOB LOB (Lancaster-Oslo/Bergen) Corpus: http://khnt.hit.uib.no/icame/manuals/lob/index.htm åstadkomma Brown för brittisk engelska 500 texter med 2000 ord i varje version med eller utan PoS taggar PoS taggad, taggarna är från Brown med viss modifikation Eric Atwell, Roger Garside, Stig Johansson, Geoffrey Leech, 1970-1978 Korpusar 38(41)

Sammanfattning En korpus kan se ut på många olika sätt men alla har de gemensamt att de består av autentisk text, är systematiskt hopsamlade (samplade), är representativa för sitt område, och är elektroniskt lagrade. Olika typer av korpora har kommit att bli ett mycket viktigt redskap inom språkforskningen. Korpusar 39(41)

Sammanfattning Använder man sig av korpora är det alltid viktigt att man som användare vet hur de är uppbyggda. Hur väl passar korpusmaterialet min frågeställning? Vad kan jag förvänta mig av min korpus avseende olika skevheter? Korpora är ett effektivt sätt att nå längre än till sin egen intuition... men de kan ge missvisande (eller snarare feltolkade) resultat om inte användaren är noga med att sätta sig in i data. Korpusar 40(41)

Laboration 1 Sök i korpusarkiv. Hitta och välj två korpusar som du är intresserad av och jämför dessa. Anteckna n ågra punkter om de viktigaste dragen och jämförelserna mellan de tv å korpusarna. Korpusar 41(41)