Korpusar och deras användning



Relevanta dokument
Korpusundersökningar, referat

Korpussökning och korpusmått 1(44)

Datorbaserade verktyg i humanistisk forskning

Språk, datorer och textbehandling

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Södervångskolans mål i svenska

Svenska som andraspråk, 1000 verksamhetspoäng

Språk, datorer och textbehandling

Kurs: Svenska som andraspråk Kurskod: GRNSVA2 Verksamhetspoäng: 1000

Kursplan i svenska. Därför tränar vi följande färdigheter under elevens skoltid i ämnet svenska: Tala, lyssna och samtala. År 1

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Resultat från nationella prov i årskurs 3, vårterminen 2014

SVENSKA ÖVERGRIPANDE MÅL FÖR ÅR 6, 7, 8, 9: LYSSNA

My Language a g Biography

Sag Mal 1 Woche DET HÄR SKA DU ARBETA MED: DU KOMMER LÄRA DIG: LÄXA: Kapitel 1 och 2 *Berätta om dig själv *Siffror *Böja verb i jag- och duform

Vad är en webbläsare?

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

SVENSKA FÖR DÖVA OCH HÖRSELSKADADE ELEVER MED UTVECKLINGSSTÖRNING

Bild Engelska Idrott

SVENSKA år 5 ******** Övergripande mål i svenska

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

DATASAMORDNING NYHETERNA I CHAOS Utbildning Chaos/Handledning - Nyheterna i Chaos 3/

Skriva B gammalt nationellt prov

Göm ninjorna. Det här projektet kommer att bygga på din kunskap om CCS-kung fu.

Vi skall skriva uppsats

Modersmål - finska som nationellt minoritetsspråk

Korpusuppbyggnad Från textsamling till korpus

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

KURSPLAN Engelska, 1-60 hp, 60 högskolepoäng

Bedömningsuppgift i geografi och svenska (se kraven och bedömning för svenska längre ned)

Föräldrabroschyr. Björkhagens skola - en skola med kunskap och hjärta. Vad ska barnen lära sig i skolan?

UPPGIFT: SKRIV EN DEBATTARTIKEL

Bilaga B Kartläggningsmaterial - Litteracitet Samtals- och dokumentationsunderlag avkodning, läsning, läsförståelse och skrivning

Svenska som andraspråk, år 8

Administratör Rollbeskrivning och stödjande instruktion. e-tjänst för ansökan om statsbidrag Senast uppdaterad:

Kvalitativ innehållsanalys

Blueprint Den här planeringen skapades med Blueprints gratisversion - vänligen uppgradera nu. Engelska, La06 - Kursöversikt, 2015/2016.

Administrera utskick på utbildningstillfälle

Distribuerade Informationssystem VT-04

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Lathund, procent med bråk, åk 8

Korpusmått, korpusbalans och korpusrepresentativitet

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

LATIN SPRÅK OCH KULTUR

LLEN10, Engelska för lärare i åk 4-6, 30,0 högskolepoäng English for teachers in years 4-6, 30.0 higher education credits

KURSPLAN Engelska, hp, 30 högskolepoäng

Artikelskrivandets konst, 7.5 hp

Syftet är att öka medvetenheten dels om vilka språkliga handlingar som krävs i ämnet, dels om vilka som utförs.

Stimulated recall En forskningsmetod

Konsekvenser sv/sva åk 8 vt 13

Grundläggande textanalys. Joakim Nivre

Vad är Skrivrummet? *Se även sid

Artikel/reportage år 9

ELEV- HANDLEDNING (Ansökan via webben)

L6EN20, Engelska 2 för lärare åk 4-6, 15,0 högskolepoäng English 2 for Teachers, 4th-6th grade, 15.0 higher education credits

Planering samhällskunskap/svenska/bild år 6, vt 2016 demokrati mänskliga rättigheter brott och straff

Snabbslumpade uppgifter från flera moment.

Lathund för överföring av rapporter och ljudfiler

Två rapporter om bedömning och betyg

KURSPLAN,! KUNSKAPSKRAV! ELEVARBETEN!

Så sparar vi till barnen. Rapport från Länsförsäkringar sommar 2016

Föreläsning 8: Räkning. Duvhålsprincipen. Kombinatorik

Inkludering på Rannebergsskolan. Göra olika för att bemöta lika

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Låt din berättelse bli en värdefull del av våra samlingar!

BibliotekMitt.se. Riktlinjer för Boktips, Artiklar, Arrangemang, Utställningar Arrangemang mm

Engelska Lyssna/förstå

Planera och framföra ett högtidstal

Handledning för digitala verktyg Talsyntes och rättstavningsprogram. Vital, StavaRex och SpellRight

Dina inloggningsuppgifter är samma som du använder för att logga in på skolans datorer.

Nationella prov i årskurs 3 våren 2013

Datorbaserade verktyg i humanistisk forskning

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

Särskilt stöd i grundskolan

SKOLFS 2012:18. Kurs: Svenska Kurskod: GRNSVE2 Verksamhetspoäng: 1000

DEMOKRATI 3 DEMOKRATINS VILLKOR

EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits

Väga paket och jämföra priser

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Planering - LPP Fjällen år 5 ht-16

Engelska GR (A), Engelska för lärare åk 1-3, (1-15). Ingår i Lärarlyftet II, 15 hp

Grammatik för språkteknologer

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Fristående förskolor totalt Antal svar samtliga fristående förskolor: 360 (57 %)

Sid i boken Rekrytering. Författare Annica Galfvensjö, Jure Förlag

Utveckla arbetsmiljö och verksamhet genom samverkan

Dagspresskollegiet. Bloggare vilka är de? Göteborgs universitet Institutionen för journalistik och masskommunikation. PM nr. 73

ANVÄND NAVIGATIONEN I CAPITEX SÄLJSTÖD

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Friskoleurval med segregation som resultat

DOP-matematik Copyright Tord Persson. Bråktal Läs av vilka tal på tallinjen, som pilarna pekar på. Uppgift nr

Krishantering i Västmanland

Matematiklyftet. kompetensutveckling i didaktik för lärare och förskollärare

PRÖVNINGSANVISNINGAR

Introduktion till språkteknologi. Datorstöd för språkgranskning

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Invandrarföretagare om att starta, driva och expandera företagande i Sverige

Informationssökning inför uppsatsen

912 Läsförståelse och matematik behöver man lära sig läsa matematik?

Transkript:

Korpusar och deras användning Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar och deras användning 1(39)

Förra gången Studiet av språk Korpuslingvistik Korpusar: definition och innehåll Korpusar: några exempel Laboration Korpusar och deras användning 2(39)

Idag Korpustyper Korpusdistributörer Korpusanvändning Termer: token, typ, lemma, lexem Kollokation Konkordans Frekvenslista Nyckelord Fördjupningsuppgift Laboration Korpusar och deras användning 3(39)

General corpora En generell korpus är balanserad med avseende på genre och domän och anses vara representativ för språket i fråga. Innehåller text och ofta även tal Exempel: British National Corpus, American National Corpus Möjliggör kontrastiva studier Korpusar och deras användning 4(39)

BNC The British National Corpus (BNC), 1994: http://www.natcorp.ox.ac.uk/ modern brittisk engelska balanserad, över 100 miljoner ord skrivet och talat språk tidningstext, tidskrift för olika åldrar, intressen, skönlitteratur, populärvetenskap, brev, uppsatser, dialoger och monologer med ortografisk transkription ordklasstaggad (65 PoS taggar) bl.a. Roger Garside and Geoffrey Leech http://www.natcorp.ox.ac.uk/ Korpusar och deras användning 5(39)

Exemple: BNC <p> <s n=011> <w AT0>The <w AJ0>medical <w NN2>aspects <w VM0>can <w VBI>be <w NN1>cancer <c PUN>, <w NN1>pneumonia <c PUN>, <w AJ0>sudden <w NN1>blindness <c PUN>, <w NN1>dementia <c PUN>, <w AJ0>dramatic <w NN1>weight loss <w CJC>or <w DT0>any <w NN1>combination <w PRF>of <w DT0>these <c PUN>. </p> <p> <s n=012> <w AV0>Often <w AJ0>infected <w NN0>people <w VBB>are <w VVN>rejected <w PRP>by <w NN0>family <w CJC>and <w NN2>friends<c PUN>, <w VVG>leaving <w PNP>them <w TO0>to <w VVI>face <w DT0>this <w AJ0>chronic <w NN1>condition <w AJ0-AV0>alone<c PUN>. </p> Korpusar och deras användning 6(39)

Specialized corpora En specialiserad korpus är mer avgänsad jämfört med en generell korpus. domän eller genrespecifik med syfte att representera en delmängd av språkanvändning värdefullt om man vill undersöka språkliga fenomen i för syftet relevanta domän och/eller genre kan extraheras från generella korpusar Corpus of Professional Spoken American English: akademiska diskussioner (t.ex. möten) och White House Press conferences (frågor-svar) Korpusar och deras användning 7(39)

Written corpora Den första moderna korpusen för engelska: Brown corpus (Brown University Standard Corpus of Present-Day American English) (Kucera and Francis, 1967) 500 textsnuttar bestående av ca 2000 ord var av text samplad från 15 kategorier från 1961 Ett antal korpusar följer Brown: The Lancaster-Oslo-Bergen Corpus of British English (LOB) (Johanson, Leech and Goodluck, 1978) Australian Corpus of English Welington Corpus of Written New Zealand English Kolhapur Corpus for Indian English en delmängd av dessa korpusar är även syntaktiskt annoterade: Lancaster Parsed Corpus: 133 000 ord tagen från LOB Susanne Corpus: 128000 ord tagen från Brown Korpusar och deras användning 8(39)

Spoken corpora Talad del av generella korpusar: BNC, ANC London-Lund Corpus (LLC): talad brittisk engelska 1960-1970 Lancaster/IBM Spoken English Corpus (SEC) Longman Spoken American Corpus Cambridge and Nottingham Corpus of Discource in English (CANCODE) Santa Barbara Corpus of Spoken American English Korpusar och deras användning 9(39)

Synchronic corpora jämföra varianter av ett språk International Corpus of English (ICE) för synkronisk studie av världens engelska en samling av 20 korpusar på 1 miljon ord vardera består av skriven och talad engelska producerad efter 1989 länder/områden där engelska är första- eller majoritetsspråket få korpusar för regionala dialekter Longman Spoken American Corpus Korpusar och deras användning 10(39)

Diachronic corpora Texter från samma språk från olika perioder användbar för att undersöka språkförändringar typiskt skrivet Helsinki Diachronic Corpus of English Texts 1,5 miljoner ord från 400 texter från 800 till 1800-talet många genre indelade i 3 perioder (Old, Middle and Early Modern English) Korpusar och deras användning 11(39)

Learner corpora en samling av skrivet och/eller talat material av andraspråksinlärare International Corpus of Learner English (ICLE) developmental corpus (utvecklingskorpus): skrivet/talat material av barn som lär sig sitt första språk (L1) Child Language Data Exchange System (CHILDES) Korpusar och deras användning 12(39)

Monitor corpora nytt material läggs till ständigt proportioner av texttyper förblir konstant Språkbanken: http://spraakbanken.gu.se/ korpora och lexikon för svenska Bank of English: skriven och talad engelska (525+ miljoner ord): http://www.titania.bham.ac.uk/ Global English Monitor Corpus: världsledande tidningar på engelska COBUILD: Collins Birmingham University International Language Database (John Sinclair, 1980-) Korpusar och deras användning 13(39)

Trädbanker lingvistiskt annoterad korpus som innehåller någon form av grammatisk analys på högre nivå än ordklasstaggning engelska: treebank (myntat av Geoffrey Leech) idag synonymt med parsad korpus d.v.s. alla sorters grammatiskt analyserade korpusar tidiga trädbanker skapades på 1970-talet Talbanken av Ulf Teleman (1974) vid Lunds universitet bestående av ca 300 000 skriven och talad svenska, annoterad med frasstrukturer och syntaktiska funktioner Korpusar och deras användning 14(39)

Material till trädbanker... Trädbanker har ofta vuxit fram ur redan (ordklass)taggade korpusar En trädbank består ofta av en delmängd av en (ordklass)taggad korpus (p g a annotationskostnader) Många korpusar består till stor del av tidningstext Wall Street Journal (WSJ) som utgör en del av Penn treebank (där också Brown corpus ingår). SUSANNE corpus (Sampson 1995), en delmängd av Brown corpus som är balanserad och med detaljerad annotation jämfört med Penn Treebank Korpusar och deras användning 15(39)

Vilka korpusar hittade ni? Diskutera i grupp (4 personer i varje) och beskriv de korpusar ni arbetat med enligt begreppen nedan: text, tal, tecknat, multimodalt generell vs. specialiserad synkronisk vs. diakronisk språk: ett, två, många relation mellan språken (jämförbar, parallell,...) storlek: finit vs. monitor typ av annotering: analyserat, taggad, parsad, disambiguerat, trädbank Korpusar och deras användning 16(39)

Korpusarkiv, Korpusdistributörer Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu utveckling och distribuering av språkresurser, verktyg och standarder för många olika språk European Language Resources Association (ELRA): http://www.elra.info/ samt Evaluations and Language Resources Distribution Agency (ELDA): http://www.elda.org distribuerar, producerar, standardiserar, utvärderar språkresurser konferens: The Language Resources and Evaluation Conference, LREC Korpusar och deras användning 17(39)

Korpusarkiv, organisationer Oxford Text Archive (OTA): http://ota.ahds.ac.uk/ samlar elektroniska texter av hög kvalité för forskning och utbildning och distribuerar mer än 2000 resurser för över 20 språk International Computer Archive of Modern English (ICAME): http://nora.hd.uib.no/whatis.html korpusdistribution i Bergen, Norway organiserar konferens, ICAME Journal TELRI: http://www.telri.de. samlar och distribuerar en- och flerspråkiga språkresurser med fokus på central- och östeuropeiska språk. Korpusar och deras användning 18(39)

Korpusarkiv, organisationer Språkbanken: http://spraakbanken.gu.se Korpusar och sökverktyg Lexin, SUC, svensk trädbank, Swedish Academy Lexicon Korpusar och deras användning 19(39)

Databaser online Gutenberg: http://www.gutenberg.org 36 000 gratis nedladdningsbara eböcker utan copyright många språk Runeberg: http://runeberg.org as Gutenberg men för nordisk litteratur Gallica: http://gallica.bnf.fr French Korpusar och deras användning 20(39)

Länkar corpora4learning.net språkresurser, användning av korpora, korpuslingvistik, korpusverktyg CORPORA elektronisk mailinglista för alla som är intresserade av korpusar ACL SIGLEX: http://www.clres.com/siglex.html Special Interest Group on the Lexicon of the Association for Computational Linguistics Korpusar och deras användning 21(39)

Korpusar för språkvetenskapliga studier En korpus kan se ut på många olika sätt men alla har de gemensamt att de består av autentisk text, är systematiskt hopsamlade (samplade), är representativa för sitt område, och är elektroniskt lagrade. Olika typer av korpora har kommit att bli ett mycket viktigt redskap inom språkforskningen. Korpusar och deras användning 22(39)

Korpusar för språkvetenskapliga studier Termer: Token, type, hapax legomena, lexem, lemma Konkordanser Kollokationer Frekvenslistor Nyckelord Korpusar och deras användning 23(39)

Viktiga begrepp Token: sekvens av bokstäver (inkl. kolon eller bindestreck) som avgränsas av mellanslag eller skiljetecken eller radbrytning I den här meningen finns åtta tokens. Type, typord: textens unika ord, d.v.s. räkna ett token en gång Malte och Nora gillar att läsa och busa. 9 token och 8 typer (Malte, och, Nora, gillar, att, läsa, busa,.) Hapax legomena: token som förekommer endast en gång Korpusar och deras användning 24(39)

Viktiga begrepp Lexem: refererar till samma typ av föremål och är betydelseskiljande, distinkt ordbetydelse potatis är lexem för potatis och potatisar (men inte för potatisskalare) Lemma: grundform, uppslagsform, basordform, den minst böjda formen av ett ord, form som vanligen används för att representera ett lexem fot är lemma till fötter för två ord som har samma stavning men olika betydelser (homografi, homofoni) används normalt två olika lemman: banan: en frukt vs. bestämd form av bana, spåret - substantiv i båda fallen kort: i motsats till lång - adjektiv eller spelkort - substantiv Korpusar och deras användning 25(39)

Konkordans - concordance Sökord i kontext En alfabetisk lista över ord som uppträder i en text Ett konkordansprogram söker i en text/korpus efter ett valt ord/fras och presenterar varje förekomst av det valda ordet/frasen centrerat på skärmen med orden i kontexten till vänster och höger. Används t.ex. för att observera de mest frekventa betydelserna, fraserna, ordförekomsterna för ett ord/fras, skillnader i betydelser och mönster, skillnader i semantisk preferens. Korpusar och deras användning 26(39)

Konkordans http://spraakbanken.gu.se/konk På språkbanken kan du söka i flera olika korpusar och resultaten presenteras företrädesvis i form av konkordanser. Beroende på vilken korpus man använder kan man söka på ordform eller kombinationer med ordklass och morfologisk analys. Korpusar och deras användning 27(39)

Kollokation - collocation är två eller flera ord som ofta förekommer tillsammans ordsammanhang som ett ord kan eller brukar ingå i (NE) definieras som en sekvens av ord eller termer som förekommer oftare än vad som förväntas av slumpen specifika kombinationer av ord, lexikala enheter, inte hela kontext typer: sammanhängande: röd tråd, på grund av nödvändigt diskontinuerliga: för... skull, ju... desto varierande: komma () ihåg, sitta () still, köra () bil Korpusar och deras användning 28(39)

Konkordanser och kollokationer Konkordanser en lista med ord där träffarna centrerade och omgivna av sin kontext. Kollokationer en lista med ord som förekommer i närheten av ett sökord. Korpusar och deras användning 29(39)

Frekvenslista - Frequency list En frekvenslista är en sorterad lista som visar antal förekomster av en enhet, t.ex. token, typ eller lemma i en korpus. rank word count 1 you 1222421 2 I 1052546 3 to 823661 4 the 770161 Listan kan ordnas efter frekvens, alfabetiskt, eller förekomst i korpusen. Att jämföra frekvenslistor i två korpusar (speciellt specialiserade) kan ge information om skillnader i hur olika lexikala enheter används mellan dessa. Korpusar och deras användning 30(39)

Nyckelord - Keywords Ord som förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen. Nyckelord är lexikala enheter som återger det texten handlar om. Nyckelord tas fram genom att beräkna en statistisk test som jämför frekvenserna i en text mot deras förväntade frekvenser i en mycket större korpus, en referenskorpus och som reflekterar språkanvändningen. Korpusar och deras användning 31(39)

Korpusar för språkvetenskapliga studier Använder man sig av korpora är det alltid viktigt att man som användare vet hur de är uppbyggda. Hur väl passar korpusmaterialet min frågeställning? Vad kan jag förvänta mig av min korpus avseende olika skevheter? Att använda korpora är ett effektivt sätt att nå längre än till sin egen intuition... men de kan ge missvisande (eller snarare feltolkade) resultat om inte användaren är noga med att sätta sig in i data. Korpusar och deras användning 32(39)

Fördjupningsuppgift Referera en artikel. Artikeln ska handla om korpuslingvistik: beskriva en korpus eller en empirisk språkvetenskaplig undersökning som baseras på någon korpus Den skriftliga rapporten ska vara max. 2 sidor. Den muntliga presentationen ska vara på max. 10 minuter. Max. 3 personer per grupp. Korpusar och deras användning 33(39)

Förslag på litteratur Ett avsnitt ur The Routledge Handbook of Corpus Linguistics by Anne O Keeffe and Michael McCarthy. Teman: Korpusar och deras användning 34(39)

Förslag på litteratur Using a corpus for language research: what can a corpus tell us about language? lexicon multi-word units grammar register and genres discourse pragmatics Korpusar och deras användning 35(39)

Förslag på litteratur Using a corpus for language pedagogy and methodology corpus about language teaching features of spoken and written corpora can be exploited in creating language teaching materials and syllabuses data-driven learning data-driven learning used in language teaching how to prepare learners for using language corpora Korpusar och deras användning 36(39)

Förslag på litteratur Designing corpus-based materials for the language classroom about vocabulary teaching materials grammar teaching materials corpus-informed course book design write dictionaries write instructions English for academic purposes teachers using a corpus for their own research Korpusar och deras användning 37(39)

Förslag på litteratur Using corpora to study literature and translation: parallel and comparable corpora using corpora in translation explore the language of poetry and drama expore literary speech representation Applying corpus linguistics to other research fields: sociolinguistics, media discourse, political discourse, health communication, teacher education, language testing Korpusar och deras användning 38(39)

Laboration 2 Webben som korpus konkordanser kollokationer frekvenslistor nyckelord Korpusar och deras användning 39(39)