Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44)
Förra gången Korpustyper Korpusdistributörer Korpusanvändning Termer: token, typ, lemma, lexem Kollokation Konkordans Frekvenslista Nyckelord Fördjupningsuppgift Laboration Korpussökning och korpusmått 2(44)
Ämnen idag Fördjupningsuppgift: att skriva referat referat citat plagiat referens: referenslista och källhänvisning Mer om ordfrekvenser, nyckelord, kollokationer och konkordanser Korpussökning och korpusmått 3(44)
Fördjupningsuppgift Referera en artikel. Artikeln ska handla om korpuslingvistik: beskriva en korpus eller en empirisk språkvetenskaplig undersökning som baseras på någon korpus Den skriftliga rapporten ska vara max. 2 sidor och ska skickas till Bea senast den 4 november per e-post: beata.megyesi@lingfil.uu.se och cc till alla som medverkat i uppgiften. Kommentarer skickas till alla i gruppen. Den muntliga presentationen ska vara på max. 10 minuter. Max. 3 personer per grupp. Korpussökning och korpusmått 4(44)
Referat Med egna ord redogör för innehållet i ett dokument. syfte: att sammanfatta ursprungstexten kortare än ursprungstexten en koncentrerad version som återger det väsentligaste objektiv och rättvis sammanfattning av ursprungstexten referatet får inte innehålla skribentens åsikter eller slutledningar man får inte heller förvanska textens mening eller syfte Korpussökning och korpusmått 5(44)
Referat referat ska alltid redovisa källa, d.v.s. vem som författat texten och varifrån ursprungstexten kommer, annars är det plagiat referatet innehåller ofta fraser som hänvisar till skribenten som skrivit texten som man refererar, s.k. referatmarkörer som t.ex. Enligt Person, påstår Walin, skriver Jonson... man får citera men huvuddelen ska innehålla sammanfattning med egna ord och formuleringar Korpussökning och korpusmått 6(44)
Citat citat är ett stycke ordagrann redovisning av en text till skillnad från referat som återger innehållet i texten Vid behov av exakt angivelse av källan, citera! Återge källans text ordagrant! Citat markeras med citationstecken XXX. Max. 15 rader utan tillstånd från upphovsrättsinnehavare. Glöm inte sidhänvisning vid citering! (Megyesi, 2011:1) Korpussökning och korpusmått 7(44)
Källhänvisning Källan anges detaljerat i en källförteckning i slutet av arbetet, med uppgift om författare, årtal, artikelnamn, boktitel, förlag, sidnummer, webbadress, hämtdatum och typ av publikation. Dahllöf, Mats. 2005. Akademiska uppsatsers uppbyggnad. Institutionen för lingvistik och filologi, Uppsala universitet. September 2005. O Keeffe, A. and McCarthym M. (ed.) 2010. The Routledge Handbook of Corpus Linguistics. Routledge. Samtliga källor måste vara omnämnda i den löpande texten med källhänvisning till källförteckningen (Dahllöf, 2005). Korpussökning och korpusmått 8(44)
Referenslista Ange källor i alfabetisk ordning Om det är samma författare, ange hans/hennes verk i kronologisk ordning Om det är flera verk av samma författare och årtal, numrera årtalen 2011a, 2011b, 2011c, etc. Korpussökning och korpusmått 9(44)
Referenser Ejerhed, E., Källgren, G. Wennstedt, O., Åström, M. 1992. The Linguistic Annotation System of the Stockholm-Umeå Corpus Project. DGL-UUM-R-32, report no. 33. Department of Linguistics, Umeå University. Källgren, G. 2006. Documentation of the Stockholm Umeå Corpus. In Manual of the Stockholm Umeå Corpus version 2.0, Gustafson-Capkova and Hartmann (eds.). Department of Linguistics, Stockholm University and Umeå University. Melin, L. och Lange, S. 1986, 2000. Att analysera text. Studentlitteratur. SUC2.0. 2006. Department of Linguistics, Stockholm University and Umeå University Korpussökning och korpusmått 10(44)
Källhänvisning Källhänvisningen i texten formateras enligt någon av följande metoder: Efternamn och årtal inom parentes: (Andersson, 2003) Harvardsystemet, vanligt inom samhällsvetenskap och humaniora. Siffra inom hakparentes: enligt [3] Vancouversystemet, vanligast inom naturvetenskap och teknik Fotnot: enligt 3 Oxfordsystemet Korpussökning och korpusmått 11(44)
Referenser Frågor att ställa: Är alla referenser i texten angivna i referenslistan? Är alla referenser i referenslistan angivna i texten? Är referenserna relevanta? Är referenserna korrekta och kompletta? Korpussökning och korpusmått 12(44)
Plagiat oredovisat användande av ett annat verks innehåll Referat av andras verk är aldrig plagiat, så länge källan redovisas men den nya texten måste ha ett visst mått av självständighet och originalitet. Återgivningar som ligger så nära grundverket att de inte är självständiga räknas som plagiat, om det inte är frågan om redovisade citat. (Wikipedia, Plagiat, 2011-10-08) Plagiat föranleder disciplinära åtgärder, kan leda till relegering upp till 6 månader. Plagiatkontroll är vanlig inom UU. Korpussökning och korpusmått 13(44)
Att skriva referat Se till att läsa igenom ordentligt och förstå texten! Bilda dig en uppfattning om textens innehåll och disposition! (t.ex. stryk under, anteckna, sammanfatta varje stycke med en mening) Gör en disposition för referatet utifrån omfånget! Referatet får följa dispositionen i texten men behöver inte göra det. Referatet kan börja med huvudpåståendet, eller beskriva orsak/följd, eller förargument/motargument Första stycket: ämne och källhänvisning: med författarnamn och var ursrpungstexten kommer ifrån Avslutning: Det viktigaste i ursprungstexten lyfts fram och upprepas Korpussökning och korpusmått 14(44)
Att skriva referat Skriv sakligt utan egna värderingar eller egna exempel! Använd referatmarkörer, d.v.s. information om vem som står bakom innehållet i texten. Särskilt användbart när man referar flera författare. enligt XY, författaren anser att..., XY skriver, anser, påstår, säger, etc. Korpussökning och korpusmått 15(44)
Att skriva referat I slutet kontrollera att den färdiga texten återger huvudinnehållet i ursprungstexten, inga formuleringar som innebär egna värderingar och kommentarer finns med, källhänvisning finns i början av referatet, citaten är få och ordagranna egna formuleringar, ej plagiat Till sist men inte minst: Se till att alla i gruppen bidrar till arbetet med texten! Korpussökning och korpusmått 16(44)
Grupper What can a corpus tell us about creativity Astrid, Jessica A, Marcus W What can a corpus tell us about language teaching Josefin L, Lovisa, Sofie What are parallel and comparable corpora and how can we use them Maria S, Sandra E, Teisir Using corpora in translation Markus R, Nils Nina Korpussökning och korpusmått 17(44)
Grupper How can corpora be used to explore the language of poetry and drama? Cecilia, Helena S, Sofia G Erik S, Johan L, Otto W How to use corpus linguistics in sociolinguistics Christel, Emilie, Markella Ida M, Maria J, Rebecca How to use corpus linguistics in forensic linguistics Anders E, Josefin H, Niklas C How to use corpus linguistics in the study of political discourse Caroline W, Hanna Z Korpussökning och korpusmått 18(44)
Korpuslingvistik Vilka ord som förekommer i en text säger rätt mycket om vad texten handlar om eller värderingar och attityder bakom texten. För att ta reda på dessa bakomliggande värderingar och attityder kan vi titta på ordfrekvenser, nyckelord, konkordanser och kollokationer. Korpussökning och korpusmått 19(44)
Repetition: termer Token, löpord: sekvens av bokstäver (inkl. kolon eller bindestreck) som avgränsas av mellanslag, skiljetecken eller radbrytning Type, typord: textens unika ord, d.v.s. räkna ett token en gång Hapax legomena: token som förekommer endast en gång Lexem: refererar till samma typ av föremål och är betydelseskiljande, distinkt ordbetydelse Lemma: grundform, uppslagsform, basordform, den minst böjda formen av ett ord, form som vanligen används för att representera ett lexem Korpussökning och korpusmått 20(44)
Repetition: termer Konkordans: en lista med ord där träffarna centrerade och omgivna av sin kontext, kallas också KWIC (keyword-in-context) Kollokation: ord som förekommer tillsammans inom ett visst avstånd oftare än slumpen, ett ordsammanhang som ett ord kan eller brukar ingå i, t.ex. idiom, fasta fraser Kollokat: ord som ingår i en kollokation Nyckelord: innehållsord som återger det texten handlar om och förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen Frekvenslista: en sorterad lista som visar antal förekomster av en enhet, t.ex. token, typ eller lemma i en korpus Korpussökning och korpusmått 21(44)
Vad innebär ordfrekvenser? Kvantitativ ansats som visar antal förekomster av en enhet. Man kan räkna frekvenser på olika sätt: Löpord (token) springa sprang sprungit, hus huset husen. Lemmaformer (type) springa, hus. Alla ord, innehållsord, specifika ordklasser, ordformer av ett visst lemma, etc. Råfrekvenser det faktiska antalet gånger ett ord förekommer i en viss korpus. Går bra att använda om man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus. Korpussökning och korpusmått 22(44)
Råfrekvenser: exempel AE BA KL KR ALLA 74 år 38 parti 63 gång 75 man 2714 år 48 match 37 år 61 hand 74 far 1381 tid 30 tränare 26 fråga 46 väg 70 häst 1234 del 29 minut 25 socialdemokrat 45 fråga 58 år 1035 gång 27 dag 25 land 45 bil 57 tid 1031 sätt 24 seger 24 riksdag 40 fall 50 dag 974 fråga 24 mål 24 regering 38 statsråd 48 gång 974 fråga 23 spel 23 dag 37 huvud 45 väg 851 människa 23 lag 22 väg 37 dörr 41 hand 780 barn 21 tävling 20 procent 35 rum 39 öga 777 ğ 21 plats 19 stat 32 år 39 sak 754 fall 20 tid 19 del 32 polis 36 del 748 land 20 gång 18 politiker 31 tid 35 mor 694 liv Korpussökning och korpusmått 23(44)
Exemplet Texterna från SUC. Fil AE BA KL KR ALLA Antal ord 17092 16297 45186 14320 1166976 Genre Sport Ledare Deckare Trivia Substantiv (egennamn exkluderade) Lemman (grundformer). Korpussökning och korpusmått 24(44)
Relativa frekvenser Vi kan vilja jämföra ordfrekvenser mellan olika korpusar eller genre av olika storlekar och då är normalisering nödvändig. Relativa frekvenser den procentandel ordet utgör av orden i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar. Vi extrapolerar (uppskattar mätvärden utanför mätområdet) råfrekvenser från korpusar av olika storlek som vi jämför så att de kan uttryckas med samma faktor, ofta i termer av tusen eller miljoner ord. Korpussökning och korpusmått 25(44)
Relativa frekvenser: exempel Pronomentet we förekommer 2142 i en delkorpus av storlek 148624 token och 2666 i en annan delkorpus av storlek 483913 token. Eftersom de två delkorpusarna är olika stora säger inte de råa frekvenserna mycket så vi måste normalisera. Dela antalet sökt token med totalt antal ord och multiplicera med tusen eller miljon för att få fram förekomsten per tusen resp. per miljon ord 2142/148624*1000 = 14,41 alltså 14 förekomster på tusen ord 2666/483913*1000 = 5,5 alltså 6 förekomster på tusen ord we är alltså mer än dubbelt så vanligt i vår första delkorpus. Korpussökning och korpusmått 26(44)
Sammanfattning Fyra hjälpmedel för att finna sig tillrätta i en korpus är frekvenser, konkordanser, kollokationer och nyckelord. Frekvenser ger information om hur ofta en lexikal enhelt (token, lemma, fras) förekommer. Konkordanser är sökord i kontext (KWIC). Kollokationer är samförekomster som inte behöver stå direkt bredvid nyckelordet. Nyckelord är ord som är speciellt salienta/framträdande i en text. Olika verktyg kan ge olika stöd i sorterandet. Sökmönster kan i viss mån ersätta kollokationsprogram. Korpussökning och korpusmått 27(44)
Laboration 3 Skapa ordlistor från en text Frekvensanalys Löpord, typ Konkordanslistor Kluster Kollokationer Nyckelord Korpussökning och korpusmått 28(44)
Nästa gång Mer om konkordanser, kluster, kollokationer och nyckelord Att bygga en korpus Balans och representativitet Korpussökning och korpusmått 29(44)