Korpusundersökningar, referat Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusundersökningar, referat 1(38)
Förra gången Korpustyper Korpusdistributörer Korpusanvändning Termer: token, typ, lemma, lexem Fördjupningsuppgift Laboration 1 Korpusundersökningar, referat 2(38)
Ämnen idag Kollokation Konkordans Frekvenslista Nyckelord Fördjupningsuppgift: att skriva referat referat citat plagiat referens: referenslista och källhänvisning Korpusundersökningar, referat 3(38)
Repetition: termer Token, löpord: sekvens av bokstäver (inkl. kolon eller bindestreck) som avgränsas av mellanslag, skiljetecken eller radbrytning Type, typord: textens unika ord, d.v.s. räkna ett token en gång Hapax legomena: token som förekommer endast en gång Lexem: refererar till samma typ av föremål och är betydelseskiljande, distinkt ordbetydelse Lemma: grundform, uppslagsform, basordform, den minst böjda formen av ett ord, form som vanligen används för att representera ett lexem Korpusundersökningar, referat 4(38)
Vilka korpusar hittade ni? Diskutera i grupp (4 personer i varje) och beskriv de korpusar ni arbetat med enligt begreppen nedan: generell vs. specialiserad text, tal, tecknat, multimodalt synkronisk vs. diakronisk språk: ett, två, många relation mellan språken (jämförbar, parallell,...) storlek: finit vs. monitor typ av annotering: analyserat, taggad, parsad, disambiguerat, trädbank Korpusundersökningar, referat 5(38)
Korpuslingvistik Vilka ord som förekommer i en text säger rätt mycket om vad texten handlar om eller värderingar och attityder bakom texten. För att ta reda på dessa bakomliggande värderingar och attityder kan vi titta på ordfrekvenser, nyckelord, konkordanser och kollokationer. Korpusundersökningar, referat 6(38)
Konkordans - concordance Sökord i kontext KWIC KeyWord In Context (OBS! Ej blanda ihop med nyckelord). En alfabetisk lista över ord som uppträder i en text Ordnad efter förekomst, alfabetiskt efter förekomst eller kontext Att arbeta med konkordanser innebär att man undersöker vilka ord som förekommer kring ett givet ord. Korpusundersökningar, referat 7(38)
Konkordanser Ett konkordansprogram söker i en text/korpus efter ett valt ord/fras och presenterar vanligen varje förekomst av det valda ordet/frasen centrerat på skärmen med orden i kontexten till vänster och höger. Används t.ex. för att observera de mest frekventa betydelserna, fraserna, ordförekomsterna för ett ord/fras, skillnader i betydelser och mönster, skillnader i semantisk preferens. Flera ord i kontexten kan vara intressant; före sökordet, efter, ett eller ett par ord före eller efter. Korpusundersökningar, referat 8(38)
Konkordans Idén här är att ord som förekommer tillsammans påverkar varandra. Ett tydligt exempel är hur adjektiv och particip kan modifiera substantiv. En glad flicka, Flickan är glad. Genom att se vilka ord ett givet ord förekommer tillsammans med anser man att man kan ge en bild av värderingar och attityder är kopplade till ordet i fråga; vi kan säga något om ordets semantiska preferens/prosodi eller diskursprosodi. Korpusundersökningar, referat 9(38)
Konkordans http://spraakbanken.gu.se/korp På språkbanken kan du söka i flera olika korpusar och resultaten presenteras företrädesvis i form av konkordanser. Beroende på vilken korpus man använder kan man söka på ordform eller kombinationer med ordklass och morfologisk analys. Korpusundersökningar, referat 10(38)
Kollokation - collocation är två eller flera ord som ofta förekommer tillsammans ordsammanhang som ett ord kan eller brukar ingå i (NE) definieras som en sekvens av ord eller termer som förekommer oftare än vad som förväntas av slumpen specifika kombinationer av ord, lexikala enheter, inte hela kontext typer: sammanhängande: röd tråd, på grund av nödvändigt diskontinuerliga: för... skull, ju... desto varierande: komma () ihåg, sitta () still, köra () bil Korpusundersökningar, referat 11(38)
Kollokationer När vi arbetar med konkordanser får vi som resultat en lista som vi behöver gå igenom för att finna mönster i kontexten. Ett verktyg som tar fram kollokationer är en hjälp med denna sortering. Vi kan få syn på intressanta återkommande mönster. (Om man inte har tillgång till ett verktyg som gör kollokationer får man försöka att kontrollera kontexten med sina sökmönster.) Korpusundersökningar, referat 12(38)
Konkordanser och kollokationer Konkordanser en lista med ord där träffarna centrerade och omgivna av sin kontext. Kollokationer en lista med ord som förekommer i närheten av ett sökord. Korpusundersökningar, referat 13(38)
Frekvenslista - Frequency list En frekvenslista är en sorterad lista som visar antal förekomster av en enhet, t.ex. token, typ eller lemma i en korpus. rank word count 1 you 1222421 2 I 1052546 3 to 823661 4 the 770161 Listan kan ordnas efter frekvens, alfabetiskt, eller förekomst i korpusen. Att jämföra frekvenslistor i två korpusar (speciellt specialiserade) kan ge information om skillnader i hur olika lexikala enheter används mellan dessa. Korpusundersökningar, referat 14(38)
Vad innebär ordfrekvenser? Kvantitativ ansats som visar antal förekomster av en enhet. Man kan räkna frekvenser på olika sätt: Löpord (token) springa sprang sprungit, hus huset husen. Lemmaformer (type) springa, hus. Alla ord, innehållsord, specifika ordklasser, ordformer av ett visst lemma, etc. Råfrekvenser det faktiska antalet gånger ett ord förekommer i en viss korpus. Går bra att använda om man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus. Korpusundersökningar, referat 15(38)
Råfrekvenser: exempel AE BA KL KR ALLA 74 år 38 parti 63 gång 75 man 2714 år 48 match 37 år 61 hand 74 far 1381 tid 30 tränare 26 fråga 46 väg 70 häst 1234 del 29 minut 25 socialdemokrat 45 fråga 58 år 1035 gång 27 dag 25 land 45 bil 57 tid 1031 sätt 24 seger 24 riksdag 40 fall 50 dag 974 fråga 24 mål 24 regering 38 statsråd 48 gång 974 fråga 23 spel 23 dag 37 huvud 45 väg 851 människa 23 lag 22 väg 37 dörr 41 hand 780 barn 21 tävling 20 procent 35 rum 39 öga 777 ğ 21 plats 19 stat 32 år 39 sak 754 fall 20 tid 19 del 32 polis 36 del 748 land 20 gång 18 politiker 31 tid 35 mor 694 liv Korpusundersökningar, referat 16(38)
Exemplet Texterna från SUC. Fil AE BA KL KR ALLA Antal ord 17092 16297 45186 14320 1166976 Genre Sport Ledare Deckare Trivia Substantiv (egennamn exkluderade) Lemman (grundformer). Korpusundersökningar, referat 17(38)
Relativa frekvenser Vi kan vilja jämföra ordfrekvenser mellan olika korpusar eller genre av olika storlekar och då är normalisering nödvändig. Relativa frekvenser den procentandel ordet utgör av orden i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar. Vi extrapolerar (uppskattar mätvärden utanför mätområdet) råfrekvenser från korpusar av olika storlek som vi jämför så att de kan uttryckas med samma faktor, ofta i termer av tusen eller miljoner ord. Korpusundersökningar, referat 18(38)
Relativa frekvenser: exempel Pronomentet we förekommer 2142 i en delkorpus av storlek 148624 token och 2666 i en annan delkorpus av storlek 483913 token. Eftersom de två delkorpusarna är olika stora säger inte de råa frekvenserna mycket så vi måste normalisera. Dela antalet sökt token med totalt antal ord och multiplicera med tusen eller miljon för att få fram förekomsten per tusen resp. per miljon ord 2142/148624*1000 = 14,41 alltså 14 förekomster på tusen ord 2666/483913*1000 = 5,5 alltså 6 förekomster på tusen ord we är alltså mer än dubbelt så vanligt i vår första delkorpus. Korpusundersökningar, referat 19(38)
Nyckelord - Keywords Ord som förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen. Nyckelord är lexikala enheter som återger det texten handlar om. Nyckelord tas fram genom att beräkna en statistisk test som jämför frekvenserna i en text mot deras förväntade frekvenser i en mycket större korpus, en referenskorpus och som reflekterar språkanvändningen. Korpusundersökningar, referat 20(38)
Sammanfattning Fyra hjälpmedel för att finna sig tillrätta i en korpus är frekvenser, konkordanser, kollokationer och nyckelord. Frekvenser ger information om hur ofta en lexikal enhelt (token, lemma, fras) förekommer. Konkordanser är sökord i kontext (KWIC). Kollokationer är samförekomster som inte behöver stå direkt bredvid nyckelordet. Nyckelord är ord som är speciellt salienta/framträdande i en text. Olika verktyg kan ge olika stöd i sorterandet. Sökmönster kan i viss mån ersätta kollokationsprogram. Korpusundersökningar, referat 21(38)
Repetition: termer Konkordans: en lista med ord där träffarna centrerade och omgivna av sin kontext, kallas också KWIC (keyword-in-context) Kollokation: ord som förekommer tillsammans inom ett visst avstånd oftare än slumpen, ett ordsammanhang som ett ord kan eller brukar ingå i, t.ex. idiom, fasta fraser Kollokat: ord som ingår i en kollokation Nyckelord: innehållsord som återger det texten handlar om och förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen Frekvenslista: en sorterad lista som visar antal förekomster av en enhet, t.ex. token, typ eller lemma i en korpus Korpusundersökningar, referat 22(38)
Laboration 2 Webben som korpus, ANC, BNC konkordanser kollokationer frekvenslistor nyckelord Korpusundersökningar, referat 23(38)
Fördjupningsuppgift Referera en artikel. Artikeln ska handla om korpuslingvistik: beskriva en korpus eller en empirisk språkvetenskaplig undersökning som baseras på någon korpus Den skriftliga rapporten ska vara max. 2-3 sidor och ska skickas till Bea senast den 7 mars per e-post: beata.megyesi@lingfil.uu.se och cc till alla som medverkat i uppgiften. Kommentarer skickas till alla i gruppen. Den muntliga presentationen ska vara på max. 10 minuter + 5 min. för frågor. Max. 3 personer per grupp. Korpusundersökningar, referat 24(38)
Referat Med egna ord redogör för innehållet i ett dokument. syfte: att sammanfatta ursprungstexten kortare än ursprungstexten en koncentrerad version som återger det väsentligaste objektiv och rättvis sammanfattning av ursprungstexten referatet får inte innehålla skribentens åsikter eller slutledningar man får inte heller förvanska textens mening eller syfte Korpusundersökningar, referat 25(38)
Referat referat ska alltid redovisa källa, d.v.s. vem som författat texten och varifrån ursprungstexten kommer, annars är det plagiat referatet innehåller ofta fraser som hänvisar till skribenten som skrivit texten som man refererar, s.k. referatmarkörer som t.ex. Enligt Person, påstår Walin, skriver Jonson... man får citera men huvuddelen ska innehålla sammanfattning med egna ord och formuleringar Korpusundersökningar, referat 26(38)
Citat citat är ett stycke ordagrann redovisning av en text till skillnad från referat som återger innehållet i texten Vid behov av exakt angivelse av källan, citera! Återge källans text ordagrant! Citat markeras med citationstecken XXX. Max. 15 rader utan tillstånd från upphovsrättsinnehavare. Glöm inte sidhänvisning vid citering! (Megyesi, 2011:1) Korpusundersökningar, referat 27(38)
Källhänvisning Källan anges detaljerat i en källförteckning i slutet av arbetet, med uppgift om författare, årtal, artikelnamn, boktitel, förlag, sidnummer, webbadress, hämtdatum och typ av publikation. Dahllöf, Mats. 2005. Akademiska uppsatsers uppbyggnad. Institutionen för lingvistik och filologi, Uppsala universitet. September 2005. O Keeffe, A. and McCarthym M. (ed.) 2010. The Routledge Handbook of Corpus Linguistics. Routledge. Samtliga källor måste vara omnämnda i den löpande texten med källhänvisning till källförteckningen (Dahllöf, 2005). Korpusundersökningar, referat 28(38)
Referenslista Ange källor i alfabetisk ordning Om det är samma författare, ange hans/hennes verk i kronologisk ordning Om det är flera verk av samma författare och årtal, numrera årtalen 2011a, 2011b, 2011c, etc. Korpusundersökningar, referat 29(38)
Referenser Ejerhed, E., Källgren, G. Wennstedt, O., Åström, M. 1992. The Linguistic Annotation System of the Stockholm-Umeå Corpus Project. DGL-UUM-R-32, report no. 33. Department of Linguistics, Umeå University. Källgren, G. 2006. Documentation of the Stockholm Umeå Corpus. In Manual of the Stockholm Umeå Corpus version 2.0, Gustafson-Capkova and Hartmann (eds.). Department of Linguistics, Stockholm University and Umeå University. Melin, L. och Lange, S. 1986, 2000. Att analysera text. Studentlitteratur. SUC2.0. 2006. Department of Linguistics, Stockholm University and Umeå University Korpusundersökningar, referat 30(38)
Källhänvisning Källhänvisningen i texten formateras enligt någon av följande metoder: Efternamn och årtal inom parentes: (Andersson, 2003) Harvardsystemet, vanligt inom samhällsvetenskap och humaniora. Siffra inom hakparentes: enligt [3] Vancouversystemet, vanligast inom naturvetenskap och teknik Fotnot: enligt 3 Oxfordsystemet Korpusundersökningar, referat 31(38)
Referenser Frågor att ställa: Är alla referenser i texten angivna i referenslistan? Är alla referenser i referenslistan angivna i texten? Är referenserna relevanta? Är referenserna korrekta och kompletta? Korpusundersökningar, referat 32(38)
Plagiat oredovisat användande av ett annat verks innehåll Referat av andras verk är aldrig plagiat, så länge källan redovisas men den nya texten måste ha ett visst mått av självständighet och originalitet. Återgivningar som ligger så nära grundverket att de inte är självständiga räknas som plagiat, om det inte är frågan om redovisade citat. (Wikipedia, Plagiat, 2011-10-08) Plagiat föranleder disciplinära åtgärder, kan leda till relegering upp till 6 månader. Plagiatkontroll är vanlig inom UU. Korpusundersökningar, referat 33(38)
Att skriva referat Se till att läsa igenom ordentligt och förstå texten! Bilda dig en uppfattning om textens innehåll och disposition! (t.ex. stryk under, anteckna, sammanfatta varje stycke med en mening) Gör en disposition för referatet utifrån omfånget! Referatet får följa dispositionen i texten men behöver inte göra det. Referatet kan börja med huvudpåståendet, eller beskriva orsak/följd, eller förargument/motargument Första stycket: ämne och källhänvisning: med författarnamn och var ursrpungstexten kommer ifrån Avslutning: Det viktigaste i ursprungstexten lyfts fram och upprepas Korpusundersökningar, referat 34(38)
Att skriva referat Skriv sakligt utan egna värderingar eller egna exempel! Använd referatmarkörer, d.v.s. information om vem som står bakom innehållet i texten. Särskilt användbart när man referar flera författare. enligt XY, författaren anser att..., XY skriver, anser, påstår, säger, etc. Korpusundersökningar, referat 35(38)
Att skriva referat I slutet kontrollera att den färdiga texten återger huvudinnehållet i ursprungstexten, inga formuleringar som innebär egna värderingar och kommentarer finns med, källhänvisning finns i början av referatet, citaten är få och ordagranna egna formuleringar, ej plagiat Till sist men inte minst: Se till att alla i gruppen bidrar till arbetet med texten! Korpusundersökningar, referat 36(38)
Grupper What can a corpus tell us about creativity Emelie, Elsie-Marie, Sigrid Using corpora in translation Jonni, Josefin, Marcos How can corpora be used to explore the language of poetry and drama? Helle, Julia, Matilda How to use corpus linguistics in forensic linguistics Andreas, Benita, Sandra Korpusundersökningar, referat 37(38)
Nästa gång Mer om konkordanser, kluster, kollokationer och nyckelord Att bygga en korpus Balans och representativitet Att skriva labbrapport Korpusundersökningar, referat 38(38)