Korpussökning och korpusmått 1(44)

Relevanta dokument
Korpusundersökningar, referat

Korpusmått, korpusbalans och korpusrepresentativitet

Grundläggande textanalys, VT2013

GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT

Korpusuppbyggnad Från textsamling till korpus

Rapportskrivning. Innehållsförteckning, källhänvisning, referenssystem, sidnumrering

Examensarbete i språkteknologi

Skrivguide. Tillhör:

Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek

Sotenäs Kompetenscentrum Titel på arbetet (Mall för vetenskaplig rapport)

Hur skriver man en vetenskaplig uppsats?

UTBILDNING & ARBETE Uppsatsskrivandets ABC

Att skriva källförteckning

Uppsatsskrivandets ABC

En liten guide till akademiskt skrivande. En liten guide till akademiskt skrivande

PM P R O M E M O R I A

Vetenskapligt skrivande. Några råd inför det vetenskapliga skrivandet

Lathund del 1 källkritik, källsökning samt referat- och citatteknik

Att citera och referera

Korpusar och deras användning

Noter och referenser - Oxfordsystemet

Plagiatpolicy för den medicinska fakulteten

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Hur man skriver vetenskapliga texter, gör referat, källhänvisningar och källkritik m.m.

Skriv! Hur du enkelt skriver din uppsats

Att skriva källförteckning

Hälsoprojekt. Utvärdera din hälsa i rapportform. Samarbete: Idrott och hälsa A + Svenska A

Här nedan finns förslag på två olika sätt hur tryckta och otryckta källor kan anges i löptexten.

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport

Referenser enligt Harvardsystemet. en introduktion. Version 2.1, 2016 Biblioteket & Studieverkstan

Skrivstöd inför hemtentamen. i Socialt arbete/socionomprogrammet

REFERENSHANTERING. Svenska Jonathan Thorsell

Att skriva en vetenskaplig rapport

FORMALIA EXAMENSARBETE

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport

Att skriva uppsats! En handledning i konsten att skriva en uppsats

Välkommen till kursen Flerspråkig utveckling, litteracitet och lärande

FORMALIA FÖR INLÄMNINGSUPPGIFTER Akademin för hälsa, vård och välfärd; HVV

Harvardmetoden. en liten lathund

Word-guide Introduktion

Källhantering och formalia Innehåll

Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen

Individuellt fördjupningsarbete

Projektarbetet 100p L I T E O M I N T E R V J U E R L I T E O M S K R I V A N D E T A V A R B E T E T S A M T L I T E F O R M A L I A

KN - Seminarium. Konkreta krav. Kort om kursen. Grov tidtabell HT Kurskod: 6511 Ämnesstudier, 3 sv (5 sp)

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Lathund för Gymnasiearbetet

Seminarium: Att skriva en akademisk uppsats. LT200X Stefan Stenbom

Att skriva en vetenskaplig rapport

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Akademiskt skrivande: några goda råd Skrivarverkstaden Mia Mårdberg

Referenser enligt Harvardsystemet. en introduktion. Version 3, 2019 Biblioteket & Studieverkstan

Harvardmetoden en liten lathund

När man använder någon annans text

Gymnasiearbete Datum. Uppsatsens rubrik. Ev. underrubrik. Ditt namn, klass Handledarens namn

Frågor och svar om tekniska rapporter

Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

LULEÅ GYMNASIEBY Samhällsvetenskapsprogrammet Läsår et 2013/2014. Rapportmall för gymnasiearbetet på samhällsvetenskapsprogrammet

Skriftlig kommunikation. Att väcka och behålla läsarnas intresse

Referera, citera och källhänvisa

EXAMENSARBETE för Nationell montessoriexamen

Meningssegmentering i SUC och Talbanken

Checklista. Hur du enkelt skriver din uppsats

LINKÖPINGS UNIVERSITET BESLUT Dnr: LiU 121/07-45 Rektor

Korp. Övningar Språkbankens höstworkshop oktober 2016

VARFÖR LÄR VI OSS DETTA?

Skapa en mall för inlämning av skriftliga uppgifter. med hjälp av Open Office Writer

Lathund för rapportskrivning

MINIMIKRAV VID RAPPORTSKRIVNING

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Både förslag till manuskript och färdiga manuskript ska skickas till redaktionen som elektronisk post. E-postadressen är:

(Förskollärarprofilen och Förskollärarprogrammet på Avdelningen för förskoledidaktik, BUV, Stockholms universitet)

AKADEMISK HEDERLIGHET HANDLAR OM ATT INTE FUSKA ELLER PLAGIERA INFORMATION OM PLAGIAT & UPPHOVSRÄTT

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

Skriva en sammanfattning 10 steg till framgång

Anvisningar för skriftliga arbeten på Pol Kand-programmet samt kurser i statsvetenskap och nationalekonomi

Författarvägledning Utbildning & Demokrati

Att ange källor i ett skolarbete

Att referera i. Den som refererar kallas referent.

KN - Seminarium VT Kursledare: Marina Waldén Kursens hemsida:

Akademiskt skrivande I

Föreläsning 3: Formalia: Hur skall uppsatsen se ut

Skriftlig presentation

MANUAL FÖR PROJEKTARBETET

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Titel. Äter vargar barn?

qwertyuiopasdfghjklzxcvbnmq ertyuiopasdfghjklzxcvbnmqwer tyuiopasdfghjklzxcvbnmqwerty uiopasdfghjklzxcvbnmqwertyui opasdfghjklzxcvbnmqwertyuiop

Informatik C, VT 2014 Informationssökning och referenshantering. Therese Nilsson

Titel Mall för Examensarbeten (Arial 28/30 point size, bold)

Källförteckningar för gymnasieskolan

Manusanvisningar fö r examensarbetet i Svenska la rarprögrammet

översikt som visar centralt innehåll i GY 11 i relation till innehåll i Ämnets syfte 1 SVENSKA RUM 1

Grundläggande textanalys. Joakim Nivre

RAPPORTSKRIVNING. Skolans namn Program, kurs, läsår Undervisande lärares namn. (titel på arbetet)

Att skriva sakprosa och facktext Några viktiga anvisningar för studenter på grundnivå Senast reviderade HT 2011 av Ann Boglind och Hans Landqvist

Akademisk hederlighet. om att hantera kunskap skapad av andra och att visa egen kunskap med tillåtna metoder

Examensarbete i språkteknologi

Gymnasiearbetet för det naturvetenskapliga programmet

Transkript:

Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44)

Förra gången Korpustyper Korpusdistributörer Korpusanvändning Termer: token, typ, lemma, lexem Kollokation Konkordans Frekvenslista Nyckelord Fördjupningsuppgift Laboration Korpussökning och korpusmått 2(44)

Ämnen idag Fördjupningsuppgift: att skriva referat referat citat plagiat referens: referenslista och källhänvisning Mer om ordfrekvenser, nyckelord, kollokationer och konkordanser Korpussökning och korpusmått 3(44)

Fördjupningsuppgift Referera en artikel. Artikeln ska handla om korpuslingvistik: beskriva en korpus eller en empirisk språkvetenskaplig undersökning som baseras på någon korpus Den skriftliga rapporten ska vara max. 2 sidor och ska skickas till Bea senast den 4 november per e-post: beata.megyesi@lingfil.uu.se och cc till alla som medverkat i uppgiften. Kommentarer skickas till alla i gruppen. Den muntliga presentationen ska vara på max. 10 minuter. Max. 3 personer per grupp. Korpussökning och korpusmått 4(44)

Referat Med egna ord redogör för innehållet i ett dokument. syfte: att sammanfatta ursprungstexten kortare än ursprungstexten en koncentrerad version som återger det väsentligaste objektiv och rättvis sammanfattning av ursprungstexten referatet får inte innehålla skribentens åsikter eller slutledningar man får inte heller förvanska textens mening eller syfte Korpussökning och korpusmått 5(44)

Referat referat ska alltid redovisa källa, d.v.s. vem som författat texten och varifrån ursprungstexten kommer, annars är det plagiat referatet innehåller ofta fraser som hänvisar till skribenten som skrivit texten som man refererar, s.k. referatmarkörer som t.ex. Enligt Person, påstår Walin, skriver Jonson... man får citera men huvuddelen ska innehålla sammanfattning med egna ord och formuleringar Korpussökning och korpusmått 6(44)

Citat citat är ett stycke ordagrann redovisning av en text till skillnad från referat som återger innehållet i texten Vid behov av exakt angivelse av källan, citera! Återge källans text ordagrant! Citat markeras med citationstecken XXX. Max. 15 rader utan tillstånd från upphovsrättsinnehavare. Glöm inte sidhänvisning vid citering! (Megyesi, 2011:1) Korpussökning och korpusmått 7(44)

Källhänvisning Källan anges detaljerat i en källförteckning i slutet av arbetet, med uppgift om författare, årtal, artikelnamn, boktitel, förlag, sidnummer, webbadress, hämtdatum och typ av publikation. Dahllöf, Mats. 2005. Akademiska uppsatsers uppbyggnad. Institutionen för lingvistik och filologi, Uppsala universitet. September 2005. O Keeffe, A. and McCarthym M. (ed.) 2010. The Routledge Handbook of Corpus Linguistics. Routledge. Samtliga källor måste vara omnämnda i den löpande texten med källhänvisning till källförteckningen (Dahllöf, 2005). Korpussökning och korpusmått 8(44)

Referenslista Ange källor i alfabetisk ordning Om det är samma författare, ange hans/hennes verk i kronologisk ordning Om det är flera verk av samma författare och årtal, numrera årtalen 2011a, 2011b, 2011c, etc. Korpussökning och korpusmått 9(44)

Referenser Ejerhed, E., Källgren, G. Wennstedt, O., Åström, M. 1992. The Linguistic Annotation System of the Stockholm-Umeå Corpus Project. DGL-UUM-R-32, report no. 33. Department of Linguistics, Umeå University. Källgren, G. 2006. Documentation of the Stockholm Umeå Corpus. In Manual of the Stockholm Umeå Corpus version 2.0, Gustafson-Capkova and Hartmann (eds.). Department of Linguistics, Stockholm University and Umeå University. Melin, L. och Lange, S. 1986, 2000. Att analysera text. Studentlitteratur. SUC2.0. 2006. Department of Linguistics, Stockholm University and Umeå University Korpussökning och korpusmått 10(44)

Källhänvisning Källhänvisningen i texten formateras enligt någon av följande metoder: Efternamn och årtal inom parentes: (Andersson, 2003) Harvardsystemet, vanligt inom samhällsvetenskap och humaniora. Siffra inom hakparentes: enligt [3] Vancouversystemet, vanligast inom naturvetenskap och teknik Fotnot: enligt 3 Oxfordsystemet Korpussökning och korpusmått 11(44)

Referenser Frågor att ställa: Är alla referenser i texten angivna i referenslistan? Är alla referenser i referenslistan angivna i texten? Är referenserna relevanta? Är referenserna korrekta och kompletta? Korpussökning och korpusmått 12(44)

Plagiat oredovisat användande av ett annat verks innehåll Referat av andras verk är aldrig plagiat, så länge källan redovisas men den nya texten måste ha ett visst mått av självständighet och originalitet. Återgivningar som ligger så nära grundverket att de inte är självständiga räknas som plagiat, om det inte är frågan om redovisade citat. (Wikipedia, Plagiat, 2011-10-08) Plagiat föranleder disciplinära åtgärder, kan leda till relegering upp till 6 månader. Plagiatkontroll är vanlig inom UU. Korpussökning och korpusmått 13(44)

Att skriva referat Se till att läsa igenom ordentligt och förstå texten! Bilda dig en uppfattning om textens innehåll och disposition! (t.ex. stryk under, anteckna, sammanfatta varje stycke med en mening) Gör en disposition för referatet utifrån omfånget! Referatet får följa dispositionen i texten men behöver inte göra det. Referatet kan börja med huvudpåståendet, eller beskriva orsak/följd, eller förargument/motargument Första stycket: ämne och källhänvisning: med författarnamn och var ursrpungstexten kommer ifrån Avslutning: Det viktigaste i ursprungstexten lyfts fram och upprepas Korpussökning och korpusmått 14(44)

Att skriva referat Skriv sakligt utan egna värderingar eller egna exempel! Använd referatmarkörer, d.v.s. information om vem som står bakom innehållet i texten. Särskilt användbart när man referar flera författare. enligt XY, författaren anser att..., XY skriver, anser, påstår, säger, etc. Korpussökning och korpusmått 15(44)

Att skriva referat I slutet kontrollera att den färdiga texten återger huvudinnehållet i ursprungstexten, inga formuleringar som innebär egna värderingar och kommentarer finns med, källhänvisning finns i början av referatet, citaten är få och ordagranna egna formuleringar, ej plagiat Till sist men inte minst: Se till att alla i gruppen bidrar till arbetet med texten! Korpussökning och korpusmått 16(44)

Grupper What can a corpus tell us about creativity Astrid, Jessica A, Marcus W What can a corpus tell us about language teaching Josefin L, Lovisa, Sofie What are parallel and comparable corpora and how can we use them Maria S, Sandra E, Teisir Using corpora in translation Markus R, Nils Nina Korpussökning och korpusmått 17(44)

Grupper How can corpora be used to explore the language of poetry and drama? Cecilia, Helena S, Sofia G Erik S, Johan L, Otto W How to use corpus linguistics in sociolinguistics Christel, Emilie, Markella Ida M, Maria J, Rebecca How to use corpus linguistics in forensic linguistics Anders E, Josefin H, Niklas C How to use corpus linguistics in the study of political discourse Caroline W, Hanna Z Korpussökning och korpusmått 18(44)

Korpuslingvistik Vilka ord som förekommer i en text säger rätt mycket om vad texten handlar om eller värderingar och attityder bakom texten. För att ta reda på dessa bakomliggande värderingar och attityder kan vi titta på ordfrekvenser, nyckelord, konkordanser och kollokationer. Korpussökning och korpusmått 19(44)

Repetition: termer Token, löpord: sekvens av bokstäver (inkl. kolon eller bindestreck) som avgränsas av mellanslag, skiljetecken eller radbrytning Type, typord: textens unika ord, d.v.s. räkna ett token en gång Hapax legomena: token som förekommer endast en gång Lexem: refererar till samma typ av föremål och är betydelseskiljande, distinkt ordbetydelse Lemma: grundform, uppslagsform, basordform, den minst böjda formen av ett ord, form som vanligen används för att representera ett lexem Korpussökning och korpusmått 20(44)

Repetition: termer Konkordans: en lista med ord där träffarna centrerade och omgivna av sin kontext, kallas också KWIC (keyword-in-context) Kollokation: ord som förekommer tillsammans inom ett visst avstånd oftare än slumpen, ett ordsammanhang som ett ord kan eller brukar ingå i, t.ex. idiom, fasta fraser Kollokat: ord som ingår i en kollokation Nyckelord: innehållsord som återger det texten handlar om och förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen Frekvenslista: en sorterad lista som visar antal förekomster av en enhet, t.ex. token, typ eller lemma i en korpus Korpussökning och korpusmått 21(44)

Vad innebär ordfrekvenser? Kvantitativ ansats som visar antal förekomster av en enhet. Man kan räkna frekvenser på olika sätt: Löpord (token) springa sprang sprungit, hus huset husen. Lemmaformer (type) springa, hus. Alla ord, innehållsord, specifika ordklasser, ordformer av ett visst lemma, etc. Råfrekvenser det faktiska antalet gånger ett ord förekommer i en viss korpus. Går bra att använda om man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus. Korpussökning och korpusmått 22(44)

Råfrekvenser: exempel AE BA KL KR ALLA 74 år 38 parti 63 gång 75 man 2714 år 48 match 37 år 61 hand 74 far 1381 tid 30 tränare 26 fråga 46 väg 70 häst 1234 del 29 minut 25 socialdemokrat 45 fråga 58 år 1035 gång 27 dag 25 land 45 bil 57 tid 1031 sätt 24 seger 24 riksdag 40 fall 50 dag 974 fråga 24 mål 24 regering 38 statsråd 48 gång 974 fråga 23 spel 23 dag 37 huvud 45 väg 851 människa 23 lag 22 väg 37 dörr 41 hand 780 barn 21 tävling 20 procent 35 rum 39 öga 777 ğ 21 plats 19 stat 32 år 39 sak 754 fall 20 tid 19 del 32 polis 36 del 748 land 20 gång 18 politiker 31 tid 35 mor 694 liv Korpussökning och korpusmått 23(44)

Exemplet Texterna från SUC. Fil AE BA KL KR ALLA Antal ord 17092 16297 45186 14320 1166976 Genre Sport Ledare Deckare Trivia Substantiv (egennamn exkluderade) Lemman (grundformer). Korpussökning och korpusmått 24(44)

Relativa frekvenser Vi kan vilja jämföra ordfrekvenser mellan olika korpusar eller genre av olika storlekar och då är normalisering nödvändig. Relativa frekvenser den procentandel ordet utgör av orden i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar. Vi extrapolerar (uppskattar mätvärden utanför mätområdet) råfrekvenser från korpusar av olika storlek som vi jämför så att de kan uttryckas med samma faktor, ofta i termer av tusen eller miljoner ord. Korpussökning och korpusmått 25(44)

Relativa frekvenser: exempel Pronomentet we förekommer 2142 i en delkorpus av storlek 148624 token och 2666 i en annan delkorpus av storlek 483913 token. Eftersom de två delkorpusarna är olika stora säger inte de råa frekvenserna mycket så vi måste normalisera. Dela antalet sökt token med totalt antal ord och multiplicera med tusen eller miljon för att få fram förekomsten per tusen resp. per miljon ord 2142/148624*1000 = 14,41 alltså 14 förekomster på tusen ord 2666/483913*1000 = 5,5 alltså 6 förekomster på tusen ord we är alltså mer än dubbelt så vanligt i vår första delkorpus. Korpussökning och korpusmått 26(44)

Sammanfattning Fyra hjälpmedel för att finna sig tillrätta i en korpus är frekvenser, konkordanser, kollokationer och nyckelord. Frekvenser ger information om hur ofta en lexikal enhelt (token, lemma, fras) förekommer. Konkordanser är sökord i kontext (KWIC). Kollokationer är samförekomster som inte behöver stå direkt bredvid nyckelordet. Nyckelord är ord som är speciellt salienta/framträdande i en text. Olika verktyg kan ge olika stöd i sorterandet. Sökmönster kan i viss mån ersätta kollokationsprogram. Korpussökning och korpusmått 27(44)

Laboration 3 Skapa ordlistor från en text Frekvensanalys Löpord, typ Konkordanslistor Kluster Kollokationer Nyckelord Korpussökning och korpusmått 28(44)

Nästa gång Mer om konkordanser, kluster, kollokationer och nyckelord Att bygga en korpus Balans och representativitet Korpussökning och korpusmått 29(44)