Korpusmått, korpusbalans och korpusrepresentativitet

Relevanta dokument
Korpusuppbyggnad Från textsamling till korpus

Korpussökning och korpusmått 1(44)

Korpusundersökningar, referat

Förslag den 25 september Engelska

ENGELSKA. Ämnets syfte. Kurser i ämnet

Ämne - Engelska. Ämnets syfte

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Kursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt

ENGELSKA FÖR DÖVA. Ämnets syfte

Undervisningen i ämnet engelska ska ge eleverna förutsättningar att utveckla följande:

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Svenska Läsa

Förslag den 25 september Moderna språk

Anvisningar till rapporter i psykologi på B-nivå

ÄLTA SKOLAS LOKALA KURSPLAN

Checklista för systematiska litteraturstudier 3

Kursplan i svenska som andraspråk grundläggande GRNSVA2

Källkritik. - om att kritiskt granska och värdera information. Ted Gunnarsson

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Språk, datorer och textbehandling

A-C Ernehall, Fässbergsgymnasiet, Mölndal

Prövning i Engelska 5, ENGENG05, 100 poäng

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Vetenskaplig metodik

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

SVENSKA SOM ANDRASPRÅK

TDDD02 Föreläsning 7 HT-2013

Lärobok och litteratur: McKay/Brodin/Clayton/Webster, Blueprint C, ISBN:

Arbeta med Selected Works en lathund

MODERSMÅL. Ämnets syfte. Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande: Kurser i ämnet

Bilaga 18: Ämnesplan svenska för döva Skolverkets förslag till förändringar - Nationella it-strategier (U2015/04666/S) Dnr 6.1.

Statens skolverks författningssamling

Mål som eleverna skall ha uppnått i slutet av femte skolåret Eleverna skall:

Statistisk grammatikgranskning

Grundläggande textanalys. Joakim Nivre

FÖRSLAG TILL KURSPLAN INOM KOMMUNAL VUXENUTBILDNING GRUNDLÄGGANDE NIVÅ

översikt som visar centralt innehåll i GY 11 i relation till innehåll i Ämnets syfte 1 SVENSKA RUM 1

Svenska som andraspråk

Undervisningen i ämnet svenska ska ge eleverna förutsättningar att utveckla följande:

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Checklista för systematiska litteraturstudier*

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

Prövning i grundläggande Engelska

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Förslag den 25 september Engelska

Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen

- Kan skriva grundläggande information utifrån sig själv t.ex. personnummer, adress, telefonnummer etc.

Språk, datorer och textbehandling

Undervisningen ska erbjuda möjlighet till anpassning av stoff efter elevernas intresse och utbildning.

Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande:

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

Aspekt Nivå 1 Nivå 2 Nivå 3

Elementära verktyg för korpusbearbetning

Översättningsuniversalier i svenska översatta texter

SVENSKA. Lokal kursplan för ämnet Svenska. Kungsmarksskolan Strävansmål år 9

Business research methods, Bryman & Bell 2007

Det engelska språket omger oss i vardagen och används inom så skilda områden som kultur, politik, utbildning och ekonomi. Kunskaper i engelska

MÅL OCH BETYGSKRITERIER I SVENSKA

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Writing with context. Att skriva med sammanhang

Tekniker för storskalig parsning: Grundbegrepp

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Prövning i Moderna språk 5

Workplan Food. Spring term 2016 Year 7. Name:

Ämnets syfte. Undervisningen i ämnet svenska ska ge eleverna förutsättningar att utveckla följande:

Engelska 7, ENGENG07, 100 p

Förändring, evidens och lärande

Svensk nationell datatjänst, SND BAS Online

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Kvantitativ samhällsanalys med språkteknologiska metoder.

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Skrivstrategier. En framgångsrik språkinlärare: Tror på sin förmåga att lära sig. Är motiverad. Är medveten om varför hon/han vill lära sig

Betyg i årskurs 6. Grundskolans läroplan Kursplan i ämnet engelska

ENGELSKA 3.2 ENGELSKA

Prövning i grundläggande engelska: GRNENG 2

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:

Språkteknologi och Open Source

Svenska 1 Centralt innehåll och Kunskapskrav

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Korp. Övningar Språkbankens höstworkshop oktober 2016

729G09 Språkvetenskaplig databehandling

Koppling mellan styrdokumenten på naturvetenskapsprogrammet och sju programövergripande förmågor

Funäsdalens skola VT 2008 LOKAL PLANERING SVENSKA FUNÄSDALENS CENTRALSKOLA

Svenska mål och kriterier

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

ENGELSKA FÖR DÖVA OCH HÖRSELSKADADE

Kursplan - Grundläggande svenska som andraspråk

Momentguide: Samhällsvetenskaplig metod

Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande:

Vetenskaplig teori och metod II Att hitta vetenskapliga artiklar

Annette Lennerling. med dr, sjuksköterska

NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING, DET ANDRA INHEMSKA SPRÅKET OCH FRÄMMANDE SPRÅK

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

IBSE Ett självreflekterande(självkritiskt) verktyg för lärare. Riktlinjer för lärare

NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING,

SVENSKA. Ämnets syfte

Transkript:

Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet 1(46)

Förra gången Konkordanser och kollokationer Frekvenslista: råa och relativa frekvenser Referat, citat och plagiat Korpusmått, korpusbalans och korpusrepresentativitet 2(46)

Ämnen idag Mer om ordfrekvenser, nyckelord, kollokationer och konkordanser Korpusbalans Korpusrepresentativitet Korpusen som standardreferens Att skriva labbrapport Korpusmått, korpusbalans och korpusrepresentativitet 3(46)

Konkordanser och kluster Konkordanser är sökord i sin kontext ordnad efter förekomst, alfabetiskt efter förekomst eller kontext KWIC KeyWord In Context (OBS! Ej nyckelord). Man undersöker vilka ord som förekommer kring ett givet ord. Kluster innebär fasta sekvenser om flera ord t.ex. tre ord (clubs and bars) Korpusmått, korpusbalans och korpusrepresentativitet 4(46)

N-gram n-gram innebär en sekvens av n enhet ur en given sekvens av text eller tal; fonem, bokstav, stavelser, ord. unigram: 1, bigram: 2, trigram 3 t.ex. att vara eller inte vara unigram: att, vara, eller, inte, vara bigram: att vara, vara eller, eller inte, inte vara,... trigram: att vara eller, vara eller inte, eller inte vara,... Korpusmått, korpusbalans och korpusrepresentativitet 5(46)

Ordfrekvenser Kvantitativ ansats som visar antal förekomster av en enhet. Råfrekvenser det faktiska antalet gånger ett ord förekommer i en viss korpus. Går bra att använda om man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus. Relativa frekvenser den procentandel ordet utgör av orden i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar. Man kan räkna frekvenser på olika sätt: löpord, lemma, specifika ordklasser, ordformer av ett viss lemma, etc. Korpusmått, korpusbalans och korpusrepresentativitet 6(46)

Relativa frekvenser: exempel we förekommer 2142 i en delkorpus av storlek 148624 token och 2666 i en annan delkorpus av storlek 483913 token. 2142/148624*100=1,4% 2666/483913*100=0,55% 2142/148624*1000 = 14,41 alltså 14 förekomster på tusen ord 2666/483913*1000 = 5,5 alltså 6 förekomster på tusen ord we är alltså mer än dubbelt så vanligt i vår första delkorpus. Korpusmått, korpusbalans och korpusrepresentativitet 7(46)

Konkordanser Idén här är att ord som förekommer tillsammans påverkar varandra. Genom att se vilka ord ett givet ord förekommer tillsammans med anser man att man kan ge en bild av värderingar och attityder är kopplade till ordet i fråga; Vi kan säga något om ordets semantiska preferens/prosodi eller diskursprosodi. Korpusmått, korpusbalans och korpusrepresentativitet 8(46)

Konkordanser och kollokationer Konkordanser en lista med träffarna centrerade och omgivna av sin kontext. Kollokationer en lista med ord som förekommer i närheten av ett sökord. Korpusmått, korpusbalans och korpusrepresentativitet 9(46)

Kollokationer När vi arbetar med konkordanser får vi som resultat en lista som vi behöver gå igenom för att finna mönster i kontexten. Ett verktyg som tar fram kollokationer är en hjälp med denna sortering. Vi kan få syn på intressanta återkommande mönster. Om man inte har tillgång till ett verktyg som gör kollokationer får man försöka att kontrollera kontexten med sina sökmönster. Korpusmått, korpusbalans och korpusrepresentativitet 10(46)

Kollokationer och kolligationer Ibland gör man skillnad mellan kollokationer och kolligationer. Kollokationer samförekomster med sökord och lexikala ord. Kolligationer samförekomster mellan sökord och grammatiska ord. Korpusmått, korpusbalans och korpusrepresentativitet 11(46)

Bakers exempel, bachelor Baker tar upp ett exempel med ordet bachelor/bachelors och spinster/spinsters. BNC, 100 milj. ord. Vilka ord omger och modifierar bachelor och spinster? Vad säger detta om våra attityder till företeelserna? Baker fann......generellt att bachelor hade mer positiva konnotationer än spinster....att fler betydelseaspekter av bachelor kunde urskiljas (examen, livsstil, egenskaper). Kollokationer ett sätt att underlätta arbetet med att sovra i kontexten. OBS! att analysen inte görs automatiskt. INGET program gör ALLT! Korpusmått, korpusbalans och korpusrepresentativitet 12(46)

Intressanta återkommande mönster Vilka återkommande mönster är intressanta och vilka är det inte? Wordsmith kan räkna fram vilka kollokationer som är mer intressanta än andra, kollokationsstyrka genom t.ex. MI (mutual information). För att kunna söka på vilka ord man vill och verkligen få fram intressanta mönster krävs en rätt stor korpus. Olika algoritmer rankar kollokationsstyrka på olika sätt (se Baker:102). (Vi kommer inte att gå in på detta i detalj, bara nämna att olika ansatser kan ge något olika resultat). Korpusmått, korpusbalans och korpusrepresentativitet 13(46)

Kollokationer Med hjälp av kollokationsverktyget görs inte en analys, men verktyget tar fram alternativ som forskaren kan gå vidare med. I Bakers exempel med bachelor fås genom kollokationer en uppsättning ord att undersöka vidare. Orden behöver kategoriseras (i semantiska kategorier, t.ex. positiv/negativ). Orden behöver undersökas vidare för att man skall få belägg för valören positiv/negativ. Korpusmått, korpusbalans och korpusrepresentativitet 14(46)

Nyckelord Nyckelord ger information om vad en text handlar om. Nyckelord är inte nödvändigtvis de mest frekventa innehållsorden i en text. De identifieras genom att statistiskt jämföra ordfrekvenser mellan målkorpus och en större referenskorpus (benchmark). Nyckelord utgörs av ord som är speciella för en viss text. Det är alltså ord som kan vara lågfrekventa i en större samling texter, men relativt mer högfrekventa i ett (eller ett par) dokument. Nyckelordet karakteriserar innehållet eller diskursen inom ett visst dokument eller en viss textsamling. Korpusmått, korpusbalans och korpusrepresentativitet 15(46)

Nyckelord Positiva nyckelord: signifikant frekventa ord Negativa nyckelord: signifikant infrekventa/underrepresenterade ord, ord som förekommer mindre sällan i målkorpus än förväntat jämfört med en stor referenskorpus. Korpusmått, korpusbalans och korpusrepresentativitet 16(46)

Bakers exempel: referat Baker har gjort en undersökning av diskursen i resebroschyrer från club 18-30. Mer precist vill han undersöka huruvida bolaget anspelar på sun, fun and sex i sin reklam samt uppmuntrat till högt alkoholintag på sina resmål, något som tidigare påståtts om bolaget, och som bolaget påstått sig ha arbetat bort. Baker har baserat sin undersökning på en frekvensanalys, där han sedan gått vidare och närstuderat ett antal specifika ord. Korpusmått, korpusbalans och korpusrepresentativitet 17(46)

Bakers experiment En liten korpus, 17865 token. 12 korta texter. Frekvensordlista i Wordsmith. Råfrekvenser, eftersom alla jämförelser görs inom samma korpus, ej delkorpusar eller underkorpusar. Funktionsord sorteras bort. De mest frekventa innehållsorden har analyserats vidare avseende kluster i Wordsmith samt demografisk utbredning med hjälp av BNC Web. Korpusmått, korpusbalans och korpusrepresentativitet 18(46)

Bar bars Ett högfrekvent ord visade sig vara bar bars. (Frekvensordlista). bar bars undersöks avseende kluster med ett fönster om tre ord. Man finner bars and clubs, och söker vidare avseende alkoholintag. Baker anser att han utifrån de korpusresultat han finner inte kan hävda att club 18-30 aktivt uppmuntrat till alkoholintag. Korpusmått, korpusbalans och korpusrepresentativitet 19(46)

Verb Efter att ha undersökt nomen undersöker Baker verb. Han finner höga frekvenser för verb som sleep, book, want (se Baker sid. 58). Dessa sorteras dock bort eftersom de i hög grad relaterar till detaljer i rumsbeskrivningarna, och kvarstår gör verb som miss, chill, relax, work. Med kluster finner han don t miss out, chill out, make sure, work 2 live, work on your tan. Korpusmått, korpusbalans och korpusrepresentativitet 20(46)

Formell informell Baker bedömer vissa ord och ordkombinationer som informella (chill out, heaps of bars). För att verifiera att språket är informellt kontrollerar Baker dessa termer mot BNC Web, där det finns möjlighet att kontrollera frekvenser i tal och text samt över olika demografiska variabler. På detta sätt kan Baker alltså verifiera sina hypoteser om att språket är mer informellt, att vissa ord företrädesvis används av män eller kvinnor, unga eller gamla etc. Korpusmått, korpusbalans och korpusrepresentativitet 21(46)

Resultat Explicita referenser till alkohol och sex, som researrangörerna blivit anklagade för tidigare, förekommer inte i de broschyrer som undersöks. Baker påstår dock att budskapet ändå finns implicit. Club 18-30 ser de semesterfirare de vänder sig till som individer som är intresserade av information om platser att inta alkohol på, att de förmodligen behöver chilla och att de behöver hämta sig efter baksmälla. Baker kommenterar också på bilderna som finns i broschyrerna, och anser att dessa stöder de tolkningar han gjort. Korpusmått, korpusbalans och korpusrepresentativitet 22(46)

LIX - Läsbarhetsindex mått på hur avancerad en text är (Björnsson, 1968) antalet ord (O) och antalet meningar (M) i texten viktas mot antalet långa ord (L) (>6) i hela texten. LIX = O/M + L*100/O Barnböcker: - 25; Enkla texter: 25-30; Normal: 30-40; Sakinfo: 40-50 (tidning); Facktext: 50-60 (officiell); Svår facktext: >60 (byråkrat) Exempel: Texten innehåller 450 ord i 25 meningar, varav 115 är över 6 bokstäver. O=450, M=25, L=115 (450/25) + (115*100) / 450 = 43 LIX-räknare: http://www.lix.se/ Korpusmått, korpusbalans och korpusrepresentativitet 23(46)

Repetition: termer Konkordans: en lista med ord där träffarna vanligen centrerade och omgivna av sin kontext, kallas också KWIC (keyword-in-context) Kollokation: ord som förekommer tillsammans inom ett visst avstånd oftare än slumpen, ett ordsammanhang som ett ord kan eller brukar ingå i, t.ex. idiom, fasta fraser Kollokat: ord som ingår i en kollokation Nyckelord: innehållsord som återger det texten handlar om och förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen Frekvenslista: en sorterad lista som visar antal förekomster av en enhet, t.ex. token, typ eller lemma i en korpus Korpusmått, korpusbalans och korpusrepresentativitet 24(46)

Representativitet och balans Använder man sig av korpora är det alltid viktigt att man som användare vet hur de är uppbyggda. Två viktiga begrepp vid korpusundersökningar: Representativitet Hur väl passar korpusen min frågeställning? Balans Vad kan jag vänta mig av min korpus i form av skevheter? Korpusen som standardreferens Korpusmått, korpusbalans och korpusrepresentativitet 25(46)

Viktiga egenskaper hos korpusar En korpus i modern lingvistik är inte bara en eller flera texter utan med begreppet korpus följer också: Ett maskinläsbart format. Ett representativt urval. En standardreferens. (Ett balanserat urval). Korpusmått, korpusbalans och korpusrepresentativitet 26(46)

Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) med ett syfte i åtanke. Biber ( Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar. Vad är mitt universum? Definiera populationen ( sampling frame ) Hur är detta universum strukturerat? Fastställ den hierarkiska strukturen i populationen ( strata ) - genre, texttyper, ursprung Hur skall korpusen struktureras? Skall korpustexten utgöras av hela texter eller kortare sampel? Storlek? Bestäm storleken (vad är den optimala storleken?). Korpusmått, korpusbalans och korpusrepresentativitet 27(46)

En standardreferens Man skiljer ibland på representativitet och balans. När man talar om en korpus som en standardreferens menar man att korpusen kan ses som representativ för allmänt språk. För att uppfylla detta anses ofta att korpusen skall vara balanserad, dvs innehålla material från alla (?) genrer/texttyper. Korpusmått, korpusbalans och korpusrepresentativitet 28(46)

En balanserad korpus En balanserad korpus (generell eller specialiserad) täcker många olika textkategorier. Man utgår normalt från redan befintliga korpusmodeller när de bygger sina egna. Exempel: BNC fungerade som mall för ANC, SUC, Koreansk nationell korpus, Polsk nationell korpus. Korpusmått, korpusbalans och korpusrepresentativitet 29(46)

BNC 100 miljoner ord: 90 % skriven, 10 % transkriptioner av tal kriterier för skrivna texter: domän: innehåll tid: när texten producerades medium: typ av publikation (böcker, tidskrifter, ej publicerade manuskript) kriterier för talat material: demografisk: åldersgrupp, kön, samhällsklass, region sammanhang: möten, föreläsningar, radiosändningar Korpusmått, korpusbalans och korpusrepresentativitet 30(46)

Sammansättning av skrivet material i BNC DOMÄN % TID % Skönlitteratur 21,91 1960-74 2,26 Konst 8,08 1975-93 89,23 Tro och tanke 3,40 Ej klassificerad 8,49 Marknad/finans 7,93 MEDIUM % Fritid 11,13 Bok 58,58 Naturvetenskap 4,18 Tidskrift 31,08 Tillämpad vetenskap 8,21 Misc. publicerad 4,38 Samhällsvetenskap 14,80 Misc. ej publicerad 4,00 Världspolitik 18,39 Talad 1,52 Ej klassificerad 1,93 Ej klassificerad 0,40 Korpusmått, korpusbalans och korpusrepresentativitet 31(46)

Sammansättning av talmaterial i BNC REGION % SAMMANHANG % Söder 45,61 Utbildning 20,56 Mitten 23,33 Affärer 21,47 Nord 25,43 Institutionell 21,86 Ej klassificerad 5,61 Fritid 23,71 Ej klassificerad 12,38 INTERAKTION % Monolog 18,64 Dialog 74,87 Ej klassificerad 6,48 Korpusmått, korpusbalans och korpusrepresentativitet 32(46)

Korpusbalans In selecting texts for inclusion in the corpus, account was taken of both production, by sampling a wide variety of distinct types of material, and reception, by selecting instances of those types which have a wide distribution. Thus, having chosen to sample such things as popular novels, or technical writings, best-seller lists and library circulation statistics were consulted to select particular examples of them. (Aston and Burnard s (1998) summary of the design criteria of the BNC). Korpusmått, korpusbalans och korpusrepresentativitet 33(46)

SUC Hur gjorde de? Stockholm Umeå Corpus SUC. 1 miljon löpord fördelade på 500 excerpt om 2000 ord (liten). Svensk 1990-talstext. Balanserad......enligt kriteria från tidigare projekt (Brown!) Brown: the collection of books and periodicals in the Brown university and the Providence Athenaeum (Biber, 1993, B1)...och ekonomiska ramar! SGML-format, TEI-kompatibel. Korpusmått, korpusbalans och korpusrepresentativitet 34(46)

Kriteria för insamling av SUC (1) (1) Balanserad korpus: Omfattar olika texttyper och olika stilistiska nivåer. Kontrollera förlagskataloger. (2) Skall spegla vad en person kan förväntas ha läst (jfr Atkins et al., B1129; reception production) på tidigt 1990-tal (men jämför med senare kriteria). Kontrollera biblioteksstatistik. Korpusmått, korpusbalans och korpusrepresentativitet 35(46)

Kriteria för insamling av SUC (2) (3) SUC innehåller enbart svensk originaltext, inga översättningar. Detta sätter möjligen kriterium 2 något ur spel. (4) Alla texter i korpusen skall vara möjliga att gratis distribuera för icke-kommersiell forskning, d.v.s. copyright-frågor måste lösas. Var mycket noga med licensavtal med textgivarna!...vad tillåter licensavtalen att du gör med korpusen när du väl är färdig? Korpusmått, korpusbalans och korpusrepresentativitet 36(46)

Kriteria för insamling av SUC (3) (5) Korpusen skulle bara innehålla publicerad text, d.v.s. inga privata brev etc. Detta för med sig implikationer på flera nivåer, t.ex. taggning & taggset. (6) Så länge det inte står i konflikt med andra principer skall urvalet av texter vara parallellt med det i Brown och LOB korpora, så att komparativa studier kan göras. Detta kan göra korpora jämförbara både synkront och diakront. Korpusmått, korpusbalans och korpusrepresentativitet 37(46)

Kriteria för insamling av SUC (4) (7) Texterna skulle finnas i maskinläsbar form, eftersom det inte fanns resurser till inscanning av nya data. Detta kriterium fick vägas mot balans och parallelism (en del texter fick trots allt scannas in...). På tidigt 1990-tal sparade förlagen en hel del som papperskopior. Korpusmått, korpusbalans och korpusrepresentativitet 38(46)

Kriteria för insamling av SUC (5) Den lista av material som svarade mot alla kriterier ovan kan sägas utgöra populationen för SUC. Den lista av böcker, tidningsmaterial etc. som faktiskt valdes ur populationen (och som står upptagen i SUC:s bibliografifil) är samplingsramen. Varje artikel i samplingsramen utgör en samplingsenhet. Vad som till slut förekommer i korpusen är i de flesta fall ett excerpt ur en samplingsenhet (ca 2000 ord). Korpusmått, korpusbalans och korpusrepresentativitet 39(46)

Samplingsdimensioner i SUC Språk: Svenska Ursprung: Svenskt Kanal: Text/Prosa Intervall: 1990-talet Formalitetsgrad: Publicerad text Interaktivitet: Monolog Riktning: Svensk genomsnittsläsare Korpusmått, korpusbalans och korpusrepresentativitet 40(46)

Genrekategorisering SUC Facklitteratur A Press: Reportage B Press: Ledare/Debatt C Press: Recensioner E Arbete och fritid F Populärvetenskap G Biografier, essäer H Blandat J Lärda och vetenskapliga texter Skönlitteratur K Skönlitteratur Korpusmått, korpusbalans och korpusrepresentativitet 41(46)

En balanserad korpus Går det??? Vissa forskare anser att en balanserad korpus är en illusion. En korpus kan vara representativ utan att vara balanserad och balanserad utan att vara representativ. Representativitet relation mellan frågeställning och korpus. Balans relation mellan korpus och population. Om vi har en standardreferens för ett språk kan vi exempelvis jämföra mer specifika genrer (sporttext, modetidningar) mot denna standardreferens och finna drag som är specifika för denna genre. SUC brukar användas som standardreferens för svenska korpusundersökningar. Korpusmått, korpusbalans och korpusrepresentativitet 42(46)

Att bygga en korpus Om man inte hittar en korpus som passar för den tilltänkta undersökningen, måste man själv bygga en korpus. Hur bygger man en korpus? Hur skulle du gå till väga för att samla material och vilka problem ser du för varje steg? Korpusmått, korpusbalans och korpusrepresentativitet 43(46)

Laboration 3 Skapa ordlistor från en text Frekvensanalys Löpord, typ Konkordanslistor Kluster Kollokationer Nyckelord Korpusmått, korpusbalans och korpusrepresentativitet 44(46)

Om labbrapporter Titel, Författare, Kursnamn, Termin, År Introduktion: relevans, syfte, frågeställning Ev. Bakgrund: tidigare arbeten, förklara termer/begrepp Metod, Genomförande, Data, Verktyg Resultat, utvärdering Diskussion: jämför ev. dina resultat med andras där det går. Sammanfattning: svara på fråga Ev. Acknowledgments: tack! Referenser Korpusmått, korpusbalans och korpusrepresentativitet 45(46)

Nästa gång Att bygga en korpus Korpusannotering Muntlig redovisning Korpusmått, korpusbalans och korpusrepresentativitet 46(46)