Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet 1(46)
Förra gången Konkordanser och kollokationer Frekvenslista: råa och relativa frekvenser Referat, citat och plagiat Korpusmått, korpusbalans och korpusrepresentativitet 2(46)
Ämnen idag Mer om ordfrekvenser, nyckelord, kollokationer och konkordanser Korpusbalans Korpusrepresentativitet Korpusen som standardreferens Att skriva labbrapport Korpusmått, korpusbalans och korpusrepresentativitet 3(46)
Konkordanser och kluster Konkordanser är sökord i sin kontext ordnad efter förekomst, alfabetiskt efter förekomst eller kontext KWIC KeyWord In Context (OBS! Ej nyckelord). Man undersöker vilka ord som förekommer kring ett givet ord. Kluster innebär fasta sekvenser om flera ord t.ex. tre ord (clubs and bars) Korpusmått, korpusbalans och korpusrepresentativitet 4(46)
N-gram n-gram innebär en sekvens av n enhet ur en given sekvens av text eller tal; fonem, bokstav, stavelser, ord. unigram: 1, bigram: 2, trigram 3 t.ex. att vara eller inte vara unigram: att, vara, eller, inte, vara bigram: att vara, vara eller, eller inte, inte vara,... trigram: att vara eller, vara eller inte, eller inte vara,... Korpusmått, korpusbalans och korpusrepresentativitet 5(46)
Ordfrekvenser Kvantitativ ansats som visar antal förekomster av en enhet. Råfrekvenser det faktiska antalet gånger ett ord förekommer i en viss korpus. Går bra att använda om man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus. Relativa frekvenser den procentandel ordet utgör av orden i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar. Man kan räkna frekvenser på olika sätt: löpord, lemma, specifika ordklasser, ordformer av ett viss lemma, etc. Korpusmått, korpusbalans och korpusrepresentativitet 6(46)
Relativa frekvenser: exempel we förekommer 2142 i en delkorpus av storlek 148624 token och 2666 i en annan delkorpus av storlek 483913 token. 2142/148624*100=1,4% 2666/483913*100=0,55% 2142/148624*1000 = 14,41 alltså 14 förekomster på tusen ord 2666/483913*1000 = 5,5 alltså 6 förekomster på tusen ord we är alltså mer än dubbelt så vanligt i vår första delkorpus. Korpusmått, korpusbalans och korpusrepresentativitet 7(46)
Konkordanser Idén här är att ord som förekommer tillsammans påverkar varandra. Genom att se vilka ord ett givet ord förekommer tillsammans med anser man att man kan ge en bild av värderingar och attityder är kopplade till ordet i fråga; Vi kan säga något om ordets semantiska preferens/prosodi eller diskursprosodi. Korpusmått, korpusbalans och korpusrepresentativitet 8(46)
Konkordanser och kollokationer Konkordanser en lista med träffarna centrerade och omgivna av sin kontext. Kollokationer en lista med ord som förekommer i närheten av ett sökord. Korpusmått, korpusbalans och korpusrepresentativitet 9(46)
Kollokationer När vi arbetar med konkordanser får vi som resultat en lista som vi behöver gå igenom för att finna mönster i kontexten. Ett verktyg som tar fram kollokationer är en hjälp med denna sortering. Vi kan få syn på intressanta återkommande mönster. Om man inte har tillgång till ett verktyg som gör kollokationer får man försöka att kontrollera kontexten med sina sökmönster. Korpusmått, korpusbalans och korpusrepresentativitet 10(46)
Kollokationer och kolligationer Ibland gör man skillnad mellan kollokationer och kolligationer. Kollokationer samförekomster med sökord och lexikala ord. Kolligationer samförekomster mellan sökord och grammatiska ord. Korpusmått, korpusbalans och korpusrepresentativitet 11(46)
Bakers exempel, bachelor Baker tar upp ett exempel med ordet bachelor/bachelors och spinster/spinsters. BNC, 100 milj. ord. Vilka ord omger och modifierar bachelor och spinster? Vad säger detta om våra attityder till företeelserna? Baker fann......generellt att bachelor hade mer positiva konnotationer än spinster....att fler betydelseaspekter av bachelor kunde urskiljas (examen, livsstil, egenskaper). Kollokationer ett sätt att underlätta arbetet med att sovra i kontexten. OBS! att analysen inte görs automatiskt. INGET program gör ALLT! Korpusmått, korpusbalans och korpusrepresentativitet 12(46)
Intressanta återkommande mönster Vilka återkommande mönster är intressanta och vilka är det inte? Wordsmith kan räkna fram vilka kollokationer som är mer intressanta än andra, kollokationsstyrka genom t.ex. MI (mutual information). För att kunna söka på vilka ord man vill och verkligen få fram intressanta mönster krävs en rätt stor korpus. Olika algoritmer rankar kollokationsstyrka på olika sätt (se Baker:102). (Vi kommer inte att gå in på detta i detalj, bara nämna att olika ansatser kan ge något olika resultat). Korpusmått, korpusbalans och korpusrepresentativitet 13(46)
Kollokationer Med hjälp av kollokationsverktyget görs inte en analys, men verktyget tar fram alternativ som forskaren kan gå vidare med. I Bakers exempel med bachelor fås genom kollokationer en uppsättning ord att undersöka vidare. Orden behöver kategoriseras (i semantiska kategorier, t.ex. positiv/negativ). Orden behöver undersökas vidare för att man skall få belägg för valören positiv/negativ. Korpusmått, korpusbalans och korpusrepresentativitet 14(46)
Nyckelord Nyckelord ger information om vad en text handlar om. Nyckelord är inte nödvändigtvis de mest frekventa innehållsorden i en text. De identifieras genom att statistiskt jämföra ordfrekvenser mellan målkorpus och en större referenskorpus (benchmark). Nyckelord utgörs av ord som är speciella för en viss text. Det är alltså ord som kan vara lågfrekventa i en större samling texter, men relativt mer högfrekventa i ett (eller ett par) dokument. Nyckelordet karakteriserar innehållet eller diskursen inom ett visst dokument eller en viss textsamling. Korpusmått, korpusbalans och korpusrepresentativitet 15(46)
Nyckelord Positiva nyckelord: signifikant frekventa ord Negativa nyckelord: signifikant infrekventa/underrepresenterade ord, ord som förekommer mindre sällan i målkorpus än förväntat jämfört med en stor referenskorpus. Korpusmått, korpusbalans och korpusrepresentativitet 16(46)
Bakers exempel: referat Baker har gjort en undersökning av diskursen i resebroschyrer från club 18-30. Mer precist vill han undersöka huruvida bolaget anspelar på sun, fun and sex i sin reklam samt uppmuntrat till högt alkoholintag på sina resmål, något som tidigare påståtts om bolaget, och som bolaget påstått sig ha arbetat bort. Baker har baserat sin undersökning på en frekvensanalys, där han sedan gått vidare och närstuderat ett antal specifika ord. Korpusmått, korpusbalans och korpusrepresentativitet 17(46)
Bakers experiment En liten korpus, 17865 token. 12 korta texter. Frekvensordlista i Wordsmith. Råfrekvenser, eftersom alla jämförelser görs inom samma korpus, ej delkorpusar eller underkorpusar. Funktionsord sorteras bort. De mest frekventa innehållsorden har analyserats vidare avseende kluster i Wordsmith samt demografisk utbredning med hjälp av BNC Web. Korpusmått, korpusbalans och korpusrepresentativitet 18(46)
Bar bars Ett högfrekvent ord visade sig vara bar bars. (Frekvensordlista). bar bars undersöks avseende kluster med ett fönster om tre ord. Man finner bars and clubs, och söker vidare avseende alkoholintag. Baker anser att han utifrån de korpusresultat han finner inte kan hävda att club 18-30 aktivt uppmuntrat till alkoholintag. Korpusmått, korpusbalans och korpusrepresentativitet 19(46)
Verb Efter att ha undersökt nomen undersöker Baker verb. Han finner höga frekvenser för verb som sleep, book, want (se Baker sid. 58). Dessa sorteras dock bort eftersom de i hög grad relaterar till detaljer i rumsbeskrivningarna, och kvarstår gör verb som miss, chill, relax, work. Med kluster finner han don t miss out, chill out, make sure, work 2 live, work on your tan. Korpusmått, korpusbalans och korpusrepresentativitet 20(46)
Formell informell Baker bedömer vissa ord och ordkombinationer som informella (chill out, heaps of bars). För att verifiera att språket är informellt kontrollerar Baker dessa termer mot BNC Web, där det finns möjlighet att kontrollera frekvenser i tal och text samt över olika demografiska variabler. På detta sätt kan Baker alltså verifiera sina hypoteser om att språket är mer informellt, att vissa ord företrädesvis används av män eller kvinnor, unga eller gamla etc. Korpusmått, korpusbalans och korpusrepresentativitet 21(46)
Resultat Explicita referenser till alkohol och sex, som researrangörerna blivit anklagade för tidigare, förekommer inte i de broschyrer som undersöks. Baker påstår dock att budskapet ändå finns implicit. Club 18-30 ser de semesterfirare de vänder sig till som individer som är intresserade av information om platser att inta alkohol på, att de förmodligen behöver chilla och att de behöver hämta sig efter baksmälla. Baker kommenterar också på bilderna som finns i broschyrerna, och anser att dessa stöder de tolkningar han gjort. Korpusmått, korpusbalans och korpusrepresentativitet 22(46)
LIX - Läsbarhetsindex mått på hur avancerad en text är (Björnsson, 1968) antalet ord (O) och antalet meningar (M) i texten viktas mot antalet långa ord (L) (>6) i hela texten. LIX = O/M + L*100/O Barnböcker: - 25; Enkla texter: 25-30; Normal: 30-40; Sakinfo: 40-50 (tidning); Facktext: 50-60 (officiell); Svår facktext: >60 (byråkrat) Exempel: Texten innehåller 450 ord i 25 meningar, varav 115 är över 6 bokstäver. O=450, M=25, L=115 (450/25) + (115*100) / 450 = 43 LIX-räknare: http://www.lix.se/ Korpusmått, korpusbalans och korpusrepresentativitet 23(46)
Repetition: termer Konkordans: en lista med ord där träffarna vanligen centrerade och omgivna av sin kontext, kallas också KWIC (keyword-in-context) Kollokation: ord som förekommer tillsammans inom ett visst avstånd oftare än slumpen, ett ordsammanhang som ett ord kan eller brukar ingå i, t.ex. idiom, fasta fraser Kollokat: ord som ingår i en kollokation Nyckelord: innehållsord som återger det texten handlar om och förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen Frekvenslista: en sorterad lista som visar antal förekomster av en enhet, t.ex. token, typ eller lemma i en korpus Korpusmått, korpusbalans och korpusrepresentativitet 24(46)
Representativitet och balans Använder man sig av korpora är det alltid viktigt att man som användare vet hur de är uppbyggda. Två viktiga begrepp vid korpusundersökningar: Representativitet Hur väl passar korpusen min frågeställning? Balans Vad kan jag vänta mig av min korpus i form av skevheter? Korpusen som standardreferens Korpusmått, korpusbalans och korpusrepresentativitet 25(46)
Viktiga egenskaper hos korpusar En korpus i modern lingvistik är inte bara en eller flera texter utan med begreppet korpus följer också: Ett maskinläsbart format. Ett representativt urval. En standardreferens. (Ett balanserat urval). Korpusmått, korpusbalans och korpusrepresentativitet 26(46)
Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) med ett syfte i åtanke. Biber ( Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar. Vad är mitt universum? Definiera populationen ( sampling frame ) Hur är detta universum strukturerat? Fastställ den hierarkiska strukturen i populationen ( strata ) - genre, texttyper, ursprung Hur skall korpusen struktureras? Skall korpustexten utgöras av hela texter eller kortare sampel? Storlek? Bestäm storleken (vad är den optimala storleken?). Korpusmått, korpusbalans och korpusrepresentativitet 27(46)
En standardreferens Man skiljer ibland på representativitet och balans. När man talar om en korpus som en standardreferens menar man att korpusen kan ses som representativ för allmänt språk. För att uppfylla detta anses ofta att korpusen skall vara balanserad, dvs innehålla material från alla (?) genrer/texttyper. Korpusmått, korpusbalans och korpusrepresentativitet 28(46)
En balanserad korpus En balanserad korpus (generell eller specialiserad) täcker många olika textkategorier. Man utgår normalt från redan befintliga korpusmodeller när de bygger sina egna. Exempel: BNC fungerade som mall för ANC, SUC, Koreansk nationell korpus, Polsk nationell korpus. Korpusmått, korpusbalans och korpusrepresentativitet 29(46)
BNC 100 miljoner ord: 90 % skriven, 10 % transkriptioner av tal kriterier för skrivna texter: domän: innehåll tid: när texten producerades medium: typ av publikation (böcker, tidskrifter, ej publicerade manuskript) kriterier för talat material: demografisk: åldersgrupp, kön, samhällsklass, region sammanhang: möten, föreläsningar, radiosändningar Korpusmått, korpusbalans och korpusrepresentativitet 30(46)
Sammansättning av skrivet material i BNC DOMÄN % TID % Skönlitteratur 21,91 1960-74 2,26 Konst 8,08 1975-93 89,23 Tro och tanke 3,40 Ej klassificerad 8,49 Marknad/finans 7,93 MEDIUM % Fritid 11,13 Bok 58,58 Naturvetenskap 4,18 Tidskrift 31,08 Tillämpad vetenskap 8,21 Misc. publicerad 4,38 Samhällsvetenskap 14,80 Misc. ej publicerad 4,00 Världspolitik 18,39 Talad 1,52 Ej klassificerad 1,93 Ej klassificerad 0,40 Korpusmått, korpusbalans och korpusrepresentativitet 31(46)
Sammansättning av talmaterial i BNC REGION % SAMMANHANG % Söder 45,61 Utbildning 20,56 Mitten 23,33 Affärer 21,47 Nord 25,43 Institutionell 21,86 Ej klassificerad 5,61 Fritid 23,71 Ej klassificerad 12,38 INTERAKTION % Monolog 18,64 Dialog 74,87 Ej klassificerad 6,48 Korpusmått, korpusbalans och korpusrepresentativitet 32(46)
Korpusbalans In selecting texts for inclusion in the corpus, account was taken of both production, by sampling a wide variety of distinct types of material, and reception, by selecting instances of those types which have a wide distribution. Thus, having chosen to sample such things as popular novels, or technical writings, best-seller lists and library circulation statistics were consulted to select particular examples of them. (Aston and Burnard s (1998) summary of the design criteria of the BNC). Korpusmått, korpusbalans och korpusrepresentativitet 33(46)
SUC Hur gjorde de? Stockholm Umeå Corpus SUC. 1 miljon löpord fördelade på 500 excerpt om 2000 ord (liten). Svensk 1990-talstext. Balanserad......enligt kriteria från tidigare projekt (Brown!) Brown: the collection of books and periodicals in the Brown university and the Providence Athenaeum (Biber, 1993, B1)...och ekonomiska ramar! SGML-format, TEI-kompatibel. Korpusmått, korpusbalans och korpusrepresentativitet 34(46)
Kriteria för insamling av SUC (1) (1) Balanserad korpus: Omfattar olika texttyper och olika stilistiska nivåer. Kontrollera förlagskataloger. (2) Skall spegla vad en person kan förväntas ha läst (jfr Atkins et al., B1129; reception production) på tidigt 1990-tal (men jämför med senare kriteria). Kontrollera biblioteksstatistik. Korpusmått, korpusbalans och korpusrepresentativitet 35(46)
Kriteria för insamling av SUC (2) (3) SUC innehåller enbart svensk originaltext, inga översättningar. Detta sätter möjligen kriterium 2 något ur spel. (4) Alla texter i korpusen skall vara möjliga att gratis distribuera för icke-kommersiell forskning, d.v.s. copyright-frågor måste lösas. Var mycket noga med licensavtal med textgivarna!...vad tillåter licensavtalen att du gör med korpusen när du väl är färdig? Korpusmått, korpusbalans och korpusrepresentativitet 36(46)
Kriteria för insamling av SUC (3) (5) Korpusen skulle bara innehålla publicerad text, d.v.s. inga privata brev etc. Detta för med sig implikationer på flera nivåer, t.ex. taggning & taggset. (6) Så länge det inte står i konflikt med andra principer skall urvalet av texter vara parallellt med det i Brown och LOB korpora, så att komparativa studier kan göras. Detta kan göra korpora jämförbara både synkront och diakront. Korpusmått, korpusbalans och korpusrepresentativitet 37(46)
Kriteria för insamling av SUC (4) (7) Texterna skulle finnas i maskinläsbar form, eftersom det inte fanns resurser till inscanning av nya data. Detta kriterium fick vägas mot balans och parallelism (en del texter fick trots allt scannas in...). På tidigt 1990-tal sparade förlagen en hel del som papperskopior. Korpusmått, korpusbalans och korpusrepresentativitet 38(46)
Kriteria för insamling av SUC (5) Den lista av material som svarade mot alla kriterier ovan kan sägas utgöra populationen för SUC. Den lista av böcker, tidningsmaterial etc. som faktiskt valdes ur populationen (och som står upptagen i SUC:s bibliografifil) är samplingsramen. Varje artikel i samplingsramen utgör en samplingsenhet. Vad som till slut förekommer i korpusen är i de flesta fall ett excerpt ur en samplingsenhet (ca 2000 ord). Korpusmått, korpusbalans och korpusrepresentativitet 39(46)
Samplingsdimensioner i SUC Språk: Svenska Ursprung: Svenskt Kanal: Text/Prosa Intervall: 1990-talet Formalitetsgrad: Publicerad text Interaktivitet: Monolog Riktning: Svensk genomsnittsläsare Korpusmått, korpusbalans och korpusrepresentativitet 40(46)
Genrekategorisering SUC Facklitteratur A Press: Reportage B Press: Ledare/Debatt C Press: Recensioner E Arbete och fritid F Populärvetenskap G Biografier, essäer H Blandat J Lärda och vetenskapliga texter Skönlitteratur K Skönlitteratur Korpusmått, korpusbalans och korpusrepresentativitet 41(46)
En balanserad korpus Går det??? Vissa forskare anser att en balanserad korpus är en illusion. En korpus kan vara representativ utan att vara balanserad och balanserad utan att vara representativ. Representativitet relation mellan frågeställning och korpus. Balans relation mellan korpus och population. Om vi har en standardreferens för ett språk kan vi exempelvis jämföra mer specifika genrer (sporttext, modetidningar) mot denna standardreferens och finna drag som är specifika för denna genre. SUC brukar användas som standardreferens för svenska korpusundersökningar. Korpusmått, korpusbalans och korpusrepresentativitet 42(46)
Att bygga en korpus Om man inte hittar en korpus som passar för den tilltänkta undersökningen, måste man själv bygga en korpus. Hur bygger man en korpus? Hur skulle du gå till väga för att samla material och vilka problem ser du för varje steg? Korpusmått, korpusbalans och korpusrepresentativitet 43(46)
Laboration 3 Skapa ordlistor från en text Frekvensanalys Löpord, typ Konkordanslistor Kluster Kollokationer Nyckelord Korpusmått, korpusbalans och korpusrepresentativitet 44(46)
Om labbrapporter Titel, Författare, Kursnamn, Termin, År Introduktion: relevans, syfte, frågeställning Ev. Bakgrund: tidigare arbeten, förklara termer/begrepp Metod, Genomförande, Data, Verktyg Resultat, utvärdering Diskussion: jämför ev. dina resultat med andras där det går. Sammanfattning: svara på fråga Ev. Acknowledgments: tack! Referenser Korpusmått, korpusbalans och korpusrepresentativitet 45(46)
Nästa gång Att bygga en korpus Korpusannotering Muntlig redovisning Korpusmått, korpusbalans och korpusrepresentativitet 46(46)