Korpusuppbyggnad Från textsamling till korpus

Relevanta dokument
Korpusmått, korpusbalans och korpusrepresentativitet

Korpussökning och korpusmått 1(44)

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

ENGELSKA. Ämnets syfte. Kurser i ämnet

Ämne - Engelska. Ämnets syfte

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Språk, datorer och textbehandling

Förslag den 25 september Engelska

Elementära verktyg för korpusbearbetning

Korpusundersökningar, referat

Språk, datorer och textbehandling

Språk, datorer och textbehandling

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Grundläggande textanalys. Joakim Nivre

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Undervisningen i ämnet engelska ska ge eleverna förutsättningar att utveckla följande:

Kursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt

Tekniker för storskalig parsning: Grundbegrepp

ENGELSKA FÖR DÖVA. Ämnets syfte

Statistisk grammatikgranskning

Översättningsuniversalier i svenska översatta texter

Arbeta med Selected Works en lathund

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Prövning i grundläggande Engelska

Prövning i Engelska 5, ENGENG05, 100 poäng

MÅL OCH BETYGSKRITERIER I SVENSKA

Vetenskaplig metodik

MODERSMÅL. Ämnets syfte. Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande: Kurser i ämnet

Kursplan i svenska som andraspråk grundläggande GRNSVA2

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Språk, datorer och textbehandling

SVENSKA SOM ANDRASPRÅK

ÄLTA SKOLAS LOKALA KURSPLAN

Kort presentation av Korp, Sveriges nationalkorpus

Kvantitativ samhällsanalys med språkteknologiska metoder.

Förslag den 25 september Moderna språk

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Datorbaserade verktyg i humanistisk forskning

This is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?

Lärobok och litteratur: McKay/Brodin/Clayton/Webster, Blueprint C, ISBN:

Workplan Food. Spring term 2016 Year 7. Name:

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Källkritik. - om att kritiskt granska och värdera information. Ted Gunnarsson

Kunskap = sann, berättigad tro (Platon) Om en person P s har en bit kunskap K så måste alltså: Lite kunskaps- och vetenskapsteori

Statens skolverks författningssamling

Engelska 7, ENGENG07, 100 p

A-C Ernehall, Fässbergsgymnasiet, Mölndal

Förslag den 25 september Engelska

Svenska som andraspråk

Grammatik för språkteknologer

Talko korpus över den talade svenskan i Finland april 2016

Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande:

- Kan skriva grundläggande information utifrån sig själv t.ex. personnummer, adress, telefonnummer etc.

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

FÖRSLAG TILL KURSPLAN INOM KOMMUNAL VUXENUTBILDNING GRUNDLÄGGANDE NIVÅ

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Språkteknologi och Open Source

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Tekniker för storskalig parsning

Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

Genrekoden svarar mot kursplanen i svenska i Lgr 11

Writing with context. Att skriva med sammanhang

Genom undervisning i ämnet engelska ska eleverna sammanfattningsvis ges förutsättningar att utveckla sin förmåga att:

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Momentguide: Samhällsvetenskaplig metod

Undervisningen i ämnet svenska ska ge eleverna förutsättningar att utveckla följande:

Inlämningsuppgift: Pronomenidentifierare

Datorbaserade verktyg i humanistisk forskning

Svenska Läsa

Ämnets syfte. Undervisningen i ämnet svenska ska ge eleverna förutsättningar att utveckla följande:

Välkommen till kursen Flerspråkig utveckling, litteracitet och lärande

Lingvistiskt uppmärkt text

PM för kurs i Vetenskapsteori

Smedingeskolan LPP och matris för tema klassiker. LPP och matris för tema klassiker

Svensk nationell datatjänst, SND BAS Online

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Pragmatisk och narrativ utveckling

Lingvistik I Delmoment: Datorlingvistik

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Tekniker för storskalig parsning

Mål som eleverna skall ha uppnått i slutet av femte skolåret Eleverna skall:

Det engelska språket omger oss i vardagen och används inom så skilda områden som kultur, politik, utbildning och ekonomi. Kunskaper i engelska

Korp. Övningar Språkbankens höstworkshop oktober 2016

Anvisningar till rapporter i psykologi på B-nivå

Förändring, evidens och lärande

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

PLANERING FÖR ENGELSKA LAG SYD ÅK 7

Exempel på gymnasiearbete inom humanistiska programmet språk

1. Vad är ett språk? 1. Vad är ett språk? 2. Språkets struktur och delar. 2. Språkets struktur och delar

Svenska mål och kriterier

Lokal Pedagogisk planering i Spanska åk 6

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Transkript:

Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)

Förra gången Fördjupningsuppgift och labbrapport Termer: token, typ, lemma, lexem Frekvenslista: råa och relativa frekvenser Korpusuppbyggnad Från textsamling till korpus 2(53)

Ämnen idag Mittkursvärdering, om muntliga presentationer, labbinfo Mer om ordfrekvenser, nyckelord, kollokationer och konkordanser Korpusbalans Korpusrepresentativitet Korpusen som standardreferens Att bygga en korpus Korpusuppbyggnad Från textsamling till korpus 3(53)

Muntliga presentationer Gruppindelning och schema finns nu upplagda på kurshemsidan: http://stp.lingfil.uu.se/ matsd/uv/uv11/sdt/grupper.html Helst inga byten, men om det är nödvändigt måste det göras mellan två bestämda grupper Presentationen ska vara 10 minuter och ca 5 minuter för frågor och diskussion. Alla förväntas vara aktiva under seminariet. Korpusuppbyggnad Från textsamling till korpus 4(53)

Muntliga presentationer Alla i gruppen ska presentera. Dela gärna in presentationen i 2-3 tydliga delar som ni fördelar rättvist er emellan. Öva hemma själv på din del och minst en gång i hela gruppen innan så ni kan ta tiden. Berätta det viktiga, tala tydligt. Plast-OH/1 ppt/1 pdf. Anpassa vem som talar efter hur ni vill presentera. Korpusuppbyggnad Från textsamling till korpus 5(53)

Labb Labb 3 för grupp 1: extra tillfälle p.g.a. problem med WordSmith: 17/10 13.15-14.00 9-1064 Labb 4: ordklasstaggade korpusar, konkordanser, egna undersökningar... Grupp 1: Ons 19/10 13.15-15.00 9-1070 Grupp 2: To 20/10 13.15-15.00 9-1070 Korpusuppbyggnad Från textsamling till korpus 6(53)

Ordfrekvenser Kvantitativ ansats som visar antal förekomster av en enhet. Råfrekvenser det faktiska antalet gånger ett ord förekommer i en viss korpus. Går bra att använda om man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus. Relativa frekvenser den procentandel ordet utgör av orden i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar. Man kan räkna frekvenser på olika sätt: löpord, lemma, specifika ordklasser, ordformer av ett viss lemma, etc. Korpusuppbyggnad Från textsamling till korpus 7(53)

Relativa frekvenser: exempel we förekommer 2142 i en delkorpus av storlek 148624 token och 2666 i en annan delkorpus av storlek 483913 token. 2142/148624*100=1,4% 2666/483913*100=0,55% 2142/148624*1000 = 14,41 alltså 14 förekomster på tusen ord 2666/483913*1000 = 5,5 alltså 6 förekomster på tusen ord we är alltså mer än dubbelt så vanligt i vår första delkorpus. Korpusuppbyggnad Från textsamling till korpus 8(53)

Bakers exempel: referat Baker har gjort en undersökning av diskursen i resebroschyrer från club 18-30. Mer precist vill han undersöka huruvida bolaget anspelar på sun, fun and sex i sin reklam samt uppmuntrat till högt alkoholintag på sina resmål, något som tidigare påståtts om bolaget, och som bolaget påstått sig ha arbetat bort. Baker har baserat sin undersökning på en frekvensanalys, där han sedan gått vidare och närstuderat ett antal specifika ord. Korpusuppbyggnad Från textsamling till korpus 9(53)

Bakers experiment En liten korpus, 17865 token. 12 korta texter. Frekvensordlista i Wordsmith. Råfrekvenser, eftersom alla jämförelser görs inom samma korpus, ej delkorpusar eller underkorpusar. Funktionsord sorteras bort. De mest frekventa innehållsorden har analyserats vidare avseende kluster i Wordsmith samt demografisk utbredning med hjälp av BNC Web. Korpusuppbyggnad Från textsamling till korpus 10(53)

Bar bars Ett högfrekvent ord visade sig vara bar bars. (Frekvensordlista). bar bars undersöks avseende kluster med ett fönster om tre ord. Man finner bars and clubs, och söker vidare avseende alkoholintag. Baker anser att han utifrån de korpusresultat han finner inte kan hävda att club 18-30 aktivt uppmuntrat till alkoholintag. Korpusuppbyggnad Från textsamling till korpus 11(53)

Verb Efter att ha undersökt nomen undersöker Baker verb. Han finner höga frekvenser för verb som sleep, book, want (se Baker sid. 58). Dessa sorteras dock bort eftersom de i hög grad relaterar till detaljer i rumsbeskrivningarna, och kvarstår gör verb som miss, chill, relax, work. Med kluster finner han don t miss out, chill out, make sure, work 2 live, work on your tan. Korpusuppbyggnad Från textsamling till korpus 12(53)

Formell informell Baker bedömer vissa ord och ordkombinationer som informella (chill out, heaps of bars). För att verifiera att språket är informellt kontrollerar Baker dessa termer mot BNC Web, där det finns möjlighet att kontrollera frekvenser i tal och text samt över olika demografiska variabler. På detta sätt kan Baker alltså verifiera sina hypoteser om att språket är mer informellt, att vissa ord företrädesvis används av män eller kvinnor, unga eller gamla etc. Korpusuppbyggnad Från textsamling till korpus 13(53)

Resultat Explicita referenser till alkohol och sex, som researrangörerna blivit anklagade för tidigare, förekommer inte i de broschyrer som undersöks. Baker påstår dock att budskapet ändå finns implicit. Club 18-30 ser de semesterfirare de vänder sig till som individer som är intresserade av information om platser att inta alkohol på, att de förmodligen behöver chilla och att de behöver hämta sig efter baksmälla. Baker kommenterar också på bilderna som finns i broschyrerna, och anser att dessa stöder de tolkningar han gjort. Korpusuppbyggnad Från textsamling till korpus 14(53)

Konkordanser och kluster Konkordanser är sökord i sin kontext ordnad efter förekomst, alfabetiskt efter förekomst eller kontext KWIC KeyWord In Context (OBS! Ej blanda ihop med nyckelord). Att arbeta med konkordanser innebär att man undersöker vilka ord som förekommer kring ett givet ord. Kluster innebär fasta sekvenser om t.ex. tre ord (clubs and bars), medan konkordanser innebär att ett ord presenteras i ett utsnitt av sin kontext. Flera ord i kontexten kan vara intressant; före sökordet, efter, ett eller ett par ord före eller efter. Korpusuppbyggnad Från textsamling till korpus 15(53)

Konkordanser Idén här är att ord som förekommer tillsammans påverkar varandra. Ett tydligt exempel är hur adjektiv och particip kan modifiera substantiv. En glad flicka, Flickan är glad. Genom att se vilka ord ett givet ord förekommer tillsammans med anser man att man kan ge en bild av värderingar och attityder är kopplade till ordet i fråga; vi kan säga något om ordets semantiska preferens/prosodi eller diskursprosodi. Korpusuppbyggnad Från textsamling till korpus 16(53)

Kollokationer När vi arbetar med konkordanser får vi som resultat en lista som vi behöver gå igenom för att finna mönster i kontexten. Ett verktyg som tar fram kollokationer är en hjälp med denna sortering. Vi kan få syn på intressanta återkommande mönster. (Om man inte har tillgång till ett verktyg som gör kollokationer får man försöka att kontrollera kontexten med sina sökmönster.) Korpusuppbyggnad Från textsamling till korpus 17(53)

Kollokationer och kolligationer Ibland gör man skillnad mellan kollokationer och kolligationer. Kollokationer samförekomster med sökord och lexikala ord. Kolligationer samförekomster mellan sökord och grammatiska ord. Korpusuppbyggnad Från textsamling till korpus 18(53)

Bakers exempel, bachelor Baker tar upp ett exempel med ordet bachelor/bachelors och spinster/spinsters. BNC, 100 milj. ord. Vilka ord omger och modifierar bachelor och spinster? Vad säger detta om våra attityder till företeelserna? Baker fann......generellt att bachelor hade mer positiva konnotationer än spinster....att fler betydelseaspekter av bachelor kunde urskiljas (examen, livsstil, egenskaper). Kollokationer ett sätt att underlätta arbetet med att sovra i kontexten. OBS! att analysen inte görs automatiskt. INGET program gör ALLT! Korpusuppbyggnad Från textsamling till korpus 19(53)

Intressanta återkommande mönster Vilka återkommande mönster är intressanta och vilka är det inte? Wordsmith kan räkna fram vilka kollokationer som är mer intressanta än andra, kollokationsstyrka genom t.ex. MI (mutual information). För att kunna söka på vilka ord man vill och verkligen få fram intressanta mönster krävs en rätt stor korpus. Olika algoritmer rankar kollokationsstyrka på olika sätt (se Baker:102). (Vi kommer inte att gå in på detta i detalj, bara nämna att olika ansatser kan ge något olika resultat). Korpusuppbyggnad Från textsamling till korpus 20(53)

Nyckelord Nyckelord ger information om vad en text handlar om. Nyckelord är inte nödvändigtvis de mest frekventa innehållsorden i en text. De identifieras genom att statistiskt jämföra ordfrekvenser mellan målkorpus och en större referenskorpus (benchmark). Nyckelord utgörs av ord som är speciella för en viss text. Det är alltså ord som kan vara lågfrekventa i en större samling texter, men relativt mer högfrekventa i ett (eller ett par) dokument. Nyckelordet karakteriserar innehållet eller diskursen inom ett visst dokument eller en viss textsamling. Korpusuppbyggnad Från textsamling till korpus 21(53)

Nyckelord Positiva nyckelord: signifikant frekventa ord Negativa nyckelord: signifikant infrekventa/underrepresenterade ord, ord som förekommer mindre sällan i målkorpus än förväntat jämfört med en stor referenskorpus. Korpusuppbyggnad Från textsamling till korpus 22(53)

Representativitet och balans Använder man sig av korpora är det alltid viktigt att man som användare vet hur de är uppbyggda. Två viktiga begrepp vid korpusundersökningar: Representativitet Hur väl passar korpusen min frågeställning? Balans Vad kan jag vänta mig av min korpus i form av skevheter? Korpusen som standardreferens Korpusuppbyggnad Från textsamling till korpus 23(53)

Viktiga egenskaper hos korpusar En korpus i modern lingvistik är inte bara en eller flera texter utan med begreppet korpus följer också: Ett maskinläsbart format. Ett representativt urval. En standardreferens. (Ett balanserat urval). Korpusuppbyggnad Från textsamling till korpus 24(53)

Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) med ett syfte i åtanke. Biber ( Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar. Vad är mitt universum? Definiera populationen ( sampling frame ) Hur är detta universum strukturerat? Fastställ den hierarkiska strukturen i populationen ( strata ) - genre, texttyper, ursprung Hur skall korpusen struktureras? Skall korpustexten utgöras av hela texter eller kortare sampel? Storlek? Bestäm storleken (vad är den optimala storleken?). Korpusuppbyggnad Från textsamling till korpus 25(53)

En standardreferens Man skiljer ibland på representativitet och balans. När man talar om en korpus som en standardreferens menar man att korpusen kan ses som representativ för allmänt språk. För att uppfylla detta anses ofta att korpusen skall vara balanserad, dvs innehålla material från alla (?) genrer/texttyper. Korpusuppbyggnad Från textsamling till korpus 26(53)

En balanserad korpus En balanserad korpus (generell eller specialiserad täcker många olika textkategorier. Man utgår normalt från redan befintliga korpusmodeller när de bygger sina egna. Exempel: BNC fungerade som mall för ANC, SUC, Koreansk nationell korpus, Polsk nationell korpus. Korpusuppbyggnad Från textsamling till korpus 27(53)

BNC 100 miljoner ord: 90 % skriven, 10 % transkriptioner av tal kriterier för skrivna texter: domän: innehåll tid: när texten producerades medium: typ av publikation (böcker, tidskrifter, ej publicerade manuskript) kriterier för talat material: demografisk: åldersgrupp, kön, samhällsklass, region sammanhang: möten, föreläsningar, radiosändningar Korpusuppbyggnad Från textsamling till korpus 28(53)

Sammansättning av skrivet material i BNC DOMÄN % TID % Skönlitteratur 21,91 1960-74 2,26 Konst 8,08 1975-93 89,23 Tro och tanke 3,40 Ej klassificerad 8,49 Maknad/finans 7,93 MEDIUM % Fritid 11,13 Bok 58,58 Naturvetenskap 4,18 Tidskrift 31,08 Tillämpad vetenskap 8,21 Misc. publicerad 4,38 Samhällsvetenskap 14,80 Misc. ej publicerad 4,00 Världspolitik 18,39 Talad 1,52 Ej klassificerad 1,93 Ej klassificerad 0,40 Korpusuppbyggnad Från textsamling till korpus 29(53)

Sammansättning av talmaterial i BNC REGION % SAMMANHANG % Söder 45,61 Utbildning 20,56 Mitten 23,33 Affärer 21,47 Nord 25,43 Institutionell 21,86 Ej klassificerad 5,61 Fritid 23,71 Ej klassificerad 12,38 INTERAKTION % Monolog 18,64 Dialog 74,87 Ej klassificerad 6,48 Korpusuppbyggnad Från textsamling till korpus 30(53)

Korpusbalans In selecting texts for inclusion in the corpus, account was taken of both production, by sampling a wide variety of distinct types of material, and reception, by selecting instances of those types which have a wide distribution. Thus, having chosen to sample such things as popular novels, or technical writings, best-seller lists and library circulation statistics were consulted to select particular examples of them. (Aston and Burnard s (1998) summary of the design criteria of the BNC). Korpusuppbyggnad Från textsamling till korpus 31(53)

SUC Hur gjorde de? Stockholm Umeå Corpus SUC. 1 miljon löpord fördelade på 500 excerpt om 2000 ord (liten). Svensk 1990-talstext. Balanserad......enligt kriteria från tidigare projekt (Brown!) Brown: the collection of books and periodicals in the Brown university and the Providence Athenaeum (Biber, 1993, B1)...och ekonomiska ramar! SGML-format, TEI-kompatibel. Korpusuppbyggnad Från textsamling till korpus 32(53)

Kriteria för insamling av SUC (1) (1) Balanserad korpus: Omfattar olika texttyper och olika stilistiska nivåer. Kontrollera förlagskataloger. (2) Skall spegla vad en person kan förväntas ha läst (jfr Atkins et al., B1129; reception production) på tidigt 1990-tal (men jämför med senare kriteria). Kontrollera biblioteksstatistik. Korpusuppbyggnad Från textsamling till korpus 33(53)

Kriteria för insamling av SUC (2) (3) SUC innehåller enbart svensk originaltext, inga översättningar. Detta sätter möjligen kriterium 2 något ur spel. (4) Alla texter i korpusen skall vara möjliga att gratis distribuera för icke-kommersiell forskning, d.v.s. copyright-frågor måste lösas. Var mycket noga med licensavtal med textgivarna!...vad tillåter licensavtalen att du gör med korpusen när du väl är färdig? Korpusuppbyggnad Från textsamling till korpus 34(53)

Kriteria för insamling av SUC (3) (5) Korpusen skulle bara innehålla publicerad text, d.v.s. inga privata brev etc. Detta för med sig implikationer på flera nivåer, t.ex. taggning & taggset. (6) Så länge det inte står i konflikt med andra principer skall urvalet av texter vara parallellt med det i Brown och LOB korpora, så att komparativa studier kan göras. Detta kan göra korpora jämförbara både synkront och diakront. Korpusuppbyggnad Från textsamling till korpus 35(53)

Kriteria för insamling av SUC (4) (7) Texterna skulle finnas i maskinläsbar form, eftersom det inte fanns resurser till inscanning av nya data. Detta kriterium fick vägas mot balans och parallelism (en del texter fick trots allt scannas in...). På tidigt 1990-tal sparade förlagen en hel del som papperskopior. Korpusuppbyggnad Från textsamling till korpus 36(53)

Kriteria för insamling av SUC (5) Den lista av material som svarade mot alla kriterier ovan kan sägas utgöra populationen för SUC. Den lista av böcker, tidningsmaterial etc. som faktiskt valdes ur populationen (och som står upptagen i SUC:s bibliografifil) är samplingsramen. Varje artikel i samplingsramen utgör en samplingsenhet. Vad som till slut förekommer i korpusen är i de flesta fall ett excerpt ur en samplingsenhet (ca 2000 ord). Korpusuppbyggnad Från textsamling till korpus 37(53)

Samplingsdimensioner i SUC Språk: Svenska Ursprung: Svenskt Kanal: Text/Prosa Intervall: 1990-talet Formalitetsgrad: Publicerad text Interaktivitet: Monolog Riktning: Svensk genomsnittsläsare Korpusuppbyggnad Från textsamling till korpus 38(53)

Genrekategorisering SUC Facklitteratur A Press: Reportage B Press: Ledare/Debatt C Press: Recensioner E Arbete och fritid F Populärvetenskap G Biografier, essäer H Blandat J Lärda och vetenskapliga texter Skönlitteratur K Skönlitteratur Korpusuppbyggnad Från textsamling till korpus 39(53)

En balanserad korpus Går det??? Vissa forskare anser att en balanserad korpus är en illusion. En korpus kan vara representativ utan att vara balanserad och balanserad utan att vara representativ. Representativitet relation mellan frågeställning och korpus. Balans relation mellan korpus och population. Om vi har en standardreferens för ett språk kan vi exempelvis jämföra mer specifika genrer (sporttext, modetidningar) mot denna standardreferens och finna drag som är specifika för denna genre. SUC brukar användas som standardreferens för svenska korpusundersökningar. Korpusuppbyggnad Från textsamling till korpus 40(53)

Att bygga en korpus Om man inte hittar en korpus som passar för den tilltänkta undersökningen, måste man själv bygga en korpus. Hur bygger man en korpus? Hur skulle du gå till väga för att samla material och vilka problem ser du för varje steg? Korpusuppbyggnad Från textsamling till korpus 41(53)

Nästa gång Att bygga en korpus Korpusannotering Taggning, PoS-taggad korpus Parsning, syntaktiskt annoterade korpusar, s.k. trädbanker Parallella korpusar Korpusuppbyggnad Från textsamling till korpus 42(53)

Labb Labb 3 för grupp 1: extra tillfälle p.g.a. problem med WordSmith: 17/10 13.15-14.00 9-1064 Labb 4: ordklasstaggade korpusar, konkordanser, egna undersökningar... Grupp 1: Ons 19/10 13.15-15.00 9-1070 Grupp 2: To 20/10 13.15-15.00 9-1070 Korpusuppbyggnad Från textsamling till korpus 43(53)