Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ, t ex den klassiska latinska korpusen = alla klassiska latinska texter Idag avser korpus vanligtvis ungefär datoriserad textmassa för lingvistisk analys Olika typer av korpusar Skriftspråkskorpusar: Lätta att sammanställa, största problemet är upphovsrätt. (Språkbanken, British National Corpus, American National Corpus) Talspråkskorpusar: Svårare och mer tidsödande att samla in materialet. Kan vara problematiskt att hitta eller konstruera transkriptionsstandard som passar till det man vill använda materialet till. (GSLC, BySoc, BNC, ANC) Vad kan en korpus användas till? Korpuslingvistik är en metod som ger möjlighet att studera de flesta typer av lingvistiska problem. Datoriserade korpusar ökar tillförlitligheten av empiriska studier eftersom man kan bearbeta så stora material att ett statistiskt signifikant resultat kan uppnås. Användningsområde inom lingvistiken Semantik: Vilka olika betydelser kan ordet får ha i svenskan? Syntax: Tenderar vi att placera adverbial i början eller slutet av en mening/yttrande? Föredrar svenskan att ha adjektivattributet före eller efter sitt huvudord? Sociolingvistik: Fokuserar på t ex. köns- klass- och etnicitetsrelaterad variation. Användningsområden inom lingvistik Konversationsanalys: Samtalsstudier, ofta mer kvalitativa än
kvantitativa Diskursanalys: Kan gälla samtal (diskurspsykologi), men ofta mer offentliga texttyper som tidningstext, politiska tal etc. Kontrastiv lingvistik: Jämförelse av olika aspekter av mellan olika språk Tillämpningar av lingvistiska korpusstudier Ordböcker bygger numera så gott som alltid på korpusstudier Utveckling av läromedel bygger i allt högre grad på korpusstudier Förändringar av procedurer för att förbättra kommunikation och samarbete inom organisationer har ibland kunnat genomföras efter korpusstudier av samtal inom verksamheten. (t ex sjukvården) Dialogsystem Kan korpusstudier användas inom andra områden än lingvistik? Beteendevetenskapliga ämnen som psykologi, pedagogik och sociologi Humanistiska ämnen som litteraturvetenskap, etnologi och genusvetenskap Mer experimentella förslag: Utbildning av skådespelare/regissörer/manusförfattare Analys av korpusdata Kvalitativ metod: Ett mindre material undersöks detaljerat, alltid i ett sammanhang Kvantitativ metod: analys av systematiskt insamlade kvantifierbara data Korpusstudier är oftast i huvudsak kvantitativa, dock med kvalitativa inslag, därför är det viktigt med representativitet, d v s att korpusen innehåller en balanserad samling data av den typ man önskar undersöka. Analys av korpusdata Då det handlar om stora datamängder är det nödvändigt att använda sig av elektroniska sökverktyg och program som kan ta fram statistik (Tal-till-tal, Gorallt) Det gäller att hitta på intressanta mått - var kreativ! Kom ihåg att mått och värden oftast är mest intressanta i förhållande till andra mått och värden. GSLC
Gothenburg Spoken Language Corpus (institutionen för ingvistik, G U) Ca 1,5 miljoner ord Verksamhetsbaserad Transkriberad i GTS & MSO (Gothenburg Transcription Standard & Modified Standard Orthography) Tal-till-Tal Java-baserat program för att beräkna statistik på transkriberat talspråk Måtten kan delas in i två grupper Frevensmått Antal token (ordförekomster) Antal typer (olika ord) Antal överlapp (när två eller flera personer pratar samtidigt) Antal pauser Tal-till-tal Relativa mått MLU (medellängden av ett yttrande) OvePutt (genomsnittligt antal överlapp per yttrande) TTR (antal types/token) Vocab De två sistnämnda är ordrikedomsmått, d v s de syftar till att tala om hur stor variation den undersökta korpusen visar vas gäller de ord som används. TTR har den nackdelen att det blir lägre ju större korpusen är, då vissa ord återkommer kontinuerligt i de flesta typer av diskurs, t ex konjunktioner och pronomen. Exempel på korpusundersökningar Jämförelse av statistik mellan olika verksmhetstyper Jämförelse av kommunikation i olika typer av butiker (verksamhetsbaserad) Kontrastiv undersökning (svenska/danska) Hur påverkas informella samtal av olika verksamhetsparametrar? Jämförelse av statistik mellan olika verksamhetstyper Antal talare: Är ofta verksamhetsstyrt Kommunikationsmönster: Turtagning etc är ofta verksamhetsstyrd Ordförekomster: Vissa ord är karakteristiska för vissa typer av verksamheter Grammatik: Vissa syntaktiska konstruktioner är karakteristiska för vissa typer av
verksamheter Jämförelser inom samma övergripande verksamhetstyp Exempel: Jämförelse av interaktion i tre olika typer av butiksmiljö Livsmedelsbutik Radio- & Tv- reparatör Spelaffär (se figur 1. Verksamhetskodning) Ordförekomster Ordklasser Lemmor (abstraherade ordtyper) Kategorematiska/Synkategorematiska ord Kategorematiska ger speglar ofta verksamheten tydligare) Kommunikativa handlingar och grammatiska konstruktioner Subverksamheter i butikskommunikation Hälsningar Formulering av ärende Varuhantering Betalning Avslutning Kommunikativa handlingar typiska för snabbköpsinteraktion Hälsning / Markering av fokusbyte (hej) Undran om kunden är nöjd (va de bra så) Begäran om betalning (trettinie å femti tack) Att tacka / markera önskan att avsluta interaktionen (tack) Kommunikativa handlingar typiska för interaktion i Spelaffär Frågor om varor (har ni ice age?) Svar angående varor (nä den kommer kanske nästa vecka / typ på
onsda kanske) Fråga om huruvida kunden vill ha påse Avsked (hejdå) Det finns dock mycket utrymme för andra samtalsämnen Kommunikativa handlingar typiska för interaktion hos Radio & Tv- reparatören Formulering av problem (asså, ja köpte den för två / tre år sen å nu ba+ bara funkar den inte) Frågor om problem (när började den bete sej sådär då) Svar på frågor om problem (de va la i påskas nån gång) Begäran av kvitto / förklaring av kvittorutiner Slutstser Kategorematiska ord påverkas i hög utsträckning av artefakter Synkategorematiska ord - formalitet Konstruktioner - i någon mån procedurer och struktur (t ex flera uttryck av idiomatisk karaktär i den styrda snabbköpsinteraktionen Subkulturella varianter & slang - roller och gruppidentiteter Undersökning av enskilda parametrar Hur påverkas informella samtal av verksamhetsparametrarnas egenskaper? Vad kännetecknar den språkliga kategori eller genre som, något diffust, brukar kallas informellt samtal? Modellen för beskrivning av verksamhet appliceras på interaktionerna i en korpus bestående av informella samtal. Samtalen delas sedan in i olika grupper beroende på deras egenskaper med avseende på en viss verksamhetsparameter. Frågeställningar Enligt den kvantitativa undersökningen, i vilka avseenden påverkar olika verksamhetsdrag interaktionen? Är det någon faktor som verkar ha större betydelse än andra? Kan man med ledning av resultaten sluta sig till en eller flera mer lämpliga kategorier än informellt samtal för att beteckna de analyserade samtalen, alternativt, om man av olika skäl vill hålla fast vid denna övergripande kategori, är det möjligt att med ledning av resultaten föreslå en lämplig indelning av informella samtal i underkategorier? Vilka slutsatser kan man utifrån studien dra om informell interaktion och vad som är typiskt för den? Korpusrelaterade internetsidor American National Corpus http://americannationalcorpus.org British National Corpus http://www.natcorp.ox.ac.uk Gothenburg Spoken Language Corpus http://www.ling.gu.se/projekt/tal/index.cgi?page=3
Språkbanken http://spraakbanken.gu.se GTS, manualer mm. http://www.ling.gu.se/projekt/tal/index.cgi?page=6