Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Relevanta dokument
Jämförelse av interaktion i tre olika typer av butiksmiljö

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Datorbaserade verktyg i humanistisk forskning

Elementära verktyg för korpusbearbetning

Språklig variation: Dialekt, sociolekt, sexolekt, kronolekt, register och stil. Ellen Breitholtz

Föreläsningsserie: Introduktion till språk- och litteraturvetenskap

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

Språk, datorer och textbehandling

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Att skriva en språkvetenskaplig uppsats. Ingmar Söhrman

Språksociologi Å ni ba : va fan dillar na om?

Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Lingvistiskt uppmärkt text

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Målet är att ge maskiner förmågan att plocka ut information ur

Öh, alltså, kan man prata som folk gör mest när man använder pratapparat, eller?

Textforskningen och dess metoder idag

3. Kvantitativa metoder

Kontrastivt arbetssätt med texter på teckenspråk och svenska

Korp. Övningar Språkbankens höstworkshop oktober 2016

TYS B11: Tyska nybörjarkurs, 30 högskolepoäng Studiebeskrivning

Datorbaserade verktyg i humanistisk forskning

729G09 Språkvetenskaplig databehandling

Man ville också försöka förklara de faktorer som styr språklig förändring, dessa ansågs också vara av social karaktär.

Lingvistiska grundbegrepp

Kursplan för kurs på grundnivå

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Kort presentation av Korp, Sveriges nationalkorpus

Teoretisk lingvistik och datalingvistik. Robin Cooper

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Terminsplanering i Svenska årskurs 9 Ärentunaskolan

Grammatik för språkteknologer

(The Göteborg Spoken Language Corpus, GSLC) Jens Allwood, Leif Grönqvist, Elisabeth Ahlsén och Magnus Gunnarsson

Lite småkonstigt! GÖTEBORGS UNIVERSITET Institutionen för svenska språket. En konstruktionsgrammatisk undersökning av [lite små-adj]

Här följer den pedagogiska planeringen för det arbetsområde som kommer att pågå från och med vecka 5, i samarbete med SO.

Konventionaliserade fraser i en akademisk ordlista

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Allmänt format på testet. Testets format. Swedex B2 Testformat

Datorlingvistisk grammatik

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Ordförråd och Ordbildning

3.18 Svenska som andraspråk

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Tankar om språkundervisning

Kursbeskrivning med litteraturlista HT-13

Mer aktuell eller aktuellare? En korpusbaserad undersökning av svenskans adjektivkomparation de senaste årtiondena

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Grammatik för språkteknologer

OBS! Vi har nya rutiner.

KURSPLAN Engelska, 1-60 hp, 60 högskolepoäng

Tekniken bakom språket

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Ex post facto forskning Systematisk, empirisk undersökning. om rökning så cancer?

Terminsplanering för årskurs 7-9:

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Schema för semantikdelen i kognitionsvetenskap, ht 2008

HUMANISTISKA FAKULTETSNÄMNDEN. Grundnivå/First Cycle

Om ämnet Engelska. Bakgrund och motiv

Språkpsykologi/psykolingvistik

Metod1. Intervjuer och observationer. Ex post facto, laboratorie -, fältexperiment samt fältstudier. forskningsetik

Korpusuppbyggnad Från textsamling till korpus

MODERSMÅL FINSKA 1. Syfte

Analysen syftar till att ge en god gestalt. Kontinuerlig växling mellan delar och helhet.

Grundläggande textanalys. Joakim Nivre

Grammatik i Samtal I. Mathias Broth Lingvistik (729G08) ht -12

Centralt innehåll årskurs 7-9

Kvantitativ samhällsanalys med språkteknologiska metoder.

Språkteknologi och Open Source

4. Bedömning av delprov C

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Upplägg och genomförande

Språkteknologi. Språkteknologi

Svenska som andraspråk

Utbildningsplan för. Därutöver krävs som särskilda förkunskapskrav:

Perspektiv på kunskap

Kommentarer till bedömningsmatris för Skriva Kurs C

Svenska som andraspråk

Vad är kännetecknande för en kvalitativ respektive kvantitativ forskningsansats? Para ihop rätt siffra med rätt ansats (17p)

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

3.7.3 Modersmål - jiddisch som nationellt minoritetsspråk

3.7.4 Modersmål - meänkieli som nationellt minoritetsspråk

Kursplan för kurs på grundnivå

LPP att bygga och konstruera

LPP Magiska dörren ÅR 4

Engelska (1-27,5 hp) Programkurs 27,5 hp English (1-27,5 cr) 92EN11 Gäller från: Fastställd av. Fastställandedatum.

Exempel på gymnasiearbete inom humanistiska programmet språk

OBS! Vi har nya rutiner.

Tillämpad experimentalpsykologi [2] Tillämpad experimentalpsykologi [1] Tillämpad experimentalpsykologi [3] Empirisk forskningsansats

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

ESN lokala kursplan Lgr11 Ämne: Svenska

Engelska (31-55 hp) Programkurs 25 hp English (31-55 cr) 92EN31 Gäller från: Fastställd av. Fastställandedatum. Styrelsen för utbildningsvetenskap

svenska Syfte Kurskod: GRNSVE2 Verksamhetspoäng: KuRSplanER FöR KoMMunal VuxEnutBildninG på GRundläGGandE nivå 75

Kursbeskrivning för kurs inom LLII HT16

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)

Transkript:

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ, t ex den klassiska latinska korpusen = alla klassiska latinska texter Idag avser korpus vanligtvis ungefär datoriserad textmassa för lingvistisk analys Olika typer av korpusar Skriftspråkskorpusar: Lätta att sammanställa, största problemet är upphovsrätt. (Språkbanken, British National Corpus, American National Corpus) Talspråkskorpusar: Svårare och mer tidsödande att samla in materialet. Kan vara problematiskt att hitta eller konstruera transkriptionsstandard som passar till det man vill använda materialet till. (GSLC, BySoc, BNC, ANC) Vad kan en korpus användas till? Korpuslingvistik är en metod som ger möjlighet att studera de flesta typer av lingvistiska problem. Datoriserade korpusar ökar tillförlitligheten av empiriska studier eftersom man kan bearbeta så stora material att ett statistiskt signifikant resultat kan uppnås. Användningsområde inom lingvistiken Semantik: Vilka olika betydelser kan ordet får ha i svenskan? Syntax: Tenderar vi att placera adverbial i början eller slutet av en mening/yttrande? Föredrar svenskan att ha adjektivattributet före eller efter sitt huvudord? Sociolingvistik: Fokuserar på t ex. köns- klass- och etnicitetsrelaterad variation. Användningsområden inom lingvistik Konversationsanalys: Samtalsstudier, ofta mer kvalitativa än

kvantitativa Diskursanalys: Kan gälla samtal (diskurspsykologi), men ofta mer offentliga texttyper som tidningstext, politiska tal etc. Kontrastiv lingvistik: Jämförelse av olika aspekter av mellan olika språk Tillämpningar av lingvistiska korpusstudier Ordböcker bygger numera så gott som alltid på korpusstudier Utveckling av läromedel bygger i allt högre grad på korpusstudier Förändringar av procedurer för att förbättra kommunikation och samarbete inom organisationer har ibland kunnat genomföras efter korpusstudier av samtal inom verksamheten. (t ex sjukvården) Dialogsystem Kan korpusstudier användas inom andra områden än lingvistik? Beteendevetenskapliga ämnen som psykologi, pedagogik och sociologi Humanistiska ämnen som litteraturvetenskap, etnologi och genusvetenskap Mer experimentella förslag: Utbildning av skådespelare/regissörer/manusförfattare Analys av korpusdata Kvalitativ metod: Ett mindre material undersöks detaljerat, alltid i ett sammanhang Kvantitativ metod: analys av systematiskt insamlade kvantifierbara data Korpusstudier är oftast i huvudsak kvantitativa, dock med kvalitativa inslag, därför är det viktigt med representativitet, d v s att korpusen innehåller en balanserad samling data av den typ man önskar undersöka. Analys av korpusdata Då det handlar om stora datamängder är det nödvändigt att använda sig av elektroniska sökverktyg och program som kan ta fram statistik (Tal-till-tal, Gorallt) Det gäller att hitta på intressanta mått - var kreativ! Kom ihåg att mått och värden oftast är mest intressanta i förhållande till andra mått och värden. GSLC

Gothenburg Spoken Language Corpus (institutionen för ingvistik, G U) Ca 1,5 miljoner ord Verksamhetsbaserad Transkriberad i GTS & MSO (Gothenburg Transcription Standard & Modified Standard Orthography) Tal-till-Tal Java-baserat program för att beräkna statistik på transkriberat talspråk Måtten kan delas in i två grupper Frevensmått Antal token (ordförekomster) Antal typer (olika ord) Antal överlapp (när två eller flera personer pratar samtidigt) Antal pauser Tal-till-tal Relativa mått MLU (medellängden av ett yttrande) OvePutt (genomsnittligt antal överlapp per yttrande) TTR (antal types/token) Vocab De två sistnämnda är ordrikedomsmått, d v s de syftar till att tala om hur stor variation den undersökta korpusen visar vas gäller de ord som används. TTR har den nackdelen att det blir lägre ju större korpusen är, då vissa ord återkommer kontinuerligt i de flesta typer av diskurs, t ex konjunktioner och pronomen. Exempel på korpusundersökningar Jämförelse av statistik mellan olika verksmhetstyper Jämförelse av kommunikation i olika typer av butiker (verksamhetsbaserad) Kontrastiv undersökning (svenska/danska) Hur påverkas informella samtal av olika verksamhetsparametrar? Jämförelse av statistik mellan olika verksamhetstyper Antal talare: Är ofta verksamhetsstyrt Kommunikationsmönster: Turtagning etc är ofta verksamhetsstyrd Ordförekomster: Vissa ord är karakteristiska för vissa typer av verksamheter Grammatik: Vissa syntaktiska konstruktioner är karakteristiska för vissa typer av

verksamheter Jämförelser inom samma övergripande verksamhetstyp Exempel: Jämförelse av interaktion i tre olika typer av butiksmiljö Livsmedelsbutik Radio- & Tv- reparatör Spelaffär (se figur 1. Verksamhetskodning) Ordförekomster Ordklasser Lemmor (abstraherade ordtyper) Kategorematiska/Synkategorematiska ord Kategorematiska ger speglar ofta verksamheten tydligare) Kommunikativa handlingar och grammatiska konstruktioner Subverksamheter i butikskommunikation Hälsningar Formulering av ärende Varuhantering Betalning Avslutning Kommunikativa handlingar typiska för snabbköpsinteraktion Hälsning / Markering av fokusbyte (hej) Undran om kunden är nöjd (va de bra så) Begäran om betalning (trettinie å femti tack) Att tacka / markera önskan att avsluta interaktionen (tack) Kommunikativa handlingar typiska för interaktion i Spelaffär Frågor om varor (har ni ice age?) Svar angående varor (nä den kommer kanske nästa vecka / typ på

onsda kanske) Fråga om huruvida kunden vill ha påse Avsked (hejdå) Det finns dock mycket utrymme för andra samtalsämnen Kommunikativa handlingar typiska för interaktion hos Radio & Tv- reparatören Formulering av problem (asså, ja köpte den för två / tre år sen å nu ba+ bara funkar den inte) Frågor om problem (när började den bete sej sådär då) Svar på frågor om problem (de va la i påskas nån gång) Begäran av kvitto / förklaring av kvittorutiner Slutstser Kategorematiska ord påverkas i hög utsträckning av artefakter Synkategorematiska ord - formalitet Konstruktioner - i någon mån procedurer och struktur (t ex flera uttryck av idiomatisk karaktär i den styrda snabbköpsinteraktionen Subkulturella varianter & slang - roller och gruppidentiteter Undersökning av enskilda parametrar Hur påverkas informella samtal av verksamhetsparametrarnas egenskaper? Vad kännetecknar den språkliga kategori eller genre som, något diffust, brukar kallas informellt samtal? Modellen för beskrivning av verksamhet appliceras på interaktionerna i en korpus bestående av informella samtal. Samtalen delas sedan in i olika grupper beroende på deras egenskaper med avseende på en viss verksamhetsparameter. Frågeställningar Enligt den kvantitativa undersökningen, i vilka avseenden påverkar olika verksamhetsdrag interaktionen? Är det någon faktor som verkar ha större betydelse än andra? Kan man med ledning av resultaten sluta sig till en eller flera mer lämpliga kategorier än informellt samtal för att beteckna de analyserade samtalen, alternativt, om man av olika skäl vill hålla fast vid denna övergripande kategori, är det möjligt att med ledning av resultaten föreslå en lämplig indelning av informella samtal i underkategorier? Vilka slutsatser kan man utifrån studien dra om informell interaktion och vad som är typiskt för den? Korpusrelaterade internetsidor American National Corpus http://americannationalcorpus.org British National Corpus http://www.natcorp.ox.ac.uk Gothenburg Spoken Language Corpus http://www.ling.gu.se/projekt/tal/index.cgi?page=3

Språkbanken http://spraakbanken.gu.se GTS, manualer mm. http://www.ling.gu.se/projekt/tal/index.cgi?page=6