On the role of corpora in cross-linguistic research, Stig Johansson (3-24)

Relevanta dokument
Oppositionsprotokoll-DD143x

Betygskriterier. US610F - Språkdidaktik I, 30 hp

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Statistisk Maskinöversättning eller:

Delkurs 1. Nordiska språk och svensk språkhistoria, 7,5 hp

Maskinöversättning möjligheter och gränser

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Betygskriterier. NS2019, Svenska II, 30 hp. Förväntade studieresultat För godkänt resultat på delkursen ska studenten kunna visa:

Cristina Eriksson oktober 2001

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Svensk nationell datatjänst, SND BAS Online

Business research methods, Bryman & Bell 2007

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Betygskriterier. CT120U, Svenska som andraspråk för gymnasielärare, 90 hp. Ingår i Lärarlyftet II.

NSÄA30, Svenska III inom ämneslärarprogrammet, årskurs 7 9, 30 hp

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Datorbaserade verktyg i humanistisk forskning

Att skriva en språkvetenskaplig uppsats. Ingmar Söhrman

Skyttarna ser positivt på damklassen

A. MENING OCH SANNINSGVÄRDE HOS IDENTITETSPÅSTÅENDE. Freges utgångspunkt: mening och meningsfullhet hos identitetspåståenden

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Undervisningen i ämnet engelska ska ge eleverna förutsättningar att utveckla följande:

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Generellt kan vi säga att för att vi ska värdera ett argument som bra bör det uppfylla åtminstone följande kriterier:

Politisk skandal! Spelar det någon roll om du är man eller kvinna?

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

1. Öppna frågans argument

ENGELSKA. Ämnets syfte. Kurser i ämnet

ENGELSKA FÖR DÖVA. Ämnets syfte

Logik: sanning, konsekvens, bevis

tidskrift för politisk filosofi nr årgång 17

Ämne - Engelska. Ämnets syfte

FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson

Inledande exempel. Levinson och informationsstruktur. Vad är informationsstruktur? Informationsstruktur och pragmatik

Korpusbaserad Maskinöversättning

Logik och modaliteter

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Inlämningsuppgift: Pronomenidentifierare

FTEA21:3 Spr akfilosofi F orel asning III Martin J onsson

Sammanfattning av modulen modeller och representationer Hur går jag vidare?

HAÖVR, Masterprogram i översättning, 120 högskolepoäng Master's Programme in Translation, 120 credits

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Formativ bedömning i matematikklassrummet

Teoretisk lingvistik och datalingvistik. Robin Cooper

Max18skolan årskurs 7-9. Delaktighet

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Semantik och Pragmatik

Kursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt

Förslag den 25 september Engelska

Crossmedia design. Crossmedia design (27311VT14) Results of survey. Startade: den 21 juni Avslutad: den 22 augusti 2014

Naturalism. Föreläsning Naturalismen (tolkad som en rent värdesemantisk teori) är en form av kognitivism

Likhetstecknets innebörd

Hare Del I (Nivåer) H använder ofta benämningen "universell preskriptivism" för sin lära.

Svenska som andraspråk för lärare åk 4-6, 30 hp (1-30 hp). Ingår i Lärarlyftet II 30 högskolepoäng, Grundnivå 1

Problem: FIL File Paths

Moralfilosofi. Föreläsning 4

Bedömningskriterier för kandidatuppsats i omvårdnad

1) Introduktion. Jonas Aspelin

Tal i bråkform. Kapitlet behandlar. Att förstå tal

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Skrivning i översättningsvetenskap (OP5)

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Statistisk grammatikgranskning

REV Dnr: 1-563/ Sid: 1 / 8

Subjektivism & emotivism

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Filosofisk Logik (FTEA21:4) föreläsningsanteckningar/kompendium. v. 2.0, den 29/ III. Metalogik 17-19

Grundläggande textanalys. Joakim Nivre

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Vart försvann tanken om att lära sig något, att fördjupa sitt tänkande och komma

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

INSTITUTIONEN FÖR SVENSKA SPRÅKET

Språkkonsultprogrammet

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Den finlandssvenska skolan en mötesplats för flerspråkiga

Dataanalys kopplat till undersökningar

Skriv! Hur du enkelt skriver din uppsats

Lingvistik I Delmoment: Datorlingvistik

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

MEDIEKOMMUNIKATION. Ämnets syfte

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

SOCA45, Sociologi: Klass, kön och etnicitet, 30 högskolepoäng Sociology: Class, Gender and Ethnicity, 30 credits Grundnivå / First Cycle

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Om läsning. Om skrivande. PosterPresentation. Dagens föreläsning handlar om. Läsning i arkitekturteorikursen

Kommentarer till bedömningsmatris för Tala Kurs D

Tekniker för storskalig parsning

VAD TYCKER GYMNASIEELEVER OM FILOSOFI?

Algebra utan symboler Learning study

Om ämnet Engelska. Bakgrund och motiv

Presentationsgränssnitt för statistik och historik

Lexikal semantik & Kognitiv semantik. Semantik: Föreläsning 2 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet

Kommentarer till bedömningsmatris för Tala Kurs D

Kritiskt tänkande HTXF04:3 FTEB05. Grundläggande semantik II

Kommentarer till bedömningsmatris för Tala Kurs C

Essä introduktion till hur man skriver en akademisk essä

INSTITUTIONEN FÖR SVENSKA SPRÅKET

Transkript:

Klas Prytz: Johansson, Stig och Signe Oksefjell. 1998. Corpora and Cross-linguistic Research. Stig Johansson, och Signe Oksefjell (red.). Rodopi: Amsterdam, Atlanta. Trots det myckna användandet av ordet korpus i denna bok är det endast ett fåtal av artiklarna som kan kallas korpuslingvistiska i mer strikt betydelse. Utgångspunkten för de flesta studierna är översättningskorpusar men även i flera fall enspråkiga korpusar. Det som kan andras mot att kalla denna artikelsamling korpuslingvistisk är framförallt att korpusligvistiska metoder så sällan används. I de flesta fall används korpusar som exempelsamlingar, en i högsta grad legitim användning men likväl inte korpuslingvistisk metod. I de fall där språkbruket legat till grund för generaliseringar så har ofta för små textmängder använts utan något verkligt avseende på representativitet eller så har ingen hänsyn tagits till statistisk signifikans som ett kriterium för värdering av data. Med korpuslingvistiska metoder menas här metoder som drar nytta av att en korpus är ett stickprov av språk, en samling texter som representerar någon form av språk. Att plocka exempel från en korpus är visserligen ett sätt att använda verkliga data vilket kan ses som en fördel framför rent introspektiva metoder (förutsatt att man värdesätter en empirisk infallsvinkel på studiet av språk). Att plocka exempel från en korpus tar inte hänsyn till textmängden som helhet och det innebär inte att man kan säga något om den typen av språk man talar om. Om alla exempel av en viss typ i en given textmängd studeras kan generaliseringar man gör över det materialet med viss sannolikhet även tänkas gälla för det språk som den textmängden representerar. Denna fråga är givetvis mycket mer komplicerad än som antyds här men en av funktionerna med en reprsentativ korpus är att den ska representera en viss typ av språk och, i teorin, ha ett statistiskt samband med detta språk så att slutsatser dragna från studien av hela korpusen kan, självklart med stor försiktighet, överföras till hela den språktypen. Några undantag finns dock. Det vore förmätet att påstå att Stig Johansson, en av förgrundsgestalterna inom nordisk korpuslingvistik, inte ägnar sig åt detta ämne. Hans teoretiska genomgång av möjligheter och bruk av flerspråkiga korpusar är givetvis korpuslingivstisk. Helge Dyvik använder en rent empirisk metod för att utvinna sin datamängd och det med en någorlunda stor textmängd. Åke Vibergs studie faller väl någonstans mitt emellan. En översättningskorpus används som en generaliserande bakgrund (även om ingen statistisk metod redovisas) men korpusar används även som exempelsamlingar. Antologin har två delar; en teori- och metoddel, där Johanssons och Dyviks artiklar står ut framför de andras (se nedan), och en del med fallstudier. Några av dessa studier är framförallt syntaktiska och kommer inte att kommenteras vidare medan andra är lexikografiska till sin natur. Till dessa hör artiklarna av Schmied, Aijmer, Simon- Vanderberg och Viberg. Även om inte alla artiklar utgår från detta så går English-Norwegian Parallell Corpus (ENCP) och dess svenska motsvarighet English-Swedish Parallell Corpus (ESPC) som en röd tråd genom verket. Jämförande studier kan också utgöra ett tema som är genomgående. Antologin varierar mycket i kvalitet från Dyviks väl genomtänkta och väl beskrivna 1

studie till Thunes förvirrade framställning av en studie vars teoretiska bakgrund fortfarande ter sig oklar. Den teoretiska variansen är även den tämligen stor, med artiklar om semantiska subtiliteter till manualliknande beskrivningar av gränssnitt till datalingvistiska applikationer. Dock är utgångspunkten för denna skrift högst lovvärd och initiativet är berömvärt. Möjligen skulle den teoretiska grunden för denna varienrande samling av teori och metod kunnat sammanfattas tydligare. Johansson gör en viktig insats i detta avseende men lyckas kanske inte samla ihop de olika riktningarna på ett tillfredsställande sätt. Inte heller Jan Aarts introduktion förmår helt samla ihop intrycken. Här nedan följer en kort redogörelse för relevanta artiklar. I Theory and Method On the role of corpora in cross-linguistic research, Stig Johansson (3-24) I sin artikel betonar Johansson betydelsen av och möjligheterna med att använda korpusar i lingvistiska studier. Jämförande språkvetenskap kan ha användning för jämförbara datorläsbara korpusar och Johansson räknar upp fem typer som är synnerligen användbara. Jämförbara texter i två olika språk är den första typen som nämns. Denna typ kan vara användbar för att jämföra skillnader mellan två olika språk. Det som gör texterna jämförbara är att de är plockade ur samma genre, domän, tid eller av någon annan orsak som kan bedömas vara jämförbar. Den andra typen av text är en korpus med originaltexter och deras översättningar på ett eller flera andra språk, en så kallad översättningskorpus. Denna typ av korpus ger en möjlighet att undersöka hur språkliga element översätts. Problem kan vara att finna översatt text av den typ som är relevant för en underökning. Det är till exempel betydligt vanligare med norska översättningar av engelska originaltexter än tvärtom. En tredje typ är en samling av originaltexter och översättningar på samma språk. Denna typ av korpusar kan vara användbar som jämförelse då ett resultat från en underökning på en översättningskorpus ska kontrolleras. Är skillnaden mellan original och översättningar parallell eller motsatt en skillnad mellan originalspråk och översatt språk? En textsamling av översättningar av en och samma originaltext på flera olika språk kan ge insikter om vissa avvikelser från originalet beror på påverkan av språket man översätter till eller om de är gemensamma för översatt text som sådan. En femte typ av jämförbara texter är korpusar som består av inlärartexter, det vill säga texter skrivna av studenter som lär sig ett nytt språk. Om texter producerade av studenter med olika språklig bakgrund jämförs kan särdrag som är specifika för ett visst språk skiljas från särdrag gemensamma för studenter med olika bakgrund. Johannson går vidare med att beskriva The English-Norwegian Parallel Corpus (ENPC). Det är en korpus som består av fyra delar. En fjärdedel är norsk originaltext och en fjärdedel är dess engelska översättning. Parallellt med detta är en fjärdedel engelsk originaltext och en dess norska översättning. På detta vis kan ENPC fungera i fyra av de ovan nämnda funktionerna. Vidare ger Johansson exempel på flera typer av undersökningar som gjorts med hjälp 2

av ENPC. En underökning av hur det norska nok översatts till engelska redovisas i tabellform men utan referenser till statistiska test vilket gör resultatet mer tvivelaktigt. Storleken på korpusen gör det troligt att individuella skillnader mellan texter kan ge ett signifikant utslag. En annan studie visar hur många olika översättningar det engelska mind har i norska texter. De båda språken förefaller ha väldigt olika sätt att referera till mentala processer. Vidare redovisas en underökning av hur det norska hende relaterar till det engelska happen. Exempelsamlingen hämtad från korpusen gör det tämligen klart att någon enkel relation mellan dessa ord inte föreligger. A Translational Basis for Semantics, Helge Dyvik (51-86) Dyvik vill med sin artikel peka på möjligheten av att använda översättningsdata som grund för ett semantiskt system. För detta ändamål använder han ENPC. Ett av syftena är att bredda den empiriska grunden för lingvistisk forskning och kanske semantisk sådan i synnerhet. En grundläggande tanke är den att översättningssituationen är en av de få situationer då personer medveten reflekterar över mening utanför de rent akademiska discipliner som sysselsätter sig med dessa frågor. Originaltexter med översättningar kan därigenom ligga till grund för en empirisk undersökning om hur meningsrelationer mellan språk uppfattas. Dyvik använder sig av en semantisk representation som han själv konstruerat men påpekar att denna representation inte ska uppfattas som en beskrivning av världen utan som en beskrivning av det som är generellt i ett visst språkligt uttryck, det vill säga den mening som kan utvinnas ur signalen utan tillgång till en vidare kontext. Denna distinktion problematiseras inte vidare i texten. Betydelserelationen ses inte som en relation mellan ett språkligt uttryck och ett tillstånd i världen uttryckt med en semantisk representation utan som en relation som utgår från en modell i form av en semantisk representation och de språksignaler som denna representation uttrycker. En av semantikens viktigaste relationer mellan språkliga uttryck är synonymi. I detta fall begränsas omfattningen av synonymi till att beröra relationen mellan ett begränsat antal språk, till exempel norska och engelska. Synonymer kan anses vara två ord i L1 som har samma översättningsrelation till ett eller flera uttryck i L2. Synonymirelationen blir på så vis en lokal och begränsad relation som har sin betydelse i en viss given situation. Dyvik talar vidare om semantiska teorier som relationer mellan olika typer av algebra, Montaguegrammatik är ett bra exempel där systemet handlar om att relatera den syntaktiska algebran med den semantiska. Dyvik har en annan uppsättning system men menar att man kan empiriskt studera detta genom att låta översättningar vara definierande för hur relationer mellan ord skall ses. Denna syn på språkliga system förutsätter att de är deterministiska och kvantifierbara vilket ofta tas för givet i diskussioner men på intet sätt är ett okontroversiellt antagande. Dyvik låter översättningsrelationen vara utgångspunkten i sin studie och upprättar länkar mellan ord i olika språk baserat på hur de översatts. Denna typ av studie blir av sin natur deterministisk eftersom en given textmängd är finit och bara ett visst antal kvantifierbara relationer återfinns. Det säger dock ingenting om potentialen hos dessa 3

relationer. Dyvik kommenterar själv problemet med relationer som återfinns väldigt sällan och som ter sig mer osäkra och mer arbiträra. Han verkar omedvetet peka på ett osäkert område som skulle kunna förklaras av att systemen är kaotiska snarare än deterministiska och att en klar gräns mellan det som uttrycks i språksignalen och det som kräver annan kunskap inte med nödvändighet kan dras. Ambiguitet ses som en speciell relation mellan ord i käll- och måltexter. Ett ord kan tänkas uttryckas av olika semantiska representationer, eller mera formellt de mängder av ord som två eller flera semantiska representationer pekar på kan överlappa varandra så att intersektionen innehåller tvetydiga uttryck. De olika representationerna motsvarar uttryck i till exempel målspråket som inte utgör överlappande uttryck men de tvetydiga uttrycken har förstås en relation till dessa icke överlappande mängder. Dyvik går vidare med att ge exempel på undersökningar som gjorts på ENPC av olika tvetydiga uttryck. Ett exempel är det norska tak. Dyvik har plockat ut alla översättningar av tak i de engelska översättningarna och de uttryck i de engelska källtexterna som tak är en översättning av. Denna mängd ord korresponderar på motsvarande sätt med en uppsättning norska ord. Denna mängd kan delas in i delmängder beroende på vilka engelska ord de relaterar till. Denna uppsättning norska ord har relationer till en oftast ännu större mängd engelska ord som har en översättningsrelation till dem. Dessa kan sedan grupperas utifrån de norska mängderna (med tak borttaget eftersom de per definition måste finnas med i alla delmängder och därmed utgör indata snarare än resultatet av en funktion). Ur dessa mängder engelska ord (som alltså erhållits i den andra översättningsjämförelsen) rensas alla ord bort som inte fanns med i den första jämförelsen men med bibehållen gruppindelning. På så sätt kan distinkta grupper av ord genereras som alla är översättningar av tak men som tillhör olika semantiska representationer. I denna underökning identifierades tre grupper, {cover}, {grip, hold} och {roof}. Denna typ av information är förstås värdefull för en lexikograf men kan förstås även användas, som Dyvik påpekar vid maskinöversättning. Vidare kan orden rangordnas efter hur många delmängder de förekommer i så att de som återfinns i störst mängd delmängder tenderar att vara mer generella och de ord som förekommer i färre delmängder är mer specifika. Till exempel kan en sådan hierarki på engelska motsvarande det norska god innehålla, i ordning, ord som good, nice, fine, bright, pleasant, solid och sweet. De semantiskt vaga orden tenderar att komma först (eftersom det norska god också är vagt). Dyvik vill med denna underökning visa på en empirisk metod som kan komplettera, inte ersätta, en mer traditionell semantisk analys. II Case Studies Differences and Similarities of Close Cognates: English With and German Mit, Josef Schmied (255-275) Schmied redovisar en studie av en icke namngiven doktorand där korrelationen mellan det engelska with och det tyska mit undersöks i en delmängd av Chemnitz English- German Translation Corpus (CEGTC). Dessa båda uttryck har en uppenbar likhet som kan ses i ett lexikon och som används i undervisning. Denna undersökning av 4

korpusmaterial visar emellertid att dessa båda uttryck inte är ekvivalenta och att förhållandevis komplex information om syntax och semantik är nödvändig för att avgöra då dessa uttryck kan vara översättningar av varandra eller inte. Denna information är viktig för språkundervisning men även för lexikografer. En metod att uttrycka relationen mellan dessa båda ord är förstås att inkludera mer syntaktisk information i lexikonet även om det kan innebära problem då oerhört mycket information behövs. Epistemic Predicates in Contrast, Karin Aijmer (278-295) Det engelska uttrycket I think är utgångspunkten för Aijmers kontrastiva korpusstudie. Hon använder för detta syfte ESPC. En engelsk användare behöver inte ta ställning till uttryckets mångtydighet vilket kan bli nödvändigt för en svensk översättare. De vanligaste svenska uttryck som motsvarar I think i detta material är jag tror och jag tycker. Dessa korresponderar väl med två, enligt Aijmer, distinkta betydelser av det engelska uttrycket; som uttryck för en uppskattning av sannolikhet och som ett uttryck för en uppfattning. En smula problematiskt är det att de svenska uttrycken tenderar att överlappa varandra en aning. Det finns engelska kontexter med I think där valet av svensk översättning inte är självklart eftersom avsikten i den engelska källtexten inte är tydlig. I den andra riktningen visar det sig I think är den vanligaste översättningen för jag tror och jag tycker med tillägget att I believe är den näst vanligaste översättningen för jag tror. Aijmer pekar vidare på möjligheten av kontrastiva studier med andra språk såsom norska, tyska och holländska där andra konfigurationer förefaller finnas. I Think and Its Dutch Equivalents in Parliamentary Debates, Anne-Marie Simon- Vandenbergen (298-317) Till skillnad från Aijmer (ovan) urskiljer Simon-Vandenbergen tre huvudsakliga betydelser hos I think. Den betydelse som Aijmer översätter med jag tycker delar Simon- Vandenbergen upp i två delar, en som uttrycker ren åsikt (pure opinion) och en som uttrycker en subjektiv värdering (subjective evaluation). Hon undersöker debatter i EUparlamentet och i detta material engelska och holländska utskrifter. Materialet är relativt litet. Hon har som hypotes att planerade tal som det rör sig om borde ha en hög andel rena åsikter och subjektiva värderingar snarare än uttryck för osäkra antaganden eftersom det kan anses vara en svaghet för en EU-parlamentariker att utrycka osäkerhet. Efter hennes analys visar det sig att så är fallet. Den osäkerhet som uttrycks handlar oftast om vad andra tror och har sagt, även för politiker av denna dignitet kan det tänkas vara förmätet att påstå sig veta vad andra tror och tycker. De holländska ik denk och ik geloof korrelerar i stort med det engelska I think men då det engelska uttrycket täcker in hela skalan av betydelser har de holländska en tendens mot värdering av sannolika tillstånd och ett annat uttryck, ik vind, tenderar att ha betydelse av ren åsikt och subjektiv värdering. Om dessa betydelser ses som ändar på en skala kan alla tre holländska uttrycken användas för betydelser som finns mitt emellan. 5

Contrast in Polysemy and Differentiation: Running and Putting in English and Swedish, Åke Viberg (343-376) Det engelska verbet run är polysemiskt i betydelsen att det har flera distinkta betydelser men ändå kan betraktas som ett och samma ord medan ordet put inte med samma säkerhet kan anses vara polysemiskt. Båda dessa ord har dock flera olika översättningar på svenska men skillnaden dem emellan är att då en engelskspråkig person gör skillnad mellan betydelserna hos ordet run så är det inte lika troligt att densamma skulle göra det för ordet put. Vi översättning kan det ena betraktas som ett polysemiskt ord som får olika översättningar i målspråket medan det andra utgör ett exempel på differentiering. Viberg studerar detta i ESPC som ju är en översättningskorpus och i två enspråkiga korpusar, SUC och BNC. Han följer Talmy i det att propositioner kan analyseras i termer såsom AGENT (den som orsakar en händelse), FIGURE (det som undergår en handling), MOTION (en typ av händelse), GROUND (bakgrunden till FIGUREs MOTION), PATH (den spatiala relationen mellan FIGURE och GROUND) och MANNER (det sätt som MOTION utförs). Genom exempel från översättningskorpusen och från de enspråkiga korpusarna visar Viberg hur olika betydelser hos ordet run översätts till svenska och hur olika användningar av put i svensk översättning måste uttryckas med olika verb. 6