Kollikon frasidentifikation och -extrahering INNEHÅLLSFÖRTECKNING

Storlek: px
Starta visningen från sidan:

Download "Kollikon frasidentifikation och -extrahering INNEHÅLLSFÖRTECKNING"

Transkript

1 INNEHÅLLSFÖRTECKNING KAPITEL 1 INLEDNING INTRODUKTION SYFTE UPPSATSENS UTFORMNING 6 KAPITEL 2 BAKGRUND HISTORIK Principer inom korpuslingvistik KORPUSTYPOLOGI Typiska drag ORDKOMBINATIONER Lexikala fraser Lexikala fraser i lexikon Andra användningsområden för lexikala fraser VERKTYG OCH STATISTISKA METODER RELATERAT ARBETE Test på likhet och olikhet Xtract Domänspecifika kollokationer WordSmith CobuildDirect 16 KAPITEL 3 METOD VAL AV METOD Språkliga uttryck och statistiska metoder Svensk standardkorpus VAL AV VERKTYG Objektorientering Java Klient/Server Servlet XML UTVÄRDERING/TESTNING 24 KAPITEL 4 IMPLEMENTATIONSDOKUMENTATION ANVÄNDNING AV SYSTEMET ÖVERSIKT AV SYSTEMET KOPPLINGAR I SYSTEMET UTVECKLINGSDOKUMENTATION 33 KAPITEL 5 RESULTAT & ANALYS JÄMFÖRA DE STATISTISKA METODERNA MINDRE JÄMFÖRELSE MED LEXIN JÄMFÖRELSE MED OLIKA KONTEXT KOLLIKON JÄMFÖRT MED LEXIN LITE SIFFROR 41 KAPITEL 6 AVSLUTNING 43

2 6.1 SLUTSATSER FORTSATT ARBETE 44 REFERENSLISTA 45 APPENDIX I APPENDIX II I IX INNEHÅLLSFÖRTECKNING FIGURER, TABELLER OCH BILDER FIGUR 1, 2, SINCLAIR (1999:23) 11 FIGUR 3, 4, SINCLAIR (1999:27) 12 FIGUR 5, KORSTABELL 14 FIGUR 6, XML-TRÄDET I KOLLIKON 20 FIGUR 7, SERVLET SOM BYGGER EN WEBBSIDA MED TEXTEN HELLO WORLD (HUNTER, 1998:20) 23 FIGUR 8, EXEMPEL PÅ XML FRÅN KOLLIKON 24 FIGUR 9, XML-TRÄDET I KOLLIKON 32 FIGUR 10, DEL AV XSL-MALLEN I KOLLIKON 33 FIGUR 11, TILLÄGG I XSL-MALLEN 33 TABELL 1, ANTAL TESTOBJEKT FÖR DET FJÄRDE UTVÄRDERINGSMOMENTET 25 TABELL 2, SÖKNING PÅ VÄCKA MED LLR 35 TABELL 3, SÖKNING PÅ VÄCKA MED X2 36 TABELL 4, SÖKNING PÅ VÄCKA MED MI 37 TABELL 5, LISTA 1, KONTEXT 2:2 40 TABELL 6, LISTA 2, KONTEXT 6:6 40 BILD 1, FRÅN KOLLIKON, STARTSIDA 27 BILD 2, DELAR AV RESULTAT VID EN SÖKNING PÅ ORDET BEGÅ MED DEFAULT-INSTÄLLNINGAR 29 BILD 3, ÖVERSIKT AV SYSTEMET 30

3 KAPITEL 1 Inledning 1.1 Introduktion En svensk översättare i Bryssel vänder sig till en korpustjänst och söker på stark ökning och kraftig ökning i en enspråkig svensk korpus. Varför gör han eller hon det? Samma tjänst erbjuder parallella korpusar men de används så gott som aldrig av översättare. Det är den enspråkiga korpusen som är populärast. Översättaren sitter i en främmande miljö där svenska inte är arbetsspråk och därför blir det svårare med nyanser i fraseologin. Översättaren letar efter en översättning med ökning i men är osäker på vilket förstärkande adjektiv som ska användas. Eftersom ökning är känt, skulle det vara bra med ett system som kan förstå vilka ord som passar ihop med ett bestämt utgångsord. Detta gäller inte bara för översättare utan skulle även kunna vara bra i lexikografiskt arbete. Korpusar blir allt större och den alfabetiseringsprincip som ligger bakom traditionella konkordanser blir svårhanterlig när resultatet från en sökning består av tusentals rader. Denna uppsats vill illustrera hur problemet kan komma närmare en lösning. Genom tillämpningen av ett modernt synsätt på korpusar, nämligen objektorienterat, presenteras en lösning som kan utgöra kärnan i ett större system där korpusen är det överordnande objektet. 1.2 Syfte Uppgiften är att underlätta analysen av stora korpusar när det gäller fraseologi. Implementationen integrerar metoder och tekniker från korpuslingvistik och objektorientering. Arbetet har genomförts hos Lexilogik AB, ett kunskapsföretag som utvecklar mjukvara inom språkteknologi med specialisering på tillämpningar inom modern elektronisk lexikografi. Mer konkret är uppgiften att göra ett avancerat konkordansverktyg för svenska baserat på statistiska metoder istället för alfabetiska principer. Slutresultatet skall identifiera och extrahera flerordsenheter och lämpar sig för sökandet av konstruktioner, språkbeskrivningar, betydelsenyanser och liknande. Kollikon, applikationens namn, ska kunna användas fristående på Internet eller kopplas samman med andra moduler såsom Lexilogiks Onoma, ett lexikografiskt arbetsverktyg för att skapa och bearbeta lexikaliska databaser. 1 1 En demonstration av Kollikon (Kollokationer i kontext), finns på under Demonstrations.

4 1.3 Uppsatsens utformning I bakgrunden behandlas korpuslingvistik, dels utifrån lingvistens och dels utifrån datalogens synvinkel. Här beskrivs fraser, korpusar och tidigare arbete inom samma område. I metodkapitlet beskrivs valet av metod för de språkliga uttrycken och vilka statistiska mått som används. Vidare följer ett avsnitt om de valda verktygen och slutligen hur utvärderingen av systemet har gått till. I implementationsdelen visas hur systemet används och hur resultatet synliggörs. Detta följs av en översiktlig systembeskrivning och sedan en djupare beskrivning av kopplingarna mellan systemets olika delar. Denna del avslutas med förslag till vidareutveckling. I resultatkapitlet genomförs fyra tester på Kollikon för att analysera det språkliga resultatet. Det första testet visar på likheter och olikheter mellan de olika statistiska metoderna. I det andra och fjärde testet analyseras resultatet genom en jämförelse med språkexempel tagna från Lexin (1993). I det tredje testet jämförs resultatet om sökningarna utförs med olika kontext. Uppsatsen avslutas med slutsatser och förslag till fortsatt arbete.

5 KAPITEL 2 Bakgrund 2.1 Historik Om man ska beskriva korpuslingvistik på ett enkelt sätt kan man säga att det är studiet av språk baserat på exempel från verklig språkanvändning (McEnery & Wilson, 1996:1-2). Kan man säga att korpuslingvistik är en gren av lingvistik? Svaret är både ja och nej enligt McEnery & Wilson. De anser att korpuslingvistik inte är en gren av lingvistiken såsom semantik eller syntax där man beskriver/förklarar en aspekt av språkanvändning, utan snarare en metod att applicera på undersökningar inom de lingvistiska områdena. Man kan skilja på korpusbaserad semantik till skillnad från icke korpusbaserad semantik, och korpusbaserad syntax till skillnad från icke korpusbaserad syntax osv. Materialbaserade språkstudier har funnits i sekler men begreppet korpuslingvistik brukar implicera datorstödda undersökningar. Redan på 1930-talet höll J R Firth på med empirisk språkforskning. Han ansåg bland annat att språkforskning skall grundas på texter (Firth 1957). Han menade att ett ord inte kunde analyseras om det inte förekom i ett större sammanhang, en text. The use of the word meaning is subject to the general rule that each word when used in a new context is a new word. (Firth, 1957:190) Chomsky gav ut ett antal publikationer under 1950-talet och framåt där han menade att inriktningen inom lingvistik borde grunda sig på rationalism 2 istället för empirism vilket sammanfattas av McEnery & Wilson (1996:4-10) med utgångspunkt från två av Chomskys publikationer utgivna 1957 och Rationalistiska teorier baseras på intuition. Det kan t ex vara en infödd talare av ett språk som reflekterar över språket och grundar sina språkteorier på dessa reflektioner. Ett empiriskt tillvägagångssätt grundar sig på observationer av språkförekomster i verkligheten, normalt genom att använda en korpus (mer om korpusar, se 2.2). Enligt Chomsky fanns det ingen möjlighet att en korpus skulle kunna vara ett användbart redskap för en lingvist, eftersom språket är infinit och inte kan beskrivas med ett finit verktyg, en korpus som enbart innehåller en delmängd av språket. Han ansåg att en lingvist måste försöka modellera språkets competence hellre än performance. 3 Competence är människans undermedvetna och interna kunskap om språk, och performance det externa användandet av språk som påverkas av 2 Rationalism: kunskapsteorietisk ståndpunkt som hävdar att (en stor del av) vår kunskap inte har sin grund i erfarenheter utan är delvis medfödd, Svensk ordbok, 1994) 3 Jag har avstått från att översätta competence och performance.

6 utomstående händelser och inte beror på vår interna kunskap (competence) av språket. (Exempelvis att man är påverkad av alkohol när man talar). Detta gjorde att arbetet inom korpuslingivistk på många håll avstannade på talet men det var ändå på den här tiden Kucera och Francis skapade den första maskinläsbara korpusen, Brownkorpus på 1 miljon ord, en mycket stor korpus på den tiden (Kennedy, 1998:23). Här kan även Sture Allén nämnas med Press65 och NFO (1970) Principer inom korpuslingvistik Korpuslingvisten studerar språket empiriskt och några exempel på grundläggande principer beskrivs av Stubbs (1993). Beskrivningen är inte uttömmande utan ger endast korta exempel på några av de principer han anser grundläggande inom korpuslingvistik; Språk bör studeras utifrån verkliga, bekräftade, autentiska belägg, inte utifrån intuition eller uppdiktade, isolerade meningar. Stubbs menar att uppdiktade satser inte kan avspegla typiska mönster i språket. Stubbs (1993:11) hänvisar till Sinclair när han förklarar att en av huvudorsakerna till att använda en korpus är att identifiera det centrala och typiska i ett språk. Då det gäller information om frekvens, distribution av olika forms and meaning och även interaktionen mellan lexis and syntax är intuition inte en pålitlig källa (Stubbs, 1993:11 och McEnery & Wilson, 1996:12). 4 Föremålet för studier måste vara hela texter och texter och texttyper måste studeras komparativt/proportionerligt i korpusar. Anledningen till detta är att få lingvistiska särdrag är distribuerade jämnt i en text (Stubbs, 1993:11). Både Halliday och Sinclair (1996 och enligt Stubbs, 1993:11) anser att hela texter ska användas. Detta ger konsekvenser för hur man bör konstruera en korpus. I många korpusar har urvalsmetoder använts där man plockar ut en delmängd av varje text. Texttyper bör studeras proportionerligt eftersom olika texttyper har varierande lexikala och grammatiska särdrag. Särdragen beror på vem texten är skriven för, vem läsaren är och om det är talat eller skrivet språk som analyseras. I lingvistik ingår studiet av meaning ; form and meaning är oskiljbara. Att meaning, ordens funktion och betydelse i texten och form, den grammatiska formen hör ihop anser bland annat Hunston och Francis (2000:1) med sin pattern grammar. 5 the interaction between the particular lexical items in it and the grammatical patterns that they form a part of. Sinclair (enligt Stubbs, 1993:13) säger att det inte finns någon distinktion mellan form and meaning. Meaning påverkar strukturen vilket gör att de inte går att skilja åt. 4 Jag har avstått från att översätta form & meaning och lexis & syntax. 5 Jag har valt att översätta pattern grammar med konstruktionsgrammatik inte att förväxla med den engelska Construction Grammar.

7 Det finns inga band mellan lexis and syntax, lexis and syntax är ömsesidigt beroende av varandra. Lexis and syntax kallas även lexis and grammar av vissa och begreppet används liksom form and meaning för att beskriva ett ords form och betydelse i sin kontext. Här handlar det om huruvida betydelsen ligger i själva ordet eller beror på grammatiska strukturer. Sinclair (1999:23-24) anser att lexis and syntax är ömsesidigt beroende av varandra och inte går att skilja åt. Francis (1991, enligt Stubbs, 1993:15) ger en systematisk demonstration av att alla ord har sin egen grammatik. Hon exemplifierar med ett antal nomen. Om lexis and syntax vore oberoende av varandra skulle orden kunna vara jämnt fördelade i de olika grammatiska positionerna (subjekt, objekt, indirekt objekt o s v). Hon finner dock att fördelningen av orden i samma syntaktiska struktur skiljer sig åt. 2.2 Korpustypologi Användandet av en korpus är centralt i korpuslingvistik. Till skillnad från Stubbs (1993) grundläggande principer vilka återspeglar åsikter de flesta inom korpuslingivistik verkar vara överens om, är det ett omstritt område hur en korpus ska se ut och fungera. De mest intressanta områdena inom korpustypologi är enligt Sinclair (1996): (a) Minimivillkoren för vad som kan anses vara en korpus. (b) Skillnaden mellan en korpus innehållande ett normalbruk av språket och en korpus innehållande specialiserat språkbruk. De klassificeringar Sinclair gör är inga regler utan snarare riktlinjer och beskrivningar. Under en lång tid ansågs kriterierna för Brownkorpus vara standard (se t ex Kennedy 1998:23). Detta innebar att en korpus skulle innehålla en miljon ord, delas in i genrer med lika många ord från varje genre, innehålla 500 språkprov med 2000 ord i varje och källorna skulle vara skrivna och publicerade. Ett exempel är SUC (Stockholm-Umeå Corpus, 1997) som följer denna standard och består av sammanlagt 500 texter om ca ord vardera. De insamlade texterna är tryckta mellan 1990 och 1993, med någon enstaka text från Skillnaden nuförtiden är främst att kraften och lagringsmöjligheterna hos datorer har ökat, priserna på datorer har sjunkit, det finns bildläsare för att läsa in texter och e-post. Att bara använda sig av skrivna språkprov har förändrats, nu finns det även talkorpusar eller korpusar med både skrivna och talade språkprov. Att språkproven ska vara lika stora är kontroversiellt. Definitionen Sinclair (1996:4) använder för att beskriva en korpus är: A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. Ordet pieces används istället för text eftersom om man ofta använder urvalstekniker där alla språkprov är lika långa, vilket betyder att de inte är texter utan fragment av texter Typiska drag En korpus har vissa kännetecken då det gäller kvantitet, kvalitet, enkelhet och dokumentation. När det gäller kvantitet ska en korpus innehålla många ord. Vitsen med en korpus är att samla in så

8 mycket data som möjligt. Storleken på korpusar ökar hela tiden och det är svårt att ge en bestämd siffra för hur stor en korpus ska vara (Sinclair, 1996:6). För kvalitet gäller att materialet i en korpus ska vara autentiskt. Det ska komma från normal kommunikation mellan människor. Det kan vara svårt att dra gränsen för vad normal kommunikation är (Sinclair, 1996:7). Det finns även andra sorters korpusar där kvalitetskraven är annorlunda. Ett exempel är litterära korpusar. Dessa kan innehålla en författares verk, en genre, en tidsperiod, en grupp författare inom en genre, ett speciellt skrivsätt osv (Sinclair, 1996:7). Kravet på enkelhet innebär att en korpus ska bestå av vanlig text. Alla typer av markeringar ska tydligt kunna identifieras. Slutligen kravet för dokumentation angående texten (ursprung, genre, tid och liknande) gäller att den bör hållas avskiljt från själva texten. Texten bör endast innehålla en referens till källinformationen (Sinclair, 1996:8). 2.3 Ordkombinationer Hunston och Francis (2000:7) presenterar en översikt för de termer som använts för att definiera ordkombinationer av olika slag. Termerna har namn som lexical phrases (Nattinger och DeCarrico), phrasemes (Melcuk) och formuale (Peters). Mitt val är att kalla dem lexikala fraser efter Hunston och Francis lexical phrases Lexikala fraser Många försök har gjorts för att kategorisera lexikala fraser. Indelningen sker ofta efter hur fasta fraserna är. Melcuk, Nattinger & DeCarrio, Pawley & Syder delar enbart in vissa ord i olika fasta fraser (Hunston och Francis 2000:7-13). Sinclair (1999) däremot anser att alla ord förekommer i någon typ av lexikal fras eller mönster, vilket gör att ett enda enskilt ord inte kan ha betydelse (även Firth, se 2.1). Sinclair (1999:22) anser att det inte går att dra en gräns mellan fria och fasta fraser utan skriver om gradskillnader. Han kallar uttryck mellan de fasta och fria fraserna för variable expressions. Skillnaden mellan fria fraser och variable expressions är svåra att beskriva enligt Sinclair (1999:23), men han menar att de fria frasernas syntaktiska konventioner enbart bestäms av grammatisk struktur medan variable expressions styrs av syntagmatiska kriterier mellan orden (ordens kombinatoriska egenskaper). freecombinations FCs fixed expressions FEs

9 FCs<<<<<<<<<<<<<<variable expressions>>>>>>>>>>>>>> FEs Figur 1, 2, Sinclair (1999:23) Sinclairs indelning av lexikala fraser bygger på att ett eller flera ord sätts ihop beroende på syntagmatiska konventioner, både lexikala och grammatiska. De lexikala konventionerna bygger på förekomster av ord inom ett visst avstånd i en korpus och kan klassificeras i fem olika undergrupper (Sinclair, 1999:26). Konstanta element bildar en kärna idiom. Exempelvis i tid och otid. Dessa fraser kan ej förändras vilket gör att många verbfraser hamnar under andra frastyper. Kollokationer. Bygger på syntagmatiska kriterier där de specifika orden eller ordformerna inte nödvändigtvis måste finnas med i varje instans av objektet men tenderar att bilda kluster runt kärnan. Exempelvis bära vittnesbörd, få kicken. Kolligationer. Bygger på syntagmatiska kriterier där de specifika orden inte är lika viktiga som deras grammatiska klass. Exempel verb + reflexivt pronomen, tvätta sig. Semantiska konstruktioner. De syntagmatiska kriterierna är endast semantiska och både de specifika orden och ordklasserna kan variera. Exempelvis på toppen av sin karriär. Semantisk prosodi. Ger en indikation om talarens kommunikativa intention med en pragmatisk inriktning. Semantisk prosodi kan vara negativ eller positiv. Exempel på negativ prosodi, begå associeras oftast med självmord och brott. Denna modell där huvudobjekten i en text är de lexikala objekten är Sinclairs alternativ till distinktionen mellan syntax och semantik. Figur 3 visar att de lexikala objekten är de fundamentala i texten till skillnad från en sträng av ord. När man definierar de lexikala objekten blir de grammatiska relationerna en del av de lexikala objekten. Grammar Semantics

10 residusal grammar Lexical Items (no independent semantics) Figur 3, 4, Sinclair (1999:27) Denna distinktion leder fram till det Sinclair kallar 'lexicogrammar (1999:26) där alla ord i samma mönster har samma semantiska särdrag. En utveckling av denna teori kan man läsa om i Hunston och Francis (2000) som byggt en konstruktionsgrammatik där de beskriver mönstren som associeras med ett speciellt lexikalt objekt som kan observeras genom att undersöka en korpus Lexikala fraser i lexikon För en lexikograf är detta av stor vikt. Huvudfrågorna när det gäller lexikala fraser är: hur fasta de är, alltså hur stor grad av variation i valet av ord förekommer i frasen, och vilken relation de har till grammatiken och lexikonet i språket. Uttryck av alla slag ger lexikografen problem eftersom de inte passar in i den traditionella alfabetiska listan av huvudord som används i ett lexikon. Ska exempelvis till buds komma direkt efter till (en utökning till till) eller efter tillbaka (i bokstavsordning)? Vilka ord som ska vara uppslagsord är ett komplicerat problem och valet beror främst på vem användaren är och vilken typ av ordbok man skapar. Traditionellt anser man i allmänspråkliga ordböcker att ett uppslagsord är ett graford (ett ord är ett antal bokstäver som inleds och avslutas med blanksteg). I ordböcker speciellt avsedda för inlärning kan vissa fraser finnas med, exempelvis verbfraser som slå sig, lägger sig i (exempel från Lexin, 1993). I Lexin (1993), ett språklexikon för invandrare, finns även samhällsord till exempel daghem och kommunalval. Nästan alla lexikon har vissa sammansättningar, fasta ordkombinationer eller förkortningar bland uppslagsorden. I de allra flesta lexikon förekommer språkexempel för att exemplifiera en definition av ett ord. Språkexemplen ska visa hur ett ord används och kan vara idiom eller kollokationer. Idiom är de lexikala fraser som de flesta är överens om både vad det gäller definitionen och namnet. Ett idiom är satser och satsfragment vars betydelse inte är självklar utifrån kännedom om de enskilda orden (enligt Lexin 1993:852). Exempelvis ge mig ett handtag har två betydelser ett idiomatiskt hjälpa någon med något och ett vanligt ge någon ett dörrhandtag. Det går inte att applicera grammatiska regler på det idiomatiska uttrycket och fortfarande ha kvar betydelsen, ge mig två handtag. En annan sorts lexikala fraser är kollokationer. Generellt sett är en kollokation en grupp ord som frekvent förekommer i samma kontext (Oakes, 1998:149). Enligt Svensén (1987:6) kan det vara svårt att skilja idiom och kollokationer åt, vilket gör att de ofta behandlas på samma ställe utan urskiljning i en ordboksartikel. Han skiljer på grammatiska och semantiskt-lexikaliska kollokationer. De grammatiska kollokationerna menar han är en ofta återkommande

11 ordkombination bestående av ett dominerande ord (substantiv, adjektiv eller verb) + ett funktionsord (ofta en preposition) (Svensén, 1987:94). Denna typ av kollokation beskriver ett ords konstruktion och bör behandlas ihop med dessa i ordboksartikeln. De semantisk-lexikaliska kollokationerna består av ungefär likvärdiga ord. De lexikaliska kollokationerna bör presenteras som språkprov, medan de semantiska inte bör presenteras som språkprov eftersom det kan skapa förvirring för användaren. Användaren kan inte veta om språkprovet är lexikaliskt och komplementen är de enda tänkbara eller, semantiskt då komplementen är utbytbara Andra användningsområden för lexikala fraser Det finns andra områden där frasidentifikation är viktigt förutom lexikografi. Smadja (1992, enligt Oakes, 1998:159) exemplifierar några som han anser viktiga användningsområden. Informationsinhämtning. Lexikala uttryck kan användas för indexering. Precisionen i informationsinhämtningssystemen kan höjas eftersom en fras består av flera ord, vilket är till hjälp för att hitta dokument som innehåller ambiguösa eller domänspecifika ord, och där det sökta ordet kan hittas i den betydelse man är intresserad av. För automatisk språkgenerering. En lista med fraser gör genereringen enklare. Att generera språk utan att ha identifierat fraser är svårt eftersom fraser är domänberoende, idiomatiska och varierar i sin form. Flerspråkig lexikografi. Att översätta ord för ord ger inte alltid korrekt resultat. Flerspråkiga fraslistor skulle underlätta vid maskinöversättning. I textkategoriseringssystem. Andra områden är: För att identifiera tekniska termer (se Daille, 1996 och 2.5.3). Till översättning för att hjälpa en översättare som översatt en del av ordkombinationen och letar efter signifikanta ord att kombinera med. Språkutlärning. Många fel som görs av språkinläraren kan förklaras med lexikala fraser. Om en fras lärs ut istället för ett ord är det lättare för studenten att lära sig och förstå betydelsen. 2.4 Verktyg och statistiska metoder Det verktyg som oftast används för att hitta lexikala fraser i ett språk är en konkordans. Med ett konkordansprogram kan man söka på ett ord i en korpus eller på en ordklass. Resultatet är sedan alla förekomster av det sökta objektet tillsammans med sin kontext. Vidare kan programmet göra beräkningar på materialet, exempelvis ta fram frekvensinformation. Slutligen kan det sortera materialet på olika sätt, exempelvis alfabetiskt på före- eller efterkontexten (McEnery & Wilson, 1996:15) (se 4.1, bild 2). Problemområden för konkordanser är bland annat hur mycket kontext som ska visas på vardera sida av sökordet. Stora korpusar gör att körtiden kan bli lång vilket gör att effektiviteten hos programmen är viktig. Resultaten för högfrekventa ord blir stora och det är viktigt att vara medveten om hur de ska visas, beroende på vilket resultat man eftersträvar. Allt eftersom korpusar blir större framträder behovet av ett annat sorteringskriterium än enbart alfabetiskt. Anta att man skulle analysera ett ord, skull med en förekomst på 1603 gånger i en korpus. För att hitta ord som ofta förekommer tillsammans med skull kan man använda en statistisk metod för sortering. Resultatet kan sorteras efter de mest förekommande orden istället för i bokstavsordning. Detta leder till att de översta raderna troligtvis är mer intressanta än de i slutet.

12 Under rubriken relaterat arbete (2.5.1) finns några exempel på försök och färdiga verktyg. Verktygen är vidareutvecklingar på konkordanser och använder statistiska metoder för sökningar och beräkningar i korpusar. De statistiska metoder, såsom chi-square, mutual information och loglikelihood ratio ökar möjligheten att sortera materialet vilket gör det mer systematiskt att söka och analysera lexikala fraser. Mutual information I(x;y) är ett mått mellan två ord, eller andra par exempelvis ordklasser och jämför sannolikheten att observera ord x och y tillsammans (den förenade sannolikheten) med sannolikheten att observera x och y oberoende av varandra (slump). Ett högt mutual information värde innebär att orden är starkt associerade. Om orden inte är associerade eller bara förekommer tillsammans beroende på slump är mutual information värdet nära noll. Om orden tenderar att inte förekomma tillsammans (om de förekommer oftare utan varandra än med) blir mutual information värdet ett negativt tal. Formeln för mutual information är: I(x;y) = log 2 P(x,y) / P(x) P(y) Den förenade sannolikheten P(x,y) beräknas genom att räkna antalet gånger som x följs av y i korpusen. Sannolikheterna P(x) och P(y) beräknas genom att räkna antalet observationer av x och y i en korpus (Church & Gale et al 1991:121, Oakes 1998:63 och McEnery & Wilson 1996:71). Gemensamt för log likelihood ratio och chi-square är att båda två använder en korstabell (contingency table). En korstabell är en tabell där resultaten klassificeras med två kriterier. I en 2x2 korstabell etiketteras cellerna A till D. I cell A räknas antalet gånger två händelser inträffar tillsammans, exempelvis hur många gånger hård och kritik förekommer i samma sats. I cell B räknas antalet gånger den första händelsen inträffar och den andra inte, hur många gånger hård förekommer utan kritik. I cell C räknas antalet gånger den andra händelsen inträffar utan den första och i cell D hur många gånger ingen av händelserna inträffar. A C K(A B) K(~A B) K(A ~B) K(~A ~B) B D Figur 5, Korstabell Chi-square är en icke-parametrisk test vilket betyder att den kan behandla frekvenser och rangordnad data. Chi-square testar nominaldata, data som kan kategoriseras, exempelvis ordklasser där värdena/frekvenserna som tilldelas kategorierna är godtyckliga. Chi-square testar förhållandet mellan frekvenser och uppskattar om frekvenserna i en tabell skiljer sig signifikant från varandra (Oakes 1998:11,24-25). Daille (1996:58) definierar chi-square med formeln: x 2 = (ad bc) 2 (a + b) (a + c) (b + c) (b + d) där a är frekvensen för när både A och B förekommer, ruta A b är frekvensen för när A förekommer men inte B, ruta B c är frekvensen för när A inte förekommer men B förekommer, ruta C d är frekvensen för när varken A eller B förekommer, ruta D

13 i korstabellen ovan. Enligt Dunning (1994:71) ger statistiska tester som baseras på normal distribution ett felaktigt resultat om inte oerhört stora korpusar används eller orden man analyserar är högfrekventa. Dunning säger vidare att tester som baseras på en binominal eller multinominal distribution såsom log-likelihood ratio ger ett bättre resultat även på små texter och lågfrekventa ord. Daille (1996:58) definierar log-likelihood ratio (LLR) med formeln: LLR = där a log a + b log b + c log c + d log d - (a + b) log (a + b) (a + c) log (a + c) - (b + d) log (b + d) (c + d) log (c + d) + (a + b+ c + d) log (a + b + c +d) a är frekvensen för när både A och B förekommer, ruta A b är frekvensen för när A förekommer men inte B, ruta B c är frekvensen för när A inte förekommer men B förekommer, ruta C d är frekvensen för när varken A eller B förekommer, ruta D i korstabellen ovan. För mer ingående beskrivningar av respektive metod se för mutual information Oakes (1998:63), Church & Gale et al (1991), för chi-square se Oakes (1998:24) och för log-likelihood ratio se Dunning (1994). 2.5 Relaterat arbete Det finns åtskilliga som byggt, testat och utvärderat olika statistiska metoder på en mängd korpusar. Här ges ett urval av tester och system Test på likhet och olikhet Church & Gale et al (1991) anser att det finns tre saker att tänka på där mänskligt omdöme krävs då statistiska metoder används. Först måste en lämplig statistik väljas. Vidare bör korpusen prepareras, antingen ordklasstaggas eller parsas, och slutligen är det viktigt att välja en lämplig text (korpus). De har använt mutual information och t-score för att hitta likheter och olikheter mellan ord. 6 De exemplifierar med orden strong och powerful, två närsynonyma ord, och visar att med hjälp av mutual information kan man hitta likheter mellan orden, och med t-score kan man hitta olikheter mellan orden. De menar att ordböcker oftast är bra på att hitta likheter mellan ord, men att det vore intressant, speciellt i ordböcker för inlärning, att kunna visa på subtila skillnader mellan ord. Med hjälp av metoder såsom mutual information och t-score skulle arbetet med att hitta skillnader och likheter bli enklare. 6 T-score testar skillnader mellan två grupper i ett normalfördelat intervall av data, ett parametriskt test se Oakes, 1998:11.

14 2.5.2 Xtract Smadja (1991) har utvecklat systemet Xtract för att identifiera och ta fram kollokationer. Han delar in kollokationer efter hur flexibla de är. Ett exempel på en strikt nominalfras är en svensk tiger, en predikativ relation är en flexiblare relation exempelvis: bära vittnesbörd och frasmallar är idiomatiska fraser med ett eller flera tomrum exempelvis: generalindex sjönk/steg idag med <SIFFRA> procent. Att jämföra med Sinclair indelning av lexikala fraser där kollokationer är en av fem kategorier. Sinclair menar att kollokationer är fraser där orden bildar ett kluster kring kärnan, mest lik Smadjas predikativa relationer. Xtract är uppdelat i tre steg. I steg ett tas lexikalt relaterade ordpar fram med statistik. Smadja använder en egen metod som är uppdelad i flera steg och bygger på beräkningar på ordfrekvens och distans mellan det tänkbara kollokationsordet och sökordet. Ordparen måste förekomma i samma sats och på positioner +/- 5 ord. Steg två analyserar orden och ordklasstaggarna i satserna där ordparen förekommer, och väljer ut de ord som har en viss bestämd sannolikhet. Det sista steget tillför syntaktisk information till de i steg ett valda kollokationerna, och filtrerar bort olämpliga kollokationer. Filtreringsmekanismen kan exempelvis ta bort en kollokation om ordparet i första steget har ordklasserna nomen och verb, men relationen mellan dem varken är subjekt - verb eller objekt - verb. En utvärdering visar enligt Smadja en uppskattad precision på 80 % för att ta fram kollokationer Domänspecifika kollokationer Daille (1996) extraherar terminologi med hjälp av syntaktisk struktur och statistik, och använder mutual information och log-likelihood ratio (och även några andra statistiska metoder). Hennes tillvägagångssätt liknar Smadjas (1991) men består av två steg och utförs i omvänd ordning jämfört med hans system. Först används ett lingvistiskt filter för att välja ut kandidater från korpusen och därefter tillämpas någon av de statistiska metoderna för att hitta kollokationen. En fras är enligt Daille huvudsakligen ett flertal nominala ord med välkänd morfosyntaktisk struktur. Fraser klassificeras utifrån hur många huvudord de består av (adjektiv, adverb, nomen). Den vanligaste längden är 2. Ett antal regler för fraskonstruktion väljer ut de så kallade bastermerna. De lingvistiska filtret för att extrahera bastermer består av reguljära uttryck i en finit automat. Hon drar slutsatsen att log-likelihood ratio passar bäst för uppgiften och att statistiska metoder som bygger på associationskriterier (exempelvis mutual information) fungerar sämre med det lingvistiska filtret än utan WordSmith WordSmith utvecklades av Scott (1996, enligt Oakes, 1998:193) och utformades för lingvister och språklärare. Systemet använder chi-square för att identifiera nyckelord (nyckelord är ord vars frekvens är hög i förhållande till vissa normer och hjälper till vid genreidentifikation). WordSmith består av tre verktyg: WordList, Concord och Keywords. Concord skapar konkordanser och identifierar de vanligaste fraserna eller klustren kring sökordet, vilken interpunktion frasen har och vilken frekvens. Concord kan också skapa en grafisk karta med information om var sökordet finns i korpusen CobuildDirect CobuildDirect (enligt Oakes, 1998:194) använder mutual information och t-score för att identifiera signifikanta kollokationer. Resultatet är en lista med de 100 mest signifikanta kollokaterna. Det går

15 att söka på ordkombinationer med wildcards (+ = = för att få alla ordformer, * = för att få alla ord med det innehåll den sökta bokstavskombination har), även taggar, ord/tag.

16 Kollikon frasidentifikation och -extrahering

17 KAPITEL 3 Metod 3.1 Val av metod Målsättningen är att göra ett program för att underlätta identifiering och extrahering av lexikala fraser ur en korpus. Denna ska kunna vara en komponent i ett lexikografiskt verktyg. Diskussionen i bakgrunden leder fram till flera saker. Framförallt att det är problematiskt att kategorisera lexikala fraser, att det finns flera områden där det är viktigt att kategorisera och analysera fraser, och att statistiska metoder kan vara ett sätt att förenkla processen. En korpus är det grundläggande objektet Språkliga uttryck och statistiska metoder När en stor korpus används måste man hitta sätt att sortera data på som inte bara är alfabetiskt. Anledningen till detta är att stora korpusar ger stora resultat. Om resultatet är för stort kan det vara lika svårtolkat som en obearbetad korpus. Genom att sortera konkordanser med hjälp av statistiska metoder kan man visa lexikala fraser högre upp i en sorteringsordning än det vore möjligt utan statistik. Att analysera sökningen från en korpus med en statistisk metod innebär att alla ord inom ett visst intervall av ett sökt ord analyseras och får ett statistiskt värde. Detta värde är måttet på hur signifikant ordet är i förhållande till sökordet. För varje konkordansrad summeras värdena för alla signifikanta ord. Detta värde är sedan det värde som raden sorteras efter. 1 <Concordance> 2 <Heading>Concordance of hand</heading> 3 <SignificantWords> 4 <Heading>Most significant words</heading> 5 <WordGroup> 6 <Word StatisticalValue=" ">första</Word> 7 <Word StatisticalValue=" ">i</Word> 8 <Word StatisticalValue=" ">om</Word> 9 </WordGroup> 10 </SignificantWords> 11 <ConcLines> 12 <Heading>There are 7340 concordance lines, sorted by statistics</heading> 13 <ConcLine StatisticalValue=" "> <LeftContext> <ContextWord Significant="true">om</ContextWord> <ContextWord Significant="false">energibeskattningen</ContextWord> <ContextWord Significant="true">i</ContextWord> <ContextWord Significant="true">första</ContextWord> </LeftContext> <SearchItem>hand</SearchItem> <RightContext> <ContextWord Significant="true">,</ContextWord>

18 <ContextWord Significant="false">men</ContextWord> <ContextWord Significant="false">också</ContextWord> <ContextWord Significant="true">om</ContextWord> </RightContext> </ConcLine> </ConcLines> <PhraseCands> <PhraseCand> <Phrase PhraseFreq="46">på egen hand</phrase> </PhraseCand> </PhraseCands> </Concordance> Figur 6, XML-trädet i Kollikon Figuren är ett XML-träd, (XML är det format som används för kommunikation mellan servern och klienten, se vidare och 4.3). I figuren kan man se att det mest signifikanta ordet för hand är första och det statistiska värdet för första finns i elementet <Word StatisticalValue = >. Efter första är det mest signifikanta ordet i med värdet Det tredje mest signifikanta ordet är om med värdet Vidare i figur 7 kan man se konkordansraden om energibeskattningen i första hand, men också om och radens sammanlagda statistiska värde i <ConcLine StatisticalValue = >. Detta värde är summan av värdena för om, i, första, hand,,(komma), om, och det värde som raden sorteras efter. De flesta av systemen som beskrivs i bakgrunden försöker hitta lexikala fraser. De lexikala fraserna kallas kollokationer i Xtract, Concord, WordSmith och CobuildDirect och domänspecifika kollokationer i Dailles system. Systemen behandlar problemet på ett ganska likvärdigt sätt genom att använda en korpus och olika statistiska metoder och ibland någon typ av lingvistiskt filter för att hitta engelska fraser. Mitt tillvägagångssätt skiljer sig inte på dessa punkter. Kollikon utgår från en korpus och använder statistiska metoder för att hitta svenska lexikala fraser. Det är viktigt att poängtera att korpusen och de statistiska metoderna endast är en hjälp för den mänskliga användaren. Denna applikation ska inte kunna utföra arbetet automatiskt utan kräver att användaren själv gör relevanta sökningar och analyser av resultaten. Applikationen är främst tänkt att vara användbar för en lexikograf vilket återspeglas av testerna i utvärderingen (se 5.1). Under testerna är utgångspunkten Sinclairs teori om att alla ord förekommer i någon typ av lexikal fras och hans indelning av de lexikala fraserna. Han kategoriserar de lexikala fraser i fem grupper: idiom, kollokationer, kolligationer, semantiska konstruktioner och semantisk prosodi (se 2.3.1). De tre statistiska metoderna i Kollikon är log-likelihood ratio, mutual information och chi-square i min implementation. Ingen av dessa är ny utan har använts med framgång för liknande uppgifter vilket är anledningen till valet av dem (se 2.5). De tre metoderna fungerar på olika sätt och ger därför olika resultat. I resultatdelen diskuteras vilka resultat de olika metoderna ger. Det grundläggande för alla de tre metoderna är att ord som förekommer tillsammans med sökordet och vars förekomst inte kan bero på slump, får ett statistiskt värde. Både chi-square och mutual information har problem med lågfrekventa ord. De båda metoderna visar på associationer mellan två ord. Om ett ord har lågfrekvens (under 10 förekomster enligt

19 Church & Mercer, 1994:19) och endast förekommer tillsammans med sökordet blir ordet signifikant Svensk standardkorpus Svensk standardkorpus, SSK, den korpus systemet använder, kommer som tidigare nämnts från Lexilogik. När det gäller kvalitet är det viktigt att SSK är modern. Alla texter är insamlade från 1998 och framåt och består i maj 2000 av tokens (ordformer) och förekomster. När det gäller kvantitet är kriteriet att SSK ska vara en stor korpus som hela tiden fortsätter att växa. 3.2 Val av verktyg Kravet från Lexilogik var att systemet skulle vara objektorienterad för att enkelt kunna anpassas och vidareutvecklas. Det andra kravet var att systemet skulle skrivas i Java eftersom Java är det programmeringsspråk Onoma och flera andra av Lexilogiks produkter är utvecklade i. Ett ytterligare krav var att det skulle vara nätverksbaserat, en klient/server applikation. Kollikon skulle kunna användas som en fristående modul på Internet. Valet blev en servlet. Eftersom Kollikon skulle kunna vara en av byggstenarna i ett lexikografiskt verktyg skulle det vara möjligt att enkelt bygga ut Kollikon för att integrera och använda resultaten i Onoma. XML är formatet för att kommunicera data mellan servern och klienterna, där klienten kan vara en webbläsare men lika gärna ännu en byggsten i ett system Objektorientering Enligt det objektorienterade synsättet uppfattar man ett datorprogram som en slags modell av den verklighet programmet skall samverka med. De enskilda enheterna i ett program, de sk objekten, är då modeller av verkliga eller tänkta ting i programmets omgivning och ett datorprograms uppgift är att manipulera objekten. (Skansholm, 1998:39). De centrala begreppen inom objektorientering är objekt och klasser. Ett objekt är en modell av ett verkligt eller tänkt föremål och har två slags attribut, variabler och metoder. En klass är en slags mall eller ritning där de variabler och metoder som är gemensamma för alla objekt av en speciell typ definieras. Ett objekt som tillhör en klass utgör en instans av klassen. Kollikon integrerar metoder från korpuslingvistik och objektorienterade system. I Kollikon är huvudobjektet korpusen. På korpusen appliceras metoden att skapa en konkordans. Klassen konkordans har sedan variabler såsom sökord, vänsterkontext och högerkontext och metoder för att ta fram konkordansrader, signifikanta ord och fraskandidater. Konkordansraderna, de signifikanta orden och fraserna är i sin tur egna objekt Java Java är ett objektorienterat programmeringsspråk och blev allmänt tillgängligt Enligt Skansholm (1998) har Java flera intressanta egenskaper. Java bygger på objektorienterade principer för att konstruera program. Ett Javaprogram består av ett antal objekt som beskrivs av klasser. Java kan användas på Internet genom att webbsidor innehåller applets eller genom klient/server teknik med hjälp av servlets (se 3.2.4). Java är plattformsoberoende, vilket innebär att det kan köras på olika typer av datorsystem, utan att programmet behöver ändras.

20 Java innehåller verktyg för att generera grafiska användargränssnitt så att man kan göra grafiska program med fönster, menyer, knappar osv. Kollikon använder inte Javas gränssnitt utan körs med hjälp en servlet på en webbläsare. Med Java kan man skriva parallella program, vilket betyder att ett Javaprogram kan beskriva flera pågående aktiviteter samtidigt Klient/Server När klient/server-teknik används har man en dator, den så kallade servern som tillhandahåller en tjänst. Ett vanligt exempel på klient/server-system är databaser. På en centralt belägen dator finns aktuell information samlad. Klienter kan koppla upp sig mot databasen för att göra förfrågningar. I mitt fall finns korpusen lagrad på en server och klienten kan koppla upp sig och göra sökningar i korpusen. Kollikon körs på en Apacheserver med JServ. JServ är en servlet motor som skapats för att användas med en Apacheserver (för mer information se Korpusen finns lagrad på servern och klienten gör sökningar i korpusen från en webbsida där klientens förfrågan besvaras med hjälp av en servlet Servlet En servlet är en webbkomponent där data genereras dynamiskt. Servlets är små, plattformsoberoende javaklasser som laddas och körs av en server. Servlets integrerar med webklienter via en request/respons -paradigm baserat på Hypertext Transfer Protocol (HTTP) (Hunter, 1998:1-2). En servlet används bland annat för att skapa dynamiska webbsidor, vilket är fördelaktigt om webbsidorna baseras på en förfrågan från användaren, exempelvis sökmotorer, konkordansprogram. Common Gateway Interface, CGI, var en av de första praktiska teknikerna för att skapa data dynamiskt. Med CGI skickar en webserver en förfrågan till ett externt program. Utdata från detta program skickas sedan till klienten som en statisk fil (Hunter, 1998:2). En servlet har flera fördelar gentemot ett CGI-program. Med CGI startar en process för varje förfrågan, vilket gör att detta måste ske varje gång en fråga ställs vilket är tidsödande. En servlet tar emot flera förfrågningar och behandlar dem samtidigt. Detta gör att startprocessen endast sker en gång och sedan kan processen pågå i bakgrunden efter att en förfrågan har slutförts. Följden blir att nästa förfrågan kan ske utan någon fördröjning för att starta processen. Detta gör även att användaren kan kommunicera interaktivt, vilket inte är smidigt med CGI. En servlet har tillgång till historiken i ett arbetspass. Det är möjligt att lagra vad som redan har gjorts och ta hänsyn till detta i vad som görs sedan. Efter en förfrågan gjorts avbryts inte kopplingen mellan servern och klienten och fler överföringar kan ske (Hunter, 1998:6). Med CGI, däremot, utförs en rutin och sedan är allt bortglömt. CGI får börja om från början varje gång. Både java och servlets är designade för att vara portabla. Servlets stöds av alla plattformar där java stöds och fungerar med alla större webbservers. Servlets är en del av javaspråket men inte en del av Java API (Application Programming Interface) kärnan. Sun har utvecklat ett antal klasser med grundläggande serlvetstöd. Servlet API består av paketen javax.servlet och javax.servlet.http (Hunter: 1998:7).