Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Relevanta dokument

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Word- sense disambiguation

Grammatik för språkteknologer

Lexikon: ordbildning och lexikalisering

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Datorlaboration 2 Konfidensintervall & hypotesprövning

Uppgift 1. Produktmomentkorrelationskoefficienten

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

12 Programstege Substantiv

Kungliga Tekniska Högskolan Patrik Dallmann

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lösningar till SPSS-övning: Analytisk statistik

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig.

Tentamen Marco Kuhlmann

Uppgift 1. Deskripitiv statistik. Lön

Föreläsning 3.1: Datastrukturer, en översikt

Statistik och epidemiologi T5

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Lektion 3. Anteckningar

Anvisningar för utformning av sammandrag som mognadsprov

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Språket, individen och samhället VT08

Lennart Carleson. KTH och Uppsala universitet

En nybörjarkurs i kritiskt tänkande

Lektion 1: Fördelningar och deskriptiv analys

Lingvistiskt uppmärkt text

Introduktion till språkteknologi. Datorstöd för språkgranskning

Algoritm för uppskattning av den maximala effekten i eldistributionsnät med avseende på Nätnyttomodellens sammanlagringsfunktion

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

Tentamen MVE300 Sannolikhet, statistik och risk

Inlämningsuppgift: Pronomenidentifierare

Finns det en skillnad mellan vad barn tror sig om att klara jämfört med vad de faktiskt klarar?

Träningshäfte ordklasser (Venus)

8-1 Formler och uttryck. Namn:.

Tentamen i Matematisk statistik Kurskod S0001M

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Artiklarna. Grindenheten Ämne, årskurs och tidsperiod. Arbetsformer. Spanska, åk 6, vecka 2-8.

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Kommunikation. Kunna redovisa ett arbete muntligt så att innehållet framgår och är begripligt

Ordbok arabiska - svenska

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Senaste revideringen av kapitlet gjordes , efter att ett fel upptäckts.

Artiklarna. Grindenheten Ämne, årskurs och tidsperiod. Arbetsformer. Spanska, åk 6, vecka 3-10.

Rapport från Praktik på SVOX AG till

grammatik Ordklasser, nominalfraser, substantiv

36 poäng. Lägsta poäng för Godkänd 70 % av totalpoängen vilket motsvarar 25 poäng. Varje fråga är värd 2 poäng inga halva poäng delas ut.

Broskolans röda tråd i Språkval

Artiklar via UB:s sö ktja nst

Att göra investeringskalkyler med hjälp av

HotCollection Träffsäkra analyser av svenskarnas TV-tittande. HotTimeDetalj

KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter

Grunderna kring helmäskning

Begrepp Värde (mätvärde), medelvärde, median, lista, tabell, rad, kolumn, spridningsdiagram (punktdiagram)

This exam consists of four problems. The maximum sum of points is 20. The marks 3, 4 and 5 require a minimum

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Statistisk grammatikgranskning

Alex författarlexikon

NMCC Sigma 8. Täby Friskola 8 Spets

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Kommentarmaterial, Skolverket 1997

Ett övningssystem för att nå automatik

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen

Liten introduktion till akademiskt arbete

Bonusmaterial till Lära och undervisa matematik från förskoleklass till åk 6. Ledning för att lösa problemen i Övningar för kapitel 5, sid

STUDIETEKNIK. Till eleven

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

1 Skapa Tabell Skapa Relationer Redigera Relationer Redigera Fält i Tabell Lägga till Poster i Tabell...

Summor av slumpvariabler

Skriva, presentera och opponera uppsats på läkarprogrammet Examensarbete termin 10

Samverkande Expertnät

Inference in multiplicative pricing

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

TENTAMEN KVANTITATIV METOD (100205)

Tal Räknelagar Prioriteringsregler

Avd. Matematisk statistik

BARNS SPRÅKUTVECKLING

Så här. skriver du. lättläst

Hej, snälla! ORDLISTA CHRISTINA WAHLDÉN ARBETSMATERIAL FÖR LÄSAREN

Grundläggande textanalys. Joakim Nivre

Vätebränsle. Namn: Rasmus Rynell. Klass: TE14A. Datum:

SNABBGUIDE TILL NEWSDESK

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Statens Folkhälsoinstitut

Designmönster - EMW. Kent Petersson epost1: kentp@cs.chalmers.se epost2: kent.petersson@emw.ericsson.se URL:

Tentamen i Sannolikhetslära och statistik (lärarprogrammet) 12 februari 2011

Ämnesprovet i matematik i årskurs 9, 2014 Margareta Enoksson PRIM-gruppen

Resultatet läggs in i ladok senast 13 juni 2014.

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk

Tentamen i Matematisk statistik Kurskod S0001M

Artighetsmarkörer? Om förstås och andra självklarhetsadverb

Användarmanual HOIF.org

Transkript:

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng vid Programmet för datateknik 270 högskolepoäng Kungliga Tekniska Högskolan år 2012 Handledare på CSC var Ola Knutsson Examinator var Olle Bälter TRITA-CSC-E 2012:050 ISRN-KTH/CSC/E--12/050--SE ISSN-1653-5715 Kungliga tekniska högskolan Skolan för datavetenskap och kommunikation KTH CSC 100 44 Stockholm URL: www.kth.se/csc

Sammanfattning Automatisk extraktion av idiom ur text Idiom definieras som ett fast uttryck, med en betydelse som inte går att läsa ut ifrån idiomets delar. Exempel på idiom, ana ugglor i mossen och skilja agnarna från vetet. Idiom kan vara svåra att lära och bemästra, översätta och analysera då de fungerar som en enhet. Utvinning av idiom anses vara en viktig del inom områdena datorstödd språkinlärning, maskinöversättning och allmän textanalys. En viss överlapp finns mellan kollokationer och idiom. Kollokationer beskrivs som en sekvens av ord som förekommer oftare än de borde av ren slump. Statistiska metoder används vid extraktion av kollokationer. De som testats är t-test, chi-square, likelihood ratio och pointwise mutual information. Metoderna använder en textsamling (korpus) för att rangordna ordpar (bigram). Den svenska korpus som används för undersökningar och analys är Parole. Parole innehåller dagstidningar, romaner och tidskrifter, vilket ska ge en bra representation av det svenska språket. De statistiska metoderna analyseras och det visar sig att pointwise mutual information lämpar sig bäst för extraktion av idiom. Endast användning av statistiska metoder ger inget bra resultat. Idiom kan filtreras med hjälp av ordklasser. De flesta idiom matchar mönstren (NN-PP-NN) och (VB-PP-NN), där NN är ett substantiv, PP en preposition och VB ett verb. Spridning i korpusen kan också användas för att filtrera bort felaktiga kandidater. Idiom förekommer sällan och oftast inte koncentrerat på samma position. Utvärdering av resultat sker manuellt. Totalt hittades det 66 stycken idiom bland de 100 högst rankande kandidaterna. Slutsatsen är att det går att automatiskt hitta idiom, men det kräver mänsklig filtrering. Strategin för bästa resultat, använder en blandning av ordklass, spridning och statistisk metod. Nyckelord: idiom, kollokation, korpus, ordklass, mönster, spridning, statistiska metoder.

Abstract Automatic extraction of idioms from text Idioms are defined as a group of words whose meaning cannot be predicted from the meanings of the constituent words. For example, smell a rat and separate the wheat from the chaff. Idioms can be difficult to learn and master, translate and analyze because they function as one unit. Extraction of idioms is considered an important part in the areas of computer assisted language learning, machine translation and general text analysis. A degree of overlap exists between collocations and idioms. Collocations are described as a sequence of words that co-occur more often than would be expected by chance. Statistical methods are used in the extraction of collocations. The ones tested are t-test, chi-square, likelihood ratio and pointwise mutual information. The methods use a text collection (corpus) to rank word pairs (bigrams). The Swedish corpus used for studies and analysis is Parole. Parole includes newspapers, novels and magazines, which should give a good representation of the Swedish language. The statistical methods are analyzed and it turns out that pointwise mutual information is best suited for extraction of idioms. Only the uses of statistical methods do not give good results. Idioms can be filtered using parts of speech. The majority of idioms match patterns (NN-PP-NN) and (VB-NN-PP), where NN is a noun, PP a preposition and VB a verb. Distribution of the corpus can also be used to filter out incorrect candidates. Idioms occur rarely and usually not concentrated in the same position. Evaluation of the result is done manually. A total of 66 idioms were found among the 100 highest ranked candidates. The conclusion is that it is possible to automatically find idioms, but it requires human filtering. The strategy for best result uses a mixture of part of speech, distribution and statistical methods. Keywords: idiom, collocation, corpus, part of speech, pattern, distribution, statistical methods.

Förord Detta examensarbete utgör det sista momentet i civilingenjörsutbildningen i Datateknik på KTH och binder samman flera år av studier. Examensarbetet har skrivits för skolan för datavetenskap och kommunikation, CSC, som är en av KTH:s tio skolor. Inom CSC finns forskargrupper som sysslar med språkteknologi för både talat och skrivet språk. Först vill jag tacka min handledare på KTH, Ola Knutsson. Jag vill även tacka de personer som stöttat mig att slutföra examensarbetet, speciellt tack till dig Anna. Andreas Pettersson Stockholm 2012

Innehållsförteckning 1 Introduktion 1 1.1 Inledning................................. 1 1.2 Problemdefinition............................. 3 1.3 Syfte.................................... 4 1.4 Avgränsningar............................... 4 2 Bakgrund och teori 5 2.1 Historisk bakgrund............................ 5 2.1.1 Kontextualistisk......................... 6 2.1.1.1 Sinclair principer.................... 6 2.1.2 Systemorienterat......................... 6 2.2 Idiom................................... 8 2.2.1 Definition............................. 8 2.2.2 Grammatiska variationer.................... 8 2.2.3 Lexikala variationer....................... 8 2.2.4 Andra fasta ordförbindelser................... 8 2.2.5 Förekomster av idiom...................... 9 2.3 Egenskaper för kollokationer....................... 10 2.3.1 Sammansättning......................... 10 2.3.2 Ersättning............................. 10 2.3.3 Ändring.............................. 10 2.4 Korpus................................... 11 2.4.1 Korpustyper........................... 12 2.4.1.1 Balanserad....................... 12 2.4.1.2 Opportunistisk (Monitor)............... 12 2.4.1.3 Parallell......................... 13 2.4.1.4 Jämförbar....................... 13 2.4.2 Annotering (taggning)...................... 14 2.5 Kollokationsanalys............................ 15 2.5.1 Korstabell............................. 15 2.5.1.1 Observerade frekvenser................ 16 2.5.1.2 Styrka på koppling i bigram............. 17 2.5.1.3 Förväntad frekvens.................. 18

3 Metoder 19 3.1 Frekvens.................................. 19 3.2 Ordklassfilter............................... 21 3.3 Statistiska metoder............................ 23 3.3.1 T-test............................... 23 3.3.2 Pearsons Chi-square....................... 25 3.3.3 Likelihood ratio.......................... 27 3.3.4 Pointwise Mutual Information.................. 29 3.4 Tidigare försök att hitta idiomatiska uttryck i en parallellkorpus.. 31 4 Experimentell analys 33 4.1 Analysverktyg............................... 33 4.1.1 Beskrivning av Parole...................... 33 4.1.2 Konkordanssökning i Parole................... 35 4.1.3 Grammatikgranskaren Granska................. 35 4.1.3.1 Ordklasstaggning med Granska............ 36 4.1.3.2 Olika taggar i Granska................ 37 4.2 Förberedande taggning av Parole.................... 38 4.3 Analys av statistiska metoder...................... 40 4.4 Metod för att hitta liknelser....................... 42 4.5 Olika ordklassmönster på idiom..................... 44 4.6 Ordklassmönster plus statistisk metod................. 47 4.7 Förkasta felaktiga kandidater...................... 49 5 Beskrivning av verktyg 51 5.1 Processflöde, från korpus till idiom................... 51 5.2 Format för korpusar........................... 52 5.3 Tagga Parole med Granska....................... 53 5.3.1 Tagga med Granska på server.................. 53 5.3.2 Tagga med Granska Tagger................... 53 5.4 Datastruktur för lagring av n-gram................... 54 5.5 Internminne eller diskminne....................... 56 5.6 Testning och optimering......................... 57 5.7 Applikationen - IdiomFinder...................... 58 6 Resultat 59 6.1 Utvärderingsmetod............................ 59 6.2 Stegvis händelseförlopp......................... 59 6.2.1 Gruppering av verbets former.................. 60 6.2.2 Längd, tecken och ord i trigram................. 63 6.2.3 Spridning av idiom i korpusen.................. 65 6.2.4 Tröskelvärde för frekvensen................... 67 7 Slutsatser 69

7.1 Förslag på fortsatt arbete........................ 71 Litteraturförteckning 73 Bilagor 75 A Taggning med Granska på servern 77 B Tabeller 79 B.1 Tabell över frekventa trigram...................... 79 B.2 Tabell över frekventa trigram med verb i grundform......... 82 B.3 Tabell över de högst rankade trigrammen enligt måttet PMI..... 85 B.4 Tabell över de högst rankade trigrammen enligt måttet PMI, med begränsningar i antal bokstäver och olika tecken............ 88 B.5 Tabell över de hundra högst rankade trigrammen, där interkvartilavstånd har använts för att sortera bort felaktiga kandidater...... 91 B.6 Tabell över de hundra högst rankade trigrammen, där interkvartilavstånd och tröskelvärde har använts för att filtrera bort felaktiga kandidater................................... 94

Kapitel 1 Introduktion Kapitlet inleder med en kort beskrivning av idiom för att ge läsaren en förståelse om vad begreppet betyder. Inledningen tar upp varför det är intressant att hitta idiom och vilka problem som finns runt idiom. Den följs upp av problemdefinition och syfte. Introduktionen avslutas med avgränsningar och begränsningar i arbetet. 1.1 Inledning Idiom definieras som ett fast uttryck, med en betydelse som inte går att läsa ut ifrån idiomets delar. Det räcker inte med att veta delarnas betydelser för att förstå idiomets fullständiga innebörd. Exempel på idiom är ana ugglor i mossen, tänka på refrängen, hamna på efterkälken och kasta in handduken. Ordspråk och liknelser räknas ofta till idiomen. Liknelser är fraser som för det mesta innehåller ordet som, till exempel pigg som en mört och glad som en lärka. Idiomen anses vara svåra att förstå för nybörjare på ett språk. De kräver en högre språklig förståelse. Betydelsen av ett idiom kan vara svåra att hitta i ordböcker, där endast de vanligaste idiomen finns med. Nya idiom som uppkommer och de mer speciella förutsätts att man helt enkelt har kännedom om. Ett problem som idiomen orsakar är när de ska översättas. Vid en ordagrann översättning tappar en del idiom sin betydelse, det är ordens sammansatta betydelse som ska översättas. Exempel översättning av idiomet kasta in handduken fungerar bra, medan idiomet ana ugglor i mossen ger en felaktig ordagrant översättning. I bästa fall finns det ett motsvarande idiom på andra språket. 1

KAPITEL 1. INTRODUKTION Idiom skapar problem för lingvister som arbetar inom områdena datorstödd språkinlärning, maskinöversättning och allmän textanalys. Utvinning av idiom anses vara en viktig del inom dessa områden för att idiomen är: svåra att lära och bemästra svåra att översätta svåra att automatiskt analysera då de fungerar som en enhet Den engelska termen multi-word expression inkluderar sammansättningar, kollokationer och idiom. En viss överlapp finns mellan kollokationer och idiom. Kollokationer kan ofta beskrivas som ordsekvenser som ofta förekommer i samma kontext. Vid extraktion av kollokationer eller relaterade ord ur text används olika statistiska metoder. Dessa metoder ligger till grund för att hitta idiom och kan utökas för att inrikta sig mot att hitta idiom i texter. 2

KAPITEL 1. INTRODUKTION 1.2 Problemdefinition Idiom hörs dagligen i radio och televisionen, samt förekommer även skriftligen i texter som dagstidningar. Mängden idiom som finns nedskrivna kanske inte motsvarar den mängd som används i de sociala samtalen som förs mellan två personer. Men det finns i alla fall en del idiom skrivna i dagstidningar, tidskrifter och romaner. Dessa tre källor ligger till grund för byggandet av en stor representativ textsamling för svenska språket. En textsamling kallas för en korpus och i Sverige finns ett antal korpusar. En del är öppna för forskning medan andra kostar pengar att använda. De två mest kända i Sverige är öppna för forskning. Det är Stockholm-Umeå korpus(suc) och PAROLE. De innehåller en miljon respektive 19 miljoner ord. Den enklaste och långsammaste metoden för att urskilja idiom i texter är att manuellt gå igenom texterna. Att läsa en miljon ord tar inte några minuter utan snarare ett par dagar utan pauser. Uppmärkning av ordklasser i korpusen SUC skedde manuellt och det pågick under ett par år. Med datorhjälp kan korpusar nu undersökas relativt snabbt. Ett problem med idiom är, om de går att skilja ut från texter. Är de tillräckligt statistisk annorlunda jämfört med övrig text. Statistiska metoder används för att hitta kollokationer som är besläktade med idiom. De statistiska metoderna bygger sina beräkningar på ordens frekvenser. Om idiom inte förekommer ofta i texter, kommer då de statistiska metoderna att rata idiomen eller kommer de att privilegiera de fraser som är mer frekventa. Dessa frågor återstår att undersökas. Metoderna har tidigare används på engelska texter. Den språkliga övergången till svenska hindras förmodligen inte, då statistiska metoder endast använder frekvenser. Att hitta svenska idiom i texter har inte undersökts tidigare. Arbetet blir som en förundersökning av olika metoder för att hitta idiom. Utvärdering av de olika metoderna kommer att ske manuellt eftersom det inte finns något öppet dataskrivet material över idiom. För att kunna jämföra sin metod vid utvärderingar krävs det att någon har plockat ut alla idiom ur texten tidigare. Eftersom det inte har skett kommer det att bli svårt att producera något procentuellt resultat utan det blir med ett resonemang över vilken metod som passar för att utvinna idiom. 3

KAPITEL 1. INTRODUKTION 1.3 Syfte Syftet med arbete har varit att undersöka de olika statistiska metoderna för kollokationer och välja ut den/de som ger det bästa resultatet för idiom. Resultat av extraktionen kan sedan ligga till grund för olika arbeten inom maskinöversättning och generell textanalys. Vid datorstödd språkinlärning kan listan användas till att markera idiom i texter som visar idiomets betydelse. Detta kräver dock att listan förses med förklaringar av idiomen. Vid maskinöversättning skulle idiomen kunna tolkas som en enhet och möjliggöra bättre översättningar än idag. 1.4 Avgränsningar Idiomen avgränsas till det svenska språket. Betydelserna av de idiom som behandlas i arbetet kommer inte att beskrivas. Den delen lämnas till läsaren att söka efter eller kan bli en utveckling av detta arbete. Mängden texter att söka efter idiom i begränsas på grund av tillgången av taggade svenska korpusar. Ordspråk kommer inte att hanteras. 4

Kapitel 2 Bakgrund och teori Kapitlet inleds med uppkomsten av kollokationer och hur två olika kollokationsteorier har växt fram. Kollokationer är en viktig del för sökandet efter idiom i texter. Det blir därför naturligt att inleda med kollokationer för att sedan fokusera på idiom. Efter de historiska aspekterna kommer den mer teoretiska delen. Där behandlas områdena idiom, egenskaper för kollokationer, korpusar och kollokationsanalys. 2.1 Historisk bakgrund Under 1950-talet myntade J.R. Firth termen kollokation (Firth, 1957). Firth var en engelsk lingvist som levde mellan åren 1890 och 1960. Han definierade kollokation som en frekvent samförekomst av ord i autentiska texter. Först i slutet av 1980-talet introducerades terminologin om kollokationer i Sverige (Svensén, 2005). Genom åren har det kommit fram två olika kollokationsteorier: den kontextualistiska och den systemorienterade. Den kontextualistiska teorin som ibland kallas för den frekvensorienterade, växte fram ur Firth s resonemang om kollokationer under 1950- talet i England. Sinclair vidareutvecklade kollokationsbegreppet efter Firth. Han använder två principer som förklarar en texts uppkomst (Sinclair, 1991). Den systemorienterade teorin utvecklas först under 1970-talet i Tyskland av F.J. Hausmann. Han talar mer om direktionalitet mellan orden istället för att använda ordförbindelsernas frekvenser. (Hausmann, 1985). 5

KAPITEL 2. BAKGRUND OCH TEORI 2.1.1 Kontextualistisk Den kontextualistiska teorin betraktar kollokationerna som ett statistiskt fenomen och bygger sitt resonemang på att frekvensen ska leda fram till ett urval av intressanta kollokationer. Ur en statistisk synvinkel kan en kollokation definieras som en grupp ord som uppträder tillsammans oftare än de skulle göra om slumpen råder. Ett problem med den kontextualistiska teorin är att den kommer att ta med en mängd frekventa sammanställningar av ord som är tillfälliga eller icke välformulerade. Exempel på frekventa sammanställningar är för att, där med och jag och. Det går att rensa bland de oönskade kollokationerna i korpusen med grammatiska filter. Dock kan det leda till att välformade och frekventa ordpar rensas bort. Ett annat problem är att många relevanta kollokationer kommer att hamna utanför på grund av sin låga frekvens. 2.1.1.1 Sinclair principer Med utgångspunkt från Firths resonemang om begreppet kollokation definierar Sinclair 1991 principen om öppna val (open choice principle). Principen förklarar att texter uppkommer genom att ord kombineras enligt grammatiska regler (Sinclair, 1991). En annat namn på principen är slot and filler modellen vilket kan förklaras med att luckor i texter kan fyllas med något semantiskt lämpligt ord som uppfyller de grammatiska kriterierna. Sinclair upptäcker att det inte räcker att använda de grammatiska reglerna för att skapa normala texter. Han föreslår att idiomprincipen ska täcka de syntagmatiska relationer mellan ord som inte kan förklaras av de grammatiska reglerna (Sinclair, 1991). Idiomprincipen använder lexikaliserade och halv-lexikaliserade fraser som finns lagrade i textförfattarens minne och hämtas som fasta uttryck. Öppna val och idiomprincipen har blivit grundstenar i två skilda teorier för språk. Öppna val principen ligger till grund för den generativa grammatiken. Den inriktningen anses ha grundats av Noam Chomsky. Idiomprincipen förknippas med konstruktionsgrammatiken (Goldberg, 2003). 2.1.2 Systemorienterat Under 1970-talet tas den systemorienterade kollokationsteorin fram av tyskar ledda av F. J. Hausmann. En orsak till att tyskarna inte antog och använde den engelska teorin var att de saknade autentiska korpusar (Malmgren, 2004). Hausmann utgår från exemplet köpa en bok. Trots att denna fras är grammatiskt välformad och kanske vanlig i vissa korpusar, kan den enligt Hausmann aldrig kvalificera sig för beteckningen kollokation. Frasen är enligt Hausmann fullkomligt trivial. Verbet köpa kan i stort sett styra vilket objekt som helst och bok kan vara objekt till ett stort antal verb. Frasen tillhör gruppen fria kombinationer (Hausmann, 1985). 6

KAPITEL 2. BAKGRUND OCH TEORI Den systemorienterade teorin anser att komponenterna i en kollokation ska ha en begränsad kombinerbarhet. Ett exempel på en kollokation ur Hausmann:s synvinkel skulle vara fatta ett beslut, eller inge respekt. Båda uttrycken har ett begränsat antal ord de kan kombineras med. Figur 2.1. Uppdelning av ordförbindelser. Hausmann har bidraget med att ge kollokationerna direktionalitet. Det vill säga att ena komponenten i en kollokation är ett huvudord och det andra ett biord. Kollokationen fatta ett beslut kan delas upp komponenterna beslut huvudord och fatta biord. Huvudordet i en kollokation kallas bas och biordet för kollokator. Inom den korpusorienterade kollokationsteorin finns ingen direktionalitet. Där kallas komponenterna istället för nod och kollokat. Noden är det ord man utgår ifrån vid statistiska beräkningar och kollokatet ett ord i närheten. 7

KAPITEL 2. BAKGRUND OCH TEORI 2.2 Idiom Söker man efter betydelsen för ordet idiom ges ofta förklaringen: två eller flera ord som tillsammans betyder något annat än vad orden gör ensamma. Idiom uppfattas som en självständig lexikalisk enhet och inte som ett uttryck för en syntagmatisk egenskap 1 hos något av de ingående orden. Enligt SAOL 2 definieras idiom som: särspråk; ogenomskinligt fast uttryck. 2.2.1 Definition Ett idiom är en fast ordförbindelse. En ordförbindelse definieras av två eller flera ord som står i en följd. Alltså kan inte ett idiom innehålla endast ett ord. Att ordförbindelsen är fast betyder att uttrycket inte är föränderligt. Att idiom ska vara fasta ordförbindelser stämmer inte riktigt. I en undersökning av en engelsk korpus visade det sig att ungefär 40 procent av de fasta ordförbindelserna hade någon form av variation. Undersökningen visade att det kunde förekomma både grammatiska och lexikaliska variationer (Pawley, 2001). 2.2.2 Grammatiska variationer Den vanligaste grammatiska variationen förkommer bland fraser med ett verb. Där kan verbet varieras med tempusbyte. Ex. idiomet ha, hade, haft is i magen. Andra variationer som till exempel variationer av substantivets species 3 och numerus 4 är inte lika vanliga. 2.2.3 Lexikala variationer Lexikala variationer sker ofta med ord som byts ut mot synonymer. Betydelsen för uttrycket ska i princip förbli oförändrat. Ex. idiomet lägga en död/kall hand över något. Orden som byts har en liknande betydelse, men det är inte alltid nödvändigt. Idiomet bränna sina skepp kan översättas till engelska och där kan skepp ersättas med broar (burn one s boats/bridges). 2.2.4 Andra fasta ordförbindelser Andra fasta ordförbindelser som ofta blandas ihop med idiom är liknelser och ordspråk. Liknelser kan beskrivas som fasta ordförbindelser som innehåller ordet som eller liksom. Exempel på liknelser, som en oljad blixt, arg som ett bi. Liknelser har ofta en förstärkande funktion. 1 En syntagmatisk egenskap är ordens förhållande till andra ord som de kan kombineras med. 2 http://www.svenskaakademien.se/web/ordlista.aspx 3 Species är substantivets bestämda och obestämda form. 4 Numerus kan antingen vara singular eller plural. 8

KAPITEL 2. BAKGRUND OCH TEORI Grammatiskt och lexikaliskt är ordspråk nästan helt utan variationer. Det beror främst på att ordspråken ofta utgör hela meningar. Ordspråken vill förmedla ett budskap eller en värdering man ställer sig bakom, ex. Tala är silver, men tiga är guld. 2.2.5 Förekomster av idiom Idiom förekommer mycket sparsamt i texter, det har gjorts två undersökningar på engelska texter. Dels undersökte man hur många olika idiom som förkommer i texter och dels hur frekventa idiomen kan vara. Av de 888 vanligaste idiomen i en engelsk idiomordbok hittades 33 stycken i Brown Corpus (1 miljoner ord). Det vill säga 3,7 procent av idiom fanns representerade i korpusen. Ordboken var brittisk och korpusen amerikansk men det hade ingen större betydelse eftersom de vanligaste idiomen är gemensamma (Kjellmer, 1996). I den andra undersökningen användes en idiomordbok med 4 000 ordförbindelser som hittats i korpusen Bank of English, som vid tillfället innehöll 211 miljoner ord. De 750 vanligaste ordförbindelserna hade en eller flera belägg på 2 miljoner ord. De näst vanligaste 750 hade tre till fem belägg på 10 miljoner ord och de därefter 1 500 hade en till tre belägg per 10 miljoner ord. De återstående 1 000 ordförbindelserna, en fjärdedel av beståndet, hade alltså en frekvens på mindre än 1 belägg per 10 miljoner ord (Moon, 1999). 9

KAPITEL 2. BAKGRUND OCH TEORI 2.3 Egenskaper för kollokationer Hur ska man avgöra om orden man undersöker verkligen är en kollokation? Benson definierade 1989 tre olika kriterier som bygger på den funktionella delen i kollokationens unika egenskaper (Benson, 1989). Kriterierna som Benson använde var sammansättningar, ersättningar och ändringar, varav det första kriteriet anses som det grundläggande. 2.3.1 Sammansättning Den semantiska betydelsen av en kollokation är inte en sammansättning av de olika delarnas betydelse. Antingen är betydelsen helt skild från kombinationen (som med fallet idiom) eller så finns det en bibetydelse eller en pålagd betydelse som inte kan baseras från dess delar. Till exempel kan man tänka på idiomet ha is i magen (vara kallblodig) som inte ger någon innebörd vid en tolkning av orden enskilt. Ett annat exempel är kollokationen i fullt dagsljus som kan ha två betydelser. Den bokstavliga, att det är mitt på dagen eller den underfundiga, att någon gör något offentligt som alla ser. 2.3.2 Ersättning Det går inte att ersätta ord i en kollokation med ord som, även i sammanhanget har liknande betydelse. Till exempel kan inte gulgröna fingrar ersätta gröna fingrar fast gulgröna är en liknande färg. Ett annat exempel är att totalt dagsljus inte kan ersätta fullt dagsljus. Total är en synonym till full. 2.3.3 Ändring De flesta kollokationer kan inte ändras utan att dess innebörd förstörs. Det går oftast inte att lägga till lexikal information eller att göra grammatiska transformationer. Till exempel det går inte att ändra uggla i uttrycket ana ugglor i mossen till ana gamla ugglor i mossen. Liknande att gå från singular till plural kan göra ett idiom, till exempel tänka på refrängerna, till att inte vara grammatiskt korrekt. 10

KAPITEL 2. BAKGRUND OCH TEORI 2.4 Korpus Korpus kommer från latinets corpus och betyder kropp. Det är en samling språkliga data som kan används vid forskning om språk. En korpus består av en stor samling texter eller transkriptioner 5 av talat språk. Från korpusen kan en forskare se hur språket används. För att få en god överblick över språket ska korpusen vara stor och representativ. Detta är svårt att uppnå och ofta avspeglar det sig i resultat som blir en del av hela sanningen, eftersom korpusen ger ett urval av språket. En korpus kan bland annat användas till konstruktion av lexikon, lingvistiska studier av syntax eller semantik och samling av statistisk för språkteknologiska tillämpningar. Vid uppbyggnad av en korpus finns det en del beslut att fatta. Vilken storlek och vilket material ska korpusen innehålla, ska det vara text från olika genrer, vilket format ska korpusen ha och ska korpusen märkas upp och så vidare. Korpusen delas på grund av besluten upp i olika typer beroende av innehåll, språk och storlek. 5 Transkription betyder en överföring från talat språk till skrift 11

KAPITEL 2. BAKGRUND OCH TEORI 2.4.1 Korpustyper Det finns olika typer av korpusar, nedan följer beskrivning av fyra olika sammansättningar. 2.4.1.1 Balanserad En balanserad korpus ska vara representativ för språket och innehåller lika delar text som är fördelade på olika genrer. En vanlig storlek på balanserade korpusar var förr en miljon ord, men nu finns det även större. Storleken en miljon ord kommer från att korpusen fördelades på 500 olika texter och ur texterna plockades 2 000 tecken. Den första datorläsbara korpus är Brown Corpus 6 som består av amerikansk engelska från 1961 och innehåller en miljon ord som är ordklassade. Den svenska korpusen Stockholm Umeå Corpus (SUC) 7 sattes samman under 1990-talet och representerar språket med en miljon ordklassade ord. En större balanserad korpus är British National Corpus 8. Den består av 100 miljoner ordklassade ord, i talad och skriven engelska. 2.4.1.2 Opportunistisk (Monitor) En opportunistisk korpus är ständigt växande och har i det här sammanhanget ingen bestämd storlek som den balanserade korpusen. Ordet opportunist betyder att man tar det som finns tillgängligt. Korpusen reflekterar den språkliga förändringen i en konstant ökande språkmaterial. En opportunistisk korpus är ett bra verktyg för lexikografer som bygger lexikon. De kan se när nya ord tillkommer i språket och om gamla ord får en ny eller ändrad betydelse. The Bank of English 9 är en opportunistisk korpus som 2002 bestod av 450 miljoner ord. Korpusen utvecklas hela tiden och en ny version släpps med jämna mellanrum. Något svensk opportunistisk korpus finns inte, utan på Språkbankens hemsida finns ett antal korpusar tillgängliga för konkordanssökning. Totalt rör det sig om över 900 miljoner ord (år 2012) och det är tänkt att utökas. Språkbanken 10 är en avdelning på Göteborgs Universitet sedan 1975. 6 http://www.essex.ac.uk/linguistics/clmt/w3c/corpus\_ling/content/corpora /list/private/brown/brown.html 7 http://www.ling.su.se/dali/suc/suc2.0\_info.html 8 http://www.natcorp.ox.ac.uk/ 9 http://www.collins.co.uk/corpus/corpussearch.aspx 10 http://spraakbanken.gu.se/ 12

KAPITEL 2. BAKGRUND OCH TEORI 2.4.1.3 Parallell En parallell korpus definieras som en korpus som innehåller texter som är översatta i två eller flera språk. Parallella korpusar finns ofta i länder som är tvåspråkiga. Men det kan även skapas större när flera länder går samman. Korpusen EuroParl 11 är en samling av texter från europeiska parlamentet under åren 2003 till 2006. Den finns i elva olika språk och den svenska delen består av 33 miljoner ord. För att en parallell korpus ska vara användbar krävs det grupperingar mellan de olika språken. Grupperingen kan vara mellan meningar, fraser eller ord. Korpusen har stor betydelse för översättare och har även börjat användas till inlärning vid statistisk maskinöversättning. 2.4.1.4 Jämförbar En jämförbar korpus ska innehålla en balanserad och representativ del från de olika språken. Materialet har samlats in med gemensamma restriktioner. Det kan gälla texternas proportioner, deras genrer och vilket tidperiod material är skrivet. Korpusen används som grund i studier för att hitta likheter och olikheter mellan de olika språken. En svensk jämförbar korpus är Parole 12 som innehåller ungefär 19 miljoner ordklassade ord. Parole var en del av ett EU projekt som slutfördes 1998 och totalt rörde det sig om 14 olika språk. 11 http://www.statmt.org/europarl/ 12 http://www.elda.fr/catalogue/en/text/doc/parole.html 13

KAPITEL 2. BAKGRUND OCH TEORI 2.4.2 Annotering (taggning) Taggning av en korpus kan ske manuellt eller automatiskt med en dator. Datorn kan klara av att tagga varje ord med lingvistisk information som ordklass, genus, lemma och kasus. Högre former av textanalys sker fortfarande manuellt, så som semantisk analys. Syntaktisk analys av en text sker med en parser. Det finns två huvudmetoder för att tagga en korpus, regelbaserad eller statistisk. Den regelbaserade använder ett lexikon och väljer mellan olika regler hur ett ord ska taggas, medan den statistiska använder statistik från en redan taggad text för att avgöra vilken tagg ordet ska få. Antalet taggar eller tagguppsättningen som finns att välja på varierar efter hur fin uppdelning som görs. Egenskaper som grundform, bestämd eller obestämd form på substantiv och singularis eller pluralis kan vara information som kan hittas i taggen. Tabell 2.1. Orden hamna, på och efterkälken har getts morfosyntaktisk information. Ord hamna på efterkälken Tagg vb.inf.akt pp nn.utr.sin.def.nom Från tabellen ovan kan läsas att verbet hamna är i formen infinitiv, på är en preposition och att ordet efterkälken är ett substantiv i formen obestämd singularis. 14

KAPITEL 2. BAKGRUND OCH TEORI 2.5 Kollokationsanalys För att hitta kollokationer i en korpus används kollokationsanalys. Vid en analys av korpusar kan olika algoritmer brukas för att hitta relevanta kollokationer. De enklaste algoritmerna utnyttjar endast frekvensen 13 och den morfosyntaktiska informationen för att ranka kollokationerna. De mer avancerade algoritmerna bygger vidare på frekvensen och hämtar statistisk från korpusen. Vid kollokationsanalys lagras orden från korpusen i olika enheter. Den vanligaste längden på enheterna är två eller tre och de benämns bigram respektive trigram. Bigram används oftast med de avancerade algoritmerna. I tabellen nedan ses benämning samt exempel på olika enheter av ord. Tabell 2.2. Benämningar på n-gram. n Benämning Exempel 1 unigram (skola) 2 bigram (en, skola) 3 trigram (i, en, skola) 4 4-gram (gick, i, en, skola) 5 5-gram (han, gick, i, en, skola) De avancerade algoritmerna beräknas genom att hämta de observerade och förväntade frekvenserna från korpusen. Vid beräkningarna av de olika frekvenserna används för det mesta en korstabell. 2.5.1 Korstabell För att organisera bigram eller ordpar (x,y) använder man ofta en korstabell (contingency table). Den delar upp varje bigram i fyra celler (x,y), (x,y), (x,y ) och (x,y ). Cellerna demonstrerar bigrammets uppdelning vad gäller antalet förekomster i korpusen. Tabell 2.3. Korstabell över bigrammet (x,y). Y=y Y y X=x (x,y) (x,y ) X x (x,y) (x,y ) 13 Frekvens i lingvistisk statistik är absolut frekvens, antalet förekomster. I andra sammanhang används den relativa frekvensen som är andelen av möjliga fall där en händelse inträffar 15

KAPITEL 2. BAKGRUND OCH TEORI Den första raden i korstabellen åskådliggör de bigram där första ordet stämmer överens med typen x. Den andra raden visar antal bigram där första ordet inte stämmer överens med typen x. Likaså gäller för andra ordet (y) i bigrammet som sorteras upp kolumnvis. 2.5.1.1 Observerade frekvenser Den observerade frekvensen är den som kan observeras i korpusen. I cellen O 22 finns de bigram i korpusen som varken börjar på typen x eller slutar på typen y. Cellen O 11 kallas för den gemensamma frekvensen (joint frequency). Cellerna i korstabellen betecknas med stora O när det gäller observerade frekvenser. Tabell 2.4. Korstabell med observerade frekvenser. Y=y Y y X=x O 11 O 12 X x O 21 O 22 Summerar man de observerade frekvenserna ger det den totala antalet bigram i korpusen. Den mängden brukar definieras med bokstaven N (sample size). I tabell 2.5 ses korstabellen för bigrammet (svarta, lådan) från korpusen Parole. Tabell 2.5. Korstabell för bigrammet (svarta, lådan). Y=lådan Y lådan X=svarta 8 2 306 X svarta 196 21 195 622 16

KAPITEL 2. BAKGRUND OCH TEORI Summan av raderna R 1, R 2 och summan av kolumnerna K 1, K 2 används ofta när man ska analysera data från korstabellen. De brukar kallas marginalfrekvenser eftersom de står i marginalen. R 1 är marginalfrekvensen för x alltså antal bigram där första ordet tillhör typen x. Samma gäller att K 1 är marginalfrekvensen för y. Tabell 2.6. Korstabell med marginalfrekvenser R och K. Y=y Y y X=x O 11 + O 12 = R 1 + + X x O 21 + O 22 = R 2 =K 1 =K 2 För bigrammet (svarta, lådan) vars data hämtades från korpusen Parole blir den gemensamma frekvensen O 11 = 8. Marginalfrekvenserna R 1 = O 11 + O 12 = 8 + 2306 = 2 314 (2 314 bigram med mönstret (svarta,*)) och K 1 = O 11 + O 21 = 8 + 196 = 204 ((*,lådan) gav 204 bigram). Totalt fanns det N = 21 198 132 bigram i korpusen. 2.5.1.2 Styrka på koppling i bigram Kopplingen mellan komponenterna i bigrammet (x,y) beror på något sätt av de tre sannolikhetsparametrarna. Sannolikhetsparametrarna π, π 1 och π 2 kan approximeras med de relativa frekvenserna som ses nedan. Men hur parametrarna ska kombineras, för att få en faktor som mått på styrkan i kopplingen mellan orden i bigrammet är det ingen som har den exakta vetskapen om. Det man vet är att ett större värde på π ger en starkare koppling, medan ett större värde på π 1 och π 2 indikerar på en svagare koppling. Parametrarna varierar mellan 0 och 1. π p(x, y) = O 11 N π 1 p(x) = R 1 N = O 11 + O 12 N π 2 p(y) = K 1 N = O 11 + O 21 N (2.1) (2.2) (2.3) 17

KAPITEL 2. BAKGRUND OCH TEORI Något som dock är definierat är när det helt saknas koppling mellan komponenterna, statistisk oberoende. När ett bigram (x,y) inte har någon koppling, måste händelserna (X=x) och (Y=y) vara oberoende, vilket leder fram till nollhypotesen H 0 av oberoende. 2.5.1.3 Förväntad frekvens H 0 = π = π 1 + π 2 p(x) p(y) (2.4) De förväntade värdena E 11...E 22 i korstabellen kan räknas fram med hjälp av de observerade rad- och kolumnfrekvenserna, om nollhypotesen av oberoende gäller. Den visar hur bigrammet skulle fördela sig i de olika cellerna om nollhypotesen gäller, alltså att bigrammet uppstår helt slumpmässigt. Tabell 2.7. Korstabell med förväntade frekvenser. Y=y Y y X=x E 11 E 12 X x E 21 E 22 E 11 = R 1 K 1 N, E 12 = R 1 K 2 N, E 21 = R 2 K 1, E 22 = R 2 K 2 N N Exemplet med bigrammet (svarta, lådan) skulle få en korstabell med följande förväntade frekvenser. Tabell 2.8. Förväntade frekvenser för bigrammet (svarta, lådan). Y=lådan Y lådan X=svarta 0,02 2 313,98 X svarta 203,98 21 195 614,02 18

Kapitel 3 Metoder Kapitlet tar upp olika algoritmer för att utvinna fraser eller uttryck från en korpus. De enklaste metoderna, som analys av frekvens och ordklasser inleder kapitlet. Delen följs sedan av de mer avancerade algoritmerna. De brukar gå under benämningen statistiska metoder. De metoder som undersöks är t-test, chi-square, likelihood ratio och pointwise mutual information. Kapitlet avslutas med en beskrivning av ett tidigare försök till utvinning av idiomatiska fraser från en parallellkorpus. 3.1 Frekvens Den enklaste metoden för att hitta kollokationer i en korpus är att räkna antalet förekomster. Om två ord förekommer tillsammans ofta ger det bevis på att orden inte står tillsammans av en slump utan att orden har en koppling sinsemellan. De flesta kollokationer som tas fram genom att endast använda frekvensen som mått, ger i detta sammanhang inte några intressanta kollokationer, men är kanske intressant för någon annan. De ord som hamnar överst består till stor sannolikhet endast av funktionsord. Det vill säga ord som artiklar, prepositioner, konjunktioner, räkneord, pronomen och hjälpverb. Listan som tas fram genom att räkna frekvensen av orden kan sorteras i numerisk eller alfabetisk ordning. Den alfabetiska ordningen ger en snabbare uppslagning vid manuell sökning av ett visst bigram. Till exempel bigrammet all kritik ger vid uppslagning i tabell 3.2 frekvensen 51. 19

KAPITEL 3. METODER Tabell 3.1. Bigram sorterade på frekvens. Antal Ord(1) Ord(2) 56403 det är 41813 för att 25735 att det 24534 det var 22077 är det 18443 i en 15854 är en 14957 att han 13853 men det 12887 med en Tabell 3.2. Bigram sorterade alfabetiskt. Ord(1) Ord(2) Antal all kraft 34 all kreativitet 1 all kredit 1 all kreditbedömning 1 all kreosot 1 all krigsmateriel 1 all krigstjänst 1 all kriminell 1 all kringförsäljning 1 all kritik 51 Bigrammen är hämtade från korpusen Parole som har totalt ungefär 16 miljoner bigram, när skiljetecken har tagits bort. Av de 16 miljonerna är ungefär 4,6 miljoner unika bigram och av dem har ca 75 procent en frekvens på endast en förekomst. För att få bättre genomslag för de bigram som inte har en hög frekvens kan man använda en stopplista. Den innehåller de ord som har en hög frekvens i korpusen, ofta funktionsord. Den fungerar så att om något av orden finns med i stopplistan ignoreras bigrammet. Listan byggs upp med de mest frekventa orden i korpusen. I Parole kommer orden och, i och en överst i listan med högst frekvens. Tabell 3.3. Ord med högst frekvens i Parole. Antal Ord Ordklass 1 555627 och Konjunktion 2 516586 i Preposition 3 317590 en Artikel 4 308429 det Pronomen 5 302097 på Preposition 6 287213 är Verb 7 241408 att Infinitivmärke 8 229531 som Pronomen 9 229095 för Preposition 10 221295 av Preposition 11 217384 att Subjunktion 12 205412 med Preposition 13 179666 till Preposition 14 175737 inte Adverb 15 174743 har Verb Ordet att hittas två gånger i listan över de tjugo mest förekommande orden i korpusen Parole. Dels som infinitivmärke och dels som subjunktion 14. 14 Subjunktioner eller underordnande konjunktioner inleder underordnade satser (bisatser). 20

KAPITEL 3. METODER 3.2 Ordklassfilter Metoden att endast välja de bigram med högst frekvens ger i stort sett endast funktionsord, vilket inte är intressant för sökning av idiom. En enkel metod att förbättra resultatet är att använda ett filter på ordklasstaggen (Part-Of-Speech). Metoden går igenom alla kandidater, men endast de med ett förutbestämt mönster släpps igenom (Justeson & Katz, 1995). Tabell 3.4. Juteson och Katz använder följande ordklassfilter (mönster) för att hitta troliga kollokationer bland ordkombinationer som förekommer ofta. Tagg mönster AN NN AAN ANN NAN NNN NPN Exempel linear function regression coefficients gaussian random variable cumulative distribution function mean squared error class probability function degrees of freedom A: adjektiv N: substantiv P: preposition I tabellen 3.4 ovan kan man se de olika mönstren som testades på korpusen. Mönstren togs fram genom att analysera runt 200 engelska termer från vetenskapliga artiklar. De kom fram till att 96 procent av de tekniska termerna kom från substantivfraser. Testet gjordes på engelska texter och för svenska texter kan det krävas att mönstren ändras. Utifrån mönstret som Justeson och Katz tog fram har andra forskare minskat eller utökat antal taggar som filtret ska släppa igenom, allt för att få det optimala resultatet för sin undersökning. 21

KAPITEL 3. METODER Mönstren AN och NN testades på Parole korpusen och gav följande 20 bigram med högst frekvens. Tabell 3.5. De 20 första bigrammen med matchande mönster. Antal Ord(1) Ord(2) Tagg(1) Tagg(2) 5258 miljoner kronor N N 2603 förra året A N 2431 hela tiden A N 2209 miljarder kronor N N 1815 bl a A N 1558 nästa år A N 1308 många år A N 1242 hel del A N 1099 senaste åren A N 966 lång tid A N 947 själva verket A N 946 förra veckan A N 924 stor del A N 918 flera år A N 783 många gånger A N 762 annat sätt A N 755 andra länder A N 726 hela världen A N 709 flera gånger A N 698 senare år A N Listan ger ett fåtal intressanta bigram från en idiomatisk synpunkt sett. Mönstret var dock anpassat till vetenskapliga texter för att hitta tekniska termer. Bigrammen som utvinns ur Parole beskriver istället mängd, tid eller antal av något. Två bigram står ut ur mängden (själva, verket) och (annat, sätt) som kan komma från trigrammen (i, själva, verket) och (på, annat, sätt). 22

KAPITEL 3. METODER 3.3 Statistiska metoder De statistiska metoderna utvärderar korpusens bigram med hjälp av olika matematiska egenskaper. Metoderna t-test och chi-square använder hypotesprövning för att ranka bigrammen. Likelihood ratio testar två olika hypoteser och ger ett värde på hur trolig den ena hypotesen är över den andra. Punktvis ömsesidig information har hämtat sina idéer från informationsteorin. Information om de olika statistiska metoderna har hämtas från boken Foundations of Statistical Natural Language Processing (Manning & Schütze, 1999). 3.3.1 T-test t-test publicerades 1908 av William Sealy Gosset under pseudonymen Student. Därför kallas testet ibland för Students t-test. Det används bl.a. inom beteendevetenskapen. t-test undersöker hur mycket medelvärdet i ett slumpmässigt utvald stickprov skiljer sig från populationens medelvärde. Testet utforskar om skillnaden är statistiskt signifikant eller om den kan förklaras med slumpen. För att beräkna t-värdet behövs stickprovets medelvärde x, populationens medelvärde µ, stickprovets varians σ 2 och stickprovets storlek N. t = x µ σ 2 N (3.1) Vid hypotesprövning bestäms först en nollhypotes och en signifikansnivå (alfa). Signifikansnivån ger en gräns där nollhypotesen kan förkastas, vanliga värden är 5%, 1% och 0,1%. Gränsvärdet hittas i en tabell med t-fördelning, där N 1 är antalet frihetsgrader (Råde & Westergren, 2003). Exempel, t-värdet 2,76 ges av signifikansnivån 1% och 10 frihetsgrader. Nollhypotesen H 0 för bigrammet (x,y) är att x och y förekommer oberoende. Avvikelsen av t-värdet från dess förväntade värde 0 uppstår endast på grund av slumpen. Sannolikheten P (x, y) är produkten av sannolikheterna för orden som igår i bigrammet (x,y). H 0 : P (x, y) = P (x) P (y) (3.2) För beräkning av t-värdet krävs en anpassning av korpusen. Korpusen ska ses som en lång sekvens av N bigram. Bigrammen kan anta två olika värden, antingen 1 eller 0. Värdet 1 ifall det sökta bigrammet överensstämmer med bigrammet i korpusen annars får bigrammet värdet 0. 23

KAPITEL 3. METODER Sannolikheten P (x) kan då beräknas genom att ta antalet förekomster f(x) för ordet x i korpusen fördelat på antalet bigram N i korpusen. P (x) = f(x) N (3.3) Enligt Bernoullis fördelning som gäller vid långa sekvenser av nollor och ettor blir variansen σ 2 = p(1 p) vilket kan approximeras till σ 2 = p(1 p) p vilket håller då p har ett litet värde för bigram. Stickprovets medelvärde x beräknas genom att ta frekvensen för bigrammet f(x, y) och dividera den med storleken på stickprovet N. Summerar man följande värden kan formeln för t-test skrivas: t = x µ σ 2 N P (x, y) P (x)p (y) P (x,y) N = O 11 F 11 N (3.4) Exempel, bigrammet (svarta, lådan) ger ett t-värde på ungefär 2,82, se nedan. En uppslagning i tabellen för t-fördelning på en 0,5% signifikansnivå och med frihetsgraden satt till oändligheten ges värdet 2,58. Bigrammet (svarta, lådan) kan inte förkastas eftersom t-värdet överstiger gränsvärdet. Tabell 3.6. Korstabell för bigrammet (svarta, lådan). Y=lådan Y lådan X=svarta 8 2 306 X svarta 196 21 195 622 O 11 = 8 R 1 = 2 314 K 1 = 214 N = 21 195 622 E 11 0, 02 t(svarta, lådan) 2, 82 När storleken på stickprovet N blir stort börjar t-fördelningen att likna en normalfördelning. 24

KAPITEL 3. METODER 3.3.2 Pearsons Chi-square Användning av t-test har kritiserat för att den förmodar att sannolikheterna är approximativt normalfördelade, vilket inte alltid stämmer med verkligheten (Church & Mercer, 1993). Ett alternativt test som inte antar normalfördelade sannolikheter är χ 2 (chi-square) test. I de enklaste fallen använder sig chi-square av en 2 2 tabell. Testet jämför de observerade frekvenserna i tabellen med frekvenserna vid ett förväntat oberoende. Om skillnaden mellan observerade och förväntade frekvenser är stor, då kan nollhypotesen för oberoende förkastas. χ 2 -testet summerar skillnaden mellan observerade och förväntade värden i samtliga rutor i korstabellen, fördelat på de förväntade värdena. Vilket ger: χ 2 = i,j (O ij E ij ) 2 E ij (3.5) där i sträcker sig över rader och j över kolumner, O ij är det observerade värdet och E ij är de förväntade värdet. De förväntade frekvenserna E ij beräknas med hjälp av marginalfrekvenserna R 1, R 2, K 1 och K 2. E 11 = R 1 K 1 N, E 12 = R 1 K 2 N, E 21 = R 2 K 1, E 22 = R 2 K 2 N N (3.6) Exempel, χ 2 -värdet för bigrammet (svarta, lådan) beräknas med de observerade och förväntade frekvenserna. Observerade(O) O 11 = 8 O 12 = 2 306 O 21 = 196 O 22 = 21 195 622 Förväntade(E) E 11 0,02 E 12 = 2 313,98 E 21 = 203,98 E 22 = 21 195 614,02 Ovanstående data ger ett χ 2 -värde på ungefär 2 858. Nollhypotesen kan därmed förkastas, alltså att orden svarta och lådan uppkommer oberoende av varandra. Bigrammet (svarta, lådan) är alltså en bra kollokationskandidat. Chi-square värdet blir inte alltid lika högt som i exemplet innan, då kan de vara bra med ett gränsvärde som i t-test. Antalet frihetsgrader(df) beräknas enligt: df = (R 1) (K 1) (3.7) 25

KAPITEL 3. METODER Chi-square värdet testar nollhypotesen: Vi letar upp ett gränsvärde i en tabell för χ 2 -fördelningen för aktuellt antal frihetsgrader och önskad signifikansnivå (Råde & Westergren, 2003). Om (3.7) ger ett värde större än gränsvärdet har vi ett stöd för att förkasta nollhypotesen (oberoende) som är starkare ju lägre signifikansnivån är. Exempel, med en 0,5%-ig signifikansnivå och med en frihetsgrad ger det ett χ 2 -värde på ca 7,88. Understiger χ 2 -värdet gränsvärdet är bigrammet ingen bra kandidat för en kollokation och nollhypotesen kan inte förkastas. Ett problem med χ 2 -testet är om 2 2 tabellen innehåller små värden. Enligt Snedecor och Cochran ska χ 2 -testet inte användas på datamängder där storleken på stickprovet N understiger 20 eller om storleken N är mellan 20 eller 40 och de förväntade värdena i någon cell är mindre än 5 (Snedecor & Cochran, 1989). 26

KAPITEL 3. METODER 3.3.3 Likelihood ratio Ett annat sätt att göra hypotesprövning är likelihood ratio eller sannolikhetskvot. Testet jämför två hypoteser och ger ett tal som berättar hur trolig den ena hypotesen är jämfört med den andra. Metoden lämpar sig bättre att använda på gles data än χ 2 -testet. En fördel är att testet inte kräver någon tabelluppslagning, vilket gör att resultatet blir enklare att tolka. För att kunna använda likelihood ratio vid extraktion av kollokationer behövs två olika alternativa förklaringar för uppkomsten av frekvensen för bigrammet (x,y) (Dunning, 1993): Hypotes 1: P(Y X) = p = P(Y X ) (Oberoende) Hypotes 2: P(Y X) = p 1 p 2 = P(Y X ) (Beroende) Den första hypotesen beskriver ett oberoende mellan orden x och y. Alltså att förekomsten av ordet y inte beror på ordet innan x. Den andra hypotesen är mothypotesen till den första och har ett beroende mellan orden x och y. Ett högt värde på den andra hypotesen ger intressanta kollokationer. För att uppskatta värdena p, p 1 och p 2 används maximum likelihood metoden. p = R 1 N, p 1 = O 11 K 1, p 2 = O 12 K 2 (3.8) Vid ett oberoende blir P (Y X) = P (Y X)/P (X) = P (Y ) = R 1 /N och vid ett beroende hämtas värdena från korstabellen. Logaritmen av likelihood ratio λ ges av: där 2 log λ = 2 log L(H 1) L(H 2 ) = 2 log L(O 11, K 1, p)l(o 12, K 2, p) L(O 11, K 1, p 1 )L(O 12, K 2, p 2 ) (3.9) L(k, n, p) = p k (1 p) (n k) (3.10) Tabellen 3.7 visar de högst rankade bigrammen som börjar med ordet svarta. Starkaste koppling mellan ordet svarta och ett annat ord har ordet hål. Bigrammen är sorterade efter likelihood ratio-värdet och testet använder korpusen Parole. Det totala antalet bigram N är ungefär 16 miljoner. 27

KAPITEL 3. METODER Bigrammet (svarta, lådan) får ett värde på ungefär 90,48. Värdet kan tolkas som att bigrammet (svarta, lådan) är e 0,5 90,48 4, 4 10 19 gånger mer sannolikt under hypotesen att ordet lådan följer efter ordet svarta än något annat ord. Tabell 3.7. Likelihood ratio på bigram som börjar med ordet svarta. 2 log λ (X,Y) O 11 R 1 K 1 885,12 svarta hål 61 1259 238 567,14 svarta hålet 39 878 206 345,78 svarta havet 33 878 1216 342,71 svarta fanor 23 1259 75 241,04 svarta lista 21 878 470 235,13 svarta ögon 29 1259 2412 224,94 svarta listan 20 878 501 218,95 svarta boken 24 878 1724 218,87 svarta håret 21 878 790 189,84 svarta hålen 14 1259 82 189,53 svarta byxor 16 1259 210 178,95 svarta vinbär 11 1259 21 171,42 svarta tavlan 13 878 127 151,14 svarta får 12 1259 110 145,78 svarta oliver 12 1259 136 123,86 svarta gossar 9 1259 48 116,75 svarta kängor 9 1259 69 116,63 svarta rubriker 10 1259 143 107,38 svarta skor 11 1259 399 103,01 svarta kläder 13 1259 1178 99,45 svarta hår 11 878 817 93,89 svarta män 15 1259 3146 91,68 svarta marknaden 12 878 1798 90,48 svarta lådan 8 878 193 87,97 svarta bokstäver 8 1259 158 Likelihood ratio λ kan även användas för hypotesprövning. Dock behöver λ skrivas om till formen 2logλ som är asymptotisk χ 2 -fördelad (Mood, 1974). Det går alltså att använda värdena i tabell 3.7 för att testa nollhypotesen H 1 mot den alternativa hypotesen H 2. Bigrammet (svarta, marknaden) har ett värde på 91,68 vilket överstiger χ 2 -värdet 7,88 när alfa är 0,005 och antal frihetsgrader är 1. Med andra ord kan nollhypotesen H 1 ratas och hypotesen H 2 om beroende antas. Värdet 7,88 slås upp i en tabell med χ 2 -fördelning. Formeln för likelihood ratio λ kan även den uttryckas med observerade och förväntade frekvenser: 2 log λ = 2 ij O ij log O ij E ij (3.11) 28

KAPITEL 3. METODER 3.3.4 Pointwise Mutual Information Pointwise Mutual Information (PMI) 15 är ett mått som har utvecklas från informationsteorin (Church & Hanks, 1989). Den blandas ofta ihop med Mutual Information (MI). Skillnaden är att MI definieras som sambandet mellan slumpvisa variabler och PMI som sambandet mellan värden på slumpvisa variabler. Det vill säga MI beror på sannolikheter i den underliggande processen medan PMI beräknas ur observerade data som används för att uppskatta sannolikheterna med relativa frekvenser. PMI definieras som: I(X; Y ) = log 2 p(x, y) p(x)p(y) (3.12) Om X och Y är diskreta slumpvisa variabler med en gemensam fördelning p(x, y) och med marginalfördelningarna p(x) och p(y), så är I(X; Y ) den punktvis ömsesidiga informationen i (x, y). p(x) = R 1 N, p(y) = K 1 N, p(x, y) = O 11 N (3.13) De uppskattade sannolikheterna p(x) och p(y) beräknas med marginalfrekvenserna R 1 respektive K 1. Den gemensamma sannolikheten p(x, y) använder den gemensamma frekvensen O 11 för bigrammet. Punktvis ömsesidig information kan uttryckas i observerade och förväntade frekvenser. Sannolikheterna p(x), p(y) och p(x, y) kan ersättas med de observerade värdena från korstabellen. P MI = log 2 O 11 E 11 (3.14) Exempel, bigrammet (svarta, lådan) har en korstabell som ser ut som följande: Tabell 3.8. Korstabell för bigrammet (svarta, lådan). Y=lådan Y lådan X=svarta 8 2 306 X svarta 196 21 195 622 R 1 = 2 314 K 1 = 204 N = 21 198 622 E 11 0, 02 I(svarta, lådan) 8, 49 15 PMI kan översättas till Punktvis Ömsesidig Information 29

KAPITEL 3. METODER Vid beräkning ger det ett informationsvärde på 8,49 bitar. Det betyder att summan av informationen, som förekomsten av ordet svarta i positionen n i korpusen ökar med 8,49 bitar om vi vet att ordet lådan förkommer i position n + 1. Det kan tolkas som att sannolikheten för att ordet svarta följs av ordet lådan är 2 (8,49) 360 gånger större än slumpen. PMI har precis som χ 2 -test problem med gles data, låga frekvenser. Ett annat problem är att det kan uppstå två extremfall, som inte är önskade. Det är totalt beroende och totalt oberoende. Totalt beroende mellan förekomsterna av de två orden (de förekommer endast tillsammans och p(x) = p(y) = p(x, y)). I(X; Y ) = log 2 p(x, y) p(x)p(y) = log 2 p(x) p(x)p(y) = log 2 1 p(y) (3.15) Totalt oberoende (förekomsten av ena ordet ger ingen information om förekomsten av det andra). p(x, y) I(X; Y ) = log 2 p(x)p(y) = log p(x)p(y) 2 p(x)p(y) = log 2(1) = 0 (3.16) Man kan säga att PMI är bra på att mäta oberoende men dålig på att mäta beroende. Värdet vid ett beroende beror på frekvensen av de individuella orden. Bigram som sätts samman av ord med låg frekvens kommer att få en högre PMI än bigram som sätts samman av ord med hög frekvens. Det är motsatsen till vad man önskar av ett bra mått, en hög frekvens ger mer bevis och man föredrar en högre rank för bigram för vilket det finns ett större intresse och mer bevis för. En lösning som används är att man använder en tröskel och som endast ser på ord som har en frekvens som överstiger eller är lika med tröskelvärdet. Ett tröskelvärde på tre eller större har visat sig ge intressanta resultat (Church & Hanks, 1989). Men lösningen tar inte bort det underliggande problemet. 30

KAPITEL 3. METODER 3.4 Tidigare försök att hitta idiomatiska uttryck i en parallellkorpus En metod som har undersökts tidigare var att hitta idiomatiska uttryck med hjälp av en parallellkorpus (Moirón & Tiedemann, 2006). I en parallellkorpus har samma text översatts till olika språk. De olika språken kopplas samman genom att varje ord länkas från originalspråket till det översatta språket. I metoden som Moirón och Tiedemann använder antar de att idiomatiska uttryck inte översätt ord för ord utan har en sammansatt översättning. Samt att vid länkningen mellan de olika språken kommer varje ord i det idiomatiska uttrycket att få ett antal olika länkar. Med utgång från antaganden testar de sin metod från originalspråket holländska översatt till språken engelska, tyska och spanska. De avgränsar sig till att använda trigram. Trigrammen ska börja med ett verb följt av en prepositionsfras. Verben som kan stå i första positionen begränsas till tolv stycken. Verben och substantiven i prepositionsfrasen byts ut till sin grundform för att få fler trigram. Totalt hittas det 191 000 kandidater, de som förekom färre en 50 gånger ignorerades. Av kandidaterna väljs sedan 200 stycken ut efter att ha rankat dem med två statistiska mått. De 200 kandidaterna kan vara potentiella idiomatiska uttryck. För varje kandidat hämtas alla översättningar från de tre olika språken. De använder sedan översättningsentropin H för att ranka sina 200 kandidater. Den ger ett högt värde när uttrycket är idiomatiskt. H(T s s) = t T s P (t s) log P (t s) (3.17) För varje ord s i trigrammet hämtas tre listor med översättningslänkar T s. P (t s) uppskattas till förhållandet av länkarna t mellan alla länkar av ordet s som hittas i korpusen. Ett värde erhålls för varje ord i trigrammet. Medelvärdet för de tre orden blir det slutliga resultat för trigrammet. Entropin används för att göra en ny rankning av de 200 kandidaterna. De lyckas få ett bättre resultat än att använda den tidigare rankningen med statistiska metoder. De upptäcker även skillnad mellan länkarna i de olika språken. Bättre resultat fås när nederländska översätts till tyska och spanska än när de använder engelska. Analys av metoden ger att Moirón och Tiedemann inte har testat metoden på hela korpusen vilket säkert hade gett ett annat resultat. De slapp en del problem med tanke på att de hade minimerat antalet trigram som undersöktes. Överst på deras rankning hamnade trigrammen breng tot stand och breng naar voren som betyder create respektive bring up på engelska. Vilka idiomatiska uttryck de ingår i på svenska kan vara svårt att demonstrera eftersom kunskapen att förstå nederländska saknas. 31

KAPITEL 3. METODER Korpusen som används vid extraktionen idiomatiska uttryck var Europarl. Den innehåller transkriptioner från talare inom det europeiska parlamentet. Korpusen finns med en svensk översättning. Att implementera metoden för den svenska delen kan därför anses möjlig. Det finns nackdelar som gjorde att denna metod inte var aktuell. Först och främst finns det ett fåtal svenska parallella korpusar tillgängliga för forskning. En av de större är Europarl. Innehållet i den är inte representativt för det svenska språket. Vid en mindre granskning av några textfiler hittades ett fåtal idiom. En orsak till det kan vara att idiom är svåra att översätta och inom parlamentet vill man vara tydlig för att de flesta ska kunna förstå samtalen. Därför drar man sig för att använda komplicerade uttryck. 32

Kapitel 4 Experimentell analys I detta kapitel ges en översikt av de verktyg som användes för att analysera korpusen Parole, samt en beskrivning av korpusen. Parole används sedan för varierande experimentella analyser. Bland annat analyseras fyra statistiska metoder t-test, chisquare, likelihood ratio och pointwise mutual information. En metod för att hitta liknelser utforskas. Ordklassmönster för att filtrera ut idiom från en korpus undersöks. Slutligen prövas att kombinera statistisk metod och några olika ordklassmönster. 4.1 Analysverktyg Ett verktyg som använts flitigt för att analysera korpusen Parole har varit konkordanssökning 16 från Språkbanken vid Göteborgs universitet. Ett annat verktyg har varit ordklasstaggaren Tagga som ingår i grammatikgranskaren Granska 17. Den har använts för att tagga korpusen med både ordklasser och grundform. Information om grundform saknades i den tidigare versionen av Parole som kan laddas ner från Språkbankens hemsida. Den resurs som var viktigast för projektet var korpusen Parole som ligger till grund för utformningen av applikationen för att hitta idiom. Följande stycken beskriver korpusen Parole och de två verktygen konkordanssökning och grammatikgranskaren Granska. 4.1.1 Beskrivning av Parole Parole är en förkortning för Preparatory Action for linguistic Resources Organization for Language Engineering. Samlingsnamnet för EU-projektet mellan 1996 och 1998 var Parole LE-II 4017. Målet med projekt var att samla en stor, allmän och återanvändningsbar korpus med skrivet material. Varje EU land skulle samla ihop material till en egen korpus. Totalt var det 14 språk det rörde sig om. Det var belgisk franska, danska, engelska, finska, franska, grekiska, iriska, italienska, ka- 16 http://spraakbanken.gu.se/korp/ 17 http://www.csc.kth.se/tcs/projects/granska/index.html 33

KAPITEL 4. EXPERIMENTELL ANALYS talanska, nederländska, norska, portugisiska, svenska och tyska. Projektet kunde delas upp i två delar: Korpus bestående av 20 miljoner ord skulle samlas in. Lexikon med 20 tusen ord, endast 12 språk. För att underlätta för samtliga deltagare togs det fram en standard för hur korpusen och lexikonet skulle specificeras. De fick följande instruktioner: Texterna skulle ha producerats efter 1970 och vara proportionellt fördelade över fyra kategorier romaner, tidningar, tidskrifter och övrigt. Alla texterna skulle kommenteras med samma DTD 18 -mall angående biografisk information och textens struktur (rubriknivåer). En delmängd av korpusen (250 000 ord) blev morfosyntaktiskt annoterad, med en bestämd mängd taggar och vissa länder utökade taggantalet för språkspecifika egenskaper. Lexikonet byggdes med en standard för alla länder från EAGLES 19. Varje ord gav en morfologisk och syntaktisk betydelse. Formatet som lexikonet tillverkades i var SGML 20. Ansvarig för den svenska delen var institutionen för svenska språk i Göteborg. Projektledare var Daniel Ridings. Han använde en statistisk taggare för att annotera korpusen. Resultatet ligger som en resurs på webben och det går att göra grammatiska sökningar i hela korpusen. 18 DTD (Document Type Definition) beskriver hur strukturen för ett XML- eller SGMLdokument ska se ut. 19 EAGLES (Expert Advisory Group on Language Engineering Standards) är en grupp experter som beslutade vilken struktur de olika länderna skulle följa för att få gemensamma riktlinjer på hur lexikonet skulle sättas samman. 20 SGML (Standard Generalized Markup Language) är ett format för strukturerad text. Texten taggas enligt en dokumentmall, DTD. 34

KAPITEL 4. EXPERIMENTELL ANALYS Textmaterialet omfattar ca 19,4 miljoner ord (21 198 132 tokens). Texterna är i huvudsak insamlade inom Språkbanken. Det har fördelats inom de fyra kategorier enligt följande tabell. Tabell 4.1. Uppdelning av kategorier i korpusen Parole. Textkategori Texter Tid Textomfång Romaner Bonniers Grafiska Industrier 1976-1981 4,4 miljoner ord Dagens Nyheter Dagstidningar Svenska Dagbladet 1976-1997 13,6 miljoner ord Göteborgs-Posten Arbetet Tidskrifter Forskning och Framsteg 1995-1996 0,4 miljoner ord Övrigt Webb-texter 1997 1,0 miljoner ord 4.1.2 Konkordanssökning i Parole En konkordans är en ordlista där det går att slå upp ord och se dess förekomster tillsammans med orden före och närmast efter i texten. Det är ett stort hjälpmedel för lingvister som vill undersöka hur olika ord används i språket. Korpusen Parole finns tillgänglig på webben för sökningar av konkordanser. Det går att söka i korpusen med sökuttryck som består av en eller flera enheter. En enhet kan vara ett ord eller en morfosyntaktisk definition. Den morfosyntaktiska definitionen betecknar en ordklass. Tabell 4.2. Konkordans på ordet bok med kontexten 40 tecken ur korpusen Parole. Position Text före sökord Ord Text efter sökord 1679 gräva i bagen och halade fram en bok. Kalle Bengtsson kände sej dum 3067 som henne. Hon tog fram en bok och började läsa utan att han 41490 hänt. Sedan satt hon med en bok i knät utan att komma sej för med 66145 ljuset. Jag hade alltid en bok på gång eftersom jag hade så 113863 hjälp henne. Satt jag med en bok eller gick och badade ensam kände 4.1.3 Grammatikgranskaren Granska Granska är ett system för svensk grammatikkontroll som har tagits fram genom ett forskningsprojekt på CSC KTH (Domeij, Knutsson, Carlberger & Kann, 1999). Det två tyngsta beståndsdelarna i Granska är en ordklasstaggare och granskningsregler skrivna i ett eget implementerat regelspråk. Granska är speciellt anpassat för användare som har svenska som andra språk. 35

KAPITEL 4. EXPERIMENTELL ANALYS Totalt finns det cirka 250 granskningsregler som beskriver vanliga skrivfel. Det finns möjlighet att modifiera Granska genom att skriva egna granskningsregler 21. Det krävs dock en inblick i hur regelspråket är uppbyggt, vilket inte kommer att tas upp i rapporten utan läsaren hänvisas till Granskas regelspråk (Knutsson, 2000). Granska finns tillgänglig på webben i form av Grim 22, TvärGranska 23 och Webb- Granska 24. WebbGranska innehåller funktioner som ordklasstaggning och rättning av grammatiska fel och felstavningar. Som indata tar WebbGranska en text eller en URL 25 till en text och som utdata fås texten med eventuella fel och förslag till korrigering. Som ett extra alternativ vid utmatning av data kan texten ordklasstaggas. Om man ska tagga en större text med Granska finns det ett gränssnitt 26 skrivet i Java av Martin Hassel. Klassen GranskaConnection kopplar upp sig mot en server där Granska finns installerat. I klassen finns en hel del olika funktioner, som tokenisering, taggning, lemmatisering och parsning. 4.1.3.1 Ordklasstaggning med Granska Taggning i Granska sker med en andra ordningens markovmodell, vilket ger mer än 95 procent rätt (Carlberger & Kann, 1999). Det svåra med att tagga ord, är när ett ord kan tolkas på flera sätt. Till exempel kan tänkas att ordet banan kan tolkas som en frukt och som den bestämda formen av ordet bana. Då kan det hjälpa att titta på orden som står innan ordet som ska taggas. I andra ordningens markovmodell ser man två steg bakåt för varje ny tagg som ska bestämmas. Granskas taggare bygger upp statistik från en redan taggad träningstext, Stockholm-Umeå Korpus. Från träningstexten hämtas sedan statistik på följder av två och tre taggar. Med statistiken från träningstexten kan de sannolikaste taggarna beräknas i markovmodellen. 21 Testa regler http://skrutten.nada.kth.se/granska/scrutinizer-rules-demo.html 22 Grim tillgänglig via http://skrutten.nada.kth.se/grim/ 23 TvärGranska tillgänglig via http://skrutten.nada.kth.se:8080/granska/index.jsp 24 WebbGranska tillgänglig via http://skrutten.nada.kth.se/scrut/svesve/ 25 URL (Uniform Resource Locator) är en adress för en webbsida. 26 http://www.nada.kth.se/~xmartin/java/javasdm/ 36

KAPITEL 4. EXPERIMENTELL ANALYS 4.1.3.2 Olika taggar i Granska Granska använder i stort sett samma taggar som finns i SUC korpusen. I tabell 4.3 nedan visas de vanligaste ordklasserna och deras taggar. Utöver vilken ordklass ordet tillhör ger även taggen information om substantivets böjning, adjektivets komparation och verbets tempus. För en mer ingående uppdelning av ordklasserna substantiv, adjektiv och verb hänvisas läsaren till Granskas regelspråk (Knutsson, 2000). Tabell 4.3. Taggar som används i Granska. Tagg Betydelse Exempel ab adverb redan, också dt determinerare (artikel) den, det jj adjektiv stark, grön kn konjunktion och, som mad skiljetecken i slutet av en mening.! mid skiljetecken inom en mening, - nn nomen (substantiv) bil, träd pm pronomen hon, han pn egennamn Sven, Frida pp preposition för, till rg räkneord grundtal två,fem ro räkneord ordningstal andra, tredje vb verb hoppa, gå Exempel på hur Granskas taggar kan se ut för orden substantivet bilen, adjektivet grön och verbet hoppade kan ses i tabellen nedan. Tabell 4.4. Exempel på taggar i Granska. Ordklass Ord Tagg substantiv bilen nn.utr.sin.def.nom adjektiv grön jj.pos.utr.sin.ind.nom verb hoppade vb.prt.akt 37

KAPITEL 4. EXPERIMENTELL ANALYS 4.2 Förberedande taggning av Parole För att kunna gruppera idiom som innehåller verb krävs det att man vet grundformen för verbet. Utan gruppering skulle det leda till att ett idiom med ett verb i olika tempus kan förekomma flera gånger. Exempel, idiomet hamna på efterkälken kan verbet ha formerna hamna, hamnade och hamnat. Istället för tre olika idiom kan borttagning av den grammatiska variationen leda till att det ger ett idiom med högre frekvens. Den högre frekvensen ger större sannolikhet att trigrammet lägger sig över tröskeln för vad som är en acceptabel frekvens. Korpusen Parole är idag utformad med morfosyntaktisk information om varje ord men saknar information om grundformen, se tabell 4.5. En lösning som ger tillgång till grundformen för verben är att tagga korpusen igen med en taggare som ger både morfosyntaktisk information och grundform. Till hjälp att tagga korpusen med ordklasser och grundform användes grammatikgranskaren Granska. Tabell 4.5. Några rader från korpusen Parole. Ord word=den word=här word=historien word=tilldrog word=sej word=under word=den word=där word=våren word=och word=sommaren Tagg msd=df@us@s msd=rg0s msd=ncusn@ds msd=v@iias msd=pf@00o@s msd=sps msd=df@us@s msd=rg0s msd=ncusn@ds msd=ccs msd=ncusn@ds En annan orsak till att Parole har taggats med Granska var för att Parole använder egendefinierade morfosyntaktiska taggar som kan vara svåra att återskapa på andra korpusar. Det program som använts vid den ursprungliga taggningen av Parole kan vara svårt att få fysisk tillgång till. Även om man lyckas med det ställs även frågan om vilka inställningar som använts. Med hjälp av Granska kan andra korpusar taggas upp med morfosyntaktisk information och grundform. Detta underlättar för byggandet av en applikation, då hänsyn till olika uppsättningar av taggar inte behöver tas. 38

KAPITEL 4. EXPERIMENTELL ANALYS Vid taggning av en stor korpus kan det underlätta med att dela upp den i mindre delar. Det förenklar eventuell felhantering. Taggningen av korpusen behöver då inte starta om från början utan kan fortgå från där felet uppstod. Viktigt att tänka på när korpusen byggs ihop är ordningen på filerna. Felaktig ordning leder till att det skapas en ny korpus. Varje ord i originalkorpusen fick av Granska en morfosyntaktisk tagg och ett lemma, se tabell 4.6. Tabell 4.6. Korpusen har taggats av Granska på servern. Ord Tagg Lemma den+här dt.utr.sin.def den+här historien nn.utr.sin.def.nom historia tilldrog vb.prt.akt tilldra sej pn.utr/neu.sin/plu.def.obj sig under pp under den+där dt.utr.sin.def den+där våren nn.utr.sin.def.nom vår och kn och sommaren nn.utr.sin.def.nom sommar som hp som aldrig ab aldrig föregicks vb.prt.sfo föregå av pp av någon dt.utr.sin.ind någon riktig jj.pos.utr.sin.ind.nom riktig vinter nn.utr.sin.ind.nom vinter. mad. 39

KAPITEL 4. EXPERIMENTELL ANALYS 4.3 Analys av statistiska metoder De fyra metoderna t-test, chi-square, likelihood ratio och pointwise mutual information undersöktes för att hitta skillnader och likheter. Som referens användes en lista med bigram sorterade på frekvens hämtade från korpusen Parole. För att kunna jämföra metoderna utan påverkan från det att funktionsord premieras före vanliga ord används ordklasserna substantiv, adjektiv och verb till att bygga upp bigrammen. Tre verbtyper togs bort för att de hade stort genomslag. Det var hjälpverb (har), modala hjälpverb (ska, måste) och kopula (är). Tabellen nedan visar de tio högst rankade bigrammen enligt de olika metoderna. Totalt finns det ungefär 16 miljoner bigram. Siffrorna inom parentesen är frekvensen för bigrammet i korpusen. Tabell 4.7. De tio högst rankade bigrammen i Parole efter statistisk metod. Rank Frekvens T-test Chi-square 1 2 3 4 miljoner kronor (5258) förra året (2603) hela tiden (2431) miljarder kronor (2209) miljoner kronor (5258) förra året (2603) hela tiden (2431) miljarder kronor (2209) 5 bl a (1815) bl a (1815) 6 7 8 9 10 nästa år (1558) många år (1308) hel del (1242) senaste åren (1099) lång tid (966) nästa år (1558) många år (1308) hel del (1242) senaste åren (1099) lång tid (966) miljoner kronor (5258) förra året (2603) miljarder kronor (2209) senaste åren (1099) hel del (1242) hela tiden (2431) förra veckan (946) nästa år (1558) nästa vecka (659) flera gånger (709) Likelihood ratio miljoner kronor (5258) förra året (2603) miljarder kronor (2209) nästa år (1558) hel del (1242) senaste åren (1099) förra veckan (946) många år (1308) lång tid (966) offentliga sektorn (435) Pointwise mutual information katastroffilmen återupplivad (5) harm reduction (6) godhjärtade klockringaren (5) vanhedens affärssinnade (5) sea containers (6) kroki medtag (6) völvans kväde (6) femme fatale (5) lella röa (5) marknära ozon (5) För t-test och chi-square används avvikelsemåtten (3.21) och (3.2) för rankningen. Huvudsyftet här är inte att göra en signifikanstest (i så fall skulle man också ta hänsyn till de multipla testerna, vilket inte gjorts) utan att få en praktiskt användbar sållning av kandidater. 40

KAPITEL 4. EXPERIMENTELL ANALYS Till synes ger t-test, chi-square och likelihood ratio liknande resultat. Det blir ingen större skillnad ifall man jämför med att sortera bigrammen efter frekvens. Annorlunda åstadkom pointwise mutual information som gav både utländska kollokationer och några intressanta kollokationer enligt mitt tycke. De utländska orden i bigrammen kommer ifrån att Granska taggar dem som svenska ord. Problemen med de statistiska metoder chi-square och pointwise mutual information visade sig vid beräkningar av deras värden. Chi-square gav extremt höga värden då den gemensamma förväntade frekvensen E 11 understiger värdet 1. De bigrammen sorterades bort från de övriga. Pointwise mutual information visar tydligt att den prioriterar bigram med en låg gemensam frekvens O 11. Där sattes ett gränsvärde på att frekvensen O 11 skulle överstiga eller vara lika med värdet 5. Det behöver inte vara till en nackdel. Idiom förekommer inte frekvent i korpusen utan har ofta en låg frekvens. Vilket borde kunna ge idiom en fördel mot andra kollokationer. Vid en snabb överblick av vad de olika statistiska metoderna plockar ut för olika kollokationer hittas inga idiom. Att endast använda dessa metoder för extraktion av idiom ger uppenbarligen inga bra resultat. 41

KAPITEL 4. EXPERIMENTELL ANALYS 4.4 Metod för att hitta liknelser Idiom verkar vara mycket svåra att hitta med enkla statistiska metoder. Liknelser som brukar räknas till idiom kan vara lättare att hitta i texter. De innehåller ett fast mönster av orden som en och som ett. Exempel, rik som ett troll, envis som en åsna. Liknelser används när man vill förstärka ett ord. För det mesta jämför man ordet med ett djur som har en speciell egenskap. Om man väljer ut adjektiven stark, fattig och flitig. Vad tänker man på för djur då? De flesta skulle nog ha svarat stark som en oxe/björn, fattig som en kyrkråtta och flitig som en myra. Liknelser med djur har gemensamt att de börjar med ett adjektiv i formen positiv följt av orden som en/ett och slutar med ett substantiv. Mönstret täcker inte alla liknelser. De som börjar med ett verb till exempel skina som en sol kommer inte mönstret att kunna fånga upp. Mönstret ( adjektiv som en/ett substantiv ) som tagits fram testas sedan praktiskt på korpusen Parole. Totalt ger mönstret 37 olika förslag till liknelser. Tröskeln för vad som godkändes som minsta frekvens var satt till två förekomster. Av de förslagen finns det fyra som kan tas bort. De har alla en frekvens av två förekomster. Fraserna var motiverad som ett främjande, avsedd som en satir, förenklad som ett läromedel och gjord som ett specialarbete. Tabell 4.8. Liknelser i korpusen Parole. Antal Liknelse 6 rik som ett troll 6 stel som en pinne 6 glad som en lärka 5 vit som ett lakan 5 stor som ett hus 4 spänd som en fiolsträng 4 fattig som en kyrkråtta 4 frisk som en nötkärna 4 platt som en pannkaka 3 tung som en sten 3 arg som ett bi 3 stor som en fotbollsplan 3 genomskinlig som en manet 3 stolt som en tupp 3 hungrig som en varg 3 hög som en man 2 vacker som en tavla 2 bred som en lagårdsdörr 2 stel som en eldgaffel 2 kall som en fisk 2 motiverad som ett främjande 2 stark som en björn 2 avsedd som en satir 2 svullen som en tennisboll 2 rak som en fura 2 stark som en oxe 2 stor som ett duvägg 2 dum som ett spån 2 lång som en flaggstång 2 förenklad som ett läromedel 2 svag som en kattunge 2 gjord som ett specialarbete 2 lycklig som ett barn 2 blank som en skogstjärn 2 vig som en ekorre 2 liten som en prick 2 stor som ett sovrum 42

KAPITEL 4. EXPERIMENTELL ANALYS Det kan vara svårt att veta på vilken frekvens tröskeln ska dras. Sätter man en för hög tröskel försvinner säkert ett stort antal korrekta liknelser medan resultat blir bättre. Vid en låg tröskeln hittas fler liknelser medan resultat blir sämre. Balansen måste hittas mellan att ha kvalitet eller kvantitet. Vid en körning på korpusen SUC med en miljon ord hittades en liknelse. Liknelsen stolt som en tupp förekom två gånger i korpusen. Det verkar som om liknelser inte används ofta i texter utan existerar mest i samspråk mellan personer. Slutsatsen blir att de krävs en större mängd autentiska texter för att hitta liknelser. 43

KAPITEL 4. EXPERIMENTELL ANALYS 4.5 Olika ordklassmönster på idiom Som tidigare nämnts räcker det inte med att använda statistiska metoder för att hitta idiom. Det behövs något annat utöver de metoderna. Ett förslag som andra har använt är att utnyttja den morfosyntaktiska informationen för att göra ett urval ur korpusen. Genom att bestämma ett mönster för ordens taggar gallras de mindre givande kollokationerna bort. Mönstren kan se olika ut beroende på önskat resultat. Exempel på mönster som använts för att hitta kollokationer i engelska texter ses i tabellen nedan (Benson, Benson & Ilson 1986; Goldman, 2001). Tabell 4.9. Olika mönster för att hitta kollokationer. Benson m.fl. 1986 VB-NN, NN-JJ, NN-VB, NN-PP-NN, JJ-AB, VB-AB Goldman m.fl. 2001 NN-JJ, NN-NN, NN-PP-NN, NN-VB, VB-PP, VB-PP-NN VB: Verb NN: Substantiv JJ: Adjektiv PP: Preposition AB: Adverb Har de svenska idiomen liknande mönster som för engelska kollokationer? För att kunna svara på den frågan behövs en lista med svenska idiom. Boken Svenska idiom av Hans Luthman innehåller 4 500 vardagsuttryck (Luthman, 2006). Genom att göra en liten analys av utvalda sidor i boken hittas ett mönster som återkommer hos flera idiom (VB-PP-NN). Mönstret kan exemplifieras med idiomen hamna på efterkälken, tänka på refrängen och komma till skott. I en annan undersökning jag utförde av mönster på svenska idiom, hämtas 432 svenska idiomatiska uttryck från Wikipedia. Uttrycken taggas med hjälp av Granska och sorteras efter förekomsten av de olika mönstren, se tabell 4.10. Tabell 4.10. Mönster på idiomatiska uttryck från Wikipedia Antal Mönster 32 VB-PP-NN 31 VB-NN-PP-NN 16 VB-PN-PP-NN 16 VB-NN 15 VB-PP-JJ-NN 13 NN-PP-NN 7 VB-PL-PP-NN 7 JJ-NN 6 VB-DT-NN 6 PP-JJ-NN 6 JJ-KN-DT-NN 44

KAPITEL 4. EXPERIMENTELL ANALYS Granskning av tabellen 4.10 visar att de flesta uttryck slutar med ett substantiv. Före substantivet är det vanligt med en preposition. De två mönster som förekommer flest gånger (VB-PP-NN) och (VB-NN-PP-NN) finns båda representerade i tabellen över de engelska mönstren med (VB-PP-NN) respektive (NN-PP-NN). Vi kan även se att mönster som (NN-JJ) och (NN-NN) inte finns med bland de svenska idiomen. Idiom som matchar mönstret (VB-NN-PP-NN) kan vara ana ugglor i mossen, vara spindeln i nätet och lägga lök på laxen. Mönstret (VB-PN-PP-NN) kan förklaras med exemplet bita sig i läppen. En annan intressant uppgift som hämtas från de idiomatiska uttrycken från Wikipedia är antal ord som ingår i idiomen. Diagrammet nedan visar hur idiomen fördelar sig beroende av antalet ord som ingår i uttrycket. De flesta idiomen har en längd av tre eller fyra ord. Figur 4.1. Längder på olika idiom från Wikipedia. Extraheras uttryck med en längd av tre, kommer en del med en eller fler ord att inkluderas i resultatet. Det göra att om man väger samman mönster och längd på idiomen borde ett mönster på (NN-PP-NN) och (VB-PP-NN) filtrera ut en del trigram som är idiomatiska. Låt oss testa de två mönstren på korpusen Parole. 45