Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Save this PDF as:
 WORD  PNG  TXT  JPG

Storlek: px
Starta visningen från sidan:

Download "Automatisk extraktion av idiom ur text ANDREAS PETTERSSON"

Transkript

1 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012

2 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng vid Programmet för datateknik 270 högskolepoäng Kungliga Tekniska Högskolan år 2012 Handledare på CSC var Ola Knutsson Examinator var Olle Bälter TRITA-CSC-E 2012:050 ISRN-KTH/CSC/E--12/050--SE ISSN Kungliga tekniska högskolan Skolan för datavetenskap och kommunikation KTH CSC Stockholm URL:

3 Sammanfattning Automatisk extraktion av idiom ur text Idiom definieras som ett fast uttryck, med en betydelse som inte går att läsa ut ifrån idiomets delar. Exempel på idiom, ana ugglor i mossen och skilja agnarna från vetet. Idiom kan vara svåra att lära och bemästra, översätta och analysera då de fungerar som en enhet. Utvinning av idiom anses vara en viktig del inom områdena datorstödd språkinlärning, maskinöversättning och allmän textanalys. En viss överlapp finns mellan kollokationer och idiom. Kollokationer beskrivs som en sekvens av ord som förekommer oftare än de borde av ren slump. Statistiska metoder används vid extraktion av kollokationer. De som testats är t-test, chi-square, likelihood ratio och pointwise mutual information. Metoderna använder en textsamling (korpus) för att rangordna ordpar (bigram). Den svenska korpus som används för undersökningar och analys är Parole. Parole innehåller dagstidningar, romaner och tidskrifter, vilket ska ge en bra representation av det svenska språket. De statistiska metoderna analyseras och det visar sig att pointwise mutual information lämpar sig bäst för extraktion av idiom. Endast användning av statistiska metoder ger inget bra resultat. Idiom kan filtreras med hjälp av ordklasser. De flesta idiom matchar mönstren (NN-PP-NN) och (VB-PP-NN), där NN är ett substantiv, PP en preposition och VB ett verb. Spridning i korpusen kan också användas för att filtrera bort felaktiga kandidater. Idiom förekommer sällan och oftast inte koncentrerat på samma position. Utvärdering av resultat sker manuellt. Totalt hittades det 66 stycken idiom bland de 100 högst rankande kandidaterna. Slutsatsen är att det går att automatiskt hitta idiom, men det kräver mänsklig filtrering. Strategin för bästa resultat, använder en blandning av ordklass, spridning och statistisk metod. Nyckelord: idiom, kollokation, korpus, ordklass, mönster, spridning, statistiska metoder.

4 Abstract Automatic extraction of idioms from text Idioms are defined as a group of words whose meaning cannot be predicted from the meanings of the constituent words. For example, smell a rat and separate the wheat from the chaff. Idioms can be difficult to learn and master, translate and analyze because they function as one unit. Extraction of idioms is considered an important part in the areas of computer assisted language learning, machine translation and general text analysis. A degree of overlap exists between collocations and idioms. Collocations are described as a sequence of words that co-occur more often than would be expected by chance. Statistical methods are used in the extraction of collocations. The ones tested are t-test, chi-square, likelihood ratio and pointwise mutual information. The methods use a text collection (corpus) to rank word pairs (bigrams). The Swedish corpus used for studies and analysis is Parole. Parole includes newspapers, novels and magazines, which should give a good representation of the Swedish language. The statistical methods are analyzed and it turns out that pointwise mutual information is best suited for extraction of idioms. Only the uses of statistical methods do not give good results. Idioms can be filtered using parts of speech. The majority of idioms match patterns (NN-PP-NN) and (VB-NN-PP), where NN is a noun, PP a preposition and VB a verb. Distribution of the corpus can also be used to filter out incorrect candidates. Idioms occur rarely and usually not concentrated in the same position. Evaluation of the result is done manually. A total of 66 idioms were found among the 100 highest ranked candidates. The conclusion is that it is possible to automatically find idioms, but it requires human filtering. The strategy for best result uses a mixture of part of speech, distribution and statistical methods. Keywords: idiom, collocation, corpus, part of speech, pattern, distribution, statistical methods.

5 Förord Detta examensarbete utgör det sista momentet i civilingenjörsutbildningen i Datateknik på KTH och binder samman flera år av studier. Examensarbetet har skrivits för skolan för datavetenskap och kommunikation, CSC, som är en av KTH:s tio skolor. Inom CSC finns forskargrupper som sysslar med språkteknologi för både talat och skrivet språk. Först vill jag tacka min handledare på KTH, Ola Knutsson. Jag vill även tacka de personer som stöttat mig att slutföra examensarbetet, speciellt tack till dig Anna. Andreas Pettersson Stockholm 2012

6

7 Innehållsförteckning 1 Introduktion Inledning Problemdefinition Syfte Avgränsningar Bakgrund och teori Historisk bakgrund Kontextualistisk Sinclair principer Systemorienterat Idiom Definition Grammatiska variationer Lexikala variationer Andra fasta ordförbindelser Förekomster av idiom Egenskaper för kollokationer Sammansättning Ersättning Ändring Korpus Korpustyper Balanserad Opportunistisk (Monitor) Parallell Jämförbar Annotering (taggning) Kollokationsanalys Korstabell Observerade frekvenser Styrka på koppling i bigram Förväntad frekvens

8 3 Metoder Frekvens Ordklassfilter Statistiska metoder T-test Pearsons Chi-square Likelihood ratio Pointwise Mutual Information Tidigare försök att hitta idiomatiska uttryck i en parallellkorpus Experimentell analys Analysverktyg Beskrivning av Parole Konkordanssökning i Parole Grammatikgranskaren Granska Ordklasstaggning med Granska Olika taggar i Granska Förberedande taggning av Parole Analys av statistiska metoder Metod för att hitta liknelser Olika ordklassmönster på idiom Ordklassmönster plus statistisk metod Förkasta felaktiga kandidater Beskrivning av verktyg Processflöde, från korpus till idiom Format för korpusar Tagga Parole med Granska Tagga med Granska på server Tagga med Granska Tagger Datastruktur för lagring av n-gram Internminne eller diskminne Testning och optimering Applikationen - IdiomFinder Resultat Utvärderingsmetod Stegvis händelseförlopp Gruppering av verbets former Längd, tecken och ord i trigram Spridning av idiom i korpusen Tröskelvärde för frekvensen Slutsatser 69

9 7.1 Förslag på fortsatt arbete Litteraturförteckning 73 Bilagor 75 A Taggning med Granska på servern 77 B Tabeller 79 B.1 Tabell över frekventa trigram B.2 Tabell över frekventa trigram med verb i grundform B.3 Tabell över de högst rankade trigrammen enligt måttet PMI B.4 Tabell över de högst rankade trigrammen enligt måttet PMI, med begränsningar i antal bokstäver och olika tecken B.5 Tabell över de hundra högst rankade trigrammen, där interkvartilavstånd har använts för att sortera bort felaktiga kandidater B.6 Tabell över de hundra högst rankade trigrammen, där interkvartilavstånd och tröskelvärde har använts för att filtrera bort felaktiga kandidater

10

11 Kapitel 1 Introduktion Kapitlet inleder med en kort beskrivning av idiom för att ge läsaren en förståelse om vad begreppet betyder. Inledningen tar upp varför det är intressant att hitta idiom och vilka problem som finns runt idiom. Den följs upp av problemdefinition och syfte. Introduktionen avslutas med avgränsningar och begränsningar i arbetet. 1.1 Inledning Idiom definieras som ett fast uttryck, med en betydelse som inte går att läsa ut ifrån idiomets delar. Det räcker inte med att veta delarnas betydelser för att förstå idiomets fullständiga innebörd. Exempel på idiom är ana ugglor i mossen, tänka på refrängen, hamna på efterkälken och kasta in handduken. Ordspråk och liknelser räknas ofta till idiomen. Liknelser är fraser som för det mesta innehåller ordet som, till exempel pigg som en mört och glad som en lärka. Idiomen anses vara svåra att förstå för nybörjare på ett språk. De kräver en högre språklig förståelse. Betydelsen av ett idiom kan vara svåra att hitta i ordböcker, där endast de vanligaste idiomen finns med. Nya idiom som uppkommer och de mer speciella förutsätts att man helt enkelt har kännedom om. Ett problem som idiomen orsakar är när de ska översättas. Vid en ordagrann översättning tappar en del idiom sin betydelse, det är ordens sammansatta betydelse som ska översättas. Exempel översättning av idiomet kasta in handduken fungerar bra, medan idiomet ana ugglor i mossen ger en felaktig ordagrant översättning. I bästa fall finns det ett motsvarande idiom på andra språket. 1

12 KAPITEL 1. INTRODUKTION Idiom skapar problem för lingvister som arbetar inom områdena datorstödd språkinlärning, maskinöversättning och allmän textanalys. Utvinning av idiom anses vara en viktig del inom dessa områden för att idiomen är: svåra att lära och bemästra svåra att översätta svåra att automatiskt analysera då de fungerar som en enhet Den engelska termen multi-word expression inkluderar sammansättningar, kollokationer och idiom. En viss överlapp finns mellan kollokationer och idiom. Kollokationer kan ofta beskrivas som ordsekvenser som ofta förekommer i samma kontext. Vid extraktion av kollokationer eller relaterade ord ur text används olika statistiska metoder. Dessa metoder ligger till grund för att hitta idiom och kan utökas för att inrikta sig mot att hitta idiom i texter. 2

13 KAPITEL 1. INTRODUKTION 1.2 Problemdefinition Idiom hörs dagligen i radio och televisionen, samt förekommer även skriftligen i texter som dagstidningar. Mängden idiom som finns nedskrivna kanske inte motsvarar den mängd som används i de sociala samtalen som förs mellan två personer. Men det finns i alla fall en del idiom skrivna i dagstidningar, tidskrifter och romaner. Dessa tre källor ligger till grund för byggandet av en stor representativ textsamling för svenska språket. En textsamling kallas för en korpus och i Sverige finns ett antal korpusar. En del är öppna för forskning medan andra kostar pengar att använda. De två mest kända i Sverige är öppna för forskning. Det är Stockholm-Umeå korpus(suc) och PAROLE. De innehåller en miljon respektive 19 miljoner ord. Den enklaste och långsammaste metoden för att urskilja idiom i texter är att manuellt gå igenom texterna. Att läsa en miljon ord tar inte några minuter utan snarare ett par dagar utan pauser. Uppmärkning av ordklasser i korpusen SUC skedde manuellt och det pågick under ett par år. Med datorhjälp kan korpusar nu undersökas relativt snabbt. Ett problem med idiom är, om de går att skilja ut från texter. Är de tillräckligt statistisk annorlunda jämfört med övrig text. Statistiska metoder används för att hitta kollokationer som är besläktade med idiom. De statistiska metoderna bygger sina beräkningar på ordens frekvenser. Om idiom inte förekommer ofta i texter, kommer då de statistiska metoderna att rata idiomen eller kommer de att privilegiera de fraser som är mer frekventa. Dessa frågor återstår att undersökas. Metoderna har tidigare används på engelska texter. Den språkliga övergången till svenska hindras förmodligen inte, då statistiska metoder endast använder frekvenser. Att hitta svenska idiom i texter har inte undersökts tidigare. Arbetet blir som en förundersökning av olika metoder för att hitta idiom. Utvärdering av de olika metoderna kommer att ske manuellt eftersom det inte finns något öppet dataskrivet material över idiom. För att kunna jämföra sin metod vid utvärderingar krävs det att någon har plockat ut alla idiom ur texten tidigare. Eftersom det inte har skett kommer det att bli svårt att producera något procentuellt resultat utan det blir med ett resonemang över vilken metod som passar för att utvinna idiom. 3

14 KAPITEL 1. INTRODUKTION 1.3 Syfte Syftet med arbete har varit att undersöka de olika statistiska metoderna för kollokationer och välja ut den/de som ger det bästa resultatet för idiom. Resultat av extraktionen kan sedan ligga till grund för olika arbeten inom maskinöversättning och generell textanalys. Vid datorstödd språkinlärning kan listan användas till att markera idiom i texter som visar idiomets betydelse. Detta kräver dock att listan förses med förklaringar av idiomen. Vid maskinöversättning skulle idiomen kunna tolkas som en enhet och möjliggöra bättre översättningar än idag. 1.4 Avgränsningar Idiomen avgränsas till det svenska språket. Betydelserna av de idiom som behandlas i arbetet kommer inte att beskrivas. Den delen lämnas till läsaren att söka efter eller kan bli en utveckling av detta arbete. Mängden texter att söka efter idiom i begränsas på grund av tillgången av taggade svenska korpusar. Ordspråk kommer inte att hanteras. 4

15 Kapitel 2 Bakgrund och teori Kapitlet inleds med uppkomsten av kollokationer och hur två olika kollokationsteorier har växt fram. Kollokationer är en viktig del för sökandet efter idiom i texter. Det blir därför naturligt att inleda med kollokationer för att sedan fokusera på idiom. Efter de historiska aspekterna kommer den mer teoretiska delen. Där behandlas områdena idiom, egenskaper för kollokationer, korpusar och kollokationsanalys. 2.1 Historisk bakgrund Under 1950-talet myntade J.R. Firth termen kollokation (Firth, 1957). Firth var en engelsk lingvist som levde mellan åren 1890 och Han definierade kollokation som en frekvent samförekomst av ord i autentiska texter. Först i slutet av 1980-talet introducerades terminologin om kollokationer i Sverige (Svensén, 2005). Genom åren har det kommit fram två olika kollokationsteorier: den kontextualistiska och den systemorienterade. Den kontextualistiska teorin som ibland kallas för den frekvensorienterade, växte fram ur Firth s resonemang om kollokationer under talet i England. Sinclair vidareutvecklade kollokationsbegreppet efter Firth. Han använder två principer som förklarar en texts uppkomst (Sinclair, 1991). Den systemorienterade teorin utvecklas först under 1970-talet i Tyskland av F.J. Hausmann. Han talar mer om direktionalitet mellan orden istället för att använda ordförbindelsernas frekvenser. (Hausmann, 1985). 5

16 KAPITEL 2. BAKGRUND OCH TEORI Kontextualistisk Den kontextualistiska teorin betraktar kollokationerna som ett statistiskt fenomen och bygger sitt resonemang på att frekvensen ska leda fram till ett urval av intressanta kollokationer. Ur en statistisk synvinkel kan en kollokation definieras som en grupp ord som uppträder tillsammans oftare än de skulle göra om slumpen råder. Ett problem med den kontextualistiska teorin är att den kommer att ta med en mängd frekventa sammanställningar av ord som är tillfälliga eller icke välformulerade. Exempel på frekventa sammanställningar är för att, där med och jag och. Det går att rensa bland de oönskade kollokationerna i korpusen med grammatiska filter. Dock kan det leda till att välformade och frekventa ordpar rensas bort. Ett annat problem är att många relevanta kollokationer kommer att hamna utanför på grund av sin låga frekvens Sinclair principer Med utgångspunkt från Firths resonemang om begreppet kollokation definierar Sinclair 1991 principen om öppna val (open choice principle). Principen förklarar att texter uppkommer genom att ord kombineras enligt grammatiska regler (Sinclair, 1991). En annat namn på principen är slot and filler modellen vilket kan förklaras med att luckor i texter kan fyllas med något semantiskt lämpligt ord som uppfyller de grammatiska kriterierna. Sinclair upptäcker att det inte räcker att använda de grammatiska reglerna för att skapa normala texter. Han föreslår att idiomprincipen ska täcka de syntagmatiska relationer mellan ord som inte kan förklaras av de grammatiska reglerna (Sinclair, 1991). Idiomprincipen använder lexikaliserade och halv-lexikaliserade fraser som finns lagrade i textförfattarens minne och hämtas som fasta uttryck. Öppna val och idiomprincipen har blivit grundstenar i två skilda teorier för språk. Öppna val principen ligger till grund för den generativa grammatiken. Den inriktningen anses ha grundats av Noam Chomsky. Idiomprincipen förknippas med konstruktionsgrammatiken (Goldberg, 2003) Systemorienterat Under 1970-talet tas den systemorienterade kollokationsteorin fram av tyskar ledda av F. J. Hausmann. En orsak till att tyskarna inte antog och använde den engelska teorin var att de saknade autentiska korpusar (Malmgren, 2004). Hausmann utgår från exemplet köpa en bok. Trots att denna fras är grammatiskt välformad och kanske vanlig i vissa korpusar, kan den enligt Hausmann aldrig kvalificera sig för beteckningen kollokation. Frasen är enligt Hausmann fullkomligt trivial. Verbet köpa kan i stort sett styra vilket objekt som helst och bok kan vara objekt till ett stort antal verb. Frasen tillhör gruppen fria kombinationer (Hausmann, 1985). 6

17 KAPITEL 2. BAKGRUND OCH TEORI Den systemorienterade teorin anser att komponenterna i en kollokation ska ha en begränsad kombinerbarhet. Ett exempel på en kollokation ur Hausmann:s synvinkel skulle vara fatta ett beslut, eller inge respekt. Båda uttrycken har ett begränsat antal ord de kan kombineras med. Figur 2.1. Uppdelning av ordförbindelser. Hausmann har bidraget med att ge kollokationerna direktionalitet. Det vill säga att ena komponenten i en kollokation är ett huvudord och det andra ett biord. Kollokationen fatta ett beslut kan delas upp komponenterna beslut huvudord och fatta biord. Huvudordet i en kollokation kallas bas och biordet för kollokator. Inom den korpusorienterade kollokationsteorin finns ingen direktionalitet. Där kallas komponenterna istället för nod och kollokat. Noden är det ord man utgår ifrån vid statistiska beräkningar och kollokatet ett ord i närheten. 7

18 KAPITEL 2. BAKGRUND OCH TEORI 2.2 Idiom Söker man efter betydelsen för ordet idiom ges ofta förklaringen: två eller flera ord som tillsammans betyder något annat än vad orden gör ensamma. Idiom uppfattas som en självständig lexikalisk enhet och inte som ett uttryck för en syntagmatisk egenskap 1 hos något av de ingående orden. Enligt SAOL 2 definieras idiom som: särspråk; ogenomskinligt fast uttryck Definition Ett idiom är en fast ordförbindelse. En ordförbindelse definieras av två eller flera ord som står i en följd. Alltså kan inte ett idiom innehålla endast ett ord. Att ordförbindelsen är fast betyder att uttrycket inte är föränderligt. Att idiom ska vara fasta ordförbindelser stämmer inte riktigt. I en undersökning av en engelsk korpus visade det sig att ungefär 40 procent av de fasta ordförbindelserna hade någon form av variation. Undersökningen visade att det kunde förekomma både grammatiska och lexikaliska variationer (Pawley, 2001) Grammatiska variationer Den vanligaste grammatiska variationen förkommer bland fraser med ett verb. Där kan verbet varieras med tempusbyte. Ex. idiomet ha, hade, haft is i magen. Andra variationer som till exempel variationer av substantivets species 3 och numerus 4 är inte lika vanliga Lexikala variationer Lexikala variationer sker ofta med ord som byts ut mot synonymer. Betydelsen för uttrycket ska i princip förbli oförändrat. Ex. idiomet lägga en död/kall hand över något. Orden som byts har en liknande betydelse, men det är inte alltid nödvändigt. Idiomet bränna sina skepp kan översättas till engelska och där kan skepp ersättas med broar (burn one s boats/bridges) Andra fasta ordförbindelser Andra fasta ordförbindelser som ofta blandas ihop med idiom är liknelser och ordspråk. Liknelser kan beskrivas som fasta ordförbindelser som innehåller ordet som eller liksom. Exempel på liknelser, som en oljad blixt, arg som ett bi. Liknelser har ofta en förstärkande funktion. 1 En syntagmatisk egenskap är ordens förhållande till andra ord som de kan kombineras med Species är substantivets bestämda och obestämda form. 4 Numerus kan antingen vara singular eller plural. 8

19 KAPITEL 2. BAKGRUND OCH TEORI Grammatiskt och lexikaliskt är ordspråk nästan helt utan variationer. Det beror främst på att ordspråken ofta utgör hela meningar. Ordspråken vill förmedla ett budskap eller en värdering man ställer sig bakom, ex. Tala är silver, men tiga är guld Förekomster av idiom Idiom förekommer mycket sparsamt i texter, det har gjorts två undersökningar på engelska texter. Dels undersökte man hur många olika idiom som förkommer i texter och dels hur frekventa idiomen kan vara. Av de 888 vanligaste idiomen i en engelsk idiomordbok hittades 33 stycken i Brown Corpus (1 miljoner ord). Det vill säga 3,7 procent av idiom fanns representerade i korpusen. Ordboken var brittisk och korpusen amerikansk men det hade ingen större betydelse eftersom de vanligaste idiomen är gemensamma (Kjellmer, 1996). I den andra undersökningen användes en idiomordbok med ordförbindelser som hittats i korpusen Bank of English, som vid tillfället innehöll 211 miljoner ord. De 750 vanligaste ordförbindelserna hade en eller flera belägg på 2 miljoner ord. De näst vanligaste 750 hade tre till fem belägg på 10 miljoner ord och de därefter hade en till tre belägg per 10 miljoner ord. De återstående ordförbindelserna, en fjärdedel av beståndet, hade alltså en frekvens på mindre än 1 belägg per 10 miljoner ord (Moon, 1999). 9

20 KAPITEL 2. BAKGRUND OCH TEORI 2.3 Egenskaper för kollokationer Hur ska man avgöra om orden man undersöker verkligen är en kollokation? Benson definierade 1989 tre olika kriterier som bygger på den funktionella delen i kollokationens unika egenskaper (Benson, 1989). Kriterierna som Benson använde var sammansättningar, ersättningar och ändringar, varav det första kriteriet anses som det grundläggande Sammansättning Den semantiska betydelsen av en kollokation är inte en sammansättning av de olika delarnas betydelse. Antingen är betydelsen helt skild från kombinationen (som med fallet idiom) eller så finns det en bibetydelse eller en pålagd betydelse som inte kan baseras från dess delar. Till exempel kan man tänka på idiomet ha is i magen (vara kallblodig) som inte ger någon innebörd vid en tolkning av orden enskilt. Ett annat exempel är kollokationen i fullt dagsljus som kan ha två betydelser. Den bokstavliga, att det är mitt på dagen eller den underfundiga, att någon gör något offentligt som alla ser Ersättning Det går inte att ersätta ord i en kollokation med ord som, även i sammanhanget har liknande betydelse. Till exempel kan inte gulgröna fingrar ersätta gröna fingrar fast gulgröna är en liknande färg. Ett annat exempel är att totalt dagsljus inte kan ersätta fullt dagsljus. Total är en synonym till full Ändring De flesta kollokationer kan inte ändras utan att dess innebörd förstörs. Det går oftast inte att lägga till lexikal information eller att göra grammatiska transformationer. Till exempel det går inte att ändra uggla i uttrycket ana ugglor i mossen till ana gamla ugglor i mossen. Liknande att gå från singular till plural kan göra ett idiom, till exempel tänka på refrängerna, till att inte vara grammatiskt korrekt. 10

21 KAPITEL 2. BAKGRUND OCH TEORI 2.4 Korpus Korpus kommer från latinets corpus och betyder kropp. Det är en samling språkliga data som kan används vid forskning om språk. En korpus består av en stor samling texter eller transkriptioner 5 av talat språk. Från korpusen kan en forskare se hur språket används. För att få en god överblick över språket ska korpusen vara stor och representativ. Detta är svårt att uppnå och ofta avspeglar det sig i resultat som blir en del av hela sanningen, eftersom korpusen ger ett urval av språket. En korpus kan bland annat användas till konstruktion av lexikon, lingvistiska studier av syntax eller semantik och samling av statistisk för språkteknologiska tillämpningar. Vid uppbyggnad av en korpus finns det en del beslut att fatta. Vilken storlek och vilket material ska korpusen innehålla, ska det vara text från olika genrer, vilket format ska korpusen ha och ska korpusen märkas upp och så vidare. Korpusen delas på grund av besluten upp i olika typer beroende av innehåll, språk och storlek. 5 Transkription betyder en överföring från talat språk till skrift 11

22 KAPITEL 2. BAKGRUND OCH TEORI Korpustyper Det finns olika typer av korpusar, nedan följer beskrivning av fyra olika sammansättningar Balanserad En balanserad korpus ska vara representativ för språket och innehåller lika delar text som är fördelade på olika genrer. En vanlig storlek på balanserade korpusar var förr en miljon ord, men nu finns det även större. Storleken en miljon ord kommer från att korpusen fördelades på 500 olika texter och ur texterna plockades tecken. Den första datorläsbara korpus är Brown Corpus 6 som består av amerikansk engelska från 1961 och innehåller en miljon ord som är ordklassade. Den svenska korpusen Stockholm Umeå Corpus (SUC) 7 sattes samman under 1990-talet och representerar språket med en miljon ordklassade ord. En större balanserad korpus är British National Corpus 8. Den består av 100 miljoner ordklassade ord, i talad och skriven engelska Opportunistisk (Monitor) En opportunistisk korpus är ständigt växande och har i det här sammanhanget ingen bestämd storlek som den balanserade korpusen. Ordet opportunist betyder att man tar det som finns tillgängligt. Korpusen reflekterar den språkliga förändringen i en konstant ökande språkmaterial. En opportunistisk korpus är ett bra verktyg för lexikografer som bygger lexikon. De kan se när nya ord tillkommer i språket och om gamla ord får en ny eller ändrad betydelse. The Bank of English 9 är en opportunistisk korpus som 2002 bestod av 450 miljoner ord. Korpusen utvecklas hela tiden och en ny version släpps med jämna mellanrum. Något svensk opportunistisk korpus finns inte, utan på Språkbankens hemsida finns ett antal korpusar tillgängliga för konkordanssökning. Totalt rör det sig om över 900 miljoner ord (år 2012) och det är tänkt att utökas. Språkbanken 10 är en avdelning på Göteborgs Universitet sedan /list/private/brown/brown.html

23 KAPITEL 2. BAKGRUND OCH TEORI Parallell En parallell korpus definieras som en korpus som innehåller texter som är översatta i två eller flera språk. Parallella korpusar finns ofta i länder som är tvåspråkiga. Men det kan även skapas större när flera länder går samman. Korpusen EuroParl 11 är en samling av texter från europeiska parlamentet under åren 2003 till Den finns i elva olika språk och den svenska delen består av 33 miljoner ord. För att en parallell korpus ska vara användbar krävs det grupperingar mellan de olika språken. Grupperingen kan vara mellan meningar, fraser eller ord. Korpusen har stor betydelse för översättare och har även börjat användas till inlärning vid statistisk maskinöversättning Jämförbar En jämförbar korpus ska innehålla en balanserad och representativ del från de olika språken. Materialet har samlats in med gemensamma restriktioner. Det kan gälla texternas proportioner, deras genrer och vilket tidperiod material är skrivet. Korpusen används som grund i studier för att hitta likheter och olikheter mellan de olika språken. En svensk jämförbar korpus är Parole 12 som innehåller ungefär 19 miljoner ordklassade ord. Parole var en del av ett EU projekt som slutfördes 1998 och totalt rörde det sig om 14 olika språk

24 KAPITEL 2. BAKGRUND OCH TEORI Annotering (taggning) Taggning av en korpus kan ske manuellt eller automatiskt med en dator. Datorn kan klara av att tagga varje ord med lingvistisk information som ordklass, genus, lemma och kasus. Högre former av textanalys sker fortfarande manuellt, så som semantisk analys. Syntaktisk analys av en text sker med en parser. Det finns två huvudmetoder för att tagga en korpus, regelbaserad eller statistisk. Den regelbaserade använder ett lexikon och väljer mellan olika regler hur ett ord ska taggas, medan den statistiska använder statistik från en redan taggad text för att avgöra vilken tagg ordet ska få. Antalet taggar eller tagguppsättningen som finns att välja på varierar efter hur fin uppdelning som görs. Egenskaper som grundform, bestämd eller obestämd form på substantiv och singularis eller pluralis kan vara information som kan hittas i taggen. Tabell 2.1. Orden hamna, på och efterkälken har getts morfosyntaktisk information. Ord hamna på efterkälken Tagg vb.inf.akt pp nn.utr.sin.def.nom Från tabellen ovan kan läsas att verbet hamna är i formen infinitiv, på är en preposition och att ordet efterkälken är ett substantiv i formen obestämd singularis. 14

25 KAPITEL 2. BAKGRUND OCH TEORI 2.5 Kollokationsanalys För att hitta kollokationer i en korpus används kollokationsanalys. Vid en analys av korpusar kan olika algoritmer brukas för att hitta relevanta kollokationer. De enklaste algoritmerna utnyttjar endast frekvensen 13 och den morfosyntaktiska informationen för att ranka kollokationerna. De mer avancerade algoritmerna bygger vidare på frekvensen och hämtar statistisk från korpusen. Vid kollokationsanalys lagras orden från korpusen i olika enheter. Den vanligaste längden på enheterna är två eller tre och de benämns bigram respektive trigram. Bigram används oftast med de avancerade algoritmerna. I tabellen nedan ses benämning samt exempel på olika enheter av ord. Tabell 2.2. Benämningar på n-gram. n Benämning Exempel 1 unigram (skola) 2 bigram (en, skola) 3 trigram (i, en, skola) 4 4-gram (gick, i, en, skola) 5 5-gram (han, gick, i, en, skola) De avancerade algoritmerna beräknas genom att hämta de observerade och förväntade frekvenserna från korpusen. Vid beräkningarna av de olika frekvenserna används för det mesta en korstabell Korstabell För att organisera bigram eller ordpar (x,y) använder man ofta en korstabell (contingency table). Den delar upp varje bigram i fyra celler (x,y), (x,y), (x,y ) och (x,y ). Cellerna demonstrerar bigrammets uppdelning vad gäller antalet förekomster i korpusen. Tabell 2.3. Korstabell över bigrammet (x,y). Y=y Y y X=x (x,y) (x,y ) X x (x,y) (x,y ) 13 Frekvens i lingvistisk statistik är absolut frekvens, antalet förekomster. I andra sammanhang används den relativa frekvensen som är andelen av möjliga fall där en händelse inträffar 15

26 KAPITEL 2. BAKGRUND OCH TEORI Den första raden i korstabellen åskådliggör de bigram där första ordet stämmer överens med typen x. Den andra raden visar antal bigram där första ordet inte stämmer överens med typen x. Likaså gäller för andra ordet (y) i bigrammet som sorteras upp kolumnvis Observerade frekvenser Den observerade frekvensen är den som kan observeras i korpusen. I cellen O 22 finns de bigram i korpusen som varken börjar på typen x eller slutar på typen y. Cellen O 11 kallas för den gemensamma frekvensen (joint frequency). Cellerna i korstabellen betecknas med stora O när det gäller observerade frekvenser. Tabell 2.4. Korstabell med observerade frekvenser. Y=y Y y X=x O 11 O 12 X x O 21 O 22 Summerar man de observerade frekvenserna ger det den totala antalet bigram i korpusen. Den mängden brukar definieras med bokstaven N (sample size). I tabell 2.5 ses korstabellen för bigrammet (svarta, lådan) från korpusen Parole. Tabell 2.5. Korstabell för bigrammet (svarta, lådan). Y=lådan Y lådan X=svarta X svarta

27 KAPITEL 2. BAKGRUND OCH TEORI Summan av raderna R 1, R 2 och summan av kolumnerna K 1, K 2 används ofta när man ska analysera data från korstabellen. De brukar kallas marginalfrekvenser eftersom de står i marginalen. R 1 är marginalfrekvensen för x alltså antal bigram där första ordet tillhör typen x. Samma gäller att K 1 är marginalfrekvensen för y. Tabell 2.6. Korstabell med marginalfrekvenser R och K. Y=y Y y X=x O 11 + O 12 = R X x O 21 + O 22 = R 2 =K 1 =K 2 För bigrammet (svarta, lådan) vars data hämtades från korpusen Parole blir den gemensamma frekvensen O 11 = 8. Marginalfrekvenserna R 1 = O 11 + O 12 = = (2 314 bigram med mönstret (svarta,*)) och K 1 = O 11 + O 21 = = 204 ((*,lådan) gav 204 bigram). Totalt fanns det N = bigram i korpusen Styrka på koppling i bigram Kopplingen mellan komponenterna i bigrammet (x,y) beror på något sätt av de tre sannolikhetsparametrarna. Sannolikhetsparametrarna π, π 1 och π 2 kan approximeras med de relativa frekvenserna som ses nedan. Men hur parametrarna ska kombineras, för att få en faktor som mått på styrkan i kopplingen mellan orden i bigrammet är det ingen som har den exakta vetskapen om. Det man vet är att ett större värde på π ger en starkare koppling, medan ett större värde på π 1 och π 2 indikerar på en svagare koppling. Parametrarna varierar mellan 0 och 1. π p(x, y) = O 11 N π 1 p(x) = R 1 N = O 11 + O 12 N π 2 p(y) = K 1 N = O 11 + O 21 N (2.1) (2.2) (2.3) 17

28 KAPITEL 2. BAKGRUND OCH TEORI Något som dock är definierat är när det helt saknas koppling mellan komponenterna, statistisk oberoende. När ett bigram (x,y) inte har någon koppling, måste händelserna (X=x) och (Y=y) vara oberoende, vilket leder fram till nollhypotesen H 0 av oberoende Förväntad frekvens H 0 = π = π 1 + π 2 p(x) p(y) (2.4) De förväntade värdena E 11...E 22 i korstabellen kan räknas fram med hjälp av de observerade rad- och kolumnfrekvenserna, om nollhypotesen av oberoende gäller. Den visar hur bigrammet skulle fördela sig i de olika cellerna om nollhypotesen gäller, alltså att bigrammet uppstår helt slumpmässigt. Tabell 2.7. Korstabell med förväntade frekvenser. Y=y Y y X=x E 11 E 12 X x E 21 E 22 E 11 = R 1 K 1 N, E 12 = R 1 K 2 N, E 21 = R 2 K 1, E 22 = R 2 K 2 N N Exemplet med bigrammet (svarta, lådan) skulle få en korstabell med följande förväntade frekvenser. Tabell 2.8. Förväntade frekvenser för bigrammet (svarta, lådan). Y=lådan Y lådan X=svarta 0, ,98 X svarta 203, ,02 18

29 Kapitel 3 Metoder Kapitlet tar upp olika algoritmer för att utvinna fraser eller uttryck från en korpus. De enklaste metoderna, som analys av frekvens och ordklasser inleder kapitlet. Delen följs sedan av de mer avancerade algoritmerna. De brukar gå under benämningen statistiska metoder. De metoder som undersöks är t-test, chi-square, likelihood ratio och pointwise mutual information. Kapitlet avslutas med en beskrivning av ett tidigare försök till utvinning av idiomatiska fraser från en parallellkorpus. 3.1 Frekvens Den enklaste metoden för att hitta kollokationer i en korpus är att räkna antalet förekomster. Om två ord förekommer tillsammans ofta ger det bevis på att orden inte står tillsammans av en slump utan att orden har en koppling sinsemellan. De flesta kollokationer som tas fram genom att endast använda frekvensen som mått, ger i detta sammanhang inte några intressanta kollokationer, men är kanske intressant för någon annan. De ord som hamnar överst består till stor sannolikhet endast av funktionsord. Det vill säga ord som artiklar, prepositioner, konjunktioner, räkneord, pronomen och hjälpverb. Listan som tas fram genom att räkna frekvensen av orden kan sorteras i numerisk eller alfabetisk ordning. Den alfabetiska ordningen ger en snabbare uppslagning vid manuell sökning av ett visst bigram. Till exempel bigrammet all kritik ger vid uppslagning i tabell 3.2 frekvensen

30 KAPITEL 3. METODER Tabell 3.1. Bigram sorterade på frekvens. Antal Ord(1) Ord(2) det är för att att det det var är det i en är en att han men det med en Tabell 3.2. Bigram sorterade alfabetiskt. Ord(1) Ord(2) Antal all kraft 34 all kreativitet 1 all kredit 1 all kreditbedömning 1 all kreosot 1 all krigsmateriel 1 all krigstjänst 1 all kriminell 1 all kringförsäljning 1 all kritik 51 Bigrammen är hämtade från korpusen Parole som har totalt ungefär 16 miljoner bigram, när skiljetecken har tagits bort. Av de 16 miljonerna är ungefär 4,6 miljoner unika bigram och av dem har ca 75 procent en frekvens på endast en förekomst. För att få bättre genomslag för de bigram som inte har en hög frekvens kan man använda en stopplista. Den innehåller de ord som har en hög frekvens i korpusen, ofta funktionsord. Den fungerar så att om något av orden finns med i stopplistan ignoreras bigrammet. Listan byggs upp med de mest frekventa orden i korpusen. I Parole kommer orden och, i och en överst i listan med högst frekvens. Tabell 3.3. Ord med högst frekvens i Parole. Antal Ord Ordklass och Konjunktion i Preposition en Artikel det Pronomen på Preposition är Verb att Infinitivmärke som Pronomen för Preposition av Preposition att Subjunktion med Preposition till Preposition inte Adverb har Verb Ordet att hittas två gånger i listan över de tjugo mest förekommande orden i korpusen Parole. Dels som infinitivmärke och dels som subjunktion Subjunktioner eller underordnande konjunktioner inleder underordnade satser (bisatser). 20

31 KAPITEL 3. METODER 3.2 Ordklassfilter Metoden att endast välja de bigram med högst frekvens ger i stort sett endast funktionsord, vilket inte är intressant för sökning av idiom. En enkel metod att förbättra resultatet är att använda ett filter på ordklasstaggen (Part-Of-Speech). Metoden går igenom alla kandidater, men endast de med ett förutbestämt mönster släpps igenom (Justeson & Katz, 1995). Tabell 3.4. Juteson och Katz använder följande ordklassfilter (mönster) för att hitta troliga kollokationer bland ordkombinationer som förekommer ofta. Tagg mönster AN NN AAN ANN NAN NNN NPN Exempel linear function regression coefficients gaussian random variable cumulative distribution function mean squared error class probability function degrees of freedom A: adjektiv N: substantiv P: preposition I tabellen 3.4 ovan kan man se de olika mönstren som testades på korpusen. Mönstren togs fram genom att analysera runt 200 engelska termer från vetenskapliga artiklar. De kom fram till att 96 procent av de tekniska termerna kom från substantivfraser. Testet gjordes på engelska texter och för svenska texter kan det krävas att mönstren ändras. Utifrån mönstret som Justeson och Katz tog fram har andra forskare minskat eller utökat antal taggar som filtret ska släppa igenom, allt för att få det optimala resultatet för sin undersökning. 21

32 KAPITEL 3. METODER Mönstren AN och NN testades på Parole korpusen och gav följande 20 bigram med högst frekvens. Tabell 3.5. De 20 första bigrammen med matchande mönster. Antal Ord(1) Ord(2) Tagg(1) Tagg(2) 5258 miljoner kronor N N 2603 förra året A N 2431 hela tiden A N 2209 miljarder kronor N N 1815 bl a A N 1558 nästa år A N 1308 många år A N 1242 hel del A N 1099 senaste åren A N 966 lång tid A N 947 själva verket A N 946 förra veckan A N 924 stor del A N 918 flera år A N 783 många gånger A N 762 annat sätt A N 755 andra länder A N 726 hela världen A N 709 flera gånger A N 698 senare år A N Listan ger ett fåtal intressanta bigram från en idiomatisk synpunkt sett. Mönstret var dock anpassat till vetenskapliga texter för att hitta tekniska termer. Bigrammen som utvinns ur Parole beskriver istället mängd, tid eller antal av något. Två bigram står ut ur mängden (själva, verket) och (annat, sätt) som kan komma från trigrammen (i, själva, verket) och (på, annat, sätt). 22

33 KAPITEL 3. METODER 3.3 Statistiska metoder De statistiska metoderna utvärderar korpusens bigram med hjälp av olika matematiska egenskaper. Metoderna t-test och chi-square använder hypotesprövning för att ranka bigrammen. Likelihood ratio testar två olika hypoteser och ger ett värde på hur trolig den ena hypotesen är över den andra. Punktvis ömsesidig information har hämtat sina idéer från informationsteorin. Information om de olika statistiska metoderna har hämtas från boken Foundations of Statistical Natural Language Processing (Manning & Schütze, 1999) T-test t-test publicerades 1908 av William Sealy Gosset under pseudonymen Student. Därför kallas testet ibland för Students t-test. Det används bl.a. inom beteendevetenskapen. t-test undersöker hur mycket medelvärdet i ett slumpmässigt utvald stickprov skiljer sig från populationens medelvärde. Testet utforskar om skillnaden är statistiskt signifikant eller om den kan förklaras med slumpen. För att beräkna t-värdet behövs stickprovets medelvärde x, populationens medelvärde µ, stickprovets varians σ 2 och stickprovets storlek N. t = x µ σ 2 N (3.1) Vid hypotesprövning bestäms först en nollhypotes och en signifikansnivå (alfa). Signifikansnivån ger en gräns där nollhypotesen kan förkastas, vanliga värden är 5%, 1% och 0,1%. Gränsvärdet hittas i en tabell med t-fördelning, där N 1 är antalet frihetsgrader (Råde & Westergren, 2003). Exempel, t-värdet 2,76 ges av signifikansnivån 1% och 10 frihetsgrader. Nollhypotesen H 0 för bigrammet (x,y) är att x och y förekommer oberoende. Avvikelsen av t-värdet från dess förväntade värde 0 uppstår endast på grund av slumpen. Sannolikheten P (x, y) är produkten av sannolikheterna för orden som igår i bigrammet (x,y). H 0 : P (x, y) = P (x) P (y) (3.2) För beräkning av t-värdet krävs en anpassning av korpusen. Korpusen ska ses som en lång sekvens av N bigram. Bigrammen kan anta två olika värden, antingen 1 eller 0. Värdet 1 ifall det sökta bigrammet överensstämmer med bigrammet i korpusen annars får bigrammet värdet 0. 23

34 KAPITEL 3. METODER Sannolikheten P (x) kan då beräknas genom att ta antalet förekomster f(x) för ordet x i korpusen fördelat på antalet bigram N i korpusen. P (x) = f(x) N (3.3) Enligt Bernoullis fördelning som gäller vid långa sekvenser av nollor och ettor blir variansen σ 2 = p(1 p) vilket kan approximeras till σ 2 = p(1 p) p vilket håller då p har ett litet värde för bigram. Stickprovets medelvärde x beräknas genom att ta frekvensen för bigrammet f(x, y) och dividera den med storleken på stickprovet N. Summerar man följande värden kan formeln för t-test skrivas: t = x µ σ 2 N P (x, y) P (x)p (y) P (x,y) N = O 11 F 11 N (3.4) Exempel, bigrammet (svarta, lådan) ger ett t-värde på ungefär 2,82, se nedan. En uppslagning i tabellen för t-fördelning på en 0,5% signifikansnivå och med frihetsgraden satt till oändligheten ges värdet 2,58. Bigrammet (svarta, lådan) kan inte förkastas eftersom t-värdet överstiger gränsvärdet. Tabell 3.6. Korstabell för bigrammet (svarta, lådan). Y=lådan Y lådan X=svarta X svarta O 11 = 8 R 1 = K 1 = 214 N = E 11 0, 02 t(svarta, lådan) 2, 82 När storleken på stickprovet N blir stort börjar t-fördelningen att likna en normalfördelning. 24

35 KAPITEL 3. METODER Pearsons Chi-square Användning av t-test har kritiserat för att den förmodar att sannolikheterna är approximativt normalfördelade, vilket inte alltid stämmer med verkligheten (Church & Mercer, 1993). Ett alternativt test som inte antar normalfördelade sannolikheter är χ 2 (chi-square) test. I de enklaste fallen använder sig chi-square av en 2 2 tabell. Testet jämför de observerade frekvenserna i tabellen med frekvenserna vid ett förväntat oberoende. Om skillnaden mellan observerade och förväntade frekvenser är stor, då kan nollhypotesen för oberoende förkastas. χ 2 -testet summerar skillnaden mellan observerade och förväntade värden i samtliga rutor i korstabellen, fördelat på de förväntade värdena. Vilket ger: χ 2 = i,j (O ij E ij ) 2 E ij (3.5) där i sträcker sig över rader och j över kolumner, O ij är det observerade värdet och E ij är de förväntade värdet. De förväntade frekvenserna E ij beräknas med hjälp av marginalfrekvenserna R 1, R 2, K 1 och K 2. E 11 = R 1 K 1 N, E 12 = R 1 K 2 N, E 21 = R 2 K 1, E 22 = R 2 K 2 N N (3.6) Exempel, χ 2 -värdet för bigrammet (svarta, lådan) beräknas med de observerade och förväntade frekvenserna. Observerade(O) O 11 = 8 O 12 = O 21 = 196 O 22 = Förväntade(E) E 11 0,02 E 12 = 2 313,98 E 21 = 203,98 E 22 = ,02 Ovanstående data ger ett χ 2 -värde på ungefär Nollhypotesen kan därmed förkastas, alltså att orden svarta och lådan uppkommer oberoende av varandra. Bigrammet (svarta, lådan) är alltså en bra kollokationskandidat. Chi-square värdet blir inte alltid lika högt som i exemplet innan, då kan de vara bra med ett gränsvärde som i t-test. Antalet frihetsgrader(df) beräknas enligt: df = (R 1) (K 1) (3.7) 25

36 KAPITEL 3. METODER Chi-square värdet testar nollhypotesen: Vi letar upp ett gränsvärde i en tabell för χ 2 -fördelningen för aktuellt antal frihetsgrader och önskad signifikansnivå (Råde & Westergren, 2003). Om (3.7) ger ett värde större än gränsvärdet har vi ett stöd för att förkasta nollhypotesen (oberoende) som är starkare ju lägre signifikansnivån är. Exempel, med en 0,5%-ig signifikansnivå och med en frihetsgrad ger det ett χ 2 -värde på ca 7,88. Understiger χ 2 -värdet gränsvärdet är bigrammet ingen bra kandidat för en kollokation och nollhypotesen kan inte förkastas. Ett problem med χ 2 -testet är om 2 2 tabellen innehåller små värden. Enligt Snedecor och Cochran ska χ 2 -testet inte användas på datamängder där storleken på stickprovet N understiger 20 eller om storleken N är mellan 20 eller 40 och de förväntade värdena i någon cell är mindre än 5 (Snedecor & Cochran, 1989). 26

37 KAPITEL 3. METODER Likelihood ratio Ett annat sätt att göra hypotesprövning är likelihood ratio eller sannolikhetskvot. Testet jämför två hypoteser och ger ett tal som berättar hur trolig den ena hypotesen är jämfört med den andra. Metoden lämpar sig bättre att använda på gles data än χ 2 -testet. En fördel är att testet inte kräver någon tabelluppslagning, vilket gör att resultatet blir enklare att tolka. För att kunna använda likelihood ratio vid extraktion av kollokationer behövs två olika alternativa förklaringar för uppkomsten av frekvensen för bigrammet (x,y) (Dunning, 1993): Hypotes 1: P(Y X) = p = P(Y X ) (Oberoende) Hypotes 2: P(Y X) = p 1 p 2 = P(Y X ) (Beroende) Den första hypotesen beskriver ett oberoende mellan orden x och y. Alltså att förekomsten av ordet y inte beror på ordet innan x. Den andra hypotesen är mothypotesen till den första och har ett beroende mellan orden x och y. Ett högt värde på den andra hypotesen ger intressanta kollokationer. För att uppskatta värdena p, p 1 och p 2 används maximum likelihood metoden. p = R 1 N, p 1 = O 11 K 1, p 2 = O 12 K 2 (3.8) Vid ett oberoende blir P (Y X) = P (Y X)/P (X) = P (Y ) = R 1 /N och vid ett beroende hämtas värdena från korstabellen. Logaritmen av likelihood ratio λ ges av: där 2 log λ = 2 log L(H 1) L(H 2 ) = 2 log L(O 11, K 1, p)l(o 12, K 2, p) L(O 11, K 1, p 1 )L(O 12, K 2, p 2 ) (3.9) L(k, n, p) = p k (1 p) (n k) (3.10) Tabellen 3.7 visar de högst rankade bigrammen som börjar med ordet svarta. Starkaste koppling mellan ordet svarta och ett annat ord har ordet hål. Bigrammen är sorterade efter likelihood ratio-värdet och testet använder korpusen Parole. Det totala antalet bigram N är ungefär 16 miljoner. 27

38 KAPITEL 3. METODER Bigrammet (svarta, lådan) får ett värde på ungefär 90,48. Värdet kan tolkas som att bigrammet (svarta, lådan) är e 0,5 90,48 4, gånger mer sannolikt under hypotesen att ordet lådan följer efter ordet svarta än något annat ord. Tabell 3.7. Likelihood ratio på bigram som börjar med ordet svarta. 2 log λ (X,Y) O 11 R 1 K 1 885,12 svarta hål ,14 svarta hålet ,78 svarta havet ,71 svarta fanor ,04 svarta lista ,13 svarta ögon ,94 svarta listan ,95 svarta boken ,87 svarta håret ,84 svarta hålen ,53 svarta byxor ,95 svarta vinbär ,42 svarta tavlan ,14 svarta får ,78 svarta oliver ,86 svarta gossar ,75 svarta kängor ,63 svarta rubriker ,38 svarta skor ,01 svarta kläder ,45 svarta hår ,89 svarta män ,68 svarta marknaden ,48 svarta lådan ,97 svarta bokstäver Likelihood ratio λ kan även användas för hypotesprövning. Dock behöver λ skrivas om till formen 2logλ som är asymptotisk χ 2 -fördelad (Mood, 1974). Det går alltså att använda värdena i tabell 3.7 för att testa nollhypotesen H 1 mot den alternativa hypotesen H 2. Bigrammet (svarta, marknaden) har ett värde på 91,68 vilket överstiger χ 2 -värdet 7,88 när alfa är 0,005 och antal frihetsgrader är 1. Med andra ord kan nollhypotesen H 1 ratas och hypotesen H 2 om beroende antas. Värdet 7,88 slås upp i en tabell med χ 2 -fördelning. Formeln för likelihood ratio λ kan även den uttryckas med observerade och förväntade frekvenser: 2 log λ = 2 ij O ij log O ij E ij (3.11) 28

39 KAPITEL 3. METODER Pointwise Mutual Information Pointwise Mutual Information (PMI) 15 är ett mått som har utvecklas från informationsteorin (Church & Hanks, 1989). Den blandas ofta ihop med Mutual Information (MI). Skillnaden är att MI definieras som sambandet mellan slumpvisa variabler och PMI som sambandet mellan värden på slumpvisa variabler. Det vill säga MI beror på sannolikheter i den underliggande processen medan PMI beräknas ur observerade data som används för att uppskatta sannolikheterna med relativa frekvenser. PMI definieras som: I(X; Y ) = log 2 p(x, y) p(x)p(y) (3.12) Om X och Y är diskreta slumpvisa variabler med en gemensam fördelning p(x, y) och med marginalfördelningarna p(x) och p(y), så är I(X; Y ) den punktvis ömsesidiga informationen i (x, y). p(x) = R 1 N, p(y) = K 1 N, p(x, y) = O 11 N (3.13) De uppskattade sannolikheterna p(x) och p(y) beräknas med marginalfrekvenserna R 1 respektive K 1. Den gemensamma sannolikheten p(x, y) använder den gemensamma frekvensen O 11 för bigrammet. Punktvis ömsesidig information kan uttryckas i observerade och förväntade frekvenser. Sannolikheterna p(x), p(y) och p(x, y) kan ersättas med de observerade värdena från korstabellen. P MI = log 2 O 11 E 11 (3.14) Exempel, bigrammet (svarta, lådan) har en korstabell som ser ut som följande: Tabell 3.8. Korstabell för bigrammet (svarta, lådan). Y=lådan Y lådan X=svarta X svarta R 1 = K 1 = 204 N = E 11 0, 02 I(svarta, lådan) 8, PMI kan översättas till Punktvis Ömsesidig Information 29

40 KAPITEL 3. METODER Vid beräkning ger det ett informationsvärde på 8,49 bitar. Det betyder att summan av informationen, som förekomsten av ordet svarta i positionen n i korpusen ökar med 8,49 bitar om vi vet att ordet lådan förkommer i position n + 1. Det kan tolkas som att sannolikheten för att ordet svarta följs av ordet lådan är 2 (8,49) 360 gånger större än slumpen. PMI har precis som χ 2 -test problem med gles data, låga frekvenser. Ett annat problem är att det kan uppstå två extremfall, som inte är önskade. Det är totalt beroende och totalt oberoende. Totalt beroende mellan förekomsterna av de två orden (de förekommer endast tillsammans och p(x) = p(y) = p(x, y)). I(X; Y ) = log 2 p(x, y) p(x)p(y) = log 2 p(x) p(x)p(y) = log 2 1 p(y) (3.15) Totalt oberoende (förekomsten av ena ordet ger ingen information om förekomsten av det andra). p(x, y) I(X; Y ) = log 2 p(x)p(y) = log p(x)p(y) 2 p(x)p(y) = log 2(1) = 0 (3.16) Man kan säga att PMI är bra på att mäta oberoende men dålig på att mäta beroende. Värdet vid ett beroende beror på frekvensen av de individuella orden. Bigram som sätts samman av ord med låg frekvens kommer att få en högre PMI än bigram som sätts samman av ord med hög frekvens. Det är motsatsen till vad man önskar av ett bra mått, en hög frekvens ger mer bevis och man föredrar en högre rank för bigram för vilket det finns ett större intresse och mer bevis för. En lösning som används är att man använder en tröskel och som endast ser på ord som har en frekvens som överstiger eller är lika med tröskelvärdet. Ett tröskelvärde på tre eller större har visat sig ge intressanta resultat (Church & Hanks, 1989). Men lösningen tar inte bort det underliggande problemet. 30

41 KAPITEL 3. METODER 3.4 Tidigare försök att hitta idiomatiska uttryck i en parallellkorpus En metod som har undersökts tidigare var att hitta idiomatiska uttryck med hjälp av en parallellkorpus (Moirón & Tiedemann, 2006). I en parallellkorpus har samma text översatts till olika språk. De olika språken kopplas samman genom att varje ord länkas från originalspråket till det översatta språket. I metoden som Moirón och Tiedemann använder antar de att idiomatiska uttryck inte översätt ord för ord utan har en sammansatt översättning. Samt att vid länkningen mellan de olika språken kommer varje ord i det idiomatiska uttrycket att få ett antal olika länkar. Med utgång från antaganden testar de sin metod från originalspråket holländska översatt till språken engelska, tyska och spanska. De avgränsar sig till att använda trigram. Trigrammen ska börja med ett verb följt av en prepositionsfras. Verben som kan stå i första positionen begränsas till tolv stycken. Verben och substantiven i prepositionsfrasen byts ut till sin grundform för att få fler trigram. Totalt hittas det kandidater, de som förekom färre en 50 gånger ignorerades. Av kandidaterna väljs sedan 200 stycken ut efter att ha rankat dem med två statistiska mått. De 200 kandidaterna kan vara potentiella idiomatiska uttryck. För varje kandidat hämtas alla översättningar från de tre olika språken. De använder sedan översättningsentropin H för att ranka sina 200 kandidater. Den ger ett högt värde när uttrycket är idiomatiskt. H(T s s) = t T s P (t s) log P (t s) (3.17) För varje ord s i trigrammet hämtas tre listor med översättningslänkar T s. P (t s) uppskattas till förhållandet av länkarna t mellan alla länkar av ordet s som hittas i korpusen. Ett värde erhålls för varje ord i trigrammet. Medelvärdet för de tre orden blir det slutliga resultat för trigrammet. Entropin används för att göra en ny rankning av de 200 kandidaterna. De lyckas få ett bättre resultat än att använda den tidigare rankningen med statistiska metoder. De upptäcker även skillnad mellan länkarna i de olika språken. Bättre resultat fås när nederländska översätts till tyska och spanska än när de använder engelska. Analys av metoden ger att Moirón och Tiedemann inte har testat metoden på hela korpusen vilket säkert hade gett ett annat resultat. De slapp en del problem med tanke på att de hade minimerat antalet trigram som undersöktes. Överst på deras rankning hamnade trigrammen breng tot stand och breng naar voren som betyder create respektive bring up på engelska. Vilka idiomatiska uttryck de ingår i på svenska kan vara svårt att demonstrera eftersom kunskapen att förstå nederländska saknas. 31

42 KAPITEL 3. METODER Korpusen som används vid extraktionen idiomatiska uttryck var Europarl. Den innehåller transkriptioner från talare inom det europeiska parlamentet. Korpusen finns med en svensk översättning. Att implementera metoden för den svenska delen kan därför anses möjlig. Det finns nackdelar som gjorde att denna metod inte var aktuell. Först och främst finns det ett fåtal svenska parallella korpusar tillgängliga för forskning. En av de större är Europarl. Innehållet i den är inte representativt för det svenska språket. Vid en mindre granskning av några textfiler hittades ett fåtal idiom. En orsak till det kan vara att idiom är svåra att översätta och inom parlamentet vill man vara tydlig för att de flesta ska kunna förstå samtalen. Därför drar man sig för att använda komplicerade uttryck. 32

43 Kapitel 4 Experimentell analys I detta kapitel ges en översikt av de verktyg som användes för att analysera korpusen Parole, samt en beskrivning av korpusen. Parole används sedan för varierande experimentella analyser. Bland annat analyseras fyra statistiska metoder t-test, chisquare, likelihood ratio och pointwise mutual information. En metod för att hitta liknelser utforskas. Ordklassmönster för att filtrera ut idiom från en korpus undersöks. Slutligen prövas att kombinera statistisk metod och några olika ordklassmönster. 4.1 Analysverktyg Ett verktyg som använts flitigt för att analysera korpusen Parole har varit konkordanssökning 16 från Språkbanken vid Göteborgs universitet. Ett annat verktyg har varit ordklasstaggaren Tagga som ingår i grammatikgranskaren Granska 17. Den har använts för att tagga korpusen med både ordklasser och grundform. Information om grundform saknades i den tidigare versionen av Parole som kan laddas ner från Språkbankens hemsida. Den resurs som var viktigast för projektet var korpusen Parole som ligger till grund för utformningen av applikationen för att hitta idiom. Följande stycken beskriver korpusen Parole och de två verktygen konkordanssökning och grammatikgranskaren Granska Beskrivning av Parole Parole är en förkortning för Preparatory Action for linguistic Resources Organization for Language Engineering. Samlingsnamnet för EU-projektet mellan 1996 och 1998 var Parole LE-II Målet med projekt var att samla en stor, allmän och återanvändningsbar korpus med skrivet material. Varje EU land skulle samla ihop material till en egen korpus. Totalt var det 14 språk det rörde sig om. Det var belgisk franska, danska, engelska, finska, franska, grekiska, iriska, italienska, ka

44 KAPITEL 4. EXPERIMENTELL ANALYS talanska, nederländska, norska, portugisiska, svenska och tyska. Projektet kunde delas upp i två delar: Korpus bestående av 20 miljoner ord skulle samlas in. Lexikon med 20 tusen ord, endast 12 språk. För att underlätta för samtliga deltagare togs det fram en standard för hur korpusen och lexikonet skulle specificeras. De fick följande instruktioner: Texterna skulle ha producerats efter 1970 och vara proportionellt fördelade över fyra kategorier romaner, tidningar, tidskrifter och övrigt. Alla texterna skulle kommenteras med samma DTD 18 -mall angående biografisk information och textens struktur (rubriknivåer). En delmängd av korpusen ( ord) blev morfosyntaktiskt annoterad, med en bestämd mängd taggar och vissa länder utökade taggantalet för språkspecifika egenskaper. Lexikonet byggdes med en standard för alla länder från EAGLES 19. Varje ord gav en morfologisk och syntaktisk betydelse. Formatet som lexikonet tillverkades i var SGML 20. Ansvarig för den svenska delen var institutionen för svenska språk i Göteborg. Projektledare var Daniel Ridings. Han använde en statistisk taggare för att annotera korpusen. Resultatet ligger som en resurs på webben och det går att göra grammatiska sökningar i hela korpusen. 18 DTD (Document Type Definition) beskriver hur strukturen för ett XML- eller SGMLdokument ska se ut. 19 EAGLES (Expert Advisory Group on Language Engineering Standards) är en grupp experter som beslutade vilken struktur de olika länderna skulle följa för att få gemensamma riktlinjer på hur lexikonet skulle sättas samman. 20 SGML (Standard Generalized Markup Language) är ett format för strukturerad text. Texten taggas enligt en dokumentmall, DTD. 34

45 KAPITEL 4. EXPERIMENTELL ANALYS Textmaterialet omfattar ca 19,4 miljoner ord ( tokens). Texterna är i huvudsak insamlade inom Språkbanken. Det har fördelats inom de fyra kategorier enligt följande tabell. Tabell 4.1. Uppdelning av kategorier i korpusen Parole. Textkategori Texter Tid Textomfång Romaner Bonniers Grafiska Industrier ,4 miljoner ord Dagens Nyheter Dagstidningar Svenska Dagbladet ,6 miljoner ord Göteborgs-Posten Arbetet Tidskrifter Forskning och Framsteg ,4 miljoner ord Övrigt Webb-texter ,0 miljoner ord Konkordanssökning i Parole En konkordans är en ordlista där det går att slå upp ord och se dess förekomster tillsammans med orden före och närmast efter i texten. Det är ett stort hjälpmedel för lingvister som vill undersöka hur olika ord används i språket. Korpusen Parole finns tillgänglig på webben för sökningar av konkordanser. Det går att söka i korpusen med sökuttryck som består av en eller flera enheter. En enhet kan vara ett ord eller en morfosyntaktisk definition. Den morfosyntaktiska definitionen betecknar en ordklass. Tabell 4.2. Konkordans på ordet bok med kontexten 40 tecken ur korpusen Parole. Position Text före sökord Ord Text efter sökord 1679 gräva i bagen och halade fram en bok. Kalle Bengtsson kände sej dum 3067 som henne. Hon tog fram en bok och började läsa utan att han hänt. Sedan satt hon med en bok i knät utan att komma sej för med ljuset. Jag hade alltid en bok på gång eftersom jag hade så hjälp henne. Satt jag med en bok eller gick och badade ensam kände Grammatikgranskaren Granska Granska är ett system för svensk grammatikkontroll som har tagits fram genom ett forskningsprojekt på CSC KTH (Domeij, Knutsson, Carlberger & Kann, 1999). Det två tyngsta beståndsdelarna i Granska är en ordklasstaggare och granskningsregler skrivna i ett eget implementerat regelspråk. Granska är speciellt anpassat för användare som har svenska som andra språk. 35

46 KAPITEL 4. EXPERIMENTELL ANALYS Totalt finns det cirka 250 granskningsregler som beskriver vanliga skrivfel. Det finns möjlighet att modifiera Granska genom att skriva egna granskningsregler 21. Det krävs dock en inblick i hur regelspråket är uppbyggt, vilket inte kommer att tas upp i rapporten utan läsaren hänvisas till Granskas regelspråk (Knutsson, 2000). Granska finns tillgänglig på webben i form av Grim 22, TvärGranska 23 och Webb- Granska 24. WebbGranska innehåller funktioner som ordklasstaggning och rättning av grammatiska fel och felstavningar. Som indata tar WebbGranska en text eller en URL 25 till en text och som utdata fås texten med eventuella fel och förslag till korrigering. Som ett extra alternativ vid utmatning av data kan texten ordklasstaggas. Om man ska tagga en större text med Granska finns det ett gränssnitt 26 skrivet i Java av Martin Hassel. Klassen GranskaConnection kopplar upp sig mot en server där Granska finns installerat. I klassen finns en hel del olika funktioner, som tokenisering, taggning, lemmatisering och parsning Ordklasstaggning med Granska Taggning i Granska sker med en andra ordningens markovmodell, vilket ger mer än 95 procent rätt (Carlberger & Kann, 1999). Det svåra med att tagga ord, är när ett ord kan tolkas på flera sätt. Till exempel kan tänkas att ordet banan kan tolkas som en frukt och som den bestämda formen av ordet bana. Då kan det hjälpa att titta på orden som står innan ordet som ska taggas. I andra ordningens markovmodell ser man två steg bakåt för varje ny tagg som ska bestämmas. Granskas taggare bygger upp statistik från en redan taggad träningstext, Stockholm-Umeå Korpus. Från träningstexten hämtas sedan statistik på följder av två och tre taggar. Med statistiken från träningstexten kan de sannolikaste taggarna beräknas i markovmodellen. 21 Testa regler 22 Grim tillgänglig via 23 TvärGranska tillgänglig via 24 WebbGranska tillgänglig via 25 URL (Uniform Resource Locator) är en adress för en webbsida

47 KAPITEL 4. EXPERIMENTELL ANALYS Olika taggar i Granska Granska använder i stort sett samma taggar som finns i SUC korpusen. I tabell 4.3 nedan visas de vanligaste ordklasserna och deras taggar. Utöver vilken ordklass ordet tillhör ger även taggen information om substantivets böjning, adjektivets komparation och verbets tempus. För en mer ingående uppdelning av ordklasserna substantiv, adjektiv och verb hänvisas läsaren till Granskas regelspråk (Knutsson, 2000). Tabell 4.3. Taggar som används i Granska. Tagg Betydelse Exempel ab adverb redan, också dt determinerare (artikel) den, det jj adjektiv stark, grön kn konjunktion och, som mad skiljetecken i slutet av en mening.! mid skiljetecken inom en mening, - nn nomen (substantiv) bil, träd pm pronomen hon, han pn egennamn Sven, Frida pp preposition för, till rg räkneord grundtal två,fem ro räkneord ordningstal andra, tredje vb verb hoppa, gå Exempel på hur Granskas taggar kan se ut för orden substantivet bilen, adjektivet grön och verbet hoppade kan ses i tabellen nedan. Tabell 4.4. Exempel på taggar i Granska. Ordklass Ord Tagg substantiv bilen nn.utr.sin.def.nom adjektiv grön jj.pos.utr.sin.ind.nom verb hoppade vb.prt.akt 37

48 KAPITEL 4. EXPERIMENTELL ANALYS 4.2 Förberedande taggning av Parole För att kunna gruppera idiom som innehåller verb krävs det att man vet grundformen för verbet. Utan gruppering skulle det leda till att ett idiom med ett verb i olika tempus kan förekomma flera gånger. Exempel, idiomet hamna på efterkälken kan verbet ha formerna hamna, hamnade och hamnat. Istället för tre olika idiom kan borttagning av den grammatiska variationen leda till att det ger ett idiom med högre frekvens. Den högre frekvensen ger större sannolikhet att trigrammet lägger sig över tröskeln för vad som är en acceptabel frekvens. Korpusen Parole är idag utformad med morfosyntaktisk information om varje ord men saknar information om grundformen, se tabell 4.5. En lösning som ger tillgång till grundformen för verben är att tagga korpusen igen med en taggare som ger både morfosyntaktisk information och grundform. Till hjälp att tagga korpusen med ordklasser och grundform användes grammatikgranskaren Granska. Tabell 4.5. Några rader från korpusen Parole. Ord word=den word=här word=historien word=tilldrog word=sej word=under word=den word=där word=våren word=och word=sommaren Tagg msd=rg0s msd=sps msd=rg0s msd=ccs En annan orsak till att Parole har taggats med Granska var för att Parole använder egendefinierade morfosyntaktiska taggar som kan vara svåra att återskapa på andra korpusar. Det program som använts vid den ursprungliga taggningen av Parole kan vara svårt att få fysisk tillgång till. Även om man lyckas med det ställs även frågan om vilka inställningar som använts. Med hjälp av Granska kan andra korpusar taggas upp med morfosyntaktisk information och grundform. Detta underlättar för byggandet av en applikation, då hänsyn till olika uppsättningar av taggar inte behöver tas. 38

49 KAPITEL 4. EXPERIMENTELL ANALYS Vid taggning av en stor korpus kan det underlätta med att dela upp den i mindre delar. Det förenklar eventuell felhantering. Taggningen av korpusen behöver då inte starta om från början utan kan fortgå från där felet uppstod. Viktigt att tänka på när korpusen byggs ihop är ordningen på filerna. Felaktig ordning leder till att det skapas en ny korpus. Varje ord i originalkorpusen fick av Granska en morfosyntaktisk tagg och ett lemma, se tabell 4.6. Tabell 4.6. Korpusen har taggats av Granska på servern. Ord Tagg Lemma den+här dt.utr.sin.def den+här historien nn.utr.sin.def.nom historia tilldrog vb.prt.akt tilldra sej pn.utr/neu.sin/plu.def.obj sig under pp under den+där dt.utr.sin.def den+där våren nn.utr.sin.def.nom vår och kn och sommaren nn.utr.sin.def.nom sommar som hp som aldrig ab aldrig föregicks vb.prt.sfo föregå av pp av någon dt.utr.sin.ind någon riktig jj.pos.utr.sin.ind.nom riktig vinter nn.utr.sin.ind.nom vinter. mad. 39

50 KAPITEL 4. EXPERIMENTELL ANALYS 4.3 Analys av statistiska metoder De fyra metoderna t-test, chi-square, likelihood ratio och pointwise mutual information undersöktes för att hitta skillnader och likheter. Som referens användes en lista med bigram sorterade på frekvens hämtade från korpusen Parole. För att kunna jämföra metoderna utan påverkan från det att funktionsord premieras före vanliga ord används ordklasserna substantiv, adjektiv och verb till att bygga upp bigrammen. Tre verbtyper togs bort för att de hade stort genomslag. Det var hjälpverb (har), modala hjälpverb (ska, måste) och kopula (är). Tabellen nedan visar de tio högst rankade bigrammen enligt de olika metoderna. Totalt finns det ungefär 16 miljoner bigram. Siffrorna inom parentesen är frekvensen för bigrammet i korpusen. Tabell 4.7. De tio högst rankade bigrammen i Parole efter statistisk metod. Rank Frekvens T-test Chi-square miljoner kronor (5258) förra året (2603) hela tiden (2431) miljarder kronor (2209) miljoner kronor (5258) förra året (2603) hela tiden (2431) miljarder kronor (2209) 5 bl a (1815) bl a (1815) nästa år (1558) många år (1308) hel del (1242) senaste åren (1099) lång tid (966) nästa år (1558) många år (1308) hel del (1242) senaste åren (1099) lång tid (966) miljoner kronor (5258) förra året (2603) miljarder kronor (2209) senaste åren (1099) hel del (1242) hela tiden (2431) förra veckan (946) nästa år (1558) nästa vecka (659) flera gånger (709) Likelihood ratio miljoner kronor (5258) förra året (2603) miljarder kronor (2209) nästa år (1558) hel del (1242) senaste åren (1099) förra veckan (946) många år (1308) lång tid (966) offentliga sektorn (435) Pointwise mutual information katastroffilmen återupplivad (5) harm reduction (6) godhjärtade klockringaren (5) vanhedens affärssinnade (5) sea containers (6) kroki medtag (6) völvans kväde (6) femme fatale (5) lella röa (5) marknära ozon (5) För t-test och chi-square används avvikelsemåtten (3.21) och (3.2) för rankningen. Huvudsyftet här är inte att göra en signifikanstest (i så fall skulle man också ta hänsyn till de multipla testerna, vilket inte gjorts) utan att få en praktiskt användbar sållning av kandidater. 40

51 KAPITEL 4. EXPERIMENTELL ANALYS Till synes ger t-test, chi-square och likelihood ratio liknande resultat. Det blir ingen större skillnad ifall man jämför med att sortera bigrammen efter frekvens. Annorlunda åstadkom pointwise mutual information som gav både utländska kollokationer och några intressanta kollokationer enligt mitt tycke. De utländska orden i bigrammen kommer ifrån att Granska taggar dem som svenska ord. Problemen med de statistiska metoder chi-square och pointwise mutual information visade sig vid beräkningar av deras värden. Chi-square gav extremt höga värden då den gemensamma förväntade frekvensen E 11 understiger värdet 1. De bigrammen sorterades bort från de övriga. Pointwise mutual information visar tydligt att den prioriterar bigram med en låg gemensam frekvens O 11. Där sattes ett gränsvärde på att frekvensen O 11 skulle överstiga eller vara lika med värdet 5. Det behöver inte vara till en nackdel. Idiom förekommer inte frekvent i korpusen utan har ofta en låg frekvens. Vilket borde kunna ge idiom en fördel mot andra kollokationer. Vid en snabb överblick av vad de olika statistiska metoderna plockar ut för olika kollokationer hittas inga idiom. Att endast använda dessa metoder för extraktion av idiom ger uppenbarligen inga bra resultat. 41

52 KAPITEL 4. EXPERIMENTELL ANALYS 4.4 Metod för att hitta liknelser Idiom verkar vara mycket svåra att hitta med enkla statistiska metoder. Liknelser som brukar räknas till idiom kan vara lättare att hitta i texter. De innehåller ett fast mönster av orden som en och som ett. Exempel, rik som ett troll, envis som en åsna. Liknelser används när man vill förstärka ett ord. För det mesta jämför man ordet med ett djur som har en speciell egenskap. Om man väljer ut adjektiven stark, fattig och flitig. Vad tänker man på för djur då? De flesta skulle nog ha svarat stark som en oxe/björn, fattig som en kyrkråtta och flitig som en myra. Liknelser med djur har gemensamt att de börjar med ett adjektiv i formen positiv följt av orden som en/ett och slutar med ett substantiv. Mönstret täcker inte alla liknelser. De som börjar med ett verb till exempel skina som en sol kommer inte mönstret att kunna fånga upp. Mönstret ( adjektiv som en/ett substantiv ) som tagits fram testas sedan praktiskt på korpusen Parole. Totalt ger mönstret 37 olika förslag till liknelser. Tröskeln för vad som godkändes som minsta frekvens var satt till två förekomster. Av de förslagen finns det fyra som kan tas bort. De har alla en frekvens av två förekomster. Fraserna var motiverad som ett främjande, avsedd som en satir, förenklad som ett läromedel och gjord som ett specialarbete. Tabell 4.8. Liknelser i korpusen Parole. Antal Liknelse 6 rik som ett troll 6 stel som en pinne 6 glad som en lärka 5 vit som ett lakan 5 stor som ett hus 4 spänd som en fiolsträng 4 fattig som en kyrkråtta 4 frisk som en nötkärna 4 platt som en pannkaka 3 tung som en sten 3 arg som ett bi 3 stor som en fotbollsplan 3 genomskinlig som en manet 3 stolt som en tupp 3 hungrig som en varg 3 hög som en man 2 vacker som en tavla 2 bred som en lagårdsdörr 2 stel som en eldgaffel 2 kall som en fisk 2 motiverad som ett främjande 2 stark som en björn 2 avsedd som en satir 2 svullen som en tennisboll 2 rak som en fura 2 stark som en oxe 2 stor som ett duvägg 2 dum som ett spån 2 lång som en flaggstång 2 förenklad som ett läromedel 2 svag som en kattunge 2 gjord som ett specialarbete 2 lycklig som ett barn 2 blank som en skogstjärn 2 vig som en ekorre 2 liten som en prick 2 stor som ett sovrum 42

53 KAPITEL 4. EXPERIMENTELL ANALYS Det kan vara svårt att veta på vilken frekvens tröskeln ska dras. Sätter man en för hög tröskel försvinner säkert ett stort antal korrekta liknelser medan resultat blir bättre. Vid en låg tröskeln hittas fler liknelser medan resultat blir sämre. Balansen måste hittas mellan att ha kvalitet eller kvantitet. Vid en körning på korpusen SUC med en miljon ord hittades en liknelse. Liknelsen stolt som en tupp förekom två gånger i korpusen. Det verkar som om liknelser inte används ofta i texter utan existerar mest i samspråk mellan personer. Slutsatsen blir att de krävs en större mängd autentiska texter för att hitta liknelser. 43

54 KAPITEL 4. EXPERIMENTELL ANALYS 4.5 Olika ordklassmönster på idiom Som tidigare nämnts räcker det inte med att använda statistiska metoder för att hitta idiom. Det behövs något annat utöver de metoderna. Ett förslag som andra har använt är att utnyttja den morfosyntaktiska informationen för att göra ett urval ur korpusen. Genom att bestämma ett mönster för ordens taggar gallras de mindre givande kollokationerna bort. Mönstren kan se olika ut beroende på önskat resultat. Exempel på mönster som använts för att hitta kollokationer i engelska texter ses i tabellen nedan (Benson, Benson & Ilson 1986; Goldman, 2001). Tabell 4.9. Olika mönster för att hitta kollokationer. Benson m.fl VB-NN, NN-JJ, NN-VB, NN-PP-NN, JJ-AB, VB-AB Goldman m.fl NN-JJ, NN-NN, NN-PP-NN, NN-VB, VB-PP, VB-PP-NN VB: Verb NN: Substantiv JJ: Adjektiv PP: Preposition AB: Adverb Har de svenska idiomen liknande mönster som för engelska kollokationer? För att kunna svara på den frågan behövs en lista med svenska idiom. Boken Svenska idiom av Hans Luthman innehåller vardagsuttryck (Luthman, 2006). Genom att göra en liten analys av utvalda sidor i boken hittas ett mönster som återkommer hos flera idiom (VB-PP-NN). Mönstret kan exemplifieras med idiomen hamna på efterkälken, tänka på refrängen och komma till skott. I en annan undersökning jag utförde av mönster på svenska idiom, hämtas 432 svenska idiomatiska uttryck från Wikipedia. Uttrycken taggas med hjälp av Granska och sorteras efter förekomsten av de olika mönstren, se tabell Tabell Mönster på idiomatiska uttryck från Wikipedia Antal Mönster 32 VB-PP-NN 31 VB-NN-PP-NN 16 VB-PN-PP-NN 16 VB-NN 15 VB-PP-JJ-NN 13 NN-PP-NN 7 VB-PL-PP-NN 7 JJ-NN 6 VB-DT-NN 6 PP-JJ-NN 6 JJ-KN-DT-NN 44

55 KAPITEL 4. EXPERIMENTELL ANALYS Granskning av tabellen 4.10 visar att de flesta uttryck slutar med ett substantiv. Före substantivet är det vanligt med en preposition. De två mönster som förekommer flest gånger (VB-PP-NN) och (VB-NN-PP-NN) finns båda representerade i tabellen över de engelska mönstren med (VB-PP-NN) respektive (NN-PP-NN). Vi kan även se att mönster som (NN-JJ) och (NN-NN) inte finns med bland de svenska idiomen. Idiom som matchar mönstret (VB-NN-PP-NN) kan vara ana ugglor i mossen, vara spindeln i nätet och lägga lök på laxen. Mönstret (VB-PN-PP-NN) kan förklaras med exemplet bita sig i läppen. En annan intressant uppgift som hämtas från de idiomatiska uttrycken från Wikipedia är antal ord som ingår i idiomen. Diagrammet nedan visar hur idiomen fördelar sig beroende av antalet ord som ingår i uttrycket. De flesta idiomen har en längd av tre eller fyra ord. Figur 4.1. Längder på olika idiom från Wikipedia. Extraheras uttryck med en längd av tre, kommer en del med en eller fler ord att inkluderas i resultatet. Det göra att om man väger samman mönster och längd på idiomen borde ett mönster på (NN-PP-NN) och (VB-PP-NN) filtrera ut en del trigram som är idiomatiska. Låt oss testa de två mönstren på korpusen Parole. 45

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Statistiska analyser C2 Inferensstatistik. Wieland Wermke + Statistiska analyser C2 Inferensstatistik Wieland Wermke + Signifikans och Normalfördelning + Problemet med generaliseringen: inferensstatistik n Om vi vill veta ngt. om en population, då kan vi ju fråga

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Uppgift 1. Produktmomentkorrelationskoefficienten

Uppgift 1. Produktmomentkorrelationskoefficienten Uppgift 1 Produktmomentkorrelationskoefficienten Både Vikt och Längd är variabler på kvotskalan och således kvantitativa variabler. Det innebär att vi inte har så stor nytta av korstabeller om vi vill

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Datorlaboration 2 Konfidensintervall & hypotesprövning

Datorlaboration 2 Konfidensintervall & hypotesprövning Statistik, 2p PROTOKOLL Namn:...... Grupp:... Datum:... Datorlaboration 2 Konfidensintervall & hypotesprövning Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta den statistiska

Läs mer

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram 2.1 Grundläggande matematik 2.1.1 Potensfunktioner xmxn xm n x x x x 3 4 34 7 x x m n x mn x x 4 3 x4 3 x1 x x n 1 x n x 3 1 x 3 x0 1 1

Läs mer

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Maia Andréasson, Susanna Karlsson, Erik Magnusson och Sofia Tingsell Att de finita formerna av verbet ha, dvs. har och hade, kan utelämnas när

Läs mer

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl. 09.00-13.00

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl. 09.00-13.00 Karlstads universitet Institutionen för informationsteknologi Avdelningen för statistik Tentamen i Statistik, STA A13 Deltentamen, 5p 4 januari 004, kl. 09.00-13.00 Tillåtna hjälpmedel: Ansvarig lärare:

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Lösningar till SPSS-övning: Analytisk statistik

Lösningar till SPSS-övning: Analytisk statistik UMEÅ UNIVERSITET Statistiska institutionen 2006--28 Lösningar till SPSS-övning: Analytisk statistik Test av skillnad i medelvärden mellan två grupper Uppgift Testa om det är någon skillnad i medelvikt

Läs mer

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig.

Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig. Mål med Mango Språk Få ett utökat ordförråd och därmed förbättrad läsförståelse och förmåga att uttrycka sig. Kunna förstå och använda uttryck såsom idiom, ordpar och ordspråk. Behärska olika strategier

Läs mer

12 Programstege Substantiv

12 Programstege Substantiv Det här är en programstege för substantiv. Du kan alltså lära dig om substantiven på ett enkelt sätt, en liten bit i taget. Varje sida innehåller fakta om substantiv, tillsammans med uppgifter som du också

Läs mer

Språket, individen och samhället VT08

Språket, individen och samhället VT08 Språket, individen och samhället VT08 Barns och vuxnas andraspråksinlärning Tvåspråkighet, kognition, m.m. Ellen Breitholtz 1. Barns och vuxnas andraspråksinlärning Vem är bäst? Vem är bäst på att lära

Läs mer

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning. UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Dagens föreläsning Fördjupning av hypotesprövning Repetition av p-värde och konfidensintervall Tester för ytterligare situationer

Läs mer

Anvisningar för utformning av sammandrag som mognadsprov

Anvisningar för utformning av sammandrag som mognadsprov För studerande vid ARTS som ska skriva ett sammandrag av sitt examensarbete som sitt mognadsprov Anvisningar för utformning av sammandrag som mognadsprov Vad är ett mognadsprov? Studerande som har svenska

Läs mer

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.'' Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.'' Hjälpmedel:'Valfri'räknare,'egenhändigt'handskriven'formelsamling'(4''A4Esidor'på'2'blad)' och'till'skrivningen'medhörande'tabeller.''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''

Läs mer

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på

Läs mer

Lennart Carleson. KTH och Uppsala universitet

Lennart Carleson. KTH och Uppsala universitet 46 Om +x Lennart Carleson KTH och Uppsala universitet Vi börjar med att försöka uppskatta ovanstående integral, som vi kallar I, numeriskt. Vi delar in intervallet (, ) i n lika delar med delningspunkterna

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Lektion 3. Anteckningar

Lektion 3. Anteckningar Lektion 3 Anteckningar Fraser: Tid Klockan Uttal (pronunciation) Långa och korta ljud + melodi Grammatik: Word order + Basics of the clause elements Vi lär oss klockan! Halv Kvart i, kvart över Tjugo i,

Läs mer

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen 1. One-Sample T-Test 1.1 När? Denna analys kan utföras om man vill ta reda på om en populations medelvärde på en viss variabel kan antas

Läs mer

Lektion 1: Fördelningar och deskriptiv analys

Lektion 1: Fördelningar och deskriptiv analys Density Lektion 1: Fördelningar och deskriptiv analys 1.,3 Uniform; Lower=1; Upper=6,3,2,2,1,, 1 2 3 X 4 6 7 Figuren ovan visar täthetsfunktionen för en likformig fördelning. Kurvan antar värdet.2 över

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Uppgift 1. Deskripitiv statistik. Lön

Uppgift 1. Deskripitiv statistik. Lön Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot

Läs mer

Föreläsning 3.1: Datastrukturer, en översikt

Föreläsning 3.1: Datastrukturer, en översikt Föreläsning.: Datastrukturer, en översikt Hittills har vi i kursen lagt mycket fokus på algoritmiskt tänkande. Vi har inte egentligen ägna så mycket uppmärksamhet åt det andra som datorprogram också består,

Läs mer

Tentamen MVE300 Sannolikhet, statistik och risk

Tentamen MVE300 Sannolikhet, statistik och risk Tentamen MVE3 Sannolihet, statisti och ris 215-6-4 l. 8.3-13.3 Examinator: Johan Jonasson, Matematisa vetensaper, Chalmers Telefonvat: Johan Jonasson, telefon: 76-985223 31-7723546 Hjälpmedel: Typgodänd

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Träningshäfte ordklasser (Venus)

Träningshäfte ordklasser (Venus) Träningshäfte ordklasser (Venus) Substantiv 1. Stryk under substantiven bland följande ord (8 st) glad simma luft koka barnslig tre oj därifrån vikt nej pojke moln lycka jord överenskommelse Pelle femte

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 (2016-05-02) OCH INFÖR ÖVNING 9 (2016-05-09)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 (2016-05-02) OCH INFÖR ÖVNING 9 (2016-05-09) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 (2016-05-02) OCH INFÖR ÖVNING 9 (2016-05-09) Aktuella avsnitt i boken är Kapitel 7. Lektionens mål: Du

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01

Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Rapport från Praktik på SVOX AG 2008 05 14 till 2008 09 01 Om SVOX AG Jag gjorde min praktik på företaget SVOX AG, ett företag som bygger och sysslar med TTSmotorer. Företaget bildades våren 2000 och har

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2013-01-18 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Ove

Läs mer

Algoritm för uppskattning av den maximala effekten i eldistributionsnät med avseende på Nätnyttomodellens sammanlagringsfunktion

Algoritm för uppskattning av den maximala effekten i eldistributionsnät med avseende på Nätnyttomodellens sammanlagringsfunktion Algoritm för uppskattning av den maximala effekten i eldistributionsnät med avseende på Nätnyttomodellens sammanlagringsfunktion Carl Johan Wallnerström December 2005 Kungliga Tekniska Högskolan (KTH),

Läs mer

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Beskrivande statistik Kapitel 19. (totalt 12 sidor) Beskrivande statistik Kapitel 19. (totalt 12 sidor) För att åskådliggöra insamlat material från en undersökning används mått, tabeller och diagram vid sammanställningen. Det är därför viktigt med en grundläggande

Läs mer

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

ENGELSKA ÅRSKURS 3 ÅRSKURS 4 ENGELSKA ÅRSKURS 3 - utveckla ett intresse för engelska språket. - lära sig att uppfatta, förstå och våga tala engelska och agera enligt individuell förmåga. - göra sig förstådda i för dem nära och vardagliga

Läs mer

Begrepp Värde (mätvärde), medelvärde, median, lista, tabell, rad, kolumn, spridningsdiagram (punktdiagram)

Begrepp Värde (mätvärde), medelvärde, median, lista, tabell, rad, kolumn, spridningsdiagram (punktdiagram) Aktivitetsbeskrivning Denna aktivitet är en variant av en klassisk matematiklaboration där eleverna får mäta omkrets och diameter på ett antal cirkelformade föremål för att bestämma ett approximativt värde

Läs mer

Broskolans röda tråd i Språkval

Broskolans röda tråd i Språkval Broskolans röda tråd i Språkval Regering och riksdag har fastställt vilka mål som svenska skolor ska arbeta mot. Dessa mål uttrycks i Läroplanen Lpo 94 och i kursplaner och betygskriterier från Skolverket.

Läs mer

8-1 Formler och uttryck. Namn:.

8-1 Formler och uttryck. Namn:. 8-1 Formler och uttryck. Namn:. Inledning Ibland vill du lösa lite mer komplexa problem. Till exempel: Kalle är dubbelt så gammal som Stina, och tillsammans är de 33 år. Hur gammal är Kalle och Stina?

Läs mer

En nybörjarkurs i kritiskt tänkande

En nybörjarkurs i kritiskt tänkande En nybörjarkurs i kritiskt tänkande Jesper Jerkert Andreas Anundi & CJ Åkerberg: Skeptikerskolan. Handbok i kritiskt tänkande. Stockholm: Forum, 2010, 226 s. ISBN 978-91-37-13588-5. Andreas Anundi och

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU KURSENS INNEHÅLL Statistiken ger en empirisk grund för ekonomin. I denna kurs betonas statistikens idémässiga bakgrund och

Läs mer

Analys av korstabeller

Analys av korstabeller Analys av korstabeller Analys av korstabeller hänvisar generellt till den situation, där vi betraktar era kategoriska variabler samtidigt och vill dra slutsatser m.a.p. beroendestrukturen dem emellan.

Läs mer

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen LINKÖPINGS UNIVERSITET Institutionen för Datavetenskap Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen Namn E-mail Evelina Rennes evere305@student.liu.se INNEHÅLL INNEHÅLL

Läs mer

36 poäng. Lägsta poäng för Godkänd 70 % av totalpoängen vilket motsvarar 25 poäng. Varje fråga är värd 2 poäng inga halva poäng delas ut.

36 poäng. Lägsta poäng för Godkänd 70 % av totalpoängen vilket motsvarar 25 poäng. Varje fråga är värd 2 poäng inga halva poäng delas ut. Vetenskaplig teori och metod Provmoment: Tentamen 3 Ladokkod: VVT012 Tentamen ges för: SSK05 VHB 7,5 högskolepoäng TentamensKod: Tentamensdatum: 2012-04-27 Tid: 09.00-11.00 Hjälpmedel: Inga hjälpmedel

Läs mer

!!!! !! 1. Tala är silver, tiga är visdom. Margareta Hellgren. Användningen av konventionaliserade

!!!! !! 1. Tala är silver, tiga är visdom. Margareta Hellgren. Användningen av konventionaliserade Uppsala universitet Institutionen för nordiska språk Examensarbete 15 hp Svenska som andraspråk C Ht 2014 Tala är silver, tiga är visdom Användningen av konventionaliserade flerordsuttryck hos vuxenstuderande

Läs mer

Ordbok arabiska - svenska

Ordbok arabiska - svenska 1 Ordbok arabiska - svenska Denna ordboks webbadress är: http://www.swedishmekteb.se/arabiska/index.html 2 Chapter 1 Inledning 1.1 Om ordboken Sedan hösten 2009 pågår Swedish Mektebs studiecirkel i arabiska

Läs mer

KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter

KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter *Skatteverket 1(10) KLARSPRÅK PÅ WEBBEN riktlinjer för webbskribenter Våra webbtexter, liksom alla texter vi producerar för externt bruk på Skatteverket, ska vara skrivna på ett sätt som gör att läsaren

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

Bonusmaterial till Lära och undervisa matematik från förskoleklass till åk 6. Ledning för att lösa problemen i Övningar för kapitel 5, sid 138-144

Bonusmaterial till Lära och undervisa matematik från förskoleklass till åk 6. Ledning för att lösa problemen i Övningar för kapitel 5, sid 138-144 Bonusmaterial till Lära och undervisa matematik från förskoleklass till åk 6 Ledning för att lösa problemen i Övningar för kapitel 5, sid 138-144 Avsikten med de ledtrådar som ges nedan är att peka på

Läs mer

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk Beteckning: Institutionen för humaniora och samhällsvetenskap Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk Emma Selin December 2009 Examensarbete med didaktisk

Läs mer

Vätebränsle. Namn: Rasmus Rynell. Klass: TE14A. Datum: 2015-03-09

Vätebränsle. Namn: Rasmus Rynell. Klass: TE14A. Datum: 2015-03-09 Vätebränsle Namn: Rasmus Rynell Klass: TE14A Datum: 2015-03-09 Abstract This report is about Hydrogen as the future fuel. I chose this topic because I think that it s really interesting to look in to the

Läs mer

Kurskod: TAMS11 Provkod: TENB 28 August 2014, 08:00-12:00. English Version

Kurskod: TAMS11 Provkod: TENB 28 August 2014, 08:00-12:00. English Version Kurskod: TAMS11 Provkod: TENB 28 August 2014, 08:00-12:00 Examinator/Examiner: Xiangfeng Yang (Tel: 070 2234765) a. You are permitted to bring: a calculator; formel -och tabellsamling i matematisk statistik

Läs mer

Kommunikation. Kunna redovisa ett arbete muntligt så att innehållet framgår och är begripligt

Kommunikation. Kunna redovisa ett arbete muntligt så att innehållet framgår och är begripligt Kommunikation SO/SV År 6 v. 16-20 Under tema kommunikation kommer vi att arbeta med järnvägenshistoria i Sverige både inom svenska och SO. Lektionerna kommer att blandas med föreläsningar, enskilda uppgifter

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

STUDIETEKNIK. Till eleven

STUDIETEKNIK. Till eleven STUDIETEKNIK Till eleven Tro på dig själv! För att du ska lyckas riktigt bra med dina studier, måste du tro på din egen förmåga. Försök tänka på något som du är bra på, för då stärker du ditt självförtroende

Läs mer

Samverkande Expertnät

Samverkande Expertnät 1 Samverkande Expertnät 2 3 1 2 3 Parallella nätverk Sammanvägning av svaren Två olika fördelar Utjämna egenheter hos nätverken Låt nätverken specialisera sig Egenskaper hos ett enkelt nätverk Överträning

Läs mer

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p) Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSLÄRA OCH STATISTIK MÅNDAGEN DEN 17 AUGUSTI 2009 KL 08.00 13.00. Examinator: Gunnar Englund, tel. 790 74 16. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan. Sökexempel - Hälsovägledare Hälsovägledning med inriktning mot olika folkhälsoproblem som t ex rökning, tips på hur man går tillväga för att göra en datasökning och hur man även kontrollerar om artiklarna

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Finns det en skillnad mellan vad barn tror sig om att klara jämfört med vad de faktiskt klarar?

Finns det en skillnad mellan vad barn tror sig om att klara jämfört med vad de faktiskt klarar? Praktiknära forskning inom ämnet idrott och hälsa Rapport nr. 3: 2006 Finns det en skillnad mellan vad barn tror sig om att klara jämfört med vad de faktiskt klarar? En studie kring barns självvärderingar

Läs mer

http://www.leidenhed.se Senaste revideringen av kapitlet gjordes 2014-05-08, efter att ett fel upptäckts.

http://www.leidenhed.se Senaste revideringen av kapitlet gjordes 2014-05-08, efter att ett fel upptäckts. Dokumentet är från sajtsidan Matematik: som ingår i min sajt: http://www.leidenhed.se/matte.html http://www.leidenhed.se Minst och störst Senaste revideringen av kapitlet gjordes 2014-05-08, efter att

Läs mer

Att analysera andraspråkstexter

Att analysera andraspråkstexter Handledare: Britta Herder Examinator: Sofia Ask G3 GO1183 15 hp 2011-01-30 G2 G3 Avancerad nivå Att analysera andraspråkstexter En undersökning av två analysmetoder: processbarhetsteorin och performansanalysen

Läs mer

HotCollection Träffsäkra analyser av svenskarnas TV-tittande. HotTimeDetalj

HotCollection Träffsäkra analyser av svenskarnas TV-tittande. HotTimeDetalj HotTimeDetalj Introduktion I modulen HotTime Detalj analyserar man i huvudsak tidsslottar, dvs egenhändigt sammansatta tidsperioder. Dessa tidsperioder kan studeras som helhet såväl som exempelvis kvart

Läs mer

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007) Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket

Läs mer

Exempel från föreläsningar i Matematisk Statistik

Exempel från föreläsningar i Matematisk Statistik Exempel från föreläsningar i Matematisk Statistik 2015 Födelsedagsparadoxen Antag att k slumpmässigt utvalda individer samlas i ett rum. Vad är sannolikheten att åtminstone två av individerna har samma

Läs mer

DATORÖVNING 3: MER OM STATISTISK INFERENS.

DATORÖVNING 3: MER OM STATISTISK INFERENS. DATORÖVNING 3: MER OM STATISTISK INFERENS. START Logga in och starta Minitab. STATISTISK INFERENS MED DATORNS HJÄLP Vi fortsätter att arbeta med datamaterialet från datorävning 2: HUS.xls. Som vi sett

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (8 uppgifter) Tentamensdatum 2012-01-13 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: Adam Jonsson, Ove

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I SF1902 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 23:E MAJ 2013 KL 14.00 19.00. Kursledare och examinator : Björn-Olof Skytt Tillåtna hjälpmedel: miniräknare, lathund

Läs mer

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling

Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling Uppsala universitet Institutionen för nordiska språk C-uppsats 15 hp Svenska som andraspråk C VT 2013 Det görar ingenting om du frågar mycket. SFI-elevers semantiska och morfologiska utveckling Anna Arvidson

Läs mer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara

Läs mer

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta? Tentamen i Matematisk statistik, S0001M, del 1, 2008-01-18 1. Ett företag som köper enheter från en underleverantör vet av erfarenhet att en viss andel av enheterna kommer att vara felaktiga. Sannolikheten

Läs mer

Hur fattar samhället beslut när forskarna är oeniga?

Hur fattar samhället beslut när forskarna är oeniga? Hur fattar samhället beslut när forskarna är oeniga? Martin Peterson m.peterson@tue.nl www.martinpeterson.org Oenighet om vad? 1.Hårda vetenskapliga fakta? ( X observerades vid tid t ) 1.Den vetenskapliga

Läs mer

MEIJERBERGS ARKIV SVENSK ORDFORSKNING GÖTEBORG 2014 FÖR UTGIVET AV STYRELSEN FÖR MEIJERBERGS INSTITUT VID GÖTEBORGS UNIVERSITET GENOM BO RALPH

MEIJERBERGS ARKIV SVENSK ORDFORSKNING GÖTEBORG 2014 FÖR UTGIVET AV STYRELSEN FÖR MEIJERBERGS INSTITUT VID GÖTEBORGS UNIVERSITET GENOM BO RALPH MEIJERBERGS ARKIV FÖR SVENSK ORDFORSKNING UTGIVET AV STYRELSEN FÖR MEIJERBERGS INSTITUT VID GÖTEBORGS UNIVERSITET GENOM BO RALPH 40 GÖTEBORG 2014 HÅRTARBETE OCH STRÄNG VILA Svenska kollokationer i lexikografisk

Läs mer

Artighetsmarkörer? Om förstås och andra självklarhetsadverb

Artighetsmarkörer? Om förstås och andra självklarhetsadverb Artighetsmarkörer? Om förstås och andra självklarhetsadverb Peter Andersson, D-student i svenska Att behandla utvecklingen av några speciella ord i svenskan kan tyckas trivialt och möjligen uppfattas det

Läs mer

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs Statistikens grunder och 2, GN, hp, deltid, kvällskurs TE/RC Datorövning 3 Syfte:. Lära sig göra betingade frekvenstabeller 2. Lära sig beskriva en variabel numeriskt med proc univariate 3. Lära sig rita

Läs mer

Artiklarna. Grindenheten 2015-01-19. Ämne, årskurs och tidsperiod. Arbetsformer. Spanska, åk 6, vecka 2-8.

Artiklarna. Grindenheten 2015-01-19. Ämne, årskurs och tidsperiod. Arbetsformer. Spanska, åk 6, vecka 2-8. Grindenheten 2015-01-19 Ämne, årskurs och tidsperiod Spanska, åk 6, vecka 2-8. Artiklarna LOKAL PEDAGOGISK PLANERING (LPP) Susanna Bertilsson Arbetsformer VAD? Vi ska lära oss vad och vilka artiklarna

Läs mer

Användarhandledning Rapportgenerator Version: 1.1

Användarhandledning Rapportgenerator Version: 1.1 Användarhandledning Rapportgenerator Version: 1.1 Umefast AB 2008 www.umefast.se Innehåll 1. Rapportgenerator... 2 1.1. Syfte och avgränsningar... 2 1.2. Wizards... 2 1.3. Förutsättningar för arbete med

Läs mer

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p) UMEÅ UNIVERSITY Department of Mathematics and Mathematical Statistics Pre-exam in mathematics Linear algebra 2012-02-07 1. Compute the following matrix: (2 p 3 1 2 3 2 2 7 ( 4 3 5 2 2. Compute the determinant

Läs mer

Generellt kan vi säga att för att vi ska värdera ett argument som bra bör det uppfylla åtminstone följande kriterier:

Generellt kan vi säga att för att vi ska värdera ett argument som bra bör det uppfylla åtminstone följande kriterier: FTEA12:2 Föreläsning 3 Att värdera en argumentation I: Vad vi hittills har gjort: beaktat argumentet ur ett mer formellt perspektiv. Vi har funnit att ett argument kan vara deduktivt eller induktivt, att

Läs mer

Artiklarna. Grindenheten 2015-01-19. Ämne, årskurs och tidsperiod. Arbetsformer. Spanska, åk 6, vecka 3-10.

Artiklarna. Grindenheten 2015-01-19. Ämne, årskurs och tidsperiod. Arbetsformer. Spanska, åk 6, vecka 3-10. Grindenheten 2015-01-19 Ämne, årskurs och tidsperiod Spanska, åk 6, vecka 3-10. Artiklarna LOKAL PEDAGOGISK PLANERING (LPP) Susanna Bertilsson Arbetsformer VAD? Vi ska lära oss vad och vilka artiklarna

Läs mer

Inference in multiplicative pricing

Inference in multiplicative pricing Inference in multiplicative pricing Tariffanalysis med svaga antaganden Föredrag i aktuarieföreningen 2015-11-26 Stig Rosenlund Metoderna är implementerade i programspråket Rapp. För att hitta Rapp på

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

Att göra investeringskalkyler med hjälp av

Att göra investeringskalkyler med hjälp av MIO040 Industriell ekonomi FK 2013-02-21 Inst. för Teknisk ekonomi och Logistik Mona Becker Att göra investeringskalkyler med hjälp av Microsoft Excel 2007 Förord Föreliggande PM behandlar hur man gör

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer

Övning 4. Hashning, sortering, prioritetskö, bästaförstsökning. Hitta på en perfekt hashfunktion för atomer. Hur stor blir hashtabellen?

Övning 4. Hashning, sortering, prioritetskö, bästaförstsökning. Hitta på en perfekt hashfunktion för atomer. Hur stor blir hashtabellen? Per Sedholm DD1320 (tilda12) 2012-09-20 Övning 4 Hashning, sortering, prioritetskö, bästaförstsökning 1. Perfekt hashfunktion Hitta på en perfekt hashfunktion för atomer. Hur stor blir hashtabellen? Vi

Läs mer

Medelvärde och Median

Medelvärde och Median Medelvärde och Median Medelvärde och median Speldesign: Niklas Lindblad Josefin Westborg Version 1.0 Tack till; Alexander Hallberg Tidsåtgång: Ca 20 minuter inklusive efterdiskussion Antal deltagare Helklass,

Läs mer

Att välja sin framtid entreprenörskap

Att välja sin framtid entreprenörskap Ämne: Teknik Strävansmål - utvecklar kunskaper om rättigheter och skyldigheter i ett demokratiskt samhälle, - utvecklar sin förmåga att argumentera och uttrycka ståndpunkter samt en tilltro till den egna

Läs mer

Auktorisation som tolk

Auktorisation som tolk PROVSPECIFIKATION Auktorisation som tolk Prov i allmän språkfärdighet Sid 2 (6) 2014-04-24 Prov i språkfärdighet För att kunna bli auktoriserad som tolk krävs bland annat att man ska behärska svenska och

Läs mer

Laboration i Fourieroptik

Laboration i Fourieroptik Laboration i Fourieroptik David Winge Uppdaterad 4 januari 2016 1 Introduktion I detta experiment ska vi titta på en verklig avbildning av Fouriertransformen. Detta ska ske med hjälp av en bild som projiceras

Läs mer

Kommentarmaterial, Skolverket 1997

Kommentarmaterial, Skolverket 1997 Att utveckla förstf rståelse för f r hela tal Kommentarmaterial, Skolverket 1997 Att lära sig matematik handlar om att se sammanhang och att kunna föra logiska resonemang genom att känna igen, granska

Läs mer

Software Translator 6.1 Manual

Software Translator 6.1 Manual Software Translator 6.1 Manual 1 Innehåll Sidan Inledning 3 Installation 4 Auktorisation 4 Översikt Programfönster 5 Menyer Arkiv 5 Visa 6 Språk 6 Verktyg 7 Hjälp 7 Handhavande Att lägga till ett program

Läs mer

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER LAT110 Latin, grundkurs, 30 högskolepoäng Latin, Introductory Course, 30 higher education credits Fastställande Kursplanen är preliminär, fastställd av Humanistiska

Läs mer