Grundläggande textanalys, VT2013

Relevanta dokument
Grundläggande textanalys. Joakim Nivre

Korpussökning och korpusmått 1(44)

STRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar

Anvisningar till skribenter

Meningssegmentering i SUC och Talbanken

Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek

Att citera och referera

Grundläggande textanalys, VT2013

729G09 Språkvetenskaplig databehandling

GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

REFERENSHANTERING. Svenska Jonathan Thorsell

Kursplaneöversättaren. Lina Stadell

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Rapportskrivning. Innehållsförteckning, källhänvisning, referenssystem, sidnumrering

Noter och referenser - Oxfordsystemet

Referenser med SLUs Harvardsystem i Sharelatex - användning av Zotero och Biblatex

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Labb 1 - Textbearbetning med reguljära uttryck. Formella språk. Definitioner. Chomskyhierarkin. Formella språk. Formella språk

Anvisningar till rapporter i psykologi på B-nivå

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

När man använder någon annans text

Lathund för rapportskrivning

Tentamen Marco Kuhlmann

Källuppgifter i fysik FAFA55

Att skriva sakprosa och facktext Några viktiga anvisningar för studenter på grundnivå Senast reviderade HT 2011 av Ann Boglind och Hans Landqvist

Fonetisk text och förkortningar i. Dialog Nova och Polycom Dialog

Grundläggande textanalys, VT2012

Data visualization on Android

Rapporter En lathund för studenter

5 TIPS. om skiljetecken från Lotten Bergman

729G09 Språkvetenskaplig databehandling

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Att skriva PM. En promemoria ska innehålla följande:

Mälardalens högskola

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport

Publikationstyp Artikel i tidskrift, Artikel, forskningsöversikt och Artikel, recension

EXAMENSARBETE för Nationell montessoriexamen

Praktiska skrivråd för hassleholm.se

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

RAPPORTSKRIVNING. Skolans namn Program, kurs, läsår Undervisande lärares namn. (titel på arbetet)

UTBILDNING & ARBETE Uppsatsskrivandets ABC

(Förskollärarprofilen och Förskollärarprogrammet på Avdelningen för förskoledidaktik, BUV, Stockholms universitet)

Standard Template Library

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

Språkets struktur och funktion, 7,5 hp

Aristi Fernandes Examensarbete T6, Biomedicinska analytiker programmet

Uppsatsskrivandets ABC

Litteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund

SKOLPORTENS NUMRERADE ARTIKELSERIE FÖR UNDERVISNING, LÄRANDE OCH LEDARSKAP SKRIVREGLER FÖR SKOLPORTENS ARTIKELSERIE LEDA & LÄRA

MÖSG ht 2005 Maskinöversättningssystemet MATS

DAB760: Språk och logik

Att skriva rapporten för examensarbetet & sammanfattning av IMRAD. Ville Jalkanen TFE, UmU

Registrera/publicera avhandling (sammanläggningsavhandling)

Att skriva en vetenskaplig rapport

PM P R O M E M O R I A

Kapitel 12. Mer om program Att rapportera buggar och problem make

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater

Modevetenskap II. Vetenskapligt skrivande, 7,5 hp, VT-16 Kursbeskrivning och Litteraturlista. Kursansvarig: Louise Wallenberg

Både förslag till manuskript och färdiga manuskript ska skickas till redaktionen som elektronisk post. E-postadressen är:

F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Datorer i system! Roger Henriksson!

Harvardmetoden en liten lathund

Plagiatpolicy för den medicinska fakulteten

F2 Datarepresentation talbaser, dataformat och teckenkodning

Publikationstyp Kapitel i bok, del av antologi

Skrivguide. Tillhör:

Anvisningar för skriftliga arbeten på Pol Kand-programmet samt kurser i statsvetenskap och nationalekonomi

LTH Ingenjörshögskolan

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport

Att skriva en vetenskaplig rapport

Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen

Studiehandledning. 7,5 högskolepoäng KURSKOD: DIA47F. Vårterminen 2014

Projektarbetet 100p L I T E O M I N T E R V J U E R L I T E O M S K R I V A N D E T A V A R B E T E T S A M T L I T E F O R M A L I A

TITEL -ev.undertitel-

Bedömning av Examensarbete (30 hp) vid Logopedprogrammet Fylls i av examinerande lärare och lämnas i signerad slutversion till examinator

LABORATION 4: Textmanipulering Introduktion till lingvistik och datalingvistik XD1110

Värderingsförmåga och förhållningssätt Reflektera över värdet av normer för det akademiska samtalet

Seminarium: Att skriva en akademisk uppsats. LT200X Stefan Stenbom

Akademiskt skrivande I

Att skriva akademisk text. referatteknik. Studieverkstaden Campus Helsingborg (E204b) Lunds universitet Ulla Urde

Arbetarhistoria anvisningar för utformning av manuskript

Ersätta text, specialtecken och formatering

Introduktion till språkteknologi. Datorstöd för språkgranskning

Kursnamn XX poäng Rapportmall. Författare: (Skrivs i bokstavsordning om flera) Handledare:

Ing 1a LTH Ingenjörshögskolan Välkomna! Ingenjörsmässighet - Engineering skills. Vad händer idag? ITIK. ITIK certifiering - CITIK

KN - Seminarium. Konkreta krav. Kort om kursen. Grov tidtabell HT Kurskod: 6511 Ämnesstudier, 3 sv (5 sp)

Ing 1a. Välkomna! Vad händer idag? Ingenjörsmässighet - Engineering skills. Lunds Tekniska Högskola LUNDS UNIVERSITET

IMPORTERA POSTER TILL DIVA Anvisning för export av poster från andra databassystem för import till DiVA

FORMALIA EXAMENSARBETE

Biblioteken, Futurum 2017

Referenser enligt Harvardsystemet. en introduktion. Version 2.1, 2016 Biblioteket & Studieverkstan

Att skriva en vetenskaplig rapport

SÅ HÄR SKRIVER VI PÅ HÖGSKOLAN I BORÅS. Skrivhandbok för begripliga texter

Mobil streckkodsavläsare

tjejit en studie av kvinnors låga deltagande vid Karlstads Universitets IT-utbildningar

C++ Lektion Tecken och teckenfält

Så, ska det taggas som adverb?

Transkript:

Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.)

Idag - Preprocessing - Tokeniserings- och segmenteringsproblematik - Strategier för att förbättra tokeniseringen - Laboration 1 2

Preprocessing 3

Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. 4

Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 5

Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 2. Ta bort oönskad kodning, till exempel html-taggar 6

Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 2. Ta bort oönskad kodning, till exempel html-taggar 3. Ta bort skräp dubbla mellanslag, tabbar avvikande radbrytningar 7 --- CRLF = Carriage Return Line Feed (ger en extra nyrad)

Grefenstette och Tapanainen 1994 - Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. 8

Grefenstette och Tapanainen 1994 - Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. - Material: Brown Corpus (Frances och Kucera, 1961) - 1 miljon ord på amerikansk engelska - balanserad korpus dvs sammansatt med eftertanke material från press, facklitteratur och skönlitteratur 9

Grefenstette och Tapanainen 1994 - Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. - Material: Brown Corpus (Frances och Kucera, 1961) - 1 miljon ord på amerikansk engelska - balanserad korpus dvs sammansatt med eftertanke material från press, facklitteratur och skönlitteratur - Metod: Filter uttryckta med reguljära uttryck 10

Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra 11

Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. 12

Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown 101 860 radslut, varav 12473 (12 %) slutar med bokstav och bindestreck. 13

Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown 101 860 radslut, varav 12473 (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* 14

Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown 101 860 radslut, varav 12473 (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* Detta gav 11 858 korrekta sammanfogningar och 615 felaktiga, dvs ca 95 % av sammanfogningarna blev rätt. 15

Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown 101 860 radslut, varav 12473 (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* Detta gav 11 858 korrekta sammanfogningar och 615 felaktiga, dvs ca 95 % av sammanfogningarna blev rätt. - De felaktiga sammanfogningarna bestod av ord som inte fanns i orginaltexten, till exempel sciencefiction. 16

Tokeniserings- och segmenteringsproblematik 17

Vad är meningssegmentering? Meningssegmentering innebär att man delar upp en text i dess meningar, dvs: - Före meningssegmenteringen kan man se teckensträngen som en enda lång sträng. Detta är en mening. Detta är en till mening. - Efter meningssegmenteringen har vi delat in strängen i meningar: Detta är en mening. Detta är en till mening. 18

Vad är tokensiering? Tokensering innebär att man delar upp en text i ordliknande enheter, dvs: - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. - Efter tokeniseringen har vi delat in strängen i token, dvs ordliknande enheter. En lång sträng. 19

Tokeniserings- och segmenteringsproblematik - Mellanslag - Apostrofer - Punkter - Förkortning namn - Vi kan lätt skilja på tokenisering och segmentering i teorin I praktiken är det svårare, eftersom områdena är olika sidor av problem. - Vi ska först titta närmare på problemen och därefter på Grefenstette och Tapanainens experiment. 20

Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. 21

Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company 22

Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York 23

Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall 24

Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall - sifferuttryck: 100 000 25

Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall - sifferuttryck: 100 000 - Några fall att fundera över: - BMW 535i - Mercedes 300E-24-23+(5-18) 26

Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. 27

Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. - Kan fungera som citationstecken eller som del att ordet: 'the boys' vs the boys' toys 28

Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. - Kan fungera som citationstecken eller som del att ordet: 'the boys' vs the boys' toys - Ska man betrakta isn't som ett eller flera ord? isn't vs is n't Hur motiverar man sitt val? 29

Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. 30

Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 31

Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 32

Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 - Telefonnummer: 0290/530 36 08/87 61 15 33

Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 - Telefonnummer: 0290/530 36 08/87 61 15 - Valutor/priser: 50,50 20:- 34

Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 - Telefonnummer: 0290/530 36 08/87 61 15 - Valutor/priser: 50,50 20:- - Tidsangivelser: 13:30 35

Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 - Telefonnummer: 0290/530 36 08/87 61 15 - Valutor/priser: 50,50 20:- - Tidsangivelser: 13:30 - Vi kan utforma filter med reguljära uttryck som känner igen våra sifferuttryck och inte råkar dela upp dem. 36

Tokeniseringsproblematik Sifferuttryck - Grefenstette och Tapaninens förslag: reguljärt uttryck som fångar upp den engelska versionen av tal: ([0-9]+[,])*[0-9]([.][0-9]+)? 37

Tokeniseringsproblematik Sifferuttryck - Grefenstette och Tapaninens förslag: reguljärt uttryck som fångar upp den engelska versionen av tal: ([0-9]+[,])*[0-9]([.][0-9]+)? Detta reguljära uttryck fångar upp datum: [0-9]+(\/[0-9])+)+ 38

Tokeniseringsproblematik punkter - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. 39

Tokeniseringsproblematik punkter - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. - Efter tokeniseringen har vi delat in strängen i token, dvs ordliknande enheter. En lång sträng. - En mening som slutar med skiljertecken och! och? är entydliga sådana tecken. Men. är ambiguöst och svår att tokenisera rätt. 40

Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut 41

Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. 42

Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. 43

Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. Ph.D, google.com 44

Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. Ph.D, google.com sifferuttryck: datum(06.02.09), tal(25.6, 100,1010.10 eller 100.110,10) 45

Tokeniseringsproblematik punkter - I Brown finns det 48 885 meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. 46

Tokeniseringsproblematik punkter - I Brown finns det 48 885 meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. 47

Tokeniseringsproblematik punkter - I Brown finns det 48 885 meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. - Men hur kommer vi åt punkten i förkortningarna? 48

Tokeniseringsproblematik punkter - I Brown finns det 48 885 meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. - Men hur kommer vi åt punkten i förkortningarna? Jo, med hjälp av reguljära uttryck. 49

Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: 50

Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. 51

Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. [A-Za-z]\.[A-Za-z]\. En sekvens av bokstav-punkt-bokstav-punkt. U.S. m.p.h i.e. 52

Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. [A-Za-z]\.[A-Za-z]\. En sekvens av bokstav-punkt-bokstav-punkt. U.S. m.p.h i.e. [A-Z][bcdfghj-np-tvwxz]+\. En versal följd av konsonanter och punkt, Mrs. Mr. St. 53

Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 54

Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 - Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. 55

Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 - Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. 56

Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 - Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. - Vi hitttar 3876 instanser av totalt 4819 förkortningar. 57

Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 - Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. - Vi hitttar 3876 instanser av totalt 4819 förkortningar. - Om vi använder dessa reguljära uttryck kommer vi att meningssegmentera korrekt i 47 696 fall 48 805, dvs 97,7 %. 58

Strategier för att förbättra tokeniseringen 59

Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. 60

Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. Idé: Alla ord som förekommer utan punkt på andra ställen i korpusen bör vara token, dvs punkten hör inte till den föregående strängen. stol... stol. stol är ett token 61

Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. Idé: Alla ord som förekommer utan punkt på andra ställen i korpusen bör vara token, dvs punkten hör inte till den föregående strängen. stol... stol. stol är ett token Grefenstetter och Tapanainen rapporterar följande: - om man använder korpusen som lexikon, - och om matchar de misstänkta förkortningarna med de reguljära uttrycken, - så ökar man graden av korrekthet från 97,7 % till 97,9 %. 62

Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) 63

Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. 64

Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck 65

Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck - Vid tokenisering: Låt punkterna sitta kvar på sitt ord och skicka till morfologisk analys. 66

Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck - Vid tokenisering: Låt punkterna sitta kvar på sitt ord och skicka till morfologisk analys. - Morfologisk analysator och filter: Materialet bearbetas i en morfologisk analysator och med ett filter(nästa bild) 67

Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 68

Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 69

Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 70

Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 71

Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 72

Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 5. om strängen börjar med en versal och förekommer endast en eller två gånger Antag att det inte är en förkortning 73

Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 5. om strängen börjar med en versal och förekommer endast en eller två gånger Antag att det inte är en förkortning 6. Antag i övriga fall att det är en förkortning 74

Med lexikon - filter - Med reguljära uttryck som motsvarar denna algoritm blev resultatet 99,7% för segmenteringen. (Tidigare siffror var 97,7% och 97,9%.) 75

Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. 76

Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 77

Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 78

Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 3. Antag i övriga fall att det inte är en förkortning. 79

Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 3. Antag i övriga fall att det inte är en förkortning. Resultat: Endast 53 ord av 51 240 möjliga förkortningar i Brown blev felklassificerade. 80

Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: 81

Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna 82

Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna - Detta beror bland annat på den höga ambiguiteten hos punkten. 83

Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna - Detta beror bland annat på den höga ambiguiteten hos punkten. - Det är inte lika problematiskt med övriga skiljetecken, men jämför: Menar du det? sa han. 84

Textnormalisering inför ordklasstaggning HunPos, TnT-taggaren: - ett ord per rad - tom rad markerar meningsslut. We 're going. Are you? 85

Textnormalisering inför ordklasstaggning Brill-taggaren: - en mening per rad - separera skiljetecken från ord We 're going today, are you? '' I 'm hungry, '' he said. 86

Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. 87

Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. - Texten ska expanderas för att spegla uttalet (t.ex. till exempel m.m. med mera) - Akronoymer (IKEA, FN, NLP) - Sifferuttryck(1902, 1750 hur ska vi uttala?) 88

Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. - Texten ska expanderas för att spegla uttalet (t.ex. till exempel m.m. med mera) - Akronoymer (IKEA, FN, NLP) - Sifferuttryck(1902, 1750 hur ska vi uttala?) - För att mappa text mot uttal kan man använda transduktorer på liknande sätt som man gör vid morfologisk analys. 89

Laboration 1 90

Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. 91

Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. - Grefenstette och Tapanainen exemplifierar detta på Brown-korpusen. 92

Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. - Grefenstette och Tapanainen exemplifierar detta på Brown-korpusen. - I Laboration 1 kommer vi att arbeta med liknande exepriment på SUC-korpusen. 93

Laborationsrapporten - Laborationsrapporten ska innehålla följande: 1. En kort abstrakt med en sammanfattning av det viktigaste i rapporten. 2. En Inledning/bakgrund som innehåller följande: - beskrivning av uppgiften - kort redogörelse för ämnet (referera till den litteratur vi haft. I bakgrundsavsnittet gör du ett refererat/ en genomgång av tidigare forskning). 3. Ett avsnitt om utförande: - Beskriv hur du gick tillväga för att lösa uppgiften 4. Ett avsnitt där du redovisar resultatet 94

Laborationsrapporten - Laborationsrapporten ska innehålla följande: 5. Ett avsnitt där du diskutterar resultatet: Varför blev det som det blev? Vad skulle kunna förbättras och hur? Hur relaterar dina resultat till det du läst i litteraturen? 6. En kort slutsats 7. Litteraturlista 95

Att referera När man refererar återger du MED EGNA ORD vad en forskare formulerat, i t. ex., en artikel. Det är viktigt att du: - är noggrann och gör ett rättvist referat, dvs inte återger något som artikeln inte ger stöd för inte underlåter/missar poängen med artikeln - visar varifrån du fått din information så att läsaren inte tror att det är dina idéer som presenteras visa alltid med referens/källanvisning varifrån informationen kommer kontrollera alltid att alla källor finns med i referenslistan - INTE SKRIVER AV ELLER ÖVERSÄTTER RAKT AV EFTERSOM DET RÄKNAS SOM PLAGIAT!!!! - Man behöver inte fullständigt redogöra för alla tekniska detaljer när man återger en poäng. 96

Att citera Om man vill återge något exakt använder man ett citat. När man citerar anger man detta med citattecken( ) Om man citerar ett långt stycker skriver man citatet I ett indraget stycke och använder citattecken( ) ange källan/referensen till citatet Tänk på följande: - Ange sidan där du hittat citatet - Man får citera 15 rader utan tillstånd från upphovsrättsinnehavaren 97

Referenser Referenser skall innehålla information om Författare titel årtal publikation (tidskrift, samlingsverk) utgivare 98

Referenser Referenser skall innehålla information om Författare titel årtal publikation (tidskrift, samlingsverk) utgivare Det finns olika system för hur referenserna skall behandlas. Harvardsystemet är vanligast: - I texten: (Ejerhed et al., 1992) Ejerhed et al. (1992) - I referenslistan: Ejerhed F., Källgren, G. Wennstedt, O., Åström, M. 1992. The Linguistic Annotation System of the Stockholm-Umeå Corpus Project. DGL-UUM-R-32, report no. 33. Department of Linguistics, Umeå University. Om man vill veta mer om referenssystem kan man läsa Backman: Backman, J., 1998. Rapporter och uppsatser, Studentlitteratur, Lund 99

Nästa gång - Ordklasstaggning (Sätta ordklass på ord) - Laboration 2 100