Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.)
Idag - Preprocessing - Tokeniserings- och segmenteringsproblematik - Strategier för att förbättra tokeniseringen - Laboration 1 2
Preprocessing 3
Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. 4
Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 5
Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 2. Ta bort oönskad kodning, till exempel html-taggar 6
Preprocessing Mål: Att ge texten ett enhetligt format inför tokenisering och segmentering. Steg: 1. Teckenkodning - se till att materialet har ett användbart och enhetligt format vad gäller teckenkodningen. Några kommandon för att byta teckenkod är: iconv -f utf8 -t latin1 <infil > utfil recode -s utf8..latin1 <infil > utfil 2. Ta bort oönskad kodning, till exempel html-taggar 3. Ta bort skräp dubbla mellanslag, tabbar avvikande radbrytningar 7 --- CRLF = Carriage Return Line Feed (ger en extra nyrad)
Grefenstette och Tapanainen 1994 - Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. 8
Grefenstette och Tapanainen 1994 - Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. - Material: Brown Corpus (Frances och Kucera, 1961) - 1 miljon ord på amerikansk engelska - balanserad korpus dvs sammansatt med eftertanke material från press, facklitteratur och skönlitteratur 9
Grefenstette och Tapanainen 1994 - Behandlar hur mycket enskilda steg i preprocessing/tokenisering påverkar slutresultatet. - Material: Brown Corpus (Frances och Kucera, 1961) - 1 miljon ord på amerikansk engelska - balanserad korpus dvs sammansatt med eftertanke material från press, facklitteratur och skönlitteratur - Metod: Filter uttryckta med reguljära uttryck 10
Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra 11
Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. 12
Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown 101 860 radslut, varav 12473 (12 %) slutar med bokstav och bindestreck. 13
Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown 101 860 radslut, varav 12473 (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* 14
Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown 101 860 radslut, varav 12473 (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* Detta gav 11 858 korrekta sammanfogningar och 615 felaktiga, dvs ca 95 % av sammanfogningarna blev rätt. 15
Preprocessing fortsättning En uppgift i arbetet med preprocessing är att ta bort bindestreck(-) vid radbytning. Jämför: hundra vs. hundra - Grefenstette och Tapanainen(1994) har undersökt effekten av bearbetning av bindestreck. - Efter att ha återinsatt bindestreck vid radslut innehåller texterna i Brown 101 860 radslut, varav 12473 (12 %) slutar med bokstav och bindestreck. - Slog ihop orden före och efter bindestreck vid radbrytning med ett reguljärt uttryck: [a-z]-[ \t]*\n[ \t]* Detta gav 11 858 korrekta sammanfogningar och 615 felaktiga, dvs ca 95 % av sammanfogningarna blev rätt. - De felaktiga sammanfogningarna bestod av ord som inte fanns i orginaltexten, till exempel sciencefiction. 16
Tokeniserings- och segmenteringsproblematik 17
Vad är meningssegmentering? Meningssegmentering innebär att man delar upp en text i dess meningar, dvs: - Före meningssegmenteringen kan man se teckensträngen som en enda lång sträng. Detta är en mening. Detta är en till mening. - Efter meningssegmenteringen har vi delat in strängen i meningar: Detta är en mening. Detta är en till mening. 18
Vad är tokensiering? Tokensering innebär att man delar upp en text i ordliknande enheter, dvs: - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. - Efter tokeniseringen har vi delat in strängen i token, dvs ordliknande enheter. En lång sträng. 19
Tokeniserings- och segmenteringsproblematik - Mellanslag - Apostrofer - Punkter - Förkortning namn - Vi kan lätt skilja på tokenisering och segmentering i teorin I praktiken är det svårare, eftersom områdena är olika sidor av problem. - Vi ska först titta närmare på problemen och därefter på Grefenstette och Tapanainens experiment. 20
Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. 21
Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company 22
Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York 23
Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall 24
Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall - sifferuttryck: 100 000 25
Tokeniseringsproblematik Mellanslag Mellanslag utgör inte alltid ordavgränsare vi kan tala om en gradvis glidning. Exempel: - särskrivna sammansättningar: insurance company - egennamn: New York - fraser: i alla fall - iallafall - sifferuttryck: 100 000 - Några fall att fundera över: - BMW 535i - Mercedes 300E-24-23+(5-18) 26
Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. 27
Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. - Kan fungera som citationstecken eller som del att ordet: 'the boys' vs the boys' toys 28
Tokeniseringsproblematik Apostrofer Apostrofer har inte samma problem i svenska som i engelska men vi tar upp det iallfall. - Kan fungera som citationstecken eller som del att ordet: 'the boys' vs the boys' toys - Ska man betrakta isn't som ett eller flera ord? isn't vs is n't Hur motiverar man sitt val? 29
Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. 30
Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 31
Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 32
Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 - Telefonnummer: 0290/530 36 08/87 61 15 33
Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 - Telefonnummer: 0290/530 36 08/87 61 15 - Valutor/priser: 50,50 20:- 34
Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 - Telefonnummer: 0290/530 36 08/87 61 15 - Valutor/priser: 50,50 20:- - Tidsangivelser: 13:30 35
Tokeniseringsproblematik Sifferuttryck - Fördelen med sifferuttryck är att de ofta har ett fast uttryck. Exempel: - Tal: 100 000,50 25000,50 - Postnummer: 161 54 171 73 - Telefonnummer: 0290/530 36 08/87 61 15 - Valutor/priser: 50,50 20:- - Tidsangivelser: 13:30 - Vi kan utforma filter med reguljära uttryck som känner igen våra sifferuttryck och inte råkar dela upp dem. 36
Tokeniseringsproblematik Sifferuttryck - Grefenstette och Tapaninens förslag: reguljärt uttryck som fångar upp den engelska versionen av tal: ([0-9]+[,])*[0-9]([.][0-9]+)? 37
Tokeniseringsproblematik Sifferuttryck - Grefenstette och Tapaninens förslag: reguljärt uttryck som fångar upp den engelska versionen av tal: ([0-9]+[,])*[0-9]([.][0-9]+)? Detta reguljära uttryck fångar upp datum: [0-9]+(\/[0-9])+)+ 38
Tokeniseringsproblematik punkter - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. 39
Tokeniseringsproblematik punkter - Före tokeniseringen kan man se teckensträngen som en enda lång sträng. En lång sträng. - Efter tokeniseringen har vi delat in strängen i token, dvs ordliknande enheter. En lång sträng. - En mening som slutar med skiljertecken och! och? är entydliga sådana tecken. Men. är ambiguöst och svår att tokenisera rätt. 40
Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut 41
Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. 42
Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. 43
Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. Ph.D, google.com 44
Tokeniseringsproblematik punkter - Exempel på när. förekommer är: vid meningsslut del av förkortning, t.ex. kan samtidigt vara meningsavslutningspunkt och förkortningspunkt: Syftet är att minska samhällets uppgifter för färdtjänst, sjukresor, etc. Ph.D, google.com sifferuttryck: datum(06.02.09), tal(25.6, 100,1010.10 eller 100.110,10) 45
Tokeniseringsproblematik punkter - I Brown finns det 48 885 meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. 46
Tokeniseringsproblematik punkter - I Brown finns det 48 885 meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. 47
Tokeniseringsproblematik punkter - I Brown finns det 48 885 meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. - Men hur kommer vi åt punkten i förkortningarna? 48
Tokeniseringsproblematik punkter - I Brown finns det 48 885 meningar och 3490 (ca 7%) innehåller minst en icke meningsavslutande punkt. - Brown har 4819 instanser av förkortningar som avslutas med punkt. Att tillämpa punkt som meningsavgränsare i hela korpusen skulle ge rätt i 90 % av fallen. - Men hur kommer vi åt punkten i förkortningarna? Jo, med hjälp av reguljära uttryck. 49
Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: 50
Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. 51
Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. [A-Za-z]\.[A-Za-z]\. En sekvens av bokstav-punkt-bokstav-punkt. U.S. m.p.h i.e. 52
Förkortningar Att känna igen förkortningar utgör en stor del i att kunna hantera punkter. Grefenstetter och Tapanainen har undersökt resultatet av olika ansatser: En ansats som gör en enkel matchning av: [A-Z]\. En versal följd av punkt, A. B. [A-Za-z]\.[A-Za-z]\. En sekvens av bokstav-punkt-bokstav-punkt. U.S. m.p.h i.e. [A-Z][bcdfghj-np-tvwxz]+\. En versal följd av konsonanter och punkt, Mrs. Mr. St. 53
Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 54
Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 - Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. 55
Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 - Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. 56
Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 - Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. - Vi hitttar 3876 instanser av totalt 4819 förkortningar. 57
Förkortningar - Resultat Reguljärt uttryck Korrekta Felaktiga Meningsslut [A-Z]\. 1323 30 14 [A-Za-z]\. 626 0 63 [A-Z][bcdfghj-np-tvwxz]+\. 1927 33 26 Totalt 3876 63 103 - Genom att behandla alla punkter som meningssegmenterare blev ca 90 % av meningssegmenteringen korrekt. - Att enbart använda reguljära uttryck som matchar exemplen ovan ger rätt (i Brown) i 3876 fall av de 3939 tillämpningarna. - Vi hitttar 3876 instanser av totalt 4819 förkortningar. - Om vi använder dessa reguljära uttryck kommer vi att meningssegmentera korrekt i 47 696 fall 48 805, dvs 97,7 %. 58
Strategier för att förbättra tokeniseringen 59
Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. 60
Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. Idé: Alla ord som förekommer utan punkt på andra ställen i korpusen bör vara token, dvs punkten hör inte till den föregående strängen. stol... stol. stol är ett token 61
Korpusen som lexikon - Man kan försöka förbättra resultatet genom att använda korpusen som ett lexikon. Idé: Alla ord som förekommer utan punkt på andra ställen i korpusen bör vara token, dvs punkten hör inte till den föregående strängen. stol... stol. stol är ett token Grefenstetter och Tapanainen rapporterar följande: - om man använder korpusen som lexikon, - och om matchar de misstänkta förkortningarna med de reguljära uttrycken, - så ökar man graden av korrekthet från 97,7 % till 97,9 %. 62
Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) 63
Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. 64
Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck 65
Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck - Vid tokenisering: Låt punkterna sitta kvar på sitt ord och skicka till morfologisk analys. 66
Med lexikon - Ansats med lexikon (innehåller ord och inga namn och inga förkortningar) - Arbetet går ut på följande: - hitta förkortningskandidater och - validera dessa mot ett lexikon som innehåller alla morfologiska böjningsformer. - Vi antar följande: - segmentera vid mellanslag och icke ambiguösa skiljetecken - tokenisera sifferuttryck - Vid tokenisering: Låt punkterna sitta kvar på sitt ord och skicka till morfologisk analys. - Morfologisk analysator och filter: Materialet bearbetas i en morfologisk analysator och med ett filter(nästa bild) 67
Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 68
Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 69
Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 70
Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 71
Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 72
Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 5. om strängen börjar med en versal och förekommer endast en eller två gånger Antag att det inte är en förkortning 73
Med lexikon - filter Grefenstetter och Tapanainen körde följande ordnade filter på alla strängar som avslutas med punkt: 1. om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. om strängen består av gemener och samma sträng finns i lexikonet utan punkt. klassificera inte som förkortning 3. om strängen börjar med en versal och förekommer i korpusen som en känd förkortning klassificera som förkortning 4. om strängen börjar med en versal och förekommer i korpusen utan efterföljande punkt klassificera som förkortning 5. om strängen börjar med en versal och förekommer endast en eller två gånger Antag att det inte är en förkortning 6. Antag i övriga fall att det är en förkortning 74
Med lexikon - filter - Med reguljära uttryck som motsvarar denna algoritm blev resultatet 99,7% för segmenteringen. (Tidigare siffror var 97,7% och 97,9%.) 75
Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. 76
Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 77
Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 78
Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 3. Antag i övriga fall att det inte är en förkortning. 79
Med lexikon - filter - Vad gäller lexikon: Om man har en korpus med annoterade förkortningar kan man naturligtvis använda detta som lexikon. --- Då får man klassificera enligt följande: 1. Om strängen är följd av gemen, komma eller semikolon. klassificera som känd förkortning 2. Om strängen är en känd förkortning klassificera som känd förkortning 3. Antag i övriga fall att det inte är en förkortning. Resultat: Endast 53 ord av 51 240 möjliga förkortningar i Brown blev felklassificerade. 80
Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: 81
Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna 82
Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna - Detta beror bland annat på den höga ambiguiteten hos punkten. 83
Tokenisering och meningssegmentering Grefenstetters och Tapanainens undersökning visar tydligt att: - Det är svårt att dra en gräns mellan: tokenisering och segmentering av token meningssegmentering och segmentering av meningsenheterna - Detta beror bland annat på den höga ambiguiteten hos punkten. - Det är inte lika problematiskt med övriga skiljetecken, men jämför: Menar du det? sa han. 84
Textnormalisering inför ordklasstaggning HunPos, TnT-taggaren: - ett ord per rad - tom rad markerar meningsslut. We 're going. Are you? 85
Textnormalisering inför ordklasstaggning Brill-taggaren: - en mening per rad - separera skiljetecken från ord We 're going today, are you? '' I 'm hungry, '' he said. 86
Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. 87
Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. - Texten ska expanderas för att spegla uttalet (t.ex. till exempel m.m. med mera) - Akronoymer (IKEA, FN, NLP) - Sifferuttryck(1902, 1750 hur ska vi uttala?) 88
Tokenisering inför talsyntes En annan aspekt av normalisering och tokenisering är tokenisering vid talsyntes. - Texten ska expanderas för att spegla uttalet (t.ex. till exempel m.m. med mera) - Akronoymer (IKEA, FN, NLP) - Sifferuttryck(1902, 1750 hur ska vi uttala?) - För att mappa text mot uttal kan man använda transduktorer på liknande sätt som man gör vid morfologisk analys. 89
Laboration 1 90
Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. 91
Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. - Grefenstette och Tapanainen exemplifierar detta på Brown-korpusen. 92
Laboration 1 - Med hjälp av reguljära uttryck kan man med enkla medel komma långt i arbetet med att normalisera textmaterial. - Grefenstette och Tapanainen exemplifierar detta på Brown-korpusen. - I Laboration 1 kommer vi att arbeta med liknande exepriment på SUC-korpusen. 93
Laborationsrapporten - Laborationsrapporten ska innehålla följande: 1. En kort abstrakt med en sammanfattning av det viktigaste i rapporten. 2. En Inledning/bakgrund som innehåller följande: - beskrivning av uppgiften - kort redogörelse för ämnet (referera till den litteratur vi haft. I bakgrundsavsnittet gör du ett refererat/ en genomgång av tidigare forskning). 3. Ett avsnitt om utförande: - Beskriv hur du gick tillväga för att lösa uppgiften 4. Ett avsnitt där du redovisar resultatet 94
Laborationsrapporten - Laborationsrapporten ska innehålla följande: 5. Ett avsnitt där du diskutterar resultatet: Varför blev det som det blev? Vad skulle kunna förbättras och hur? Hur relaterar dina resultat till det du läst i litteraturen? 6. En kort slutsats 7. Litteraturlista 95
Att referera När man refererar återger du MED EGNA ORD vad en forskare formulerat, i t. ex., en artikel. Det är viktigt att du: - är noggrann och gör ett rättvist referat, dvs inte återger något som artikeln inte ger stöd för inte underlåter/missar poängen med artikeln - visar varifrån du fått din information så att läsaren inte tror att det är dina idéer som presenteras visa alltid med referens/källanvisning varifrån informationen kommer kontrollera alltid att alla källor finns med i referenslistan - INTE SKRIVER AV ELLER ÖVERSÄTTER RAKT AV EFTERSOM DET RÄKNAS SOM PLAGIAT!!!! - Man behöver inte fullständigt redogöra för alla tekniska detaljer när man återger en poäng. 96
Att citera Om man vill återge något exakt använder man ett citat. När man citerar anger man detta med citattecken( ) Om man citerar ett långt stycker skriver man citatet I ett indraget stycke och använder citattecken( ) ange källan/referensen till citatet Tänk på följande: - Ange sidan där du hittat citatet - Man får citera 15 rader utan tillstånd från upphovsrättsinnehavaren 97
Referenser Referenser skall innehålla information om Författare titel årtal publikation (tidskrift, samlingsverk) utgivare 98
Referenser Referenser skall innehålla information om Författare titel årtal publikation (tidskrift, samlingsverk) utgivare Det finns olika system för hur referenserna skall behandlas. Harvardsystemet är vanligast: - I texten: (Ejerhed et al., 1992) Ejerhed et al. (1992) - I referenslistan: Ejerhed F., Källgren, G. Wennstedt, O., Åström, M. 1992. The Linguistic Annotation System of the Stockholm-Umeå Corpus Project. DGL-UUM-R-32, report no. 33. Department of Linguistics, Umeå University. Om man vill veta mer om referenssystem kan man läsa Backman: Backman, J., 1998. Rapporter och uppsatser, Studentlitteratur, Lund 99
Nästa gång - Ordklasstaggning (Sätta ordklass på ord) - Laboration 2 100