Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson
|
|
- Ellen Gustafsson
- för 6 år sedan
- Visningar:
Transkript
1 Grundläggande Textanalys VT 2015 Språkgranskning (1) Eva Pettersson
2 Referatuppgiften 10 minuters muntlig presentation av vetenskaplig artikel med 5 minuters efterföljande diskussion 1-2 sidors skriftlig sammanfattning i pdf-format till eva.pettersson@lingfil.uu.se senast 5 juni Obligatorisk närvaro vid båda presentationstillfällena Vid frånvaro: skriftlig sammanfattning av presenterade artiklar Tre tider att välja på (vi stryker en): Torsdag 21 maj klockan Torsdag 28 maj klockan Torsdag 28 maj klockan 13-15
3 Översikt Denna gång Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift Nästa gång Grammatikkontroll Stilkontroll Kontrollerat språk Språkgranskningssystem, med fokus på MS Word och Granska
4 Vad förväntas av det ideala stavningskontrollprogrammet? Känna igen och larma för alla felstavade ord (täckning) Känna igen och acceptera alla rättstavade ord (precision) Ge ett korrekt rättningsförslag för alla felstavade ord
5 Realistiska förväntningar på stavningskontrollprogrammet Känna igen och larma för alla de mest frekventa och/ eller lättidentifierade felstavningarna Känna igen och acceptera alla rättstavade ord, som är tillräckligt frekventa i språket Ge ett korrekt sannolikt rättningsförslag för alla felstavade ord
6 Stavningskontrollens två delar 1. Feligenkänning (error detection) att hitta felen 2. Felkorrigering (error correction) att ge ersättningsförslag
7 Feligenkänning i Microsoft Word
8 Felkorrigering i Microsoft Word
9 FELIGENKÄNNING
10 Feligenkänning Isolerade ord Skrivfel som resulterar i icke-ord: och! coh Ord i kontext Stavfel som resulterar i riktiga ord (real word errors) jag er dålig på att stava språk teknologi är kul Bättre korrigeringsförslag det är sårt att stava Word föreslår: såret svårt sårat såt sått
11 Feligenkänningsstrategier Trigram av tecken Larmar för ovanliga teckenkombinationer Används främst inom OCR Lexikon Ord som saknas i lexikonet larmas för som felstavningar Fullformslexikon eller stamlexikon
12 Svagheter med lexikonmetoden För stort lexikon ger låg täckning många fel missas (t.ex. verv, boke) För litet lexikon ger låg precision många falska alarm kan lura skribenten att till exempel särskriva Omöjligt att lista alla ord i lexikonet språket är produktivt
13 Komplement till lexikonmetoden Morfologiska regler för avledningar svamp-ig be-bo vattn-a (jmf. svamp-ar) (jmf. bo-r) (jmf. vattn-et) Regler för att hantera sammansättningar Egennamnsigenkänning Domänspecifika lexikon Tillåta användaren att lägga till egna ord i lexikonet
14 Basstrategi: sammansättning = ord + ord dator + lingvistik = datorlingvistik Feligenkänning av sammansättningar Förfinad strategi: sammansättning = förled + ord flicka + klänning= flickklänning äpple + paj = äppelpaj kvinna + parti = kvinnoparti cigarr + rök = cigarrök
15 För- och nackdelar med sammansättningsanalys Minskar antalet falska alarm (bättre precision) Kan öka antalet missade fel (sämre täckning) Missade fel i Word97 (åtgärdat i senare versioner): kotakt kontakt makelera makulera medalg medalj cykelsäll cykelställ särkskilt särskilt
16 Att fundera kring Hur göra med sällsynta/fackspråkliga ord? Kan ligga nära felskrivningar av frekventa ord verv/värv (verv = kraft, livfullhet, glöd enligt SAOL) boke/boken (boke = bokvirke) Dialektala ord? däven, tyket, hurven, tölig Slang? keff, gola, kurra, impa, guss, deppa, dagis Talspråk? Hur sträng bör man vara? mej, direktörn, idag
17 FELKORRIGERING
18 Felkorrigeringens två delar Ta fram ett antal korrigeringskandidater Rangordna korrigeringskandidaterna
19 Feltyper Kompetensfel (spelling confusion) Fonetiska fel: restaurang à resturang Homofonfel: gott à gått Performansfel (typographical errors/typos) Insättning språkteknologii Borttagning spåkteknologi Substitution språktelnologi Transposition spårkteknologi
20 Feltyper (forts) Kompetensfel eller performansfel? tunnt Spelar det någon roll? Oftast inte nödvändigt att veta om kompetensfel eller performansfel Kan ge bättre korrigeringsförslag om man tar hänsyn till feltyp hemta kompetensfel: hämta/hämtade performansfel: hemtam
21 Empiriskt grundade iakttagelser De flesta felstavningar är performansfel (insättning, borttagning, substitution, transposition) De flesta felstavningar påverkar inte ordets längd med mer än en bokstav Första bokstaven i ordet är sällan felaktig Tangenternas placering påverkar Bokstävernas frekvenser påverkar
22 Korrigeringsstrategier Editeringsavstånd (Minimum Edit Distance/Levenshtein Distance) Likhetsnycklar N-gramsbaserade tekniker Regelbaserade tekniker Probabilistiska tekniker
23 Editeringsavstånd Stränglikhet Minsta antalet editeringsoperationer som behövs för att omvandla en sträng till en annan Editeringsoperationer: insättning borttagning substitution (alt. borttagning + insättning) transposition (alt. substitution + substitution)
24 Editeringsavstånd formel dist(0,0) = 0 dist(i,0) = i dist(0,j) = j dist(i-1,j) + 1 (borttagning) dist(i,j) = min dist(i,j-1) + 1 (insättning) dist(i-j,j-1) + 0 om i = j (likhet) 1 annars (substitution) där i är strängen s fram till i:te tecknet, och j är strängen t fram till j:te tecknet
25 Editeringsavstånd illustrerat r ä n g n a r e g n a r
26 Editeringsavstånd illustrerat r ä n g n a Editeringsavstånd: 0 r e g n a r
27 Editeringsavstånd illustrerat r ä n g n a Editeringsavstånd: 1 substitution r e g n a r
28 Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 2 substitution + borttagning
29 Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 2 substitution + borttagning
30 Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 2 substitution + borttagning
31 Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 2 substitution + borttagning
32 Editeringsavstånd illustrerat r ä n g n a r e g n a r Editeringsavstånd: 3 substitution + borttagning + insättning
33 Editeringsavstånd: dynamisk programmering r ä n g n a r e g n a r
34 Editeringsavstånd: dynamisk programmering r e g n a r r 1 ä 2 n 3 g 4 n 5 a 6
35 Editeringsavstånd: dynamisk programmering r e g n a r r 1 0 ä 2 n 3 g 4 n 5 a 6 kostnaden för att komma hit från min övre vänstra granne substitution kostnaden för att komma hit från min vänstra granne insättning kostnaden för att komma hit från min övre granne borttagning minimum av de tre möjliga dragen, dvs det billigaste sättet att komma hit
36 Editeringsavstånd: dynamisk programmering r e g n a r r ä n 3 g 4 n 5 a 6 kostnaden för att komma hit från min övre vänstra granne substitution kostnaden för att komma hit från min vänstra granne borttagning kostnaden för att komma hit från min övre granne insättning minimum av de tre möjliga dragen, dvs det billigaste sättet att komma hit
37 Editeringsavstånd: dynamisk programmering r e g n a r r ä n g 4 n 5 a 6 kostnaden för att komma hit från min övre vänstra granne substitution kostnaden för att komma hit från min vänstra granne borttagning kostnaden för att komma hit från min övre granne insättning minimum av de tre möjliga dragen, dvs det billigaste sättet att komma hit
38 Editeringsavstånd: dynamisk programmering r e g n a r r ä n g n 5 a 6 kostnaden för att komma hit från min övre vänstra granne substitution kostnaden för att komma hit från min vänstra granne borttagning kostnaden för att komma hit från min övre granne insättning minimum av de tre möjliga dragen, dvs det billigaste sättet att komma hit
39 Editeringsavstånd: dynamisk programmering r e g n a r r ä n g n a 6 kostnaden för att komma hit från min övre vänstra granne substitution kostnaden för att komma hit från min vänstra granne borttagning kostnaden för att komma hit från min övre granne insättning minimum av de tre möjliga dragen, dvs det billigaste sättet att komma hit
40 Editeringsavstånd: dynamisk programmering r e g n a r r ä n g n a kostnaden för att komma hit från min övre vänstra granne substitution kostnaden för att komma hit från min vänstra granne borttagning kostnaden för att komma hit från min övre granne insättning minimum av de tre möjliga dragen, dvs det billigaste sättet att komma hit
41 Likhetsnycklar Ord matchas mot nycklar istället för ord Ord som stavas på liknande sätt har likadana (eller nästan likadana nycklar)
42 Likhetsnycklar: Soundex SOUNDEX = Indexing on Sound Odell & Russel, 1918 (!) Fonetisk likhet vokaler ignoreras konsonanter grupperas tillsammans om de liknar varandra fonetiskt Användning: Flygbokningssystem (Davidson 1962)
43 Soundex algoritm 1. Behåll det första tecknet 2. Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w 0 b, f, p, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6 3. Ta bort alla nollor 4. Ta bort alla på varandra följande dubbletter 5. Spara de tre första siffrorna
44 Soundex exempel disapont! D215 disappoint! D Behåll det första tecknet 2. Ersätt efterföljande tecken enligt nedan: a, e, i, o, u, y, h, w 0 b, f, p, v 1 c, g, j, k, q, s, x, z 2 d, t 3 l 4 m, n 5 r 6 3. Ta bort alla nollor 4. Ta bort alla på varandra följande dubbletter 5. Spara de tre första siffrorna
45 Soundex exempel disapont! D215 disappoint! D215 Ersättningsförslag för disapont: disband, disbands, disbanded, disbanding, disbandment, disbandments, dispense, dispenses, dispensed, dispensing, dispenser, dispensers, dispensary, dispensaries, dispensable, dispensation, dispensations, deceiving, deceivingly, despondent, despondency, despondently, disobeying, disappoint, disappoints, disappointed, disappointing, disappointedly, disappointingly, disappointment, disappointments, disavowing
46 N-gramsbaserade tekniker Stränglikhet, dvs andelen gemensamma n-gram (vanligen trigram) likhet(i,j) = 2C/(n+n ) där n är antalet trigram i i och n är antalet trigram i j och C är antalet trigram gemensamma för i och j
47 N-gramsbaserade tekniker (forts) Hur lika är concider och consider? ##c #co con onc nci cid ide der er# r## ##c #co con ons nsi sid ide der er# r## C (antalet gemensamma trigram) = 7 n (antalet trigram i concider) = 10 n (antalet trigram i consider) = 10 likhet(concider,consider) = 2C/(n+n ) = 14/20 = 0,70
48 N-gramsbaserade tekniker (forts) Hur lika är concider och cider? ##c #co con onc nci cid ide der er# r## ##c #ci cid ide der er# r## C (antalet gemensamma trigram) = 6 n (antalet trigram i concider) = 10 n (antalet trigram i cider) = 7 likhet(concider,cider) = 2C/(n+n ) = 12/17 0,71
49 N-gramsbaserade tekniker (forts) Modifierat likhetsmått: likhet(i,j) = 2C/(n+n ) à likhet(i,j) = C/max(n,n ) där n är antalet trigram i i och n är antalet trigram i j och C är antalet trigram gemensamma för i och j likhet(concider,consider) = 7/10 = 0,70 likhet(concider,cider) = 6/10 = 0,60
50 Samarbetsuppgift Antag att en skribent av misstag har skrivit in käran. Antag vidare att ett stavningskontrollprogram har kommit fram till att det rör sig om en felstavning och att möjliga ersättningsförslag är tjäran och kärran. Hur skulle dessa ersättningsförslag rangordnas enligt det modifierade n- gramsbaserade måttet? Hur skulle ersättningsförslagen rangordnas i termer av editeringsavstånd? Kommentera resultatet: Är rangordningen lika bra för alla typer av skribenter? Skulle båda alternativen finnas med bland ersättningsförslagen om man istället hade använt sig av likhetsnycklar på samma sätt som i SOUNDEX? Varför/ varför inte?
51 Referenser Markus Dickinson, Chris Brew & Detmar Meurers, 2013 (kapitel 2), Language and Computers Daniel Jurafsky & James H. Martin, 2000 (avsnitt ), Speech and Language Processing Karen Kukich, 1992, Techniques for Automatically Correcting Words in Text Roger Mitton, 1996, Spellchecking by Computer Stina Nylander, 2000, Statistics and Phonotactical Rules in Finding OCR Errors
Grundläggande Textanalys VT 2014. Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se
Grundläggande Textanalys VT 2014 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Denna gång Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift
Språkgranskningsverktyg, vt 2009
, vt 2009 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Feligenkänning Felkorrigering Produktivt bildade ord Kort om labben 2 Vad förväntas av det ideala stavningskontrollprogrammet?
Språkgranskningsverktyg, vt 2008
, vt 2008 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Feligenkänning Felkorrigering Produktivt bildade ord Kort om labben 2 Vad förväntas av det ideala stavningskontrollprogrammet?
Maskinöversättning och språkgranskning, ht 2006
Maskinöversättning och språkgranskning, ht 2006 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om språkgranskning Allmänt om stavningskontroll Stavningskontroll:
språkgranskning, ht 2007
Maskinöversättning och språkgranskning, ht 2007 Föreläsning 2 Stavningskontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kursöversikt Allmänt om språkgranskning Allmänt om stavningskontroll Stavningskontroll:
Maskinöversättning och språkgranskning F5 Allmänt om språkgranskning + ordkontroll
Maskinöversättning och språkgranskning 2008 F5 Allmänt om språkgranskning + ordkontroll Språkgranskningsverktyg Datorprogram som fungerar som skrivstöd genom att kontrollera språkriktighet och ev. stil
Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson
Grundläggande Textanalys VT 2016 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Denna gång Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift
Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson
Grundläggande Textanalys VT 2017 Språkgranskning (1) Eva Pettersson eva.pettersson@lingfil.uu.se Först några ord om referatuppgiften Sammanfatta en vetenskaplig artikel, vilket ger färdigheter i att: läsa
Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.
Föreläsningsöversikt Metoder och tillämpningar inom språkteknologin, ht 2006 Språkgranskning evapet@stp.lingfil.uu.se Allmänt om språkgranskning Stavningskontroll Grammatikkontroll Stilkontroll Några exempel
Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier
Skrivstöd Christian Hardmeier (efter Joakim Nivre) 205-- Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Stavning fungerar som bildningsmarkör Standardiserad stavning
Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus
Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word Eva Pettersson UU/Convertus evapet@stp.lingfil.uu.se Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska
Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad
Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort
Missplel ett generellt verktyg för generering av stavfel
Missplel ett generellt verktyg för generering av stavfel Linus Ericson TRITA-NA-E04045 NADA Numerisk analys och datalogi Department of Numerical Analysis KTH and Computer Science 100 44 Stockholm Royal
Innehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG
Innehåll SPRÅKGRANSKNINGSVERKTYG F1:INTRODUKTION Ola Knutsson KTH CSC, knutsson@csc.kth.se Språkgranskningsverktyg Språk vs. skrivet språk Språkriktighet och grammatikalitet, vad är en bra text? Felanalysens
Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson
GRAMMATIKKONTROLL I GRANSKA Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder för grammatikkontroll Granska Granskas regelspråk Att skriva regler i Granska Inför laborationen
Språkgranskningsverktyg. F1: Introduktion
Språkgranskningsverktyg F1: Introduktion Kursplan http://www.selma.uu.se/publik/main?af=0200&funktion=kplan&kurs=5ln442&startv=200804 Kurssida http://stp.lingfil.uu.se/~evapet/undervisning/sgv08/ Språkgranskningsverktyg
En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ
DATORER Så klarar man språkkontrollen RICKARD DOMEIJ Är datorns språkkontroll skribentens bästa vän? Eller kommer den mest med löjliga förslag? I april gav Svenska språknämnden ut Datorn granskar språket,
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Målet är att ge maskiner förmågan att plocka ut information ur
Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet:
Stränglikhet Manchester United vs Manchester Utd. B A R A N S Ö L E N
Stränglikhet Manchester United vs Manchester Utd. B A R A N S Ö L E N Examensarbete Stockholm, Sverige 2008 Stränglikhet Manchester United vs Manchester Utd. B A R A N S Ö L E N Examensarbete i datalogi
Statistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Kungl. Tekniska högskolan NADA Grundformer med Stava
Kungl. Tekniska högskolan NADA Grundformer med Stava Språkteknologi 2D1418 Höstterminen 2004 Författare: Andreas Pettersson az@kth.se 1. Bakgrund Om man automatiskt ska plocka ut de informationsbärande
Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson
Grundläggande Textanalys VT 2016 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift
Obesvarade frågor från F4
Obesvarade frågor från F4 Antal ord i sista upplaga av SAOL 90 000 el 120 000? Varför har barnförbjuden tagits bort och barnförbjuda införts? Formellt singularis, reellt pluralis Mången fotbollsspelare
Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson
Grundläggande Textanalys VT 2014 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift
FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide
FOR BETTER UNDERSTANDING Kom igång med WordFinder Snabbguide Installationsanvisning 1 Sätt i programskivan i datorn. Installationsprogrammet startar automatiskt. En gemensam startbild för WordFinder Professional,
Identifiering av ordvitsar med Granska
Identifiering av ordvitsar med Granska jonord@kth.se Inledning För att försöka identifiera ordvitsar med Granska användes ett litet urval av ordvitsar hämtade från olika ställen. Målet med identifiering
Lösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Eva Ansell Ulrika Nilsson WORD 2008 MICROSOFT. för Mac
Eva Ansell Ulrika Nilsson MICROSOFT WORD 2008 för Mac 1. Introduktion till Word 2008 för MAc A. Docendo-pedagogiken...6 B. Hämta övningsfiler...7 C. Starta programmet...8 D. Avsluta programmet...8 E. Programfönstret...9
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Vad kan statistik avslöja om svenska sammansättningar?
Vad kan statistik avslöja om svenska sammansättningar? 199 Vad kan statistik avslöja om svenska sammansättningar? Ur Språk & stil NF 16, 2006 Av JONAS SJÖBERGH och VIGGO KANN I många språktekniska datortillämpningar
Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord
Språkteknologiska stöd Språkteknologiska stöd Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Stemming, trunkering, frågeexpansion Långa frågor och frassökning Stavningsstöd
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Kom igång med SpellRight
Kom igång med SpellRight SpellRight är ett program som rättar engelska stavfel. Programmet är i första hand avsett för personer som har svenska som modersmål och skriver på engelska som andraspråk. Starta
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.
Statistisk Maskinöversättning eller:
729G43 Statistisk Maskinöversättning eller: Hur jag slutade ängslas (över fördjupningsuppgiften) och lärde mig hata stoppord. Jonas Hilmersson 2019-04-15 Innehåll 1. Introduktion... 1 2. Datamängden...
Formell logik Kapitel 1 och 2. Robin Stenwall Lunds universitet
Formell logik Kapitel 1 och 2 Robin Stenwall Lunds universitet Kapitel 1: Atomära satser Drömmen om ett perfekt språk fritt från vardagsspråkets mångtydighet och vaghet (jmf Leibniz, Russell, Wittgenstein,
TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Syntaktisk parsning (Jurafsky & Martin kapitel 13)
Syntaktisk parsning (Jurafsky & Martin kapitel 13) Mats Wirén Institutionen för lingvistik Stockholms universitet mats.wiren@ling.su.se DH2418 Språkteknologi DA3010 Språkteknologi för datorlingvister Föreläsning
Hur hanterar stavningskontrollerna. texter skrivna av skolbarn? en utvärdering av Stava Rex och Microsoft Word 2007.
Institutionen för lingvistik Språkteknologiprogrammet Hur hanterar stavningskontrollerna texter skrivna av skolbarn? en utvärdering av Stava Rex och Microsoft Word 2007. Kandidatuppsats i språkteknologi
Vårdat, enkelt och begripligt!
skriv för webben Här hittar du några enkla råd om skrivande. Vi riktar oss speciellt till dig som skriver på webben men råden kan användas av alla. Läs gärna mer i Språkrådets Svenska skrivregler för övergripande
ViTal. Talsyntes. Användarhandledning
ViTal Talsyntes Användarhandledning Introduktion ViTal är ett program som utvecklats för att med hjälp av artificiellt tal vara ett stöd vid läsning och skrivning. ViTal kan användas både i undervisning
Projektförslag. Datalingvistisk projektkurs VT mars 2007
Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett
Rapportmallen är uppbyggd med omslag, titelsida, sidor för förord, sammanfattning och innehåll, samt en sida där du ska börja skriva din text.
Att använda Energiforsks rapportmall Rapportmallen är uppbyggd med omslag, titelsida, sidor för förord, sammanfattning och innehåll, samt en sida där du ska börja skriva din text. Titelsida På omslags-
Vad är en databas? Databaser. Relationsdatabas. Vad är en databashanterare? Vad du ska lära dig: Ordlista
Databaser Vad är en databas? Vad du ska lära dig: Använda UML för att modellera ett system Förstå hur modellen kan översättas till en relationsdatabas Använda SQL för att ställa frågor till databasen Använda
Lathund för Stava Rex
Lathund för Stava Rex för PC Stava Rex är ett avancerat svenskt rättstavningsprogram som kan rätta grava stavfel, lättförväxlade ord samt enklare grammatikfel. Stava Rex klarar av att rätta text i de vanligaste
Vad är en databas? Databaser. Relationsdatabas. Vad är en databashanterare? Vad du ska lära dig: Ordlista
Databaser Vad är en databas? Vad du ska lära dig: Använda UML för att modellera ett system Förstå hur modellen kan översättas till en relationsdatabas Använda SQL för att ställa frågor till databasen Använda
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001
Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger
Lathund för SpellRight
Lathund för SpellRight för PC SpellRight är ett avancerat rättstavningsprogram för personer med svenska som modersmål, som skriver på engelska som sitt andraspråk. Programmet rättar grava stavfel, lättförväxlade
Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?
Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins
Kravspecifikation Fredrik Berntsson Version 1.3
Kravspecifikation Fredrik Berntsson Version 1.3 Status Granskad FB 2017-01-27 Godkänd FB 2017-01-27 Dokumenthistorik Version Datum Utförda ändringar Utförda av Granskad 1.0 2014-01-15 Första versionen
Skriftspråk i förändring möter förlegade skrivstöd
Skriftspråk i förändring möter förlegade skrivstöd Ylva Hård af Segerstad Hasselgren, fil.dr i allmän språkvetenskap Sylvana Sofkova Hashemi, fil.dr i allmän språkvetenskap Skriftspråket spelar allt större
Språkgranskningsverktyg, vt 2009
, vt 2009 Föreläsning 8 Scania Checker evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kontrollerat språk Scania-svenska Scania Checker Demo 2 Kontrollerat språk Delmängd av naturligt språk Restriktioner
Tentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
ARGUMENTATION TID UNDERVISNINGSSÄTT PROV MÅL
ARGUMENTATION De närmsta veckorna framöver kommer vi att arbeta med argumentation. I Sverige h ar vi tryckfrihet och yttrandefrihet, där alla får framföra sina åsikter på till exempel insändar och debattsidor.
Innehåll. Två olika sätt att utvärdera. Varför skall man utvärdera språkgranskningssystem? F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG
Innehåll Korpusbaserad utvärdering F6: UTVÄRDERING AV SPRÅKGRANSKNINGSVERKTYG Ola Knutsson knutsson@csc.kth.se Automatisering av utvärdering!uppmärkta fel" Helautomatisk utvärdering!artificiella fel" ISO
Erik Östergren lärarutbildningen, 5hp HT 2015
Kurslitteratur Matematik ett kärnämne (Nämnaren Tema) Diverse artiklar All kurslitteratur kommer att finnas tillgänglig på Studentportalen. Kurshemsida http://studentportalen.uu.se Undervisning 20 lektionstillfällen.
Datorlingvistik och språkteknologi
Datorlingvistik och språkteknologi Mats Dahllöf Institutionen för lingvistik och filologi Att bearbeta språk i datorer med känslighet för språket som språk: Språkvetenskapligt forskningsområde: datorlingvistik
Teoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
Svårigheter med kurslitteraturen
Svårigheter med kurslitteraturen Forskningsanknuten kurs Litteraturen är skriven i syfte att presentera forskningsresultat och ofta argumentera för vissa lösningar; undantag: uppfriskningslitteraturen
Pedagogisk planering år 2 Skriva meningar
2015-10-06 Pedagogisk planering år 2 Skriva meningar Följande förmågor, kunskapskrav och centralt innehåll i lgr11 ligger till grund för detta arbetsområde i ämnet Svenska: Inom detta arbetsområde ska
Emacs. Eric Elfving Institutionen för Datavetenskap (IDA)
Emacs Eric Elfving Institutionen för Datavetenskap (IDA) Emacs Utveckas konstant, från 70-talet Är en texteditor (inte ordbehandlare) och fokuserar på texten, inte utseendet. Ingår i GNU-projektet Har
språkgranskning, ht 2007
Maskinöversättning och språkgranskning, ht 2007 Föreläsning 3 Grammatikkontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem
DAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
MOBILT INKÖP MANUAL VERSION 3. Sida 1
MOBILT INKÖP MANUAL VERSION 3 Sida 1 Allmän beskrivning... 3 Orderprocess... 3 Ute i butiken... 3 På kontoret/vid datorn... 3 Mobilt inköp handdator... 5 Användande... 5 Order översikt... 5 1. Ny order...
Välkommen till ClaroStava svenska mac med tal artnr 12312
Välkommen till ClaroStava svenska mac med tal artnr 12312 Välkommen till ClaroStava för Mac. Med ClaroStava kan du kontrollera din text. Du kan kontrollera texten både för rättstavning och lättförväxlade
Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual
ClaroStava svenska PC med tal Ett rättstavningsprogram artnr 12315 Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual ClaroStava delas upp på två knappar. Kontroll:
SpellRight. för Mac. Innehåll. Rättstavning på engelska. Inställningar...13 Allmänt...13 Ordlistor...15. SpellRight för Mac i korthet...
Rättstavning på engelska SpellRight för Mac Innehåll SpellRight för Mac i korthet....2 Kom igång snabbt....2 Installation....2 Olika användare, olika inställningar....3 Kontroll av text....3 SpellRight
2. Utgångspunkter och angreppssätt för automatisk språkgranskning
Översikt och läsanvisning 2. Utgångspunkter och angreppssätt för automatisk språkgranskning Detta kapitel beskriver utgångspunkter och angreppssätt för automatisk språkgranskning för svenska. I kapitlet
Språkpsykologi/psykolingvistik
Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande
Programmering. Den första datorn hette ENIAC.
Programmering Datorn är bara en burk. Den kan inget själv. Hur får man den att göra saker? Man programmerar den. Människor som funderar ut program som fungerar. Datorn förstår bara ettor och nollor och
Grammatiska morfem kan också vara egna ord, som t ex: och på emellertid
Stockholms universitet Institutionen för lingvistik Språkteori grammatik VT 1994 Robert Eklund MORFEMANAYS Vi kan dela in ord i mindre enheter, segmentera orden. Här följer en liten kortfattad beskrivning
Att använda Energiforsks rapportmall
Att använda Energiforsks rapportmall Rapportmallen är uppbyggd med omslag, titelsida, sidor för förord, sammanfattning och innehåll, samt en sida där du ska börja skriva din text. Titelsida På omslags-
Uppgift 1 (grundläggande konstruktioner)
Uppgift 1 (grundläggande konstruktioner) a) Skriv ett program som låter användaren mata in 7 heltal och som gör utskrifter enligt nedanstående körexempel. Mata in 7 heltal: 1 0 0 3 1 1 1 Tal nr 2 var en
Textstil/tonalitet med Acrolinx
Textstil/tonalitet med Acrolinx Magnus Merkel magnus.merkel@fodina.se Fodina Language Technology FRÅGOR Hur förbättrar man texter med ett skribentstödsverktyg? Är läsbarhetsmått ett bra hjälpmedel? Visar
Pedagogisk planering Åk 2 Skriva dikter
2015-12-10 Pedagogisk planering Åk 2 Skriva dikter Följande förmågor, kunskapskrav och centralt innehåll i lgr11 ligger till grund för detta arbetsområde i ämnet Svenska: Inom detta arbetsområde ska du
Språkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Fonetisk text och förkortningar i. Dialog Nova och Polycom Dialog
Fonetisk text och förkortningar i Dialog Nova och Polycom Dialog Fonetisk text och förkortningar i Dialog Nova och Polycom Dialog Version: 3.1 Dok.nr: 10.0183 A1 Producerat av: Polycom Technologies AB
MS WORD 97. Microsoft Word Lathund för att arbeta med kortkommandon. Utgivare Syncentralernas Datateam Stockholm
MS WORD 97 Microsoft Word 2013 Lathund för att arbeta med kortkommandon Utgivare Syncentralernas Datateam Stockholm 2013-01-19 Innehållsförteckning Öppna ett dokument.... 3 Öppna ett dokument från USB-minne....
Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram
Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Martin WARIN STP, Uppsala Universitet m warin@hotmail.com Abstract Här beskrivs en metod att identifiera ord i en text vilka är
Använd WordFinder optimalt! Lathund med nyttiga tips och trix.
Använd WordFinder optimalt! Lathund med nyttiga tips och trix. Logga in på tjänsten WordFinder Logga in på ditt konto på WordFinder om du har personligt konto Har du redan ett personligt konto på WordFinder,
BLOCK 1. 1A. Att komma igång
BLOCK 1 1A. Att komma igång Blocket omfattar sidorna 8 23 i läseboken och sidorna 7 8 i grammatikboken samt hörövningar. 1. Vem är du? 2. Vilka fyra färdigheter är viktiga vid språkinlärning? 3. Hur många
Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering
Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska
Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON
SPRÅKTEKNOLOGI Datorn som språkgranskare OLA KNUTSSON Datorerna kan inte bara rätta stavfel utan också särskrivningar, böjningsfel, syftningsfel och grammatiska fel. Men fortfarande förslår språkgranskningsprogrammen
Skrivprocessen. Skrivprocessen och retoriken. Skrivprocessen Retoriken Förklaringar
Skrivprocessen Att skriva är ett hantverk något som du kan lära dig. För att bli en bra hantverkare krävs övning. Skrivprocessen liknar i många avseenden den så kallade retoriska arbetsprocessen som vi
Innehåll. Informationssökning språkteknologiska hjälpmedel
Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,
Hur man programmerar. Exempel på problemlösning i Python
Hur man programmerar Exempel på problemlösning i Python Problemet Som vokaler i engelska språket räknar vi i denna uppgift bokstäverna aeuio, och som konsonanter alla andra bokstäver utom y (y fungerar
Grundläggande textanalys, VT2012
Grundläggande textanalys, VT2012 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv12/gta/ (Tack till ofia Gustafson-Capkovâ för material.) Repetition 2 Exempel parvspråket
Svenska fonetiska tecken med Word och Unicode
Svenska fonetiska tecken med Word och Unicode De flesta fonetiska tecken i svenskan skrivs med vanliga bokstäver. I Svenska Akademins Grammatik skrivs för konsonanter "Samma ljudvärden som vid normal stavning
Maskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Objektorientering. Objekt och metoder. Objektorientering. Viktiga begrepp. Klass. Objekt. Deklarativ programmering
och metoder Introduktion till objektorienterad programmering Markus Saers markus.saers@lingfil.uu.se orientering Deklarativ programmering Beskriver förutsättningarna för något Prolog Imperativ programmering
Fonetisk distansmätning av ord i lexikon
Examensarbete Fonetisk distansmätning av ord i lexikon Henrik Wache henrikw@stp.ling.uu.se Språkteknologiprogrammet Institutionen för lingvistik Uppsala universitet Handledare: Hans Runehov, Telia Promotor