Grammatifix Svensk grammatikkontroll i MS Word

Storlek: px
Starta visningen från sidan:

Download "Grammatifix Svensk grammatikkontroll i MS Word"

Transkript

1 2D1418, Språkteknologi Grammatifix Svensk grammatikkontroll i MS Word

2 Innehållsförteckning Sida 1 Inledning 3 2 Grammatifix Detektering av grammatiska fel i Grammatifix Förbehandling Lexikal analys Tvetydighetshantering Tilldelning av Feldetekteringsregler Problem vid hantering av tvetydigheter 6 3 Feltyper i Grammatifix 7 4 Användargränssnitt 7 5 Skillnader mellan Word 2000 och Word Prestandautvärdering 9 7 Andra grammatikgranskare 10 8 Sammanfattning 11 9 Referenser 11 2

3 1 Inledning Denna uppsats är skriven som en del av examinationen på kursen 2D1418, Språkteknologi. Uppsatsen redogör för en undersökning utförd på grammatikkontrollfunktionen i ordbehandlingsprogrammet Word Undersökningen har haft som syfte att svara på frågor såsom vilken teknik nämnda grammatikkontrollfunktion bygger på, vilka fel den kan finna och vilken prestanda den har. Vidare kommer uppsatsen att redogöra på vilket sätt Word 2000 talar om för användaren att ett grammatiskt fel har upptäckts och på vilket sätt den föreslår rättelser av detta fel. Uppsatsen avslutas sedan med en redogörelse av alternativa grammatikgranskare. 2 Grammatifix Grammatikkontrollen i ordbehandlingsprogrammet Word 2000 implementeras av programmodulen Grammatifix. Det bör därför nu påpekas att en undersökning av Word 2000:s grammatikkontrollfunktion i egentlig mening är en undersökning av grammatikkontrollapplikationen Grammatifix. Grammatifix är en fristående kommersiell produkt, utvecklad av det finska programvaruutvecklingsföretaget Lingsoft. Lingsoft har producerat en rad språkrelaterade applikationer för flera nordiska språk, men även tyska. Utvecklingen av Grammatifix initierades 1997 och pågick fram till Feldetekteringen koncentrerades kring nominalfraser och verbkedjor, men som senare kommer att redovisas, ingick också andra typer av fel. För att inte generera alltför många falsklarm, vilket annars skulle underminera förtroendet för programmet, var kriteriet att man för ett givet fel skulle ha minst en 67-procentig träffsäkerhet för att det skulle tas med i den slutliga produkten. Detta kan tyckas vara lågt, men det skall tydligt påpekas att det i sammanhanget är ett fullt acceptabelt värde. Tidigare forskning 1 hade visat att användare av grammatikkontrollsapplikationer föredrog en låg falsklarmsfrekvens framför en bred täckning av många olika grammatiska fel, vilket motiverade en fokusering på en mindre feldelmängd. Det skall även tilläggas att det för närvarande inte heller är möjligt att konstruera en grammatikgranskare med full täckning av ett språk. 2.1 Detektering av grammatiska fel i Grammatifix För att upptäcka grammatiska fel använder sig Grammatifix av ett CG-baserat feldetekteringssystem, fortsättningsvis kallat feldetekteraren. CG 2 (Constraint Grammar) är ett system för hantering av tvetydigheter kring ett ords betydelse i en given text, och för utförande av så kallad grund syntaktisk analys. Feldetekteraren består av fem stycken olika komponenter. Dessa komponenter implementerar de fem sekventiella steg som feldetekteraren går igenom vid en sökning efter grammatiska fel i en text. De fem stegen kan listas enligt följande: 1 Bernth, A EasyEnglish: A Tool for Improving Document Quality. The Proceedings of the Fifth Conference on Applied Language Processing, Washington, Karlsson, Fred, et al Constraint Grammar. A Language-Independant System for Parsing Unrestricted Text. Berlin and New York: Mouton de Gruyter. 3

4 1. Förbehandling 2. Lexikal analys 3. Hantering av tvetydigheter 4. Tilldelning av till varje ord. 5. Feldetekteringsregler Förbehandling I förbehandlingssteget identifieras ord, förkortningar, skiljetecken och flerordsuttryck i den givna texten. Med ett flerordsuttryck menas ord som tillsammans kan anses utgöra en lexikal enhet. Exempel på detta är ett uttryck som till hands. Detta tolkas då inte som de två orden till och hands utan istället som enheten till_hands, tillhörande ordklassen adverb. Detta får till följd att man kan undvika de falsklarm som hade kunnat uppstå om man istället hade tolkat hands som ett substantiv i genitivform. Det hela förtydligas med följande exempelfras: funnits till hands dygnet om Hade hands tolkats som ett substantiv i genitivform hade ett falsklarm genererats eftersom frasen då i det fallet är grammatiskt inkorrekt. Om man istället tolkar enheten till_hands som ett adverb hanteras frasen på ett korrekt sätt och inget felmeddelande genereras Lexikal analys Den lexikala analysen utförs av den så kallade SWETWOL 3 -analysatorn. SWETWOLanalysatorn genomför en morfologisk analys och ordklassmärkning av den förbehandlade texten. Analysatorn tilldelar ett ord alla de ordklassmärkningar som den kan finna för det givna ordet. Till exempel ordklassmärks frasen uppsatsens intressanta ämnet på följande vis av SWETWOL-analysatorn: "<uppsatsens>" "uppsats" N UTR DEF SG GEN "<intressanta>" "intressant" A UTR/NEU DEF SG NOM "intressant" A UTR/NEU DEF/INDEF PL NOM "<ämnet>" "ämne" N NEU DEF SG NOM Som synes märks ordet intressanta upp på två olika sätt. Nästa steg blir nu att välja ut en ordklassmärkning för varje ord bland de föreslagna ordklassmärkningarna. Detta sker med hjälp av den så kallade tvetydighetshanteraren. 3 Karlsson, Fred, 1992 SWETWOL: A Comprehensive Morphological Analyser for Swedish, Nordic Journal of Linguistics 15,

5 2.1.3 Tvetydighetshantering I detta steg väljer tvetydighetshanteraren ut den korrekta ordklassmärkningen för ett ord, givet den aktuella kontexten. Vår exempelfras från lexikalanalyssteget får nu följande ordklassmärkningar: "<uppsatsens>" "uppsats" N UTR DEF SG GEN "<intressanta>" "intressant" A UTR/NEU DEF SG NOM "<ämnet>" "ämne" N NEU DEF SG NOM Att ta bort tvetydigheter från en text som innehåller grammatiska fel är inte helt trivialt. Ett grammatiskt fel kan störa borttagandet av tvetydigheter, vilket kan leda till att fel tvetydighet tas bort eller att tvetydigheten finns kvar i texten trots att den behandlats. Ett exempel på detta kommer att belysas i stycket 2.2. I exemplet ovan rådde dock inget tvivel om vad som skulle selekteras ut. Följaktligen valdes ordklassmärkningen "intressant" A UTR/NEU DEF/INDEF PL NOM bort av tvetydighetshanteraren Tilldelning av I traditionell CG brukar man i detta skede utföra en så kallad morfosyntaktisk mappning. Huvudsyftet med detta är att lägga till den syntaktiska tvetydigheten till varje ord. Detta kan vara sådant som subjekt, verbfunktion, adverbial etc. I Grammatifix går man dock till väga på ett betydligt enklare sätt. Man lägger bara till till varje ord och går sedan vidare till det femte och sista steget, feldetekteringsregler Feldetekteringsregler Den sista komponenten i Grammatifix utgörs av en uppsättning regler för urval av I Word 2000 innehåller Grammatifix 659 feldetekteringsregler. Det första som sker är att samtliga feldetekteringsregler appliceras på den givna texten för att upptäcka eventuella grammatiska fel. Om ingen sådan regel uppfylls väljs för alla ord. Annars Låt oss återigen studera vår exempelfras uppsatsens intressanta ämnet. För att detektera ett grammatiskt fel såsom det i exemplet, kan man i Grammatifix skriva en feldetekteringsregel på följande sätt: (@w =s! (@ERR) (0 N-DEF) (-2 GEN) (-1 A-DEF)) Regeln skall uttydas som: För ett ord (@w) tilldela (=s!) feltaggen (@ERR) om ordet själv (0) är ett substantiv i bestämd form (N-DEF), och om det andra ordet till vänster (-2) är ett 5

6 genitiv (GEN) och om det första ordet till vänster (-1) är ett adjektiv i bestämd form (A- DEF). Vi får alltså slutligen följande ordklassmärkning för exempelfrasen: "<uppsatsens>" "uppsats" N UTR DEF SG "<intressanta>" "intressant" A UTR/NEU DEF SG "<ämnet>" "ämne" N NEU DEF SG Ett felmeddelande genereras nu bestående av en felmeddelandetitel, en kort förklaring och ett åtgärdsförslag. 2.2 Problem vi hantering av tvetydigheter Som nämndes i kan grammatiska fel i en text medföra felaktigheter i hanteringen av tvetydigheter. Detta påverkar i sin tur feldetekteringen på ett negativt sätt. För att råda bot på detta har man i det sista steget, feldetekteringsregler, infört vissa specialregler för att hantera kvarvarande tvetydighet eller felaktigt dito. Som ett exempel på det senare fallet kan man studera meningen Detta är ett uppsats. SWETWOL-analysatorn ordklassmärker frasen på följande sätt: "<detta>" "denna" <DEM> <MD> DET NEU DEF SG NOM (@DN>) "denna" <DEM> PRON NEU DEF SG NOM "<är>" "vara" <COP> V ACT PRES "<ett>" "ett" <NUM/ART> <ID> DET NEU INDEF SG NOM (@DN>) "ett" <NUM> PRON NEU INDEF SG NOM "<uppsats>" "uppsats" N UTR INDEF SG NOM Tvetydighetshanteraren borde nu välja att tolka "ett" som <NUM/ART> <ID> DET NEU INDEF SG NOM (@DN>). Det gör den dock inte. Eftersom det förekommer ett kongruensfel i meningen tolkar tvetydighetshanteraren det som att "ett" är ett pronomen istället. För att kunna hantera detta har man i Grammatifix infört en specialregel, en så kallad ordspecifik regel. ("<ett>" =s! (@ERR) (1C N-UTR)) Regeln skall utläsas som: För ett ord på formen Ett/ett, välj om nästa ord till höger är ett otvetydigt substantiv i utrumform (1C N-UTR). 6

7 Ordspecifika regler kan också formuleras på sådant sätt att de täcker en mängd ordformer istället för en specifik ordform. Till exempel innefattar regeln =s! POSS-UTR)...) alla utrumformer av possessiva determinerare. Ordet sin är en sådan. I meningen Han har sin företag att tänka på lämnar tvetydighetshanteraren kvar de tre ordklassmärkningarna DET, PRON och ABBR (förkortning) för sin. Med nämnda ordspecifika regel blir dock detta inte något problem vi feldetekteringen. 3 Feltyper i Grammatifix Som tidigare nämnts är det mycket svårt, för att inte säga nästintill omöjligt, att skapa en grammatikgranskare som kan upptäck alla typer av grammatiska fel som kan finnas i en text. Till följd av detta koncentrerades utvecklingsarbetet av Grammatifix till en mindre mängd feltyper. Valet av feltyper föll till störst del på kongruensfel i nominalfraser och verbkedjor. Anledningen till detta val var de goda resultat som CG-formalismen hade uppvisat för just kongruensfel. Dessutom är svenskan ett språk som innehåller mycket kongruens och beroenden mellan ord, vilket var ytterligare ett skäl till att fokusera på denna typ av grammatiska fel. Totalt sett kan Grammatifix hantera 43 olika feltyper. 26 av dessa feltyper utgör fel av syntaktisk karaktär där huvuddelen är just kongruensfel i nominalfraser och verbkedjor. De återstående feltyperna utgörs av fel relaterade till nummer- och datumformat, punkttecken, mellanslag och ord som är mindre bra att använda ur stilhänseende. 4 Användargränssnitt Stor vikt har lagt på gränssnittet mot slutanvändaren av produkten. Det viktigaste när man implementerar ett grammatikgranskningsverktyg anses ofta vara att programmet hittar de grammatiska fel det är avsett att finna och att programmet samtidigt inte genererar allt för många falsklarm. Samtidigt får man inte glömma bort att granskningsverktyget skall fungera som en hjälp för användaren och att det därför måste vara tydligt vad som misstänks vara fel i ett felmarkerat textavsnitt. Det är därför viktigt att misstänkta fel kan preciseras och förklaras på ett enkelt och tydligt sätt. I Grammatifix genereras de över 650 definierade felen bara till följd av specifika ordsekvenser, det vill säga, en ordfrekvens frambringar endast ett fel. Vidare mappas varje regel mot endast ett felhanteringsschema. Dock kan flera regler mappas mot samma felhanteringsschema. Ett felhanteringsschema innehåller information till användaren om felet och hur detta kan lösas. Det består av tre delar, en felrubrik, en text med feldiagnos och ett eller flera rättningsförslag. Feldiagnosen beskriver det misstänkta felet med vanlig svenska. I denna text inkluderas också de ord som gett upphov till larmet, för att tydliggöra problemet. Se exempel nedan. Texten i feldiagnosen innehåller många grammatiska termer, då dessa tydligast beskriver felen och det trots allt handlar om just grammatiska fel. 7

8 Ex. Detta är ett uppsats. Kontrollera ordformen ett. Om en böjlig determinerare, t.ex. obestämd artikel, bestämmer ett substantiv med n-genus, t.ex. uppsats, bör också determineraren ha n-genus. Rättningsförslag ges i de fall då det är lämpligt och möjligt. Till de olika felen finns ett rättnigsförslagsschema. De flesta reglerna går ut på att byta ut felaktiga morfologiska taggar för ett ord och ersätta dem med bättre passande taggar, så att exempelvis kongruens uppstår mellan orden ett och uppsats. I andra fall ges förslag att ta bort ord ur meningar eller så genereras ord som bör infogas. I vissa fall föreslår programmet även att ord i meningen flyttas om. Se exempel nedan. Programmet försöker, då den upptäckt fel, att koncentrera felet till endast ett ord eller en komponent. Då programmet inte lyckas avgöra vilket ord som är den egentliga orsaken till felet markeras alla orden som är inblandade i felet. Av denna anledning ges också flera rättningsförslag. Se exempel nedan. Typ av ändring Grammatiskt felaktig mening Föreslagen ändring En föreslagen ändring Detta är ett uppsats. ett en Två föreslagna ändringar I protest mot de statliga monopolet började han klappa händerna. de statliga monopolet det statliga monopolet de statliga monopolen Borttagning Jag vill inte att ha läxa. vill att vill Generering av saknat ord Omflyttning av ord Jag kommer skriva den här uppsatsen på rekordtid. Det här är en uppsats så bra att den bör inte kunna skrivas bättre. kommer skriva kommer att skriva bör inte inte bör Rent grafiskt understryks misstänkta ord och meningar i Word med grön färg. När det gäller vilka ord som skall understrykas så försöker Grammatifix, enligt ovan, bestämma exakt vilket ord eller vilken komponent som är orsak till det misstänkta grammatiska felet och stryka under detta. Man hoppas att användaren på detta sätt snabbt förstår vari felet består och kan rätta till detta, utan att behöva läsa igenom feldiagnosen och rättningsförslaget. 8

9 5 Skillnader mellan Word 2000 och Word 2003 Grammatikkontrollen för svenska i Word har inte utvecklats särskilt mycket mellan versionerna 2000 och Det är Grammatifix som används för grammatikkontroll i båda dessa svenska versioner. De ändringar som står att finna ligger främst på den icke-lingvistiska sidan, så som att en del buggar tagits bort och att minnesluckor täppts igen. Alltså inte mycket som en vanlig användare märker. Dock kan falsklarm kallas för en form av buggar, varför ett antal falsklarm har avlägsnats i den senare versionen. Nedan följer ett antal exempel på meningar som enligt Lingsoft inte markeras som felaktiga i Word 2000, men i Word Ex. Borde har vunnit. En tids tungt arbete. En flera timmar lång debatt. 6 Prestandautvärdering Den utvärdering av Grammatifix som redogörs för i detta avsnitt är utförd av Lingsoft. Att utvecklaren själv genomför en utvärdering kan naturligtvis påverka resultatet av densamma. Det finns heller ingen standard för hur ett prestandautvärderingstest skall gå till eller vad som faktiskt är att räkna som ett grammatiskt fel, varför man som utvärderare ges ganska stora möjligheter att forma testet på ett fördelaktigt sätt. Undersökningen verkar dock vara objektiv och förefaller inte vara påverkad av att utvecklaren själv stått för testandet. I det här fallet har Lingsoft använt löpande tidningstext ur Göteborgs-Posten för utvärderingen. Man har alltså inte använt text som systemet tidigare testats eller utvecklats med. 9

10 När man talar om utvärdering av grammatikgranskare använder man ofta värdena täckning och precision. Precisionen avser relationen mellan alarm som genereras av riktiga fel och det totala antalet alarm. Precisionen används alltså för att ge en indikation på hur stor andel falsklarm systemet genererar, eller snarare hur väl det undviker dessa. Täckning avser andelen upptäckta fel i förhållande till det totala antalet fel i texten och ger alltså ett värde på hur bra granskaren är på att upptäcka fel i en text. Precisionstestet genomfördes på lite drygt en miljon ord. Resultatet blev att Grammatifix slog larm 534 gånger, varav 160 bedömdes som falska alarm. Det ger en precision på 70 %. Ett resultat som är relativt svårtolkat, då det saknas motsvarande tester för andra granskare och för andra typer av texter. Tidningstext är till exempel en typ av text som innehåller förhållandevis lite grammatiska fel och är inte att jämföra med text skriven av en gymnasieelev. För täckningstestet användes en korpus med knappt ord. Texten förbereddes genom att två lingvister läste igenom texten och markerade alla grammatiska fel de kunde upptäcka. Dessa fel ansågs sedan vara de enda fel som förekom i korpusen. Tillsammans markerade lingvisterna 135 fraser eller ord som grammatiskt felaktiga. Då man lät Grammatifix undersöka texten fann programmet 47 fel, vilket motsvarar en täckningsgrad på 35 %. Tar man endast hänsyn till de grammatiska fel programmet är avsett att finna blev täckningsgraden 85 %. Det betyder alltså att programmet alltså endast skulle kunna hitta 55 fel utav de totala Andra grammatikgranskare Grammatifix är inte det enda grammatikgranskningsprogrammet för svenska. Två andra är Scarrie och Granska. Scarrie är utvecklat på Uppsala universitet och ingår i ett samarbete tillsammans med institutioner i Danmark och Norge. Projektet innefattar alltså inte bara svenska utan även danska och bokmål. En testversion av programmet finns att testa på Internet, Granska är utvecklat på KTH i Stockholm, på institutionen för numerisk analys och datalogi. Det beskrivs som ett experimentellt program för datorstödd språkgranskning 4. Granska kombinerar probabilistiska och regelbaserade metoder för att upptäcka grammatiska felaktigheter. I likhet med Grammatifix kan Granska upptäcka misstänkta grammatiska fel i en text och ge rättningsförslag till dessa. Granska omfattar omkring 180 olika granskningsregler, 60 hjälpregler och 110 undantagsregler. Granska utnyttjar, till skillnad från Grammatifix, statistiska metoder vid taggning av ord i en text. Detta underlättar när flertydiga ord skall taggas. Det innebär att man nu taggar lite drygt 95 % av alla ord på ett korrekt sätt. En webbversion av programmet finns att testa på I artikeln Developing a Grammar Checker For Swedish (Arppe, -99) redogörs för en relativt naiv jämförelse mellan Grammatifix och Granska. Olika feltyper definierades och exempelmeningar med dessa genererades. Meningarna testades sedan i de båda applikationerna. Om en applikation markerade meningen som felaktig ansågs applikationen Granska ett program för svensk språkgranskning, URL ( Hämtat den 23 september

11 behärska feltypen. Undersökningen visade att applikationerna var ganska likvärdiga, i meningen att de kunde upptäcka samma typer av fel, när det gäller syntaktiska fel och formateringsfel. Granska föreföll dock ha mer kontroll över stilistiska feltyper. En iakttagelse är att Granska förefaller generera fler falsklarm än Grammatifix. Detta är troligen en följd av att man på Lingsoft lagt mycket stor vikt vid att minimera antalet falsklarm i Grammatifix. Man vill inte tappa trovärdighet hos användaren genom att allt för ofta slå larm trots att det inte förekommer ett grammatiskt fel. I sin strävan efter detta missar man sannolikt ett antal fel vilka Granska i sin tur upptäcker 5. 8 Sammanfattning Som nämnts tidigare är en granskning av grammatikkontrollfunktionen i MS Word i egentlig mening en granskning av programmodulen Grammatifix, utvecklat av det finländska företaget Lingsoft. Grammatikkontrollen bygger på CG-konceptet där man hanterar ords tvetydigheter i en given text. Grammatikkontrollen är indelad i fem specifika steg, vilka beskrivits ovan. I det sista steget detekteras eventuella grammatiska fel med hjälp av ett stort antal specifika felregler. I Grammatifix finns det funktionalitet för hantering av fel gentemot användaren, vilket bland annat inkluderar rättelseförslag. Vid utvecklingen av Grammatifix har tillverkaren prioriterat låg falsklarmsfrekvens framför hög täckningsgrad. I programmet finns definierat 43 olika feltyper, där det största antalet behandlar kongruensfel i nominalfraser och verbkedjor. På grund av det svenska språkets uppbyggnad lämpar sig denna strategi väl. 5 Hagdahl K-H, 2003, Checking the Checker Grammatifix, URL ( Hämtat den 9 oktober

12 9 Referenser Birn, Juhani, 1999, Detecting Grammar Errors with Lingsoft s Swedish Grammar Checker. Proceedings of Nodalida-99. Trondheim. Arppe, Antti, 1999, Developing a Grammar Checker for Swedish. Proceedings of Nodalida- 99. Trondheim. Grammatifix Fyrtio olika feltyper, URL ( Hämtat den 29 september Hagdahl K-H, 2003, Checking the Checker Grammatifix, URL ( Hämtat den 9 oktober Otto-Ville Ronkainen, Lingsoft AB, 2004, Personlig kontakt via e-post. ( , ) 1998, Granska ett program för svensk språkgranskning, URL ( Hämtat den 23 september Carlberg, Johan, et. al., 2002, A Swedish Grammar Checker, URL ( Hämtat den 23 september

Maskinöversättning och språkgranskning. F6: Grammatikkontroll

Maskinöversättning och språkgranskning. F6: Grammatikkontroll Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.

Läs mer

Obesvarade frågor från F1

Obesvarade frågor från F1 Obesvarade frågor från F1 Antal ord i sista upplaga av SAOL Ex. på ord som försvunnit Ex. på nyord Varför är SAOL bättre som norm för stavningskontroll än SAOB? Språkgranskningsverktyg F4: Grammatikkontroll

Läs mer

Språkgranskningsverktyg. Grammatikkontroll i Word

Språkgranskningsverktyg. Grammatikkontroll i Word Språkgranskningsverktyg Grammatikkontroll i Word Allmänt om grammatikkontroll Grammatikkontrollprogrammen inriktas mot en i förväg definierad felrepertoar. Fastställs vanligen genom analys av korpusmaterial.

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

språkgranskning, ht 2007

språkgranskning, ht 2007 Maskinöversättning och språkgranskning, ht 2007 Föreläsning 3 Grammatikkontroll evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll Språkgranskningssystem

Läs mer

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson Grundläggande Textanalys VT 2016 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift

Läs mer

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson

Grundläggande Textanalys VT Språkgranskning (2) Eva Pettersson Grundläggande Textanalys VT 2014 Språkgranskning (2) Eva Pettersson eva.pettersson@lingfil.uu.se Översikt Förra gången Stavningskontroll Allmänt om stavningskontroll Feligenkänning Felkorrigering Samarbetsuppgift

Läs mer

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol)

Ordklasstaggning med funktionsordslexikon. Språklig ytanalys med regler. Jabberwocky (Källgren, 1992) Mer Jabberwocky (Lewis Carrol) Språklig ytanalys med regler Några olika system för: Ordklasstaggning Dependensgrammatik Constraint Grammar presenteras i detalj Ordklasstaggning med funktionsordslexikon Gunnel Källgrens MorP parser Den

Läs mer

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus

Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word. Eva Pettersson UU/Convertus Grundläggande textanalys, VT 2011 Stavnings- och grammatikkontroll i Microsoft Word Eva Pettersson UU/Convertus evapet@stp.lingfil.uu.se Föreläsningsöversikt Allmänt om grammatikkontroll Allmänt om stilkontroll

Läs mer

2. Utgångspunkter och angreppssätt för automatisk språkgranskning

2. Utgångspunkter och angreppssätt för automatisk språkgranskning Översikt och läsanvisning 2. Utgångspunkter och angreppssätt för automatisk språkgranskning Detta kapitel beskriver utgångspunkter och angreppssätt för automatisk språkgranskning för svenska. I kapitlet

Läs mer

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01

Två-nivåmodellen, TWOL. 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Två-nivåmodellen, TWOL 2D1418 Språkteknologi, Nada KTH Höstterminen 2004 Lisa Lagerkvist, Me-01 Inledning Morfologisk parsning är nödvändig i de flesta språkteknologiska tillämpningar eftersom man nästan

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON

Datorn har utvecklats till vårt viktigaste. Datorn som språkgranskare SPRÅKTEKNOLOGI OLA KNUTSSON SPRÅKTEKNOLOGI Datorn som språkgranskare OLA KNUTSSON Datorerna kan inte bara rätta stavfel utan också särskrivningar, böjningsfel, syftningsfel och grammatiska fel. Men fortfarande förslår språkgranskningsprogrammen

Läs mer

Gränssnitt för FakeGranska. Lars Mattsson

Gränssnitt för FakeGranska. Lars Mattsson Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken

Läs mer

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ

En arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ DATORER Så klarar man språkkontrollen RICKARD DOMEIJ Är datorns språkkontroll skribentens bästa vän? Eller kommer den mest med löjliga förslag? I april gav Svenska språknämnden ut Datorn granskar språket,

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad

Innehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Stavningskontroll - Granska

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001 Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger

Läs mer

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll.

Stavningskontroll. Metoder och tillämpningar inom språkteknologin. ht Allmänt om språkgranskning. Stavningskontroll. Föreläsningsöversikt Metoder och tillämpningar inom språkteknologin, ht 2006 Språkgranskning evapet@stp.lingfil.uu.se Allmänt om språkgranskning Stavningskontroll Grammatikkontroll Stilkontroll Några exempel

Läs mer

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Ordklasser Särdrag, lexikon och syntax Ola Knutsson knutsson@nada.kth.se Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv,

Läs mer

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?

Innehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns? Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning. Granska Att skriva regler i Granska.

Läs mer

Obesvarade frågor från F4

Obesvarade frågor från F4 Obesvarade frågor från F4 Antal ord i sista upplaga av SAOL 90 000 el 120 000? Varför har barnförbjuden tagits bort och barnförbjuda införts? Formellt singularis, reellt pluralis Mången fotbollsspelare

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

Inkongruens och särskrivna sammansättningar en beskrivning av två typer av fel och möjligheten att granska dem automatiskt

Inkongruens och särskrivna sammansättningar en beskrivning av två typer av fel och möjligheten att granska dem automatiskt SveBe 24/05 Domeij et al 1 Inkongruens och särskrivna sammansättningar en beskrivning av två typer av fel och möjligheten att granska dem automatiskt Rickard Domeij, Ola Knutsson och Lena Öhrman Sammanfattning

Läs mer

DATORSTÖDD SPRÅKGRANSKNING OCH

DATORSTÖDD SPRÅKGRANSKNING OCH Institutionen för lingvistik Stockholms Universitet VT-2000 DATORSTÖDD SPRÅKGRANSKNING OCH ANDRASPRÅKSINLÄRARE Lena Öhrman I denna uppsats undersöks vilka fel några andraspråksinlärare gör när de lär sig

Läs mer

Inkongruens och särskrivna sammansättningar

Inkongruens och särskrivna sammansättningar SveBe 24/05 Domeij et al 1 Inkongruens och särskrivna sammansättningar En beskrivning av två typer av fel och möjligheten att granska dem automatiskt Rickard Domeij, Ola Knutsson och Lena Öhrman Sammanfattning

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson

Innehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson GRAMMATIKKONTROLL I GRANSKA Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder för grammatikkontroll Granska Granskas regelspråk Att skriva regler i Granska Inför laborationen

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Cristina Eriksson oktober 2001

Cristina Eriksson oktober 2001 Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

Svårigheter med kurslitteraturen

Svårigheter med kurslitteraturen Svårigheter med kurslitteraturen Forskningsanknuten kurs Litteraturen är skriven i syfte att presentera forskningsresultat och ofta argumentera för vissa lösningar; undantag: uppfriskningslitteraturen

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Kursbeskrivning med litteraturlista HT-13

Kursbeskrivning med litteraturlista HT-13 Kursbeskrivning med litteraturlista HT-13 Skriftlig språkfärdighet, 7,5 hp Delkurs inom Italienska I, 30 hp. Består av: I. Italiensk grammatik med inlämningsuppgifter, 6 hp, och II. Skriftlig produktion,

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Målet är att ge maskiner förmågan att plocka ut information ur

Målet är att ge maskiner förmågan att plocka ut information ur Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet:

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara

Läs mer

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide FOR BETTER UNDERSTANDING Kom igång med WordFinder Snabbguide Installationsanvisning 1 Sätt i programskivan i datorn. Installationsprogrammet startar automatiskt. En gemensam startbild för WordFinder Professional,

Läs mer

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål: Grammatikprov svenska Nu är det dags att kolla av vad eleverna lärt sig under vårens grammatik arbete. Efter påsklovet tar vi paus från veckans-ord och pluggar grammatik. För att det inte ska bli för mycket

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning? Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins

Läs mer

Dependensregler - Lathund

Dependensregler - Lathund Dependensregler - Lathund INTRODUKTION I textprogrammet TeCST är det möjligt för en skribent att skriva, redigera och klistra in text för att få ut läsbarhetsmått och få förslag på hur texten kan skrivas

Läs mer

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk

Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk Beteckning: Institutionen för humaniora och samhällsvetenskap Hur går det till att lära svenska? En studie om svenska som andraspråksinlärares talade språk Emma Selin December 2009 Examensarbete med didaktisk

Läs mer

grammatik Ordklasser, nominalfraser, substantiv

grammatik Ordklasser, nominalfraser, substantiv Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,

Läs mer

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till?

Ordklasser. Särdrag, lexikon och syntax. Öppna klasser. Slutna klasser. Vilka ord i lexikon? Vad skall man med en grammatik till? Ordklasser Särdrag, lexikon och syntax Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Öppna klasser: substantiv, adjektiv, verb, adverb Ständiga nybildningar

Läs mer

Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS

Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS Majoritetsgranskaren ett sätt att förbättra grammatikgranskare genom att kombinera dem LINDA NORELIUS Examensarbete Stockholm, Sverige 2009 Majoritetsgranskaren ett sätt att förbättra grammatikgranskare

Läs mer

Språkgranskningsverktyg. Grammatikkontroll med Scarrie

Språkgranskningsverktyg. Grammatikkontroll med Scarrie Språkgranskningsverktyg Grammatikkontroll med Scarrie Strategi för grammatikkontroll Vision Fullständig parsning enligt en heltäckande grammatik som skiljer ut avvikande konstruktioner och diagnosticerar

Läs mer

Identifiering av ordvitsar med Granska

Identifiering av ordvitsar med Granska Identifiering av ordvitsar med Granska jonord@kth.se Inledning För att försöka identifiera ordvitsar med Granska användes ett litet urval av ordvitsar hämtade från olika ställen. Målet med identifiering

Läs mer

Kommentarer till bedömningsmatris för Tala Kurs D

Kommentarer till bedömningsmatris för Tala Kurs D Kommentarer till bedömningsmatris för Tala Kurs D Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar bedömarens första intryck och är en övergripande

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil? Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap

Läs mer

Utvärdering av prototyp: Frågedatabas av Mårten Cronander. Innehållsförteckning

Utvärdering av prototyp: Frågedatabas av Mårten Cronander. Innehållsförteckning 1 (6) Mottagare: Åsa Cajander Mårten Cronander Utvärdering av prototyp: Frågedatabas av Mårten Cronander Innehållsförteckning 1 Inledning 2 1.1 Ten usability heuristics 2 1.2 Severity ratings for usability

Läs mer

Användarstudie utav GRIM på SFI (Svenska För Invandrare)

Användarstudie utav GRIM på SFI (Svenska För Invandrare) Användarstudie utav GRIM på SFI (Svenska För Invandrare) Per-Olof Gatter ing01@kth.se 1 ...Abstract This document is made as an assignment in the course Speech and Gramming checker tools. It is an continuation

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Hur böjs Astrid Lindgrens hjältar i (i) Empirisk språkforskning i ett nötskal

Hur böjs Astrid Lindgrens hjältar i (i) Empirisk språkforskning i ett nötskal Artikel Hur böjs Astrid Lindgrens hjältar? Empirisk språkforskning i ett nötskal Muriel Norde 1. Inledning Då Huginn ok Muninns huvudredaktion bad mig att skriva ett bidrag inom ämnet barn- och ungdomslitteratur,

Läs mer

Parsningens olika nivåer

Parsningens olika nivåer Parsning Språkteknologi DH418 Ola Knutsson Varför parsning? Grammatikkontroll Fråge-svarsystem Maskinöversättning Semantisk analys (vad menas?) Testa grammatikformaliser och grammatiker (undvika länsstolslingvistik)

Läs mer

Sänk kostnaderna genom a/ ställa rä/ krav och testa effektivt

Sänk kostnaderna genom a/ ställa rä/ krav och testa effektivt Sänk kostnaderna genom a/ ställa rä/ krav och testa effektivt Kravhantering / Testprocess - Agenda AGENDA Grundläggande kravhanteringsprocess. Insamling, dokumentation, prioritering, Test och förvaltning

Läs mer

Kommentarer till bedömningsmatris för Skriva Kurs C

Kommentarer till bedömningsmatris för Skriva Kurs C Kommentarer till bedömningsmatris för Skriva Kurs C Stockholms universitet Institutionen för språkdidaktik Global bedömning Den globala bedömningen representerar ett första intryck och är en övergripande

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering I Beáta B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk segmentering/analys,

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat Ryska pronomen Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat 1 1.Självständiga pronomina Pronomina som kan bilda Nominal Fras (NP) på

Läs mer

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi

Maskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

MÅL OCH BETYGSKRITERIER I SVENSKA

MÅL OCH BETYGSKRITERIER I SVENSKA MÅL OCH BETYGSKRITERIER I SVENSKA MÅL ATT UPPNÅ I ÅR 7 Delta i samtal samt lyssna på andra Redovisa ett arbete muntligt utifrån stödord om något man sett, läst, hört eller upplevt Kunna läsa och tillgodogöra

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

NORDISKE STUDIER I LEKSIKOGRAFI

NORDISKE STUDIER I LEKSIKOGRAFI NORDISKE STUDIER I LEKSIKOGRAFI Titel: Forfatter: Morfologisk analys och disambiguering som stöd i skapandet av frekvensordlistor Fredrik Westerlund, Sjur Nørstebø Moshagen, Eva Grava og Juhani Birn Kilde:

Läs mer

Variator Automatisk synonymvariering av text

Variator Automatisk synonymvariering av text Variator Automatisk synonymvariering av text Magnus Rosell 27 mars 2006 Sammanfattning Detta är en rapport om min individuella uppgift i kursen Språkgranskningsverktyg inom GSLT. Den beskriver ett litet

Läs mer

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser Särdrag, lexikon och syntax Ordklasser Slutna klasser: prepositioner, konjunktioner, subjunktioner m.fl. (funktionsord) Inga nya ord bildas. Ola Knutsson knutsson@nada.kth.se Öppna klasser: substantiv,

Läs mer

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Projektförslag. Datalingvistisk projektkurs VT mars 2007 Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett

Läs mer

Språkgranskningsverktyg, vt 2008

Språkgranskningsverktyg, vt 2008 , vt 2008 Föreläsning 7 Chartparsning i allmänhet och UCP i synnerhet evapet@stp.lingfil.uu.se 1 Djupstruktur och ytstruktur Jag läste en bok igår Igår läste jag en bok 2 Chartparsning - bakgrund Utvecklades

Läs mer

Lingvistiska grundbegrepp

Lingvistiska grundbegrepp 729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga

Läs mer

Utveckling av ett grafiskt användargränssnitt

Utveckling av ett grafiskt användargränssnitt Datavetenskap Opponenter: Daniel Melani och Therese Axelsson Respondenter: Christoffer Karlsson och Jonas Östlund Utveckling av ett grafiskt användargränssnitt Oppositionsrapport, C-nivå 2010-06-08 1 Sammanfattat

Läs mer

Automatisk utvinning av felaktigt särskrivna sammansättningar

Automatisk utvinning av felaktigt särskrivna sammansättningar Automatisk utvinning av felaktigt särskrivna sammansättningar Sofia Hedén Institutionen för lingvistik och filologi Språkteknologiprogrammet Kandidatuppsats i språkteknologi, 15 hp 8 juni 2017 Handledare:

Läs mer

Migrering av applikationen AMM till molnet

Migrering av applikationen AMM till molnet Datavetenskap Opponenter: Erik Andersson och Marcus Larsson Respondenter: Anders Nguyen och Linus Svensson Migrering av applikationen AMM till molnet Oppositionsrapport, C-nivå 2010:06 1 Sammanfattat omdöme

Läs mer

Automatisk språkgranskning av svensk text

Automatisk språkgranskning av svensk text Automatisk språkgranskning av svensk text Ola Knutsson TRITA-NA-0105 Licentiatavhandling Kungliga Tekniska Högskolan Institutionen för numerisk analys och datalogi Automatisk språkgranskning av svensk

Läs mer

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk Lokal kursplan i svenska/svenska som andra språk Skriva alfabetets bokstavsformer t.ex. genom att forma eller att skriva bokstaven skriva sitt eget namn forma varje bokstav samt skriva samman bokstäver

Läs mer

Vad kan statistik avslöja om svenska sammansättningar?

Vad kan statistik avslöja om svenska sammansättningar? Vad kan statistik avslöja om svenska sammansättningar? 199 Vad kan statistik avslöja om svenska sammansättningar? Ur Språk & stil NF 16, 2006 Av JONAS SJÖBERGH och VIGGO KANN I många språktekniska datortillämpningar

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Vad säger WCAG om kognition?

Vad säger WCAG om kognition? Vad säger WCAG om kognition? Stefan Johansson och Anita Hildén stefan.johansson@funkanu.se leknyttan@gmail.com Så här säger W3C-konsortiet: Web Content Accessibility Guidelines (WCAG) 2.0 innehåller ett

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Grammatisk teori II Attributvärdesgrammatik

Grammatisk teori II Attributvärdesgrammatik Grammatisk teori II Attributvärdesgrammatik 1. Lexikon and syntaktiska regler Inom lingvistisk teori delas den mentala representationen av språket upp i två centrala komponenter: lexikon och syntaktiska

Läs mer

Automatisk textsammanfattning

Automatisk textsammanfattning Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj) Sammanfattning (manuell) Denna rapport belyser en del av de problem

Läs mer

Facit för diagnostiska provet i grammatik

Facit för diagnostiska provet i grammatik Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954

Läs mer

Svenskans struktur, 7,5 hp Tentamensexempel 1

Svenskans struktur, 7,5 hp Tentamensexempel 1 Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer