FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång



Relevanta dokument
EasyReader (FriendlyReader)

WEBBLÄTTLÄST SLUTRAPPORT

WEBBKLUSTRING SLUTRAPPORT

Slutrapport projektgenomförande - Freindly Reader e- tjänst med informationsextraktion ur digitala dokument för personer med lässvårigheter

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning

LINKÖPINGS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

Segmenteringen Segment 1: Punktskrift Segment 2: Skärmläsning Segment 3: Skärmförstoring Segment 4: Läser bra men stavar dåligt

Studie av gränssnittsprototyp i projektet Webbklustring - användarupplevelsen

Tentamen Marco Kuhlmann

Random Indexing för vektorbaserad semantisk analys

Tentamen Del A. Marco Kuhlmann

Kravspecifikation Fredrik Berntsson Version 1.3

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Permutationer av omskrivningsregler -Egenskaper hos omskrivningsregler till lättläst svenska

TDDD02 Föreläsning 7 HT-2013

Oppositionsprotokoll-DD143x

Googles sidrankning - linjär algebra värt en förmögenhet

Del ur Läroplanen för specialskolan 2011: kursplan i teckenspråk för döva och hörselskadade

Lärarguide till textkommentering

Dependensregler - Lathund

Självkoll: Ser du att de två uttrycken är ekvivalenta?

PM - Patientsäkerhet i förebyggande syfte

Process- och metodreflektion Grupp 5

Utvärdering av automatiska omskrivningar Från både en objektiv och en subjektiv synvinkel

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

CogSum. Ett försök att med dagens automatiska informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte

Utveckling av Läsaren

Concept Selection Chaper 7

1. Beräkna determinanten

En manuell utvärdering av extraktionssammanfattade texter.

Maja Schylström 8/25/2011

Kan förstå det huvudsakliga innehållet i olika genrer och uppfattar väsentliga detaljer i talad engelska och i måttligt tempo.

Praktisk Svenska 2. Jag kan Skapa och använda olika minnesknep Studieteknik 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Hur prioriterar personer med lässvårigheter 19 viktiga parametrar för läsbarhet?

Jonas Sandström Linköpings universitet

Kungliga Tekniska Högskolan Patrik Dallmann

Random Indexing. - med större korpus. Olof Stange & Claes Toll Handledare: Johan Boye DD Språkteknologi

UPG5 och UPG8 Miniprojekt 1: 2D datorgrafik

Skola till arbete. Pilotstudie. Flera funktionsnedsättningar. Arvsfonden 2 terminer, Grupp elever i Kungälv, Linköping.

Artiklar via UB:s sö ktja nst

Arv. Fundamental objekt-orienterad teknik. arv i Java modifieraren protected Lägga till och modifiera metoder med hjälp av arv Klass hierarkier

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

{ (1 + i)z iw = 2, iz + (2 + i)w = 5 + 2i, där i är den imaginära enheten. Ange rötterna z och w på rektangulär form.

Filhanterare med AngularJS

It-politik Fakta i korthet

TILLGÄNGLIGHET PÅ WEBBEN KOMMUNIKATIONSENHETEN

TAIU07 Matematiska beräkningar med Matlab

3. Lös ekvationen 3 + z = 3 2iz och ge i det komplexa talplanet en illustration av lösningsmängden.

5. Förklara och ange definitionsmängden och värdemängden för funktionen f definierad enligt. f(x) = x 2

2. Lös ekvationen z i = 2 z + 1 och ge i det komplexa talplanet en illustration av lösningsmängden.

Brottsofferjourens policy för tillgänglighet ur ett funktionshinderperspektiv

Sofie Johansson Kokkinakis

Kommittédirektiv. Översyn av statens insatser för lättläst. Dir. 2012:109. Beslut vid regeringssammanträde den 25 oktober 2012

2. Vilka taltripler (x, y, z) satisfierar ekvationssystemet x + 2y 13z = 4 4x y + 17z = 5

Centralt innehåll. Tala, lyssna och samtala. Läsa och skriva. Berättande texter och faktatexter. Språkbruk. I årskurs 1-6

FFM234, Klassisk fysik och vektorfält - Föreläsningsanteckningar

Visualisering av samverkan

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Läsning. - en del av att vara människa! m. undervisning och ihärdig träning. är r en produkt av tre faktorer: A x F x M. God läsutveckling.

Projektsammanfattning

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Barn och unga med flerfunktionsnedsättning: En kunskapsöversikt av medel som ger möjligheter till aktivitet och delaktighet

DN1212/numpm Numeriska metoder och grundläggande programmering Laboration 1 Introduktion

Kursplan i svenska som andraspråk grundläggande GRNSVA2

Läs och skrivsvårigheter är inte synonymt med dyslexi. Ur boken Barn utvecklar sitt språk 2010) redaktörer Louise Bjar och Caroline Liberg

LPP 7P2 i svenska och svenska som andra språk

Morgan Henricson Eskilstuna okt Om tidsenlig utbildning, tillgänglig undervisning och digital kompetens

Lättläst lätt att läsa eller lätt att skriva? Camilla Forsberg

UB:s sö ktjä nst - Söka artiklar och annan litteratur

3i)z 2013(1 ) och ge i det komplexa talplanet en illustration av lösningsmängden.

svenska som andraspsråk

Bestäm den matris B som löser ekvationen = 1 2

Allmänheten om digitala böcker

Skapa kommunikativa rum för förskolans kvalitetsarbete genom ledning av kollaborativa samtal

a3 bc 5 a 5 b 7 c 3 3 a2 b 4 c 4. Förklara vad ekvationen (2y + 3x) = 16(x + 1)(x 1) beskriver, och skissa grafen.

SVENSKA 3.17 SVENSKA

Vektorrum. EX. Plan och linjer i rummet genom origo. Allmänt; mängden av lösningar till AX = 0.

Slutrapport projektgenomförande Metamatrix

Föreläsning 7. Felrättande koder

Patientens Egen Registrering (PER)

Skrivstrategier. En framgångsrik språkinlärare: Tror på sin förmåga att lära sig. Är motiverad. Är medveten om varför hon/han vill lära sig

Textkomplexitet. Arne Jönsson Linköpings universitet RISE SICS East

Föreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

1 basen B = {f 1, f 2 } där f 1 och f 2 skall uttryckas i koordinater i standardbasen.

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A. (1 p) (c) Bestäm avståndet mellan A och linjen l.

Kan datorn lära sig ordkunskap automatiskt?

Tekniker för storskalig parsning

Utvärdering av automatiska omskrivningar Från både en objektiv och en subjektiv synvinkel

Vektorgeometri. En vektor v kan representeras genom pilar från en fotpunkt A till en spets B.

Svenska Läsa

Ett projektarbete i svenska, teknik och engelska, riktat mot DICE. Thoren Innovation School HT2012.

Introduktion av fältstudieuppgift och metaanalys

Skriv! Hur du enkelt skriver din uppsats

Lättläst är en del av tillgängligheten

Utbildningen i engelska har dessutom som syfte att vidga perspektiven på en växande engelsktalande omvärld med dess mångskiftande kulturer.

IT-strategi för välfärdsteknik Beslutad av omsorgsnämnden

TANA17 Matematiska beräkningar med Matlab

Transkript:

FriendlyReader Språkteknologi för sammanfattningar och ökad läsbarhet Mål:! Öka den digitala delaktigheten genom att underlätta för personer med lässvårigheter att tillgodogöra sig textuellt baserad information på Internet! Utveckla en tjänst baserat på konceptet design-för-alla Arne Jönsson, Christian Smith Arbetsgång Målgruppsegmentering! Målgruppssegmentering! Persona- och scenarioutveckling! PUGH-analys! Interaktions- och tjänstedesign! Tjänsteutveckling! Sammanfattare! Omskrivning till lätt svenska! Synonymhanterare! Utvärderingar Segment baserade på litteratur och samtal med:! Syncentral! Utredare inom funktionsnedsättningar! Forskare inom syn och dyslexi! Utbildare inom specialpedagogik med inriktning mot syn! Koordinatorer för studenter med funktionsnedsättningar! Specialpedagog med inriktning mot dyslexi! Personer med dyslexi och synnedsättningar

Resultat från målgruppsegmenteringen Personor och scenarier Målgruppsegmentering! 7 segment! Valde ut 3:! 3) Skärmförstoring,! 5) Saknar flyt i läsningen,! 6) Undviker läsning! Personor (människor med läs- och skrivsvårigheter, synsvaga, människor med annat modersmål än svenska)! Scenarier (personor i interaktion med olika koncept av sammanfattningsprogrammet)! Andra scenarier för att visa på olika konceptidéer! Baserat på intervjuer! Två personor i segment 3), en vardera i 5) och 6) Persona Scenario

Pugh-analys Resultat! Hjälpverktyg för att rangordna olika koncept! Skissade koncept! Krav identifieras! Hur bra uppfyller varje koncept de olika kraven (-1, 0, 1)! Personor och andra fiktiva användare viktas! Varje krav viktas för varje persona! -1 = kommer aldrig att behövas! 1 = behövs inte! 2 = kan vara bra! 3 = måste ha! Bästa alternativet Koncept! Poäng alla! Poäng personor! Läsplatta! 2.34! 2.37! Manuell bok! 2.24! 2.14! Plug in desktop! 2.05! 2.006! Stand alone! 2! 2! Program på hemsida! 1.93! 1.93! Smartphone! 1.89! 1.94! Plug in web! 1.77! 1.71! Interaktionsdesign! Valde ut 3: Plug in desktop, Stand alone, Program på hemsida! Implementerade Stand alone och program på hemsida! Designkoncept! Skissa designkoncept baserat på personor och scenarier! Utvärdera med personer ur målgruppen

Tjänsten FriendlyReader består av! Verktyg för dynamiska textsammanfattningar! Stöd för omskrivning till lätt svenska! Synonymhanterare! Tilläggstjänst för ljudpresentation! Hjälpmedel för att läsa texter! http://www.ida.liu.se/projects/friendlyreader/ Textsammanfattningar Vektorrumsmodeller! Ett verktyg för att skapa sammanfattningar! Problem att läsa! Olika syften! Ersätta läsning! Ge indikation på om det är intressant att läsa! Studera sammanfattningar! Kan variera ett antal parametrar för att förbättra sammanfattningarna! Bygger på vektorrumsmodellen Random indexing och Page Rank! Representera ords och meningars betydelser som koordinater och riktningar i en stor rymd! Tekniker som reducerar den lingvistiska variationen och fångar semantiskt relaterade begrepp! Skapa en matris med textenheter/dokument som kolumner och alla ord i textenheterna som rader! Cellerna i matrisen är skilda från noll om ordet på en rad finns i textenheten. Gles matris, dvs många nollor. Mening 1 Mening 2.. Meningt m ord 1 c 11 c 12 ord 2.. ord n c nm

Vektorrumsmodell Random indexing! Varje kolumn (eller rad) kan ses som en vektor i en mångdimensionell rymd! Likhet mellan dokument mäts som närhet i vektorrummet (cos)! Sammanfattningar skapas genom att ta de meningar vars vektorer är mest representativa för dokumentet Dokumentvektorn! Tilldela varje ord en slumpmässig vektor! Gå igenom hela texten ord för ord! Uppdatera varje ordvektor med ordvektorerna för grannarna! w n-2 w n-1 w w n+1 w n+2! w = w n-1 +w n+1 +0,5(w n-2 +w n+2 )! Skapa meningsvektorer genom att addera meningens ordvektorer! Skapa dokumentvektor genom att addera alla meningsvektorerna Meningt 1 Mening 2.. Mening m ord 1 c 11 c 12 ord 2.. ord n c nm Random indexing, exempel Ytterligare förbättring Exempel.. Sven gick i skogen. Han bet hunden. Den skrek. 1. Tilldela en gles slumpvektor (ofta 300 dimensioner) till varje ord Han ( 0-1 0 1 0-1 0 0 0 1) bet ( 0 0 0 0 0 1 1-1 -1 0) hunden (-1 0 1 0 0 1 0-1 0 0).. 2. Kontextvektor för bet (tar bara hänsyn till närmsta grannar) (-1-1 1 1 0 0 0-1 0 1) 3. En meningsvektor skapas genom att slå ihop alla kontexter i en mening.! Använd måttet på hur nära meningsvektorer är varandra för att ytterligare stärka viktiga meningar! Skapa en graf över alla meningar med avståndet mellan meningar som vikter mellan meningarna! Uppdatera vikterna mellan meningar utifrån grafen med hjälp av Page Rank! Välj de meningar med högst rank (uppdaterad vikt)

Page Rank, illustration Träning av sammanfattaren mening j mening n! Utöka med stor förtränad rymd mening i cosα ij cosα in! Mindre slump, bättre kvalitet (jmf. guldstandard)! Mer robust cosα ik cosα im mening k mening m Resultat Automatisk omskrivning till lätt svenska! Lika bra som mänskliga sammanfattare! Skapat guldstandarder! Normalt mellan 60-70% överlapp mellan människor! Syntaktiska regler! Mönster som är vanliga i lätta texter men inte i svåra! Transformation svår " lätt! REPL//NP-DT NN -> NP-NN P(#)! Byt ut nominalfras innehållande artikel och substantiv till endast substantiv, dvs ta bort artikeln. Jag tycker om den tröjan " Jag tycker om tröjan.! Text " ordklasstaggning " parsning " omskrivning

Synonymer Webbtjänst! Studier av synonymer! Längd! Frekvens! Grad av synonymitet! Resultat! Ökad läsbarhet utifrån läsbarhetsmått! Många fel! Ersätter inte ord med synonymer utan presenterar en lista med tänkbara synonymer PDFstöd Användarstudier! Sammanfattningar! Omskrivningar till lätt svenska! Kombinationer! Sammanfattning Lätt svenska! Lätt svenska Sammanfattning! Bättre att först skriva om texten innan den sammanfattas

Läsbarhet hos sammanfattningar Textkvalitetsstudier, Läsbarhet! LIX, ordvariationsindex! OVIX, andel unika ord! NR, nominalkvot! PN, andel bestämda substantiv! Medelmeningslängd! Medelordlängd! Extra långa ord n(ord) " n(ord > 6 bokstäver) % LIX = + $ 100' n(meningar) # n(ord) & log(n(ord)) OVIX = log(2 log(n(unikaord)) ) log(n(ord)) n(nomen)+ n(prepositioner)+ n(participer) NR = n(pronomen)+ n(adverb)+ n(verb)! Sammanfattningar vs original! Tre olika genres! DN! Forskning och framsteg! Försäkringskassan! Bättre läsbarhet enligt LIX hos sammanfattningar n( ord) LIX = n( meningar) +! n( ord > 6 bokstäver) $ # x100 " n( ord & ) % Textkvalitetsstudier, kohesion Resultat Feltyper:! Felaktig anaforisk referens! Avsaknad av kontext eller koherens! Trasig/missledande anaforisk referens! Felaktiga citat! Ofullständiga listor och uppradningar! Klippta meningar! Avsaknad av kontext och koherens samt felaktiga och trasiga/ missledande referenser är de vanligaste feltyperna i automatiskt sammanfattade texter! Feltyperna förhåller sig olika i relation till sammanfattningsgrad! Vidare användarstudier behövs för att se hur feltyperna påverkar läsbarhet och förståelse för slutanvändaren! Ögonrörelsemätningar

Studier av textkvalitet Studier av användbarhet! Högskoleprovet! 60 personer, studenter! Sammanfattningar och omskrivningsregler! 30% sammanfattning, full text, gissning! Antal rätta svar, tid att läsa samt subjektiv skattning utifrån frågeformulär! Flest rätta svar med originaltexterna. Sammanfattningarna bättre än att gissa! Sammanfattningarna ansågs betydligt bättre än de omskrivna texterna.! Originaltexterna ansågs bättre än de bearbetade texterna! Gick betydligt fortare att läsa de bearbetade texterna! Personer med lässvårigheter.! Tidig version av stand-alonetjänsten och fokuserat på användningen av tjänsten.! I en studie använde 11 dyslektiker tjänsten.! Förfrågningar till 60 personer med lässvårigheter men endast 11 svarade.! I stort sett nöjda med tjänsten, många uppskattade t.ex. möjligheten att få texten uppläst.! Förslag till förbättringar som implementerats i den slutgiltiga versionen.! Intervjuer med dyslektiker och observationer, 6 personer! Även denna studie visade att tjänsten är uppskattad och ytterligare förslag till förbättringar presenterades, vilka realiserats i den slutliga tjänsten Webblättläst Arbetssätt! Syfte: Göra textuell information på internet lättare tillgänglig för personer som har problem att läsa och förstå svenska! Rangordna texter efter hur lättlästa de är prioritera att läsa de texter som är lättast att läsa utifrån olika kriterier! Utveckla teknik för att automatiskt rangordna svenska webbsidor efter läsbarhet! Enkelt kunna anpassas till olika läsbarhetsmått, användargrupper och texttyper! Samma som EasyReader! Persona, scenarier, PUGH-analys! Designkoncept! Teknikutveckling! Användarstudier! Olika viktning! Relevans, google! Läsbarhet, LIX, OVIX

Webblättläst Mer information! http://www.ida.liu.se/projects/friendlyreader/! http://www.ida.liu.se/projects/webblattlast/