Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Relevanta dokument
Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

WEBBKLUSTRING SLUTRAPPORT

WEBBLÄTTLÄST SLUTRAPPORT

Projektsammanfattning

Projektets slutdatum Licens som gavs till resultatet t.ex. CC, MIT, GPL, APACHE. Vi höll budgeten. Resekostnader blev lägre än väntat.

EasyReader (FriendlyReader)

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning

prototypen var mer lättförstått än i det andra.

Synonymutvärdering: Synonymlexikon slår ordvektormetod. Anna Westin Augusti 2018

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

EQUAL BIBLIOTEKEN I ÖSTERGÖTLAND Slutrapport

Slutrapport projektgenomförande - Freindly Reader e- tjänst med informationsextraktion ur digitala dokument för personer med lässvårigheter

IFv Utveckling av test för mätning av informationssökningskompetens

Textkomplexitet. Arne Jönsson Linköpings universitet RISE SICS East

Remissvar från Centrum för lättläst

Lättläst sammanfattning av Utredningen om Lättläst

Extern kommunikationsstrategi

campus.borlänge Förstudie - Beslutsstöd för operativ tågtrafikstyrning

4. Beskriv projektets inslag av och inriktning mot ett flexibelt lärande

Kommunikationsplan Nätverket för strategisk folkhälsoarbete i Gävleborg (NSFG)

Ett nytt Friendlyreader

Dependensregler - Lathund

Kursplan Gränssnittsdesign och Webbutveckling 1 Vårtermin 2014

Undervisningen i ämnet webbutveckling ska ge eleverna förutsättningar att utveckla följande:

SVENSKA 3.17 SVENSKA

Lokal pedagogisk planering för årskurs 5 i ämnet svenska som andraspråk

Sofie Johansson Kokkinakis

GRÄNSSNITTSDESIGN. Ämnets syfte. Kurser i ämnet

Verksamhetsplan Linje 14

Slutrapport projektgenomförande - Access and Language Technology (ALT)

Slutrapport. APFy.me

Kursplan Gränssnittsdesign, 100p Läsår

ATTRIBUTLER SLUTRAPPORT

Programbeskrivning RE:Source bilaga D Kommunikationsstrategi för RE:Source Etapp

Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Äldreguiden. Nätverksträff 24-timmarswebben Västerås, 2 juni 2008

MASTER. Mining and selecting texts for easy reading. Katarina Mühlenbock

Rune Tennesmed. Oskar Norling 1DV430. Individuellt Mjukvaruutvecklingsprojekt 1DV430 Webbprogrammerare H12 Oskar Norling

Pre-editering och maskinöversättning. Convertus AB

TRADITIONELLA FAKTURALÖSNINGAR VS. BILLOGRAM

SVA 3.18 SVENSKA SOM ANDRASPRÅK. Syfte

Bilaga 4 c: Processkartläggning

Utlysning 1 Industriförankrade utvecklingsprojekt

Utvärdering Projekt Vägen

Framtidens drönare. Drönare för individer och samhälle UTLYSNING

Pre-VITS (Förstudie - Virtuella verktyg för service, underhåll och återvinnings flöden)

GÖR VERKLIGHET AV DIN DIGITALA POTENTIAL.

Centralt innehåll. I årskurs 1 3

Usify. EasyReader. Affärsmodeller

Kommunikationsplan. Nätverket för strategisk folkhälsoarbete i Gävleborg (NSFG)

Interaktionsdesign 2 Kommersiell design. Jonas Jönsson & Rafel Saad

Chaos om datorprojekt..

Bredbandsbåten Hubory, Johan Hagert

KOMM UT Planera din kommunikation

Chaos om IT-projekt..

Medier Fakta i korthet

Projektnamn: Nyanlända barn och elevers utbildning. Checklista inför beslut, BP1 JA NEJ

Navigeringshjälpmedel för personer med kognitiva funktionshinder

Idrottsapen. 1. Inledning. 2. Mål och syfte. 3. Projektbeskrivning

Inledning... 3 Mål och syfte... 4 Projektbeskrivning... 5 Nedslag i processen... 7 Press... 9 Resultat Utvärdering och analys...

En introduktion till källkritik åk 1-3

Regional samhällsorientering på modersmål - syfte samtliga nyanlända, oavsett boendeort, erbjuds samhällsorientering på modersmål eller annat språk

finansieringsmöjligheter

Del ur Läroplanen för specialskolan 2011: kursplan i teckenspråk för döva och hörselskadade

Kommunikationsplan 2013

Forskningsprojekt Dnr : Komplex produktion: Stöd för optimering av direkt och indirekt arbete, kompetens och information (COMPLEX)

Användarcentrerad Systemutveckling

Tieto Forum dagar

Framtiden inom geografisk IT, trender och vad som kommer påverka alla som arbetar med GIS. Lars Backhans, ESRI

729G09 Språkvetenskaplig databehandling

Skollagen (2010:800) Eleverna ska utan kostnad ha tillga ng till bo cker och andra lärverktyg som beho vs fo r en tidsenlig utbildning (10 kap 10 )

Slutrapport Projektet OCR-tolkning för indexering av,

Lättläst. Lättläst version. Betänkande av Lättlästutredningen. Stockholm 2013 SOU 2013:58

Preliminära resultat samt uppföljning och utvärdering av modell

Svenska som andraspråk

Terminsplanering i Svenska årskurs 9 Ärentunaskolan

Utveckling av Läsaren

Utveckling av ett implementeringsverktyg för digitala lösningar i vården. Vitalis 21 maj

Stokastisk simulering inom hållfasthetslära. Tomas Dersjö Delprogram: Fordonsutveckling

Mobilt Efos och ny metod för stark autentisering

Kommunikationsplan för projekt Medborgardialog 2012 i Gislaveds kommun

Hållbar utveckling A, Ht. 2014

Mobilt Efos och ny metod för stark autentisering

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

Kumla kommuns e-tjänsteplattform för att skapa användarvänliga e-tjänster för externa och interna mottagare

Mobilt Efos och ny metod för stark autentisering

Rapportskrivning Användarcentrerad Design. Anders Lindgren

Vad är. Domändriven design?

Open Access i Sverige

Vallentunas väg till en digital samhällsbyggnadsprocess. Sanna Sparr Olivier och Markus Ek

Mobiler och mobilappar som redskap för språkutveckling

Dnr: Strategi för kriskommunikationssamverkan Örebro län 2012

VISA-com Projektansökan

LÄROPLAN FÖR GRUNDSKOLAN, FÖRSKOLEKLASSEN OCH FRITIDSHEMMET 2011 SVENSKA Ämne: Svenska åk 4-6

Engelska åk 5 höstterminen 2013

Bengt Nilsson / Kicki Strandh DNR: Nummer. Ny design på miun.se. Uppdragsbeskrivning till KnowIT

KOPIERINGSLICENS FÖR UNIVERSITET OCH YRKESHÖGSKOLOR

Mål och strategi för Internet of Things Sverige

Transkript:

Stöd för webbredaktörer att skapa mer tillgängliga texter Projektet har utvecklat Internet i Sverige Projektet var framgångsrikt Projektet nådde målen Projektet höll budgeten Projektet höll tidsplanen Projektet följde projektplanen Projektets slutdatum 2016-12-31 Licens som gavs till resultatet Tillgängligt via REST API t.ex. CC, MIT, GPL, APACHE Förtydligande angående ovan frågor Projektet kommer att utveckla användningen av internet i Sverige genom att öka den digitala delaktigheten. Inom projektet har vi utvecklat en integrerad webbtjänst som samlar ett antal språkteknologiska verktyg för textförenkling och textanalys. Verktygen finns också tillgängliga genom ett REST API för enkel integration i andra tillämpningar. Tjänsten är utvecklad iterativt i samarbete med webbredaktörer och har varit framgångsrikt såtillvida att vi uppnådde de uppställda målen inom tidsplan och budget. Resultat och nytta Inom projektet har vi utvecklat en webbtjänst där ett antal verktyg för textförenkling och språklig analys görs enkelt tillgängliga för webbredaktörer. Projektet har utförts i tre parallella, samverkande, spår: 1. Gränssnittsutveckling och användarstudier Tjänsten är främst tänkt att användas av webbredaktörer och har utvecklats iterativt i samarbete med ett antal webbredaktörer under i princip hela projektets utvecklingstid. Initialt utförde vi sex intervjuer med olika webbredaktörer, kommunikatörer och skribenter vid Linköpings universitet, Region Östergötland samt tidningen 8 SIDOR vid Myndigheten för tillgängliga medier (MTM). Utifrån detta utvecklades en första prototyp av gränssnittet som hanterade synonymer och textförenkling. Den första prototypen testades med tre användare som samtliga var nöjda med funktionerna, speciellt möjligheten att använda synonymer. Dock visade det sig

att användarna inte ville ha omskrivningar direkt utan snarare återkoppling och förslag på förenklingar. Inför det fortsatta arbetet med att integrera fler språkteknologiska verktyg träffade vi webbredaktörer vid Linköpings kommun främst för att förstå hur man kan kommunicera textanalys och textförenklingar. Textanalysmått visade sig vara svåra att kommunicera så vi utförde en separat analys omfattande 6 webbredaktörer med mer än 10 års erfarenhet från två olika organisationer. Resultatet av analysen visade att radardiagram kan vara ett bra sätt att visualisera textanalysmått men att det fortfarande är svårt att förstå alla måtten. Studien gav också ett flertal råd om hur radardiagrammen kan förbättras. Vi arrangerade en workshop i Stockholm med 4 webbredaktörer från Sveriges Radio. Vid workshopen fick webbredaktörerna utvärdera textförenklingarna samt hur textkomplexiteten kan presenteras i den tjänst som finns tillgänglig för närvarande. Workshopen bekräftade tjänstens design av textförenklingar och gav också ytterligare förslag på förbättringar framförallt av hur textkomplexiteten kan visualiseras. 2. Korpusstudier Arbetet med att förbättra de språkteknologiska verktygen utgår från analyser av hur människor gör vilket i sin tur inhämtas från texter producerade av människor; korpusar. Vi har inledningsvis använt befintliga två korpusar, LäsBarT (lättlästa texter) och SUC (texter representativa för svenska), för att skapa bättre förenklingar. Vi har också skapat en egen korpus av lättlästa texter och motsvarande original genom att samla in samtliga myndigheters webbtexter; lättlästa och motsvarande original. Korpusarna har använts i flera syften. I syfte att hitta fler och bättre synonymer har vi utvecklat och analyserat två metoder för att generera synonymer. Synonymer genererade från de två metoderna har utvärderats i en webbstudie och visat att det finns signifikanta skillnader i hur väl metoderna presterar. Korpusarna har också använts i arbetet med att skapa nya förenklingsmönster. Vi har implementerat en metod för att generera ett antal meningar med olika förenklingar. Dessa har sedan utvärderats genom en crowdsourcing-studie där ett antal personer fick gradera hur lik originalmeningen respektive förenkling var. Korpusarna kommer vidare att användas för ytterligare förfining av de metoder och tekniker som utvecklats i detta projekt. 3. Serverutveckling Detta arbete har fokuserat på själva webbtjänstutvecklingen, framförallt att få 2

en snabb analyskedja samt en modulariserad servletstruktur. Genom att dela upp de språkliga anlaysmodulerna på egna servlets får vi en bättre modularisering och ett effektivare flöde. Serverutvecklingen gör att vi nu har en snabb och robust tjänst där de språkteknologiska komponenterna synonymhantering, textförenkling, textsammanfattning samt olika typer av textanalys integrerats. Delarna är också tillgängliga via REST API så att de enkelt kan integreras i andra tjänster. Spridning Tjänsten är utvecklad för att användas av webbredaktörer men den kan användas av vem som helst som på något sätt vill bearbeta en text, antingen få en text sammanfattad eller förslag på hur texten kan förenklas. Inom projektet är det huvudsakligen webbredaktörer vid olika myndigheter som använt tjänsten. Tjänsten kan också användas av personer som är intresserade av textanalys. Textanalysdelen av tjänsten demonstrerades vid SweClarins öppningsceremoni 2016 där den mottogs mycket väl. SweClarin är den svenska delen av ett EUinitiativ som syftar till att göra språkbaserade material tillgängliga som primära forskningsdata för humanistisk och samhällsvetenskaplig forskning. Vi har därför utvecklat en tjänst med enbart textanalysdata och kommer att fortsätta det arbetet inom ramen för SweClarin under våren 2017. I och med att vi under 2016 fick beviljat medel från Vinnova för det tvååriga projektet "DigInclude - Digital inkludering i det uppkopplade samhället för grupper med speciella behov" kommer resultatet från detta projekt att spridas till ett antal myndigheter, initialt Stockholms läns landsting, Region Östergötland, Linköpings kommun samt Linköpings universitet, som samtliga ingår i projektet, men flera andra myndigheter har uttryckt intresse, t.ex. Migrationsverket och Försäkringskassan. Inom projektet DigInclude har vi under 2016 demonstrerat tjänsten för webbredaktörer vid bland annat Linköpings kommun och Linköpings universitet. Under 2017-18 planerar vi ytterligare demonstrationer, och användarstudier, där tjänsten aktivt kommer att marknadsföras. Huvudsyftet med DigInclude är att öka den digitala delaktigheten bland annat genom att göra texter på internet enklare att förstå med hjälpa av textförenklingar och textsammanfattningar men också genom att ge mer informativ läsbarhetsinformation. Tjänsten kommer också att utvecklas för att kunna användas av slutanvändare. Grunden i tjänsten är den client-serverlösning som utvecklats i internetfondenprojektet. Till denna kommer ett nytt gränssnitt att skapas, iterativt tillsammans med tänkta slutanvändare ur olika målgrupper. 3

Det finns ett REST API och en bruksanvisning för hur man använder de språkteknologiska vektyg som gjorts tillgängliga inom projektet. Man kan då skapa sina egna tjänster där man kan anropa våra verktyg för olika textanalysmått eller textförenklingar. Resultaten har publicerats och presenterats vid olika vetenskapliga konferenser under 2016. Synonymstudien har presenterats vid en vetenskaplig konferens där det också valdes ut för vidare publikation i en tidskrift: Automatic Extraction of Synonyms from an Easy-to-Read Corpus, Vida Johansson, Evelina Rennes, The Sixth Swedish Language Technology Conference (SLTC), Umeå, Sweden, 2016 De olika korpusinsamlingarna har presenterats vid två vetenskapliga konferenser: Similarity-Based Alignment of Monolingual Corpora for Text Simplification, Sarah Albertsson, Evelina Rennes, Arne Jönsson, Coling 2016 Workshop on Computational Linguistics for Linguistic Complexity (CL4LC), Osaka, pan, 2016 Towards a Corpus of Easy to Read Authority Web Texts, Evelina Rennes, Arne Jönsson, The Sixth Swedish Language Technology Conference (SLTC), Umeå, Sweden, 2016 Webbtjänsten har också presenterats vid en vetenskaplig konferens: Introducing SAPIS - an API service for text analysis and simplification, Daniel Fahlborg, Evelina Rennes, The second national Swe-Clarin workshop: Research collaborations for the digital age, Umeå, Sweden, 2016 Läsbarhetsmåtten har publicerats vid vetenskaplig konferens: Implicit readability ranking using the latent variable of a Bayesian Probit model, Johan Falkenjack, Arne Jönsson, Coling 2016 Workshop on Computational Linguistics for Linguistic Complexity (CL4LC), Osaka, pan, 2016 Dessutom har en kandidatuppsats och två interna rapporter skrivits. Webbsida för projektresultat http://www.ida.liu.se/projects/stillett/ 4

Utmaningar och lärdomar Vi har inom projektet utvecklat den tjänst vi planerade att utveckla. Själva serverutvecklingen och modulariseringen har varit ganska oproblematisk, även om vi hade vissa inledande problem med olika tomcat serverversioner. Utöver vad som planerades i projektet har vi också utvecklat ett REST API vilket möjliggör enkel integrering av hela eller delar av tjänsten på egna webbsidor, eller i andra tillämpningar där textanalys och textbearbetning kan behövas. Den största utmaningen har varit att få de olika textanalysmåtten begripliga. Vi har experimenterat med olika gränssnittsdesigner och också intervjuat ett flertal webbredaktörer samt provat att bara presentera olika delmängder av måtten, som i dagsläget är över 100 stycken. Egentligen är detta inte ett problem för projektet att lansera en webbtjänst för webbredaktörer utan snarare är problemet att det saknas kunskap om vilka mått webbredaktörer vill ha. Samtidigt har textanalysmåtten visat sig vara av stort intresse för forskare inom humaniora och samhällsvetenskap som nu fått ett nytt, internetbaserat och enkelt, verktyg för sina analyser. En lärdom är att användarnära, iterativ utveckling är tidskrävande men absolut nödvändig vid den här typen av tjänsteutveckling; där vi på förhand inte vet något om hur användarna vill använda tjänsten eller vilken kunskap de har om språkteknologiska verktyg. Förslag och idéer Det finns nu en tjänst anpassad för webbredaktörer. Ett nästa naturliga steg är att utveckla motsvarande tjänst för slutanvändare, främst personer med läs- och skrivsvårigheter. Bland annat tror vi då att texterna skall förenklas direkt istället för att, som idag, tjänsten lämnar förslag på förenklingar. Synonymer kommer också att presenteras på annat sätt. Vidare behövs fler textförenklingar. I den fortsatta analysen av den korpus som vi skapat inom projektet kommer vi att kunna identifiera nya textförenklingar som människor gör. Vi kommer också att undersöka om vanligare meningsstrukturer är lättare att läsa och förstå än ovanliga, och hur man kan använda detta för textförenkling. Vår korpus kommer där att utgöra en grund för att identifiera vanliga meningskonstruktioner. Vi kommer därefter att 5

utveckla tekniker för att automatisera denna förenklingsprocess och efterhand integrera i tjänsten; såväl för skribenter som slutanvändare. En annan viktig fortsättning på projektet är att undersöka textanalysmåtten. Detta arbete kommer att fortsätta under 2017-18 och omfattar bland att identifiera textanalysmått som webbredaktörer är intresserade av att använda i sitt arbete som skribenter. Vidare måste vi fortsätta arbetet med att presentera dessa mått. Radardiagram, som utvecklats inom projektet, visade sig vara ett effektivt sätt som kommer att integreras i tjänsten, men andra tekniker att visualisera komplexa samband kommer att undersökas. Vidare kommer vi att undersöka slutanvändares behov av att mäta texters komplexitet och hur de vill att detta presenteras. Arbetet kommer att fortsätta inom projekten SweClarin och DigInclude. Blogginlägg Alla i Sverige förstår inte svenska lika bra, t.ex. personer med lässvårigheter och nyanlända. Texter måste därför bli enklare att förstå, speciellt texter från offentliga förvaltningar som innehåller information som många medborgare behöver förstå. En lösning för att förenkla texter är att erbjuda verktyg som hjälper skribenter att skriva mer begripligt. En annan är att erbjuda tjänster som låter användare själva förenkla texter. Inom projektet har vi utvecklat en webbaserad språkteknologisk tjänst för webbredaktörer kallad StilLett. Syftet med tjänsten är att öka den digitala delaktigheten genom att göra det enklare för webbredaktörer att skriva mer begripliga texter. StiLett nås via webbsidan http://www.ida.liu.se/projects/scream/webapp/ och kan användas av såväl webbredaktörer som slutanvändare. StilLett samlar ett antal verktyg i en integrerad tjänst som på olika sätt hjälper skribenter att skriva texter som är enklare att förstå. De verktyg som erbjuds inom tjänsten är textsammanfattning, textförenkling, synonymförslag samt ett stort antal textanalysmått; dels traditionella analysmått som LIX och Ovix men också mått som t.ex. andel svåra ord, grammatisk komplexitet, antal ord av olika ordklasser etc. StilLett har utvecklats i flera steg i nära samarbete med webbredaktörer vid olika myndigheter och finns tillgängligt såväl som en integrerad webbtjänst som ett REST-API genom vilket de olika verktygen enkelt kan integreras i 6

andra tillämpningar. Projektet beskrivs mer på webbsidan http://www.ida.liu.se/projects/stillett/index.en.shtml. 7