Textkomplexitet. Arne Jönsson Linköpings universitet RISE SICS East

Relevanta dokument
Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

Lingvistiskt uppmärkt text

EasyReader (FriendlyReader)

Dependensregler - Lathund

Textstil/tonalitet med Acrolinx

DigInclude - Digital inkludering i det uppkopplade samhället för grupper med

Pre-editering och maskinöversättning. Convertus AB

Lingvistiskt uppmärkt text

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Synonymutvärdering: Synonymlexikon slår ordvektormetod. Anna Westin Augusti 2018

Lösningsförslag till tentamen i Språkteknologi 2D1418,

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

WEBBLÄTTLÄST SLUTRAPPORT

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

WEBBKLUSTRING SLUTRAPPORT

Assistans med språklig kvalitet Stöd eller irritationsmoment?

LINKÖPINGS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter

Ett nytt Friendlyreader

Random Indexing för vektorbaserad semantisk analys

Maskinöversättning 2008

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

En språkpolitik för internet

specialpedagogik/grundskola/122_inkludering_och_delaktighet_flersprakighet

Information på fler språk

Vägar till bättre översättningsprogram

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Projektsammanfattning

Lättläst lätt att läsa eller lätt att skriva? Camilla Forsberg

Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv. Rickard Domeij Språkrådet i Sverige

Convertus - kursplaneöversättning

Det här med levels.?

Nyanlända och flerspråkiga barn i förskolan

Språkgranskningsverktyg, vt 2009

Grammatik för språkteknologer

Sofie Johansson Kokkinakis

Språkliga uttrycks mening

Språkteknologi. Språkteknologi

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Grundläggande textanalys. Joakim Nivre

LINKÖPINS UNIVERSITET. SimSum. En studie om automatisk sammanfattning och omskrivning av texter. Sammanfattning

Fraser, huvuden och bestämningar

ÖVERSÄTTNINGSTJÄNSTER

Lingvistiska grundbegrepp

Maskinöversättning möjligheter och gränser

Obesvarade frågor från F1

Om ämnet Engelska. Bakgrund och motiv

Handledning och checklista för klarspråk

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Grammatik för språkteknologer

Språkteknologi för ökad tillgänglighet vilka möjligheter finns?

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Informationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)

Semantik. Semantik och språkteknologi

Kursplaneöversättaren. Lina Stadell

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

MSPR Moderna språk, steg poäng inrättad SkolFs: 2000:87. Mål. Betygskriterier

Neurolingvistik - Grammatik

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Språk, datorer och textbehandling

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Tekniker för storskalig parsning

Tillgänglighet och teknologi en omöjlig möjlighet?

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

Frasstrukturgrammatik

Tentamen Marco Kuhlmann

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

Språkteknologi och Open Source

Språk, datorer och textbehandling

Word- sense disambiguation

Teoretisk lingvistik och datalingvistik. Robin Cooper

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

nå ända fram guide för informatörer som vill nå alla i sverige

Kvällens litteratur. Tvåspråkighet VT07. Lite inledande saker. Kvällens upplägg. 1. Ettspråksmodellen

Språk, datorer och textbehandling

Språkpsykologi/psykolingvistik

Kartläggning och bedömning av nyanlända elevers kunskaper och språkutveckling

Karp. Övningar Språkbankens höstworkshop oktober 2016

TexSTo Text Simplification tool Ett läsverktyg med fokus på personer med lässvårigheter

Tekniker för storskalig parsning

Prövning i grundläggande Engelska

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

BasALT ett webbaserat författarstöd för att skriva på enkel svenska

Lingvistik I Delmoment: Datorlingvistik

Fodina Language Technology White Paper Ordnad språkhantering

Svenska barnboksinstitutet. Bokprovning Årgång Statistik. Vilka titlar döljer sig bakom statistiken? Vill du ha boklistor?

6 Svenska som andraspråk

FILMER OM KROPP, HÄLSA & SEXUALITET PÅ 14 OLIKA SPRÅK!

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Tecken! tecken. u. (nedtill på sidan)

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Chapter 1 : Who do you think you are?

Transkript:

Textkomplexitet Arne Jönsson Linköpings universitet RISE SICS East

Innehåll DigInclude Digital inkludering i det uppkopplade samhället för grupper med speciella behov Vinnovafinansierat forsknings- och utvecklingsprojekt Forskning om textkomplexitet och textförenkling Textsammanfattning Textförenkling Visualisering av textkomplexitet

Diginclude Myndighetens produktion av tillgänglig information Verktyg för självservice Verktyg och språkteknologisk infrastruktur: skrivstöd, språkliga resurser, terminologi, översättning, etc Syftar till att stödja 1. myndighetens produktion och underhåll av lättförstådd information: Enhetlig terminologi, textunderhåll, flerspråkig myndighetsspecifik terminologi, översättningsstöd. 2. individens förmåga att tillgodogöra sig denna information: Förenklande omskrivning av texter, textsammanfattningar, snabböversättningar, visualisering av text med symbolspråk.

Projektdeltagare Akademi/forskningsinstitut: RISE SICS East, Linköpings universitet Företag: Fodina Language Technology AB, Convertus AB, Briteback AB, Symbolbruket AB. Myndigheter: SLL 1177 Vårdguiden/Invånartjänster, Region Östergötland, Linköpings kommun, Linköpings universitet. Slutanvändare: Kommunikatörer, utlandsfödda, personer med läs- och förståelsesvårigheter, äldre seniorer, tolkar,...

Fodina Language Technology AB Skrivstödet Acrolinx ger konkret stöd för underhåll av dokument Stavning Grammatik Stil Terminologi Tonalitet (anpassad stil för olika mottagare) Sex språk: engelska, svenska, tyska, franska, kinesiska, japanska, (spanska) Svenska moduler: Teknisk information Myndighetssvenska

Convertus AB Maskinöversättningsstöd med kundanpassning av terminologi och språkbruk Översättningsmoduler bestående av ett översättningsminne och en generell översättningsmotor (t ex Google Translate) som samverkar vid översättning Översättaren använder sig av språkliga resurser i form av lexikon, grammatiker och översättningsregler Översättningsminne byggt på publicerade översättningar uppdaterat med specifika termöversättningar Varje språkpar får sin egen översättningsmodul. Vanliga språk: engelska, arabiska, persiska, finska, romani, somaliska och sorani

Symbolbruket AB Många barn med en reumatisk ledsjukdom träffar regelbundet en fysioterapeut som kontrollerar ledernas funktion och ger olika typer av behandlingar, råd och tips. En arbetsterapeut bedömer också hur man ska ändra miljön i barnets skola och hem efter barnets behov.

Forskning om textkomplexitet och textförenkling Verktyg för att göra texter mer tillgängliga Automatisk sammanfattning Omskrivning till lätt svenska Synonymer Automatisk textkomplexitetsmätning Resultat Tjänster för ökad läsbarhet på webben Rangordning av texter efter läsbarhet samt klustring av texter med samma innehåll Nya läsbarhetsmodeller Verktyg för att välja ut texter anpassade efter läsförmåga

Teknik Vektorrums- och grafmodeller Maskininlärning Regler Korpusinsamling och träning Användarcentrerad utveckling Utvärderingar Guldstandarder Ögonrörelsemätningar, Frågeformulär

Vektorrumsmodeller Tekniker som reducerar den lingvistiska variationen och fångar semantiskt relaterade begrepp Ord representeras som vektorer (Word embeddings) Meningar fås genom att addera ordvektorer, dokument genom att addera meningsvektorer Likhet mellan dokument mäts som närhet i vektorrummet cosα ik

Distribuerad semantik Ett ords betydelse beror på hur det används i kontext Varje ord representeras som en vektor Några hundra dimensioner Träningskorpus, några miljoner ord Exempel, random indexing Han bet hunden. 1. Tilldela en gles slumpvektor till varje ord Han ( 0-1 0 1 0-1 0 0 0 1) bet ( 0 0 0 0 0 1 1-1 -1 0) hunden (-1 0 1 0 0 1 0-1 0 0) En fet pudel badar i en balja 2. Varje gång ett ord förekommer i texten, addera kontextvektor i ett fönster runt ordet. bet blir då (-1-1 1 1 0 1 1-2 -1 1)

Exempel, FriendlyReader Dynamiska textsammanfattningar utifrån de semantiskt mest relevanta meningarna Random indexing Viktad PageRank http://www.friendlyreader.se cosα ik

Textförenklingar Regelbaserat verktyg Dependensgrammatik Modell för textförenkling Träna modell LSTM, encoder-decoder

Datainsamling Korpusar LäsBart, SUC Alla vanliga och lättlästa texter från offentliga förvaltningar i Sverige, myndigheter, kommuner, landsting m.fl Parallellställning, alignment Används för att förstå textförenkling Språkliga analyser Bygga modell som förenklar Guldstandard Vanlig svenska Lätt svenska Antal dokument 115 027 2247 Antal meningar 1 333 474 26 461 Antal tecken 20 649 700 338 977 Meningslängd, medel 15 12 LIX 52 44 SweVoc 49% 50%

Textkomplexitetsmått Totalt 117 olika mått: Ytliga mått Räknar ord och bokstäver, t.ex. antal ord/mening Lexikala mått Baserade på ordfrekvenser och grundläggande svensk vokablär, t.ex. vardagliga ord (SweVocD) Morfosyntaktiska mått Bygger på en morfologisk analys av texten, t.ex. andel innehållsord Syntaktiska mått Egenskaper beräknade efter en syntaktisk analys av texten, t.ex. meningsdjup, dependenslängd Textkvalitetsmått Mått som vanligtvis används för att mäta läsbarhet, t.ex. LIX, NR

Läsbarhet Avgöra om en text är lätt att läsa eller ej Använder textkomplexitetsmåtten Träna en modell med de olika måtten SVM (Weka) 7-fold korsvalidering Korpus med lättlästa texter och vanliga texter. 700 dokument i varje korpus. Testa modellen 98,9% (Stdev 1,0)

Gränssnittsdesign Användarcentrerat Samla in användardata Textproducenter Webbredaktörer 2 workshops Behov och funktionalitet Interaktion och visualisering

Workshop A Behov och funktionalitet Storyboards och brainstorming Fyra webbredaktörer

Workshop B Interaktion och visualisering Prototyputvärderingar Sju webbredaktörer

Resultat Ett lättanvänt verktyg Ytterligare stöd, motverka merarbete Guidande Tydlig koppling mellan analys och förslag Anpassningsbart och simpelt (kontroll) Förklaring varför Vill ha läsbarhetsmått Lättförståeligt betydelser och tydliga kopplingar

Textkomplexitetsmätning Ordnivå Svåra, tvetydliga, långa ord och begrepp Andra språk Förkortningar Meningsnivå Långa/Svåra meningar Andel bisatser Övergripande Längd, innehåll, variation

Visualisering

Utvärdering av visualiseringar Webbenkät Jämförde staplar och radar 11 av 26 webbredaktörer svarade Resultat Föredrog stapel för enkelheten Radardiagrammet mer informativt Kombinera visualiseringarna Stapel för dess användning av färg och färre explicita parametrar Radardiagram ger en mer nyanserad bild, är kompakt och informativt

Vilka mått skall användas Workshop med experter 12 stycken bland annat från Språkrådet, Företag, akademin Fyra grupper: Ord Meningar Stycken Dokument

Vilka parametrar i varje grupp 117 att välja på Datadriven analys LäsBart och SUC Förmåga att mäta läsbarhet, prediktion Parametrar korrelerar

Prediktion 0,90 0,78 0,65 0,53 0,40 ndepdistancesentence pos_vb dep_jr dep_oo dep_aa dep_vo dep_it dep_eo

Prediktion > 0,65 0,9 0,775 0,65 0,525 0,4 Covariate dep_ip pos_mad LIX dep_ss pos_vb lexicaldensity OVIX pos_cite dep_ig

Korrelation 1,00 0,53 0,05-0,43-0,90

Korrelation > 0,65 och prediktion > 0,65 1,00 0,53 0,05-0,43-0,90 dep_ip - pos_mad ANomPostmod - APrepComp AWL - LIX ANomPostmod - LIX APrepComp - pos_mad ASL - pos_mad

Korrelationer

Val av parametrar, försök 2 Faktoranalys (PCA) 29 komponenter Mer än 60% av variansen (61,47%) 85 parametrar utnyttjas Namnge komponenterna? Varje komponent består av flera olika parametrar med olika vikt

Kompo nent 1 2 3 4 5 6 7 8 9 Parametrar Vikt inom komponenten Förklaring avgnominalpostmodifiers,855 The average number of nominal postmodifiers per sentence avgnominalpremodifiers,537 The average number of nominal premodifiers per sentence avgprepcomp,860 The average number of prepositional complements per sentence in the document avgsentencedepth,739 The average sentence depth avgsentencelength,944 The average sentence length avgwordsperclause,867 The average number of words per clause in the document. dep_et,439 Other nominal post-modifier dep_ip -,751 Period dep_ss -,435 Other subject lixvalue,734 Läsbarhetsindex, readability index. meandepdistancedependent,778 The mean dependency distance in the document on a per dependent basis. meandepdistancesentence,787 The mean dependency distance in the document on a per sentence basis. nrvalue -,448 Nominal ratio pos_mad -,752 MAD Major delimiter (.?!) dep_ss,432 Other subject dep_ua,920 Subordinate clause minus subordinating conjunction pos_sn,882 SN Subjunction pos_vb,449 VB Verb verbarity2,404 The ratios of verbs with an arity of 0-7, that is, the ratio of verbs with an arity of 0 as one feature, the ratio of verbs with an arity of 1 as another feature and so on. dep_ik,799 Comma dep_it,608 Dash pos_mid,885 MID Minor delimiter (,;:-) avgnominalpremodifiers,744 The average number of nominal premodifiers per sentence dep_at,858 Nominal (adjectival) pre-modifier pos_jj,812 JJ Adjective ratiorightdeps -,493 The ratio of right dependencies to total number of dependencies in the document. dep_an,592 Apposition dep_ir,905 Parenthesis dep_jr,916 Second parenthesis pos_pad,914 PAD Pairwise delimiter (([) dep_.f -,716 Coordination at main clause level dep_ms -,806 Macrosyntagm pos_kn -,506 KN Conjunction ratioverbalroots,738 The ratio of sentences with a verbal root dep_ic -,816 Quotation mark dep_jc -,834 Second quotation mark pos_cite -,880 Quotation marks (""'') dep_if,901 Infinitive verb phrase minus infinitive marker pos_ie,904 IE Infinitive marker (att) avgnosyllables,910 The average number of syllables per word avgwordlength,935 The average word length lixvalue,751 Läsbarhetsindex, readability index. ovixvalue,485 Ordvariationsindex, word variation index.

11 12 dep_pl,933 Verb particle pos_pl,932 PL Particle dep_aa,537 Other adverbial dep_na,500 Negation adverbial pos_ab,876 Adverb 13 pos_dt,538 Determiner 14 15 16 17 18 19 20 21 dep_i. -,439 Question mark dep_iq -,586 Colon dep_iu -,607 Exclamation mark dep_et,436 Other nominal post-modifier dep_ra,475 Place adverbial pos_pp,616 PP Preposition dep_cj,810 Conjunct (in coordinate structure) dep_va,527 Notifying adverbial pos_kn,780 KN Conjunction dep_ta,690 Time adverbial pos_ha,772 Interrogative/Relative Adverb dep_eo -,680 Logical object dep_fo -,732 Dummy object dep_op -,593 Object predicative dep_hd -,703 Interrogative/Relative Determiner lexicaldensity,641 Lexical density pos_vb,406 VB Verb ratioswevocc,584 SweVoc lemmas fundamental for communication (category C) ratioswevocd,503 SweVoc lemmas for everyday use (category D) ratioswevoch,567 SweVoc other highly frequent lemmas (category H) ratioswevoctot al,665 Unique, per lemma, SweVoc words in the sentence. SweVoc words (all categories, including some not mentioned above) per sentence. dep_ss,427 Other subject pos_rg -,658 Cardinal number dep_ag,503 Agent dep_pt,501 Predicative attribute pos_pc,736 Participle 22 verbarity3,810 The ratios of verbs with an arity of 0-7, that is, the ratio of verbs with an arity of 0 as one feature, the ratio of verbs with an arity of 1 as another feature and so on. verbarity4 -,561 The ratios of verbs with an arity of 0-7, that is, the ratio of verbs with an arity of 0 as one feature, the ratio of verbs with an arity of 1 as another feature and so on. 23 dep_oa -,736 Object adverbial avgverbalarity -,484 The average arity of verbs in the document 24 dep_vg,712 Verb group pos_vb,571 VB Verb verbarity1,820 The ratios of verbs with an arity of 0-7, that is, the ratio of verbs with an arity of 0 as one feature, the ratio of verbs with an arity of 1 as another feature and so on. 25 dep_io,516 Indirect object 26 27 dep_es,851 Logical subject dep_fs,866 Dummy subject

Visualisering av komponenterna Stapel Övergripande komplexitet Radardiagram Mönster

TeCST och SAPIS Alla verktygen i en integrerad tjänst För skribenter SAPIS ett REST API http://www.ida.liu.se/projects/scream/webapp/ http://www.ida.liu.se/projects/scream/webapp/

Tack till Evelina Rennes Johan Falkenjack Hampus Arvå Linhem Anna Westin Jakob Säll Simon Cavedoni Emil Fritz Daniel Fahlborg Wiktor Standqvist Joppe Widstam Ellinor Ihs Håkansson Ellen Andersson Fabian Isaksson Gustav Cederblad Linda, Vida, Jasmina, Hanna, Elin, Sarah,