Textkomplexitet. Arne Jönsson Linköpings universitet RISE SICS East

Textkomplexitet Arne Jönsson Linköpings universitet RISE SICS East

Innehåll DigInclude Digital inkludering i det uppkopplade samhället för grupper med speciella behov Vinnovafinansierat forsknings- och utvecklingsprojekt Forskning om textkomplexitet och textförenkling Textsammanfattning Textförenkling Visualisering av textkomplexitet

Diginclude Myndighetens produktion av tillgänglig information Verktyg för självservice Verktyg och språkteknologisk infrastruktur: skrivstöd, språkliga resurser, terminologi, översättning, etc Syftar till att stödja 1. myndighetens produktion och underhåll av lättförstådd information: Enhetlig terminologi, textunderhåll, flerspråkig myndighetsspecifik terminologi, översättningsstöd. 2. individens förmåga att tillgodogöra sig denna information: Förenklande omskrivning av texter, textsammanfattningar, snabböversättningar, visualisering av text med symbolspråk.

Projektdeltagare Akademi/forskningsinstitut: RISE SICS East, Linköpings universitet Företag: Fodina Language Technology AB, Convertus AB, Briteback AB, Symbolbruket AB. Myndigheter: SLL 1177 Vårdguiden/Invånartjänster, Region Östergötland, Linköpings kommun, Linköpings universitet. Slutanvändare: Kommunikatörer, utlandsfödda, personer med läs- och förståelsesvårigheter, äldre seniorer, tolkar,...

Fodina Language Technology AB Skrivstödet Acrolinx ger konkret stöd för underhåll av dokument Stavning Grammatik Stil Terminologi Tonalitet (anpassad stil för olika mottagare) Sex språk: engelska, svenska, tyska, franska, kinesiska, japanska, (spanska) Svenska moduler: Teknisk information Myndighetssvenska

Convertus AB Maskinöversättningsstöd med kundanpassning av terminologi och språkbruk Översättningsmoduler bestående av ett översättningsminne och en generell översättningsmotor (t ex Google Translate) som samverkar vid översättning Översättaren använder sig av språkliga resurser i form av lexikon, grammatiker och översättningsregler Översättningsminne byggt på publicerade översättningar uppdaterat med specifika termöversättningar Varje språkpar får sin egen översättningsmodul. Vanliga språk: engelska, arabiska, persiska, finska, romani, somaliska och sorani

Symbolbruket AB Många barn med en reumatisk ledsjukdom träffar regelbundet en fysioterapeut som kontrollerar ledernas funktion och ger olika typer av behandlingar, råd och tips. En arbetsterapeut bedömer också hur man ska ändra miljön i barnets skola och hem efter barnets behov.

Forskning om textkomplexitet och textförenkling Verktyg för att göra texter mer tillgängliga Automatisk sammanfattning Omskrivning till lätt svenska Synonymer Automatisk textkomplexitetsmätning Resultat Tjänster för ökad läsbarhet på webben Rangordning av texter efter läsbarhet samt klustring av texter med samma innehåll Nya läsbarhetsmodeller Verktyg för att välja ut texter anpassade efter läsförmåga

Teknik Vektorrums- och grafmodeller Maskininlärning Regler Korpusinsamling och träning Användarcentrerad utveckling Utvärderingar Guldstandarder Ögonrörelsemätningar, Frågeformulär

Vektorrumsmodeller Tekniker som reducerar den lingvistiska variationen och fångar semantiskt relaterade begrepp Ord representeras som vektorer (Word embeddings) Meningar fås genom att addera ordvektorer, dokument genom att addera meningsvektorer Likhet mellan dokument mäts som närhet i vektorrummet cosα ik

Distribuerad semantik Ett ords betydelse beror på hur det används i kontext Varje ord representeras som en vektor Några hundra dimensioner Träningskorpus, några miljoner ord Exempel, random indexing Han bet hunden. 1. Tilldela en gles slumpvektor till varje ord Han ( 0-1 0 1 0-1 0 0 0 1) bet ( 0 0 0 0 0 1 1-1 -1 0) hunden (-1 0 1 0 0 1 0-1 0 0) En fet pudel badar i en balja 2. Varje gång ett ord förekommer i texten, addera kontextvektor i ett fönster runt ordet. bet blir då (-1-1 1 1 0 1 1-2 -1 1)

Exempel, FriendlyReader Dynamiska textsammanfattningar utifrån de semantiskt mest relevanta meningarna Random indexing Viktad PageRank http://www.friendlyreader.se cosα ik

Textförenklingar Regelbaserat verktyg Dependensgrammatik Modell för textförenkling Träna modell LSTM, encoder-decoder

Datainsamling Korpusar LäsBart, SUC Alla vanliga och lättlästa texter från offentliga förvaltningar i Sverige, myndigheter, kommuner, landsting m.fl Parallellställning, alignment Används för att förstå textförenkling Språkliga analyser Bygga modell som förenklar Guldstandard Vanlig svenska Lätt svenska Antal dokument 115 027 2247 Antal meningar 1 333 474 26 461 Antal tecken 20 649 700 338 977 Meningslängd, medel 15 12 LIX 52 44 SweVoc 49% 50%

Textkomplexitetsmått Totalt 117 olika mått: Ytliga mått Räknar ord och bokstäver, t.ex. antal ord/mening Lexikala mått Baserade på ordfrekvenser och grundläggande svensk vokablär, t.ex. vardagliga ord (SweVocD) Morfosyntaktiska mått Bygger på en morfologisk analys av texten, t.ex. andel innehållsord Syntaktiska mått Egenskaper beräknade efter en syntaktisk analys av texten, t.ex. meningsdjup, dependenslängd Textkvalitetsmått Mått som vanligtvis används för att mäta läsbarhet, t.ex. LIX, NR

Läsbarhet Avgöra om en text är lätt att läsa eller ej Använder textkomplexitetsmåtten Träna en modell med de olika måtten SVM (Weka) 7-fold korsvalidering Korpus med lättlästa texter och vanliga texter. 700 dokument i varje korpus. Testa modellen 98,9% (Stdev 1,0)

Gränssnittsdesign Användarcentrerat Samla in användardata Textproducenter Webbredaktörer 2 workshops Behov och funktionalitet Interaktion och visualisering

Workshop A Behov och funktionalitet Storyboards och brainstorming Fyra webbredaktörer

Workshop B Interaktion och visualisering Prototyputvärderingar Sju webbredaktörer

Resultat Ett lättanvänt verktyg Ytterligare stöd, motverka merarbete Guidande Tydlig koppling mellan analys och förslag Anpassningsbart och simpelt (kontroll) Förklaring varför Vill ha läsbarhetsmått Lättförståeligt betydelser och tydliga kopplingar

Textkomplexitetsmätning Ordnivå Svåra, tvetydliga, långa ord och begrepp Andra språk Förkortningar Meningsnivå Långa/Svåra meningar Andel bisatser Övergripande Längd, innehåll, variation

Visualisering

Utvärdering av visualiseringar Webbenkät Jämförde staplar och radar 11 av 26 webbredaktörer svarade Resultat Föredrog stapel för enkelheten Radardiagrammet mer informativt Kombinera visualiseringarna Stapel för dess användning av färg och färre explicita parametrar Radardiagram ger en mer nyanserad bild, är kompakt och informativt

Vilka mått skall användas Workshop med experter 12 stycken bland annat från Språkrådet, Företag, akademin Fyra grupper: Ord Meningar Stycken Dokument

Vilka parametrar i varje grupp 117 att välja på Datadriven analys LäsBart och SUC Förmåga att mäta läsbarhet, prediktion Parametrar korrelerar

Prediktion 0,90 0,78 0,65 0,53 0,40 ndepdistancesentence pos_vb dep_jr dep_oo dep_aa dep_vo dep_it dep_eo

Prediktion > 0,65 0,9 0,775 0,65 0,525 0,4 Covariate dep_ip pos_mad LIX dep_ss pos_vb lexicaldensity OVIX pos_cite dep_ig

Korrelation 1,00 0,53 0,05-0,43-0,90

Korrelation > 0,65 och prediktion > 0,65 1,00 0,53 0,05-0,43-0,90 dep_ip - pos_mad ANomPostmod - APrepComp AWL - LIX ANomPostmod - LIX APrepComp - pos_mad ASL - pos_mad

Korrelationer

Val av parametrar, försök 2 Faktoranalys (PCA) 29 komponenter Mer än 60% av variansen (61,47%) 85 parametrar utnyttjas Namnge komponenterna? Varje komponent består av flera olika parametrar med olika vikt

Kompo nent 1 2 3 4 5 6 7 8 9 Parametrar Vikt inom komponenten Förklaring avgnominalpostmodifiers,855 The average number of nominal postmodifiers per sentence avgnominalpremodifiers,537 The average number of nominal premodifiers per sentence avgprepcomp,860 The average number of prepositional complements per sentence in the document avgsentencedepth,739 The average sentence depth avgsentencelength,944 The average sentence length avgwordsperclause,867 The average number of words per clause in the document. dep_et,439 Other nominal post-modifier dep_ip -,751 Period dep_ss -,435 Other subject lixvalue,734 Läsbarhetsindex, readability index. meandepdistancedependent,778 The mean dependency distance in the document on a per dependent basis. meandepdistancesentence,787 The mean dependency distance in the document on a per sentence basis. nrvalue -,448 Nominal ratio pos_mad -,752 MAD Major delimiter (.?!) dep_ss,432 Other subject dep_ua,920 Subordinate clause minus subordinating conjunction pos_sn,882 SN Subjunction pos_vb,449 VB Verb verbarity2,404 The ratios of verbs with an arity of 0-7, that is, the ratio of verbs with an arity of 0 as one feature, the ratio of verbs with an arity of 1 as another feature and so on. dep_ik,799 Comma dep_it,608 Dash pos_mid,885 MID Minor delimiter (,;:-) avgnominalpremodifiers,744 The average number of nominal premodifiers per sentence dep_at,858 Nominal (adjectival) pre-modifier pos_jj,812 JJ Adjective ratiorightdeps -,493 The ratio of right dependencies to total number of dependencies in the document. dep_an,592 Apposition dep_ir,905 Parenthesis dep_jr,916 Second parenthesis pos_pad,914 PAD Pairwise delimiter (([) dep_.f -,716 Coordination at main clause level dep_ms -,806 Macrosyntagm pos_kn -,506 KN Conjunction ratioverbalroots,738 The ratio of sentences with a verbal root dep_ic -,816 Quotation mark dep_jc -,834 Second quotation mark pos_cite -,880 Quotation marks (""'') dep_if,901 Infinitive verb phrase minus infinitive marker pos_ie,904 IE Infinitive marker (att) avgnosyllables,910 The average number of syllables per word avgwordlength,935 The average word length lixvalue,751 Läsbarhetsindex, readability index. ovixvalue,485 Ordvariationsindex, word variation index.

11 12 dep_pl,933 Verb particle pos_pl,932 PL Particle dep_aa,537 Other adverbial dep_na,500 Negation adverbial pos_ab,876 Adverb 13 pos_dt,538 Determiner 14 15 16 17 18 19 20 21 dep_i. -,439 Question mark dep_iq -,586 Colon dep_iu -,607 Exclamation mark dep_et,436 Other nominal post-modifier dep_ra,475 Place adverbial pos_pp,616 PP Preposition dep_cj,810 Conjunct (in coordinate structure) dep_va,527 Notifying adverbial pos_kn,780 KN Conjunction dep_ta,690 Time adverbial pos_ha,772 Interrogative/Relative Adverb dep_eo -,680 Logical object dep_fo -,732 Dummy object dep_op -,593 Object predicative dep_hd -,703 Interrogative/Relative Determiner lexicaldensity,641 Lexical density pos_vb,406 VB Verb ratioswevocc,584 SweVoc lemmas fundamental for communication (category C) ratioswevocd,503 SweVoc lemmas for everyday use (category D) ratioswevoch,567 SweVoc other highly frequent lemmas (category H) ratioswevoctot al,665 Unique, per lemma, SweVoc words in the sentence. SweVoc words (all categories, including some not mentioned above) per sentence. dep_ss,427 Other subject pos_rg -,658 Cardinal number dep_ag,503 Agent dep_pt,501 Predicative attribute pos_pc,736 Participle 22 verbarity3,810 The ratios of verbs with an arity of 0-7, that is, the ratio of verbs with an arity of 0 as one feature, the ratio of verbs with an arity of 1 as another feature and so on. verbarity4 -,561 The ratios of verbs with an arity of 0-7, that is, the ratio of verbs with an arity of 0 as one feature, the ratio of verbs with an arity of 1 as another feature and so on. 23 dep_oa -,736 Object adverbial avgverbalarity -,484 The average arity of verbs in the document 24 dep_vg,712 Verb group pos_vb,571 VB Verb verbarity1,820 The ratios of verbs with an arity of 0-7, that is, the ratio of verbs with an arity of 0 as one feature, the ratio of verbs with an arity of 1 as another feature and so on. 25 dep_io,516 Indirect object 26 27 dep_es,851 Logical subject dep_fs,866 Dummy subject

Visualisering av komponenterna Stapel Övergripande komplexitet Radardiagram Mönster

TeCST och SAPIS Alla verktygen i en integrerad tjänst För skribenter SAPIS ett REST API http://www.ida.liu.se/projects/scream/webapp/ http://www.ida.liu.se/projects/scream/webapp/

Tack till Evelina Rennes Johan Falkenjack Hampus Arvå Linhem Anna Westin Jakob Säll Simon Cavedoni Emil Fritz Daniel Fahlborg Wiktor Standqvist Joppe Widstam Ellinor Ihs Håkansson Ellen Andersson Fabian Isaksson Gustav Cederblad Linda, Vida, Jasmina, Hanna, Elin, Sarah,