A graphotactic language metric En grafotaktisk språkmetrik

Relevanta dokument
Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Versioner och språk. ComAround Self Service Enterprise

Etiopiska språk Fisksätra bibliotek 42 Etiopiska språk Nacka Forum bibliotek 7 Etiopiska språk Orminge bibliotek 3 Fang Saltsjöbadens bibliotek 1

Dictionaries for WordFinder Unlimited Version 18

TAMS79: Föreläsning 10 Markovkedjor

Dictionaries for WordFinder Unlimited Version 13 From Language To Language Publisher's Dictionary Title Edition Publisher Danish English Gyldendal

Versioner och språk. ComAround Self Service Enterprise

I Nationalbibliografin redovisad utgivning (monografier)

Dictionaries for WordFinder Unlimited Version 24

Svenska barnboksinstitutet. Bokprovning Årgång Statistik. Vilka titlar döljer sig bakom statistiken? Vill du ha boklistor?

Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv. Rickard Domeij Språkrådet i Sverige

Markovprocesser SF1904

Markovprocesser SF1904

Xerox Remote Services. Automatisk påfyllnad av förbrukningsmaterial Kundfördelar

I Nationalbibliografin redovisad utgivning (monografier)

Versioner och språk. ComAround Zero

För delegationerna bifogas dokument COM(2017) 433 final/2 ANNEX 1.

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Europeiska unionens råd Bryssel den 7 september 2017 (OR. sv)

Innehåll och förklaringar till de statistiska diagrammen år 2013

Grafer och grannmatriser

För delegationerna bifogas dokument COM(2017) 430 final/2 ANNEX 1.

Markovprocesser SF1904

17196/09 akb/ell/am 1 DQPG

HAÖVR, Masterprogram i översättning, 120 högskolepoäng Master's Programme in Translation, 120 credits

I Nationalbibliografin redovisad utgivning (monografier)

Nordiska språk. Cecilia Jonsson Smedshagsskolan

Love Peace and Understandning

P(X nk 1 = j k 1,..., X n0 = j 0 ) = j 1, X n0 = j 0 ) P(X n0 = j 0 ) = etc... P(X n0 = j 0 ) ... P(X n 1

Matematisk statistik för D, I, Π och Fysiker

Appendix 3 - Ämneskombinationer för NS

Dictionaries for WordFinder Unlimited

I Nationalbibliografin redovisad utgivning (monografier)

Liknade och framgångsrika samarbeten

Markovprocesser SF1904

Markovprocesser SF1904

I. LCD1561 Monitor. Baksida

Vägledning för detaljerad utformning av Denison webbenkät angående företagskultur och lönsamhet.

tot tot

Utveckling av aktiviteter för språkmedvetenhet i Norden och Baltikum

Fö relä sning 2, Kö system 2015

DELA NOBA Lärarenkät Fridaskolorna

1-90 hp: Alt. 1) inriktning 1-90 hp. Alt. 2) Alt. 3) inriktning 1-90 hp 30 hp samt teaterpedagogik 1-30 hp eller teatervetenskap 1-30 hp. Alt.

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

FINLANDS FÖRFATTNINGSSAMLINGS FÖRDRAGSSERIE Utgiven i Helsingfors den 28 januari 2013

Stokastiska processer

Nyckeldata om språkundervisningen i europeiska skolor 2012

DE HÖGA FÖRDRAGSSLUTANDE PARTERNA I FÖRDRAGET OM UPPRÄTTANDET AV EUROPEISKA GEMENSKAPEN,

EUROPEISKA REKRYTERINGSBYRÅN (EPSO)

FÖRHANDLINGARNA OM BULGARIENS OCH RUMÄNIENS ANSLUTNING TILL EUROPEISKA UNIONEN

Föreläsning 9, FMSF45 Markovkedjor

Snabbguide NOKIA OBSERVATION CAMERA BÖRJA ANVÄNDA KAMERAN TA EN BILD ANVÄNDA RÖRELSEDETEKTOR ANVÄNDA BILDSERIER KONTROLLERA TEMPERATUREN

Språkigenkänning. en tillämpning av OCR system och klassificering. Projekt i Bildanalys. Anna Lindholm Eskil Jönsson

WiFi4EU-kontrollfunktion. Vägledning v1.0

Förslag till RÅDETS BESLUT

Googles sidrankning - linjär algebra värt en förmögenhet

ANNEX BILAGA. till. förslag till rådets beslut

BEYOND: Two Souls BEYOND Touch Appen

BRÅDSKANDE fältsäkerhetsmeddelande För batterier som används i Capnostream 20 och Capnostream 20p patientmonitor

Markovprocesser SF1904

INSTRUKTIONER FÖR UTRULLNING AV WORDFINDER-APPLIKATIONER

Pictogram. för dem som behöver kommunicera med bilder

Markovprocesser SF1904

15410/17 MLB/cc DGC 1A

Traditionell undervisning med ny teknologi

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

LaserQC att mäta med laser-hastighet

Nyanlända och flerspråkiga barn i förskolan

Deltagarens rapporteringsblankett - KA1 - Mobilitet bland lärare och personal vid yrkesläroanstalter

Personal- och utbildningsenkät

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Stockholms Universitet Statistiska institutionen Patrik Zetterberg

EU-översättning i ett nötskal. Tina Young Generaldirektoratet för översättning, EUkommissionen

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Läxförhör facit. Nya Mål 3 s Kopiera inte det som står i texten, när ni svarar på frågorna, utan använd era egna ord!

Grundinställningar. Grundinställning. Välj språk 1.Engelska. 2.Tyska 3.Franska 4.Italienska 5.Holländska. Grundinställning.

Deltagarens rapporteringsblankett - KA1 - Mobilitet bland studerande och nyutexaminerade vid yrkesläroanstalter - Call 2016

EU sätter larmnumret 112 på kartan inför sommarsemestrarna

Värmeväxlare - Terminologi. Heat exchangers -Terminology

Web: Tel: , Fax: , E-post: Manual till tillbehör Excel - Artikelimport / export

Examensrätt. Library and Information Science Filosofie Arts X X X X

sedan ÅRSDAGEN AV ROMFÖRDRAGEN GRAFISK HANDBOK Logotyp Typografi Färger

995 der Beilagen XXIV. GP - Staatsvertrag - 19 Änderungsprotokoll in schwedischer Sprache-SV (Normativer Teil) 1 von 8

Office Synchronizer. Versionsinformation. Version 1,66

English 1. Ringer indicator 2. Flash button/programming 3. Tone control 4. Volume control

(-07) (-93) Högskoleexamen. Biblioteks- och informationsvetenskap. Library and Information Science Filosofie Arts X X X X

GPS-KOMMUNIKATION HUSQVARNA AUTOMOWER

BILAGA. till. förslaget till rådets beslut

64 der Beilagen XXIII. GP - Staatsvertrag - 17 Übereinkommen schwedisch SV (Normativer Teil) 1 von 19

Humanistiska programmet

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

FÖRESKRIFTER FÖR DE ELEKTRONISKA PROVEN I DET ANDRA INHEMSKA SPRÅKET OCH I FRÄMMANDE SPRÅK

Selma Lagerlöf-samlingen. L1:334, Pressklipp (Kapslar/portföljer i strikt löpnummerordning)

PRISLISTA/ BESTÄLLNING Alla priser exklusive moms

MEMOday. Art.nr Rev A SE

OBS! Första anmälningsdagen är se anmälningsinfo på sidan 1! to Anita Wisén Kursavgift 14 GRUNDERNA I SVENSKA FÖR RYSKSPRÅKIGA

Kandidatprogram i språk och humaniora med allmän inriktning, 180 högskolepoäng

Den kompakta sy- och brodyrmaskinen

Transkript:

A graphotactic language metric En grafotaktisk språkmetrik Joar Bagge joarb@kth.se 16 maj 2013 Handledare: Henrik Hult Timo Koski

Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning

Vad är det här för språk? Is éard is fisic ann ná eolaíocht nádúrtha a bhfuil mar chuspóir aige imscrúdú a dhéanamh ar dhamhna agus gluaisne an damhna trí spás agus am, mar aon le coincheapa atá bainteach leis amhail fuinneamh agus fórsa. Ag caint go forleathan, anailís an nádúir atá ann, chun teacht ar thuiscint ar iompar na cruinne.

Vad är det här för språk? Is éard is fisic ann ná eolaíocht nádúrtha a bhfuil mar chuspóir aige imscrúdú a dhéanamh ar dhamhna agus gluaisne an damhna trí spás agus am, mar aon le coincheapa atá bainteach leis amhail fuinneamh agus fórsa. Ag caint go forleathan, anailís an nádúir atá ann, chun teacht ar thuiscint ar iompar na cruinne. Svar: iriska

Vad är det här för språk? Fizikia ni sayansi inayohusu maumbile ya Dunia, ambayo inahusu asili ya viungo vya ulimwengu. Ni taaluma kutoka shina la sayansi yenye kushughulika na Maada na uhusiano wake na Nishati.

Vad är det här för språk? Fizikia ni sayansi inayohusu maumbile ya Dunia, ambayo inahusu asili ya viungo vya ulimwengu. Ni taaluma kutoka shina la sayansi yenye kushughulika na Maada na uhusiano wake na Nishati. Svar: swahili

Vad är det här för språk? De natuurkunde of fysica is van oorsprong de tak van wetenschap die algemene eigenschappen van materie, straling en energie onderzoekt en beschrijft, zoals kracht, evenwicht en beweging, fasen en faseovergangen, straling, warmte, licht, geluid, magnetisme en elektriciteit, voor zover hierbij geen scheikundige veranderingen optreden.

Vad är det här för språk? De natuurkunde of fysica is van oorsprong de tak van wetenschap die algemene eigenschappen van materie, straling en energie onderzoekt en beschrijft, zoals kracht, evenwicht en beweging, fasen en faseovergangen, straling, warmte, licht, geluid, magnetisme en elektriciteit, voor zover hierbij geen scheikundige veranderingen optreden. Svar: nederländska

Vad är det här för språk? Is éard is fisic ann ná eolaíocht nádúrtha a bhfuil mar chuspóir aige imscrúdú a dhéanamh ar dhamhna agus gluaisne an damhna trí spás agus am, mar aon le coincheapa atá bainteach leis amhail fuinneamh agus fórsa. Ag caint go forleathan, anailís an nádúir atá ann, chun teacht ar thuiscint ar iompar na cruinne.

Vad är det här för språk? Fizikia ni sayansi inayohusu maumbile ya Dunia, ambayo inahusu asili ya viungo vya ulimwengu. Ni taaluma kutoka shina la sayansi yenye kushughulika na Maada na uhusiano wake na Nishati.

Vad är det här för språk? De natuurkunde of fysica is van oorsprong de tak van wetenschap die algemene eigenschappen van materie, straling en energie onderzoekt en beschrijft, zoals kracht, evenwicht en beweging, fasen en faseovergangen, straling, warmte, licht, geluid, magnetisme en elektriciteit, voor zover hierbij geen scheikundige veranderingen optreden.

En grafotaktisk språkmetrik grafotaktik = hur bokstäver ordnas i ord språkmetrik = avståndsmått mellan språk Det här projektet handlar om hur man kan mäta avstånd mellan språk genom att titta på hur bokstäver ordnas i text.

Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning

Problemformulering Hur kan man med hjälp av statistik mäta skillnader mellan språk? Kan man använda ett statistiskt avståndsmått för att bygga upp ett språksläktträd? Kan man med hjälp av avståndsmåttet bestämma vilket språk en text är skriven på?

Varför är det här intressant? Att bygga ett språkträd: Se om avståndsmåttet stämmer med hur man brukar dela in språk Se om språkens historiska relationer motsvaras av mätbara skillnader Att identifiera språket hos en text: Användbart för indexering av text, t.ex. sökmotorer Automatisk översättning och tolkning av text Rättstavning, ordkomplettering osv...

Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning

Att modellera språk Svårt att få med ett språks alla egenskaper i en modell Nöjer oss med att fokusera på hur ofta olika bokstäver står bredvid varandra i olika språk Tittar på språk som använder det latinska alfabetet Markovkedjor används för att modellera språk

Markovkedjor En Markovkedja är en stokastisk process som rör sig mellan ett antal tillstånd i detta fall bokstäver i en text Processens framtida tillstånd beror bara av nuet, ej av det förflutna minneslöshet Sannolikheterna att gå från ett tillstånd till ett annat kallas övergångssannolikheterna de definierar entydigt Markovkedjan Övergångsgraf och övergångsmatris 0.1 b 0.9 0.6 a 0.8 0.3 0.1 c 0.2

Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning

Insamling av textdata Målet: Att bygga upp övergångsmatriser för ett antal språk och sedan använda dem för att göra ett språkträd Träningstexter behövs för att bygga upp matriserna Som träningstexter används Matteusevangeliet samt Wikipedia Följande språk tas med: Danska Engelska Finska Franska Italienska Norska, bokmål Norska, nynorsk Portugisiska Spanska Svenska Tyska

Geografisk spridning pt es en fr no sv da de it fi Historisk klassificering av språk Danska Norska (Bokmål) Svenska Norska (Nynorsk) Engelska Tyska Franska Spanska Portugisiska Italienska Finska

Exempel på övergångsmatris a b c d ef g h ij Spanska enligt Matteusevangeliet a b c d e f g h i j k l m n o p q r s t u v w x y z a b c d ef g h ij Rader motsvarar startbokstäver k l m n o pq k l m n o pq Raderna summerar till ett r s t u v w x y z r s t u v w x y z a b c d e f g h i j k l m n o p q r s t u v w x y z Kolumner motsvarar slutbokstäver

Att mäta avståndet Hur ska man mäta avståndet mellan språkens övergångsmatriser? Idé: Använd en matrisnorm avståndet mellan språk A och B ges då av d(a, B) = PA P B om P A och P B är motsvarande övergångsmatriser Men det finns många matrisnormer! I det här projektet betraktades Frobeniusnormen, 1-normen, 2-normen och -normen

Språkavstånd för Wikipedia med 1-normen (100 MB slumvis utvald text per språk) Danish English Finnish French German Italian Nor. Nynorsk Nor. Bokmål Portuguese Spanish Swedish Danish English Finnish French German Italian Nor. Nynorsk Nor. Bokmål Portuguese Spanish 3.9 3.6 3.3 3.0 2.7 2.4 2.1 1.8 1.5 Language distance [arbitrary unit] 1.2 0.9 Swedish 0.6

Att bygga ett träd Använd språkavstånden för att göra ett dendrogram Rita en gren för varje språk Låt ett tröskelvärde δ gå från noll och uppåt För varje värde på δ, förbind språk som ligger på avstånd δ från varandra Räkna förbundna språk som en enhet när avstånd till ett tredje språk beräknas i fortsättningen kommer det minsta avståndet gälla för båda de förbundna språken

Dendrogram för Wikipedia med 1-normen (100 MB slumvis utvald text per språk) Portuguese Spanish Italian French Nor. Bokmål Danish Nor. Nynorsk Swedish German Finnish English 2.50 2.25 2.00 1.75 1.50 1.25 1.00 0.75 Language distance [arbitrary unit] 0.50 0.25 0.00

Blev det vettigt då? 1-normens resultat Portuguese Spanish Italian French Nor. Bokmål Danish Nor. Nynorsk Swedish German Finnish English Historisk klassificering Danska Norska (Bokmål) Svenska Norska (Nynorsk) Engelska Tyska Franska Spanska Portugisiska Italienska Finska

Blev det vettigt då? 1-normens resultat Portuguese Spanish Italian French Nor. Bokmål Danish Nor. Nynorsk Swedish German Finnish English Historisk klassificering Jovars, men det finns mer att säga! Danska Norska (Bokmål) Svenska Norska (Nynorsk) Engelska Tyska Franska Spanska Portugisiska Italienska Finska Resultaten beror på vilken norm man använder Frobeniusnormen och 1-normen gav bäst resultat -normen var ganska oanvändbar Vissa språk var lättare att placera rätt än andra

Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning

Språkidentifiering 99 relativt långa texter från varje språk valdes ut som testtexter 28 kapitel från Matteusevangeliet 21 kapitel från Johannesevangeliet 50 slumpmässiga artiklar från Wikipedia För varje text skapades en övergångsmatris och avståndet till de tidigare skapade matriserna från Wikipedia räknades ut Det kortaste avståndet avgjorde vilket språk texten identifierades som Frobeniusnormen fick störst andel rätt: 94 procent 1-normen kom tvåa med 83 procent 2-normen fick 72 procent -normen fick 45 procent

Språkidentifiering Vad texterna identifierades som 100 80 60 40 20 Resultat från Frobeniusnormen da de en es fi fr it nn no pt sv 0 da de en es fi fr it nn no pt sv Texternas verkliga språk

Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning

Sammanfattning Markovkedjor och matrisnormer har använts för att skapa språkträd identifiera språket en text är skriven på Frobeniusnormen och 1-normen är de bästa matrisnormerna för dessa syften Går att få språkträd som hyfsat stämmer överens med vad man förväntar sig Språkidentifiering är möjlig med hög träffsäkerhet för relativt långa texter Resultaten beror i hög grad på vilken matrisnorm man väljer

Frågor?