A graphotactic language metric En grafotaktisk språkmetrik Joar Bagge joarb@kth.se 16 maj 2013 Handledare: Henrik Hult Timo Koski
Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning
Vad är det här för språk? Is éard is fisic ann ná eolaíocht nádúrtha a bhfuil mar chuspóir aige imscrúdú a dhéanamh ar dhamhna agus gluaisne an damhna trí spás agus am, mar aon le coincheapa atá bainteach leis amhail fuinneamh agus fórsa. Ag caint go forleathan, anailís an nádúir atá ann, chun teacht ar thuiscint ar iompar na cruinne.
Vad är det här för språk? Is éard is fisic ann ná eolaíocht nádúrtha a bhfuil mar chuspóir aige imscrúdú a dhéanamh ar dhamhna agus gluaisne an damhna trí spás agus am, mar aon le coincheapa atá bainteach leis amhail fuinneamh agus fórsa. Ag caint go forleathan, anailís an nádúir atá ann, chun teacht ar thuiscint ar iompar na cruinne. Svar: iriska
Vad är det här för språk? Fizikia ni sayansi inayohusu maumbile ya Dunia, ambayo inahusu asili ya viungo vya ulimwengu. Ni taaluma kutoka shina la sayansi yenye kushughulika na Maada na uhusiano wake na Nishati.
Vad är det här för språk? Fizikia ni sayansi inayohusu maumbile ya Dunia, ambayo inahusu asili ya viungo vya ulimwengu. Ni taaluma kutoka shina la sayansi yenye kushughulika na Maada na uhusiano wake na Nishati. Svar: swahili
Vad är det här för språk? De natuurkunde of fysica is van oorsprong de tak van wetenschap die algemene eigenschappen van materie, straling en energie onderzoekt en beschrijft, zoals kracht, evenwicht en beweging, fasen en faseovergangen, straling, warmte, licht, geluid, magnetisme en elektriciteit, voor zover hierbij geen scheikundige veranderingen optreden.
Vad är det här för språk? De natuurkunde of fysica is van oorsprong de tak van wetenschap die algemene eigenschappen van materie, straling en energie onderzoekt en beschrijft, zoals kracht, evenwicht en beweging, fasen en faseovergangen, straling, warmte, licht, geluid, magnetisme en elektriciteit, voor zover hierbij geen scheikundige veranderingen optreden. Svar: nederländska
Vad är det här för språk? Is éard is fisic ann ná eolaíocht nádúrtha a bhfuil mar chuspóir aige imscrúdú a dhéanamh ar dhamhna agus gluaisne an damhna trí spás agus am, mar aon le coincheapa atá bainteach leis amhail fuinneamh agus fórsa. Ag caint go forleathan, anailís an nádúir atá ann, chun teacht ar thuiscint ar iompar na cruinne.
Vad är det här för språk? Fizikia ni sayansi inayohusu maumbile ya Dunia, ambayo inahusu asili ya viungo vya ulimwengu. Ni taaluma kutoka shina la sayansi yenye kushughulika na Maada na uhusiano wake na Nishati.
Vad är det här för språk? De natuurkunde of fysica is van oorsprong de tak van wetenschap die algemene eigenschappen van materie, straling en energie onderzoekt en beschrijft, zoals kracht, evenwicht en beweging, fasen en faseovergangen, straling, warmte, licht, geluid, magnetisme en elektriciteit, voor zover hierbij geen scheikundige veranderingen optreden.
En grafotaktisk språkmetrik grafotaktik = hur bokstäver ordnas i ord språkmetrik = avståndsmått mellan språk Det här projektet handlar om hur man kan mäta avstånd mellan språk genom att titta på hur bokstäver ordnas i text.
Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning
Problemformulering Hur kan man med hjälp av statistik mäta skillnader mellan språk? Kan man använda ett statistiskt avståndsmått för att bygga upp ett språksläktträd? Kan man med hjälp av avståndsmåttet bestämma vilket språk en text är skriven på?
Varför är det här intressant? Att bygga ett språkträd: Se om avståndsmåttet stämmer med hur man brukar dela in språk Se om språkens historiska relationer motsvaras av mätbara skillnader Att identifiera språket hos en text: Användbart för indexering av text, t.ex. sökmotorer Automatisk översättning och tolkning av text Rättstavning, ordkomplettering osv...
Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning
Att modellera språk Svårt att få med ett språks alla egenskaper i en modell Nöjer oss med att fokusera på hur ofta olika bokstäver står bredvid varandra i olika språk Tittar på språk som använder det latinska alfabetet Markovkedjor används för att modellera språk
Markovkedjor En Markovkedja är en stokastisk process som rör sig mellan ett antal tillstånd i detta fall bokstäver i en text Processens framtida tillstånd beror bara av nuet, ej av det förflutna minneslöshet Sannolikheterna att gå från ett tillstånd till ett annat kallas övergångssannolikheterna de definierar entydigt Markovkedjan Övergångsgraf och övergångsmatris 0.1 b 0.9 0.6 a 0.8 0.3 0.1 c 0.2
Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning
Insamling av textdata Målet: Att bygga upp övergångsmatriser för ett antal språk och sedan använda dem för att göra ett språkträd Träningstexter behövs för att bygga upp matriserna Som träningstexter används Matteusevangeliet samt Wikipedia Följande språk tas med: Danska Engelska Finska Franska Italienska Norska, bokmål Norska, nynorsk Portugisiska Spanska Svenska Tyska
Geografisk spridning pt es en fr no sv da de it fi Historisk klassificering av språk Danska Norska (Bokmål) Svenska Norska (Nynorsk) Engelska Tyska Franska Spanska Portugisiska Italienska Finska
Exempel på övergångsmatris a b c d ef g h ij Spanska enligt Matteusevangeliet a b c d e f g h i j k l m n o p q r s t u v w x y z a b c d ef g h ij Rader motsvarar startbokstäver k l m n o pq k l m n o pq Raderna summerar till ett r s t u v w x y z r s t u v w x y z a b c d e f g h i j k l m n o p q r s t u v w x y z Kolumner motsvarar slutbokstäver
Att mäta avståndet Hur ska man mäta avståndet mellan språkens övergångsmatriser? Idé: Använd en matrisnorm avståndet mellan språk A och B ges då av d(a, B) = PA P B om P A och P B är motsvarande övergångsmatriser Men det finns många matrisnormer! I det här projektet betraktades Frobeniusnormen, 1-normen, 2-normen och -normen
Språkavstånd för Wikipedia med 1-normen (100 MB slumvis utvald text per språk) Danish English Finnish French German Italian Nor. Nynorsk Nor. Bokmål Portuguese Spanish Swedish Danish English Finnish French German Italian Nor. Nynorsk Nor. Bokmål Portuguese Spanish 3.9 3.6 3.3 3.0 2.7 2.4 2.1 1.8 1.5 Language distance [arbitrary unit] 1.2 0.9 Swedish 0.6
Att bygga ett träd Använd språkavstånden för att göra ett dendrogram Rita en gren för varje språk Låt ett tröskelvärde δ gå från noll och uppåt För varje värde på δ, förbind språk som ligger på avstånd δ från varandra Räkna förbundna språk som en enhet när avstånd till ett tredje språk beräknas i fortsättningen kommer det minsta avståndet gälla för båda de förbundna språken
Dendrogram för Wikipedia med 1-normen (100 MB slumvis utvald text per språk) Portuguese Spanish Italian French Nor. Bokmål Danish Nor. Nynorsk Swedish German Finnish English 2.50 2.25 2.00 1.75 1.50 1.25 1.00 0.75 Language distance [arbitrary unit] 0.50 0.25 0.00
Blev det vettigt då? 1-normens resultat Portuguese Spanish Italian French Nor. Bokmål Danish Nor. Nynorsk Swedish German Finnish English Historisk klassificering Danska Norska (Bokmål) Svenska Norska (Nynorsk) Engelska Tyska Franska Spanska Portugisiska Italienska Finska
Blev det vettigt då? 1-normens resultat Portuguese Spanish Italian French Nor. Bokmål Danish Nor. Nynorsk Swedish German Finnish English Historisk klassificering Jovars, men det finns mer att säga! Danska Norska (Bokmål) Svenska Norska (Nynorsk) Engelska Tyska Franska Spanska Portugisiska Italienska Finska Resultaten beror på vilken norm man använder Frobeniusnormen och 1-normen gav bäst resultat -normen var ganska oanvändbar Vissa språk var lättare att placera rätt än andra
Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning
Språkidentifiering 99 relativt långa texter från varje språk valdes ut som testtexter 28 kapitel från Matteusevangeliet 21 kapitel från Johannesevangeliet 50 slumpmässiga artiklar från Wikipedia För varje text skapades en övergångsmatris och avståndet till de tidigare skapade matriserna från Wikipedia räknades ut Det kortaste avståndet avgjorde vilket språk texten identifierades som Frobeniusnormen fick störst andel rätt: 94 procent 1-normen kom tvåa med 83 procent 2-normen fick 72 procent -normen fick 45 procent
Språkidentifiering Vad texterna identifierades som 100 80 60 40 20 Resultat från Frobeniusnormen da de en es fi fr it nn no pt sv 0 da de en es fi fr it nn no pt sv Texternas verkliga språk
Innehåll Introduktion Problem Problemformulering Varför är det här intressant? Modell Att modellera språk Markovkedjor Vägen mot språkträdet Insamling av textdata Geografisk spridning Exempel på övergångsmatris Att mäta avståndet Att bygga ett träd Språkidentifiering Sammanfattning
Sammanfattning Markovkedjor och matrisnormer har använts för att skapa språkträd identifiera språket en text är skriven på Frobeniusnormen och 1-normen är de bästa matrisnormerna för dessa syften Går att få språkträd som hyfsat stämmer överens med vad man förväntar sig Språkidentifiering är möjlig med hög träffsäkerhet för relativt långa texter Resultaten beror i hög grad på vilken matrisnorm man väljer
Frågor?