Svensk Prosafiktion o 1800 1900: en Databas för Tvärvetenskaplig Metodutveckling Stina Otterberg stina.otterberg@lir.gu.se Dimitrios Kokkinakis dimitrios.kokkinakis@svenska.gu.se
Översikt Motivation: ökade volymer av digitaliserade litterära textsamlingar (t.ex. Spf); växande behov av datorstöd för analys Inspiration: distant reading" eller "macro analysis" (Moretti, 2005) jmf. close reading Redskap: språkteknologiska metoder samt visual analytics -experiment; t.ex. vad kan namn avslöja om huvudpersonernas liv? kan man lättare följa deras interaktioner? Fokus: namnentiteter, t.ex. personentiteter, genusbestämning, sociala nätverk, profilgenerering, semantiska relationer, normalizering, länkning Mål: ny uppsättning verktyg för litteraturanalys användbara och nyanserade insikter och kunskap för litteraturvetaren
Inspiration [ ] Franco Moretti. 2005. Graphs, Maps, Trees. Abstract Models for Literary Theory. Verso Pbl.
Fokus: Namnentiteter i vid bemärkelse Finkorniga namnkategorier: t.ex. personnamn (för-, efternamn), människosgrupper ( mammor ), mytologiska namn/teonymer ( Frälsaren ) och djur/husdjursnamn animathet (appelativer) Tilldelning av semantiskt /referentiellt genus (heuristiska regler; genustilldelade förnamnslistor; genusbärande morfologisk information (ordändelser; gamle ); förvaltnings-, heders-, akademiska-, hovtitlar, yrkesbeteckningar ( professorska ), nationalitet ( tysken ) m.m. Uppmärknigskonsistens labeling consistency
Namnlänkning Samma namn kan anges på olika sätt, att bara hitta alla namn är otillräckligt för många tillämpningar länkning av olika varianter till sin referent kan vara nödvändig Förenklad form av koreferens(kedjor)
Resultat sociala nätverk, samförekomst av personnamn på meningsnivå i Eros begravning, HB., 1922 arbeten tillsammans med Daniela Oelke
Resultat arbeten tillsammans med Daniela Oelke summary plot (1 kapitel=1 kolumn; färg=frekvens i kapitel): Kerrmans i paradiset, HB.,1927
Resultat Eros' begravning : röda pixlar: Olga Willman-Janselius; gröna pixlar: resten av namnen) arbeten tillsammans med Daniela Oelke
Resultat Kerrmans i paradiset Amourer arbeten tillsammans med Daniela Oelke fingerprinting: 13 noveller av H. Bergman, 1883-1931; varje pixel motsvarar ett ord, men alla ord som varken är personer eller teistiska referenser har uteslutits - fokus läggs på den ordning i vilken personentiteter nämns i texten
Pågående arbete Med utgångspunkt kvantifierbara data som t.ex. namn kan vi exploatera och analysera litterära textsamlingar på nya sätt Inte bara samförekomst, utan hitta semantiska relationer, t.ex. personrelationer (fi (friendof, employerof, childof, ). Mer semantisk- baserade sociala nätverk t.ex. vem pratar med vem sentiment och polaritet på åsikter? Koreferens oeee soch anaforlösning a (i första hand personliga pronomen) Fullständig profilutvinning för alla huvudpersoner
Referenser Borin L., Kokkinakis D. and Olsson L-J. (2007). Naming the past: Named entity and animacy recognition in 19th century Swedish literature. Proc. of the Language Tech. for Cultural Heritage Data (LaTeCH). An ACL Workshop: pp. 1-8. Prague. Borin L. and Kokkinakis D. (2010). Literary Onomastics and Language Technology. In Literary Education and Digital Learning. Methods and Technologies for Humanities Studies. van Peer W., Zyngier S. and Viana V. (eds). Pp. 53-78. IGI Global. Kokkinakis D. and Malm M. (2011). Character Profiling in 19th Century Fiction. Proc. of the Language Technologies for Digital Humanities and Cultural Heritage in conjunction with the Recent Advances in Natural Language Processing. An RANLP Workshop: pp. 70-77. Hissar, Bulgaria. Oelke D., Kokkinakis D. and Malm M. (2012). Advanced Visual Analytics Methods for Literature Analysis. Proc. of the Language Tech. for Cultural Heritage, Social Sciences, and Humanities (LaTeCH). An EACL 2012 workshop. Avignon, France. Kokkinakis D. and Oelke D. (2012). Men, Women and Gods: Distant Reading in Literary Collections - Combining Visual Analytics with Language Technology. Proc. of the Advances in Visual Methods for Linguistics (AVML). University of York, UK.
Culturomics: Quantitative Analysis of Culture Using Millions of Digitized Books. Jean-Baptiste Michel, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden. Science 331 (2011). <http://www.youtube.com/watch?v=injdllbk0zs>