Undersökningen är nu - efter några avbrott - slutförd och resultaten redovisas i bokform.^ Föredraget behandlar en av de studier som gjorts.

Relevanta dokument
De nordiska datalingvistik dagarna 1983

VECKANS LILLA POSTKODVINST á kronor Inom nedanstående postkoder vinner följande 219 lottnummer kronor vardera:

VECKANS SMÅVINSTER - POSTKOD, 500 kronor vanns av följande postkoder:

POSTKODVINSTER á kronor Inom nedanstående postkoder vinner följande 234 lottnummer kronor vardera:

VECKANS LILLA POSTKODVINST á kronor Inom nedanstående postkoder vinner följande 172 lottnummer kronor vardera:

Produktionsberäkning, detaljerat trafikutbud Efter införandet av Citybanetrafiken

VECKANS LILLA POSTKODVINST á kronor Inom nedanstående postkoder vinner följande 229 lottnummer kronor vardera:

ORDKLASSERNA I. Ett sätt att sortera våra ord

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

Dependensregler - Lathund

ffi8cf Till föijd crv devqlveringen av den svensko kronon uppstod kursföriuster på 75 miljoner kronor på moderbologets utländsko lån.

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

POSTKODVINSTER á kronor Inom nedanstående postkoder vinner följande 307 lottnummer kronor vardera:

Lingvistiskt uppmärkt text

Tr ädinventering & okulär besiktning

Statistisk utvärdering av antagningen till Polishögskolan

30* 31* Läseåret Läseåret Läseåret Läseåret Läseåret folkskolo] Lägre.

T rädinventering & okulär besiktning Sågverksgatan, Kv Vedstapeln, Stureby

VECKANS LILLA POSTKODVINST á kronor Inom nedanstående postkoder vinner följande 270 lottnummer kronor vardera:

Lektion 8. Ord och fraser: Grammatik: Bostad Att prata om hur vi bor. Rumsadverb (hem hemma) Passiv form av verb -s Reciproka verb -s Deponens -s

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Kalkens inverkan på jordens struktur

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Konfidensintervall, Hypotestest

Exempel. Vi observerar vädret och klassificerar det i tre typer under en följd av dagar. vackert (V) mulet (M) regn (R)

TENTA:t\IEN I STATISTISK TEORJ NIED TILLÄNIPNINGAR Il

Avsnitt 2, introduktion.

Datarankning, utvärdering och förslag

bruksanvisning/ user manual

Grammatik för språkteknologer

Protokoll Standards Exposure Arbetsgruppen Yrkestekniska fra gor, Mo te

Äldres läkemedelsanvändning per i Västra Götaland

Markovprocesser SF1904

Avd. Matematisk statistik

I... <1"28,:s 2015/145/1

Markovprocesser SF1904

Arborelius, Olof Per Ulrik. Olof Arborelius. : Minnesutställning anordnad af Svenska konstnärernas förening Stockholm 1916.

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Klassdeklaration. Metoddeklaration. Parameteröverföring

Räddningstjänstens riskanalys Metodik Jönköpingsmodellen

Har ni tänkt på att ni kan starta en cirkel i vår? Varför inte samla era medlemmar och starta en cirkel?

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

TAMS79: Föreläsning 10 Markovkedjor

Protokoll fo r examination av examensarbeten vid juridiska institutionen

Övningstentamen

1 Svar på motion från Ken Swedenborg (-) "Bemanningen vid akutmottagningen, Ludvika lasarett LANDSTINGSSTYRELSENS YTTRANDE

Fiskars avdelning pä Finlands Mässas 50-àrs jubileumsmässa.

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Datorlaboration 2 Konfidensintervall & hypotesprövning

Kritiskt tänkande HTXF04:3 FTEB05. Induktiv argumentation

Produktionsberäkning, detaljerat trafikutbud innan Citybanetrafiken

MEDDELANDE från HAVSFISKELABORATORÎET * LYSEKIL 203

Nordiska Ministerrådets Miljö- och Ekonomigrupp Verksamhetsberättelse 1999

Koreanska (SOV) kiho-ka saca-l l cha-ass-ta Keeho-NOM lejon-ack sparka-pret-ind Keeho sparkade lejonet/ett lejon.

HIGH SCHOOL ANSVAR TRYGGHET KVALITET SEDAN ÖPPNA DITT HEM BLI VÄRDFAMILJ!

HIGH SCHOOL ANSVAR TRYGGHET KVALITET SEDAN ÖPPNA DITT HEM BLI VÄRDFAMILJ!

NNS indikatorer Enkätundersökning 1 november oktober 2018

TRÄFFAS SÄKRAST KL. 2 3.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Grammatik för språkteknologer

Ekvationslösning genom substitution, rotekvationer

St. Rycketofta 250, Påarp

Studentmanual (Bb Learn )

INLEDNING. Efterföljare: Sveriges järnvägar. Stockholm : Statens järnvägar, (Sveriges officiella statistik). Täckningsår:

UPPSATSER MR-PROGRAMMET

Lösningsförslag envariabelanalys

Allmändidaktik och lärande 4 högskolepoäng


Läsanvisningar till kapitel 6 i Naturlig matematik. Avsnitt 6.6 ingår inte.

Svenska - Läxa ORD att kunna förklara

Uttagning för D21E och H21E

Kungagraven i Kivik Severin, Valdemar Fornvännen 27, Ingår i: samla.raa.

Företagsamheten 2014 Östergötlands län

9. Konfidensintervall vid normalfördelning

Motivet finns att beställa i följande storlekar

F8: Asynkronmaskinen. Sammanfattning

Dnr za

4 SJÄLVKÄNSLA OCH VÄRDERINGAR

Effekter av Pappabrevet

BESLUT Stiftelsen för InternetInfrastruktur meddelar följande

Att göra före det schemalagda labpasset.

MASTER. Mining and selecting texts for easy reading. Katarina Mühlenbock

Introduktion. Exempel Övningar Lösningar 1 Lösningar 2 Översikt

S0005M, Föreläsning 2

Kursplaneöversättaren. Lina Stadell

Alternativt tvistlösningsförfarande (ATF)

VECKANS LILLA POSTKODVINST á kronor Inom nedanstående postkoder vinner följande 245 lottnummer kronor vardera:

Den inre marknaden och företagen i Mälardalen

Tentamen i ETEF05 Elenergiteknik för kl 8:00-13:00 i C525

STATISTISKA INSTITUTIONEN Jakob Bergman

Samtl 0c. Signalering mot banan vid vägkorsning. med säkerhetsanordning«i. Vägkorsningssignal (V-signal)

ARBETSDOKUMENT FRÅN KOMMISSIONENS AVDELNINGAR. Handbok om europeisk standardisering till stöd för unionens lagstiftning och politik DEL III

Grundläggande textanalys, VT2013

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

Avmätning. Tekniska data

Svenska förkortningar Utskrivbar övning från Glosor.eu

Vårdens resultat och kvalitet

Transkript:

Bengt Beckman Vitklövervägen 38 16360 SPÅNGA UTNYTTJANDE AV ORDKLASSER FÖR FÖRFATTARBESTÄMNING Hösten 1974 dök det i Paris upp en sensationell skrift i vilken 1965 års nobelpristagare Michail Sjolochov anklagades för plagiat. Studien hade skrivits av en senare avliden sovjetisk kritiker D, och förordet hade skrivits av Alexander Solzjenitsyn, som helt stödde slutsatsen: det mesta av Stilla flyter Don har inte skrivits av Michail Sjolochov utan av en annan kosackförfattare, Fedor Krjukov. Detta är bakgrunden till att det hösten 1975 bildades ett svenskt-norskt team som tog sig an frågan: "Vem har skrivit Stilla flyter Don?" Deltagare var Sven Gustavsson och Bengt Beckman från Sverige och Geir Kjétsaa och Steinar Gil från Norge. Avsikten med projektet var dels att lösa författarproblemet, dels att testa kvantitativa metoder för stilanalys och författarskapsundersökningar. Undersökningen är nu - efter några avbrott - slutförd och resultaten redovisas i bokform.^ Föredraget behandlar en av de studier som gjorts. Studien utgör en utvidgning av en metod som beskrivits vid två tidigare tillfällen, dels vid ett låtsat författarbestämningsförfarande på material av de sovjetiska författarna K Simonov och K Paustovskij, dels vid de preliminära undersökningarna i det mera spektakulära fallet med Krjukov och Sjolochov som möjliga författare till Stilla flyter Don. Det kriterium som användes i det första fallet var ordklassfördelning i meningsbörjan och meningsslut. I Geir Kjetsaas pilotstudie "Storms on the Quiet Don" undersöktes Sjolochov, Krjukov och "Stilla flyter Don" ur bl a denna aspekt. Resultaten, som klart talar för Sjolochov, har presenterats i andra sammanhang och skall ej beröras här. Emellertid bekräftade undersökningen ordklasskriteriets användbarhet. Jag har därför i den större, datorstödda undersökningen i samma ämne, vars resultat nu föreligger, använt ordklasskombinationer totalt och inom hela meningar som kriterium. ^ Geir Kjetsaa, Sven Gustavsson, Bengt Beckman, Steinar Gil. The Authorship of The Quiet Don. Slavica Norvegica II. Oslo 1983. 21 Utnyttjande av ordklasser for författarbestämning Bengt Beckman, pages 21-28

Ordklassindelningen i nämnda mindre undersökningar gjordes manuellt. Detta är - frånsett det besvärliga i arbetet - otillfredsställande ur den synpunkten att objektivitet och konsekvens ej kan garanteras. När Sven Gustavsson tog initiativet till projektet "Vem har skrivit Stilla flyter Don?" fanns ett automatiskt analyssystem uppbyggt vid Uppsala Datacentral under ledning av Anna Sågvall Hein. Systemet delar in orden i morfologiska klasser efter böjningsändelser och andra formella kännetecken. Detta resulterar i en modifierad ordklassindelning, som får fördelen att vara konsekvent, vilket ju i detta sammanhang är betydligt viktigare än att den är mänskligt rätt. Systemet har modifierats och utökats för att passa den aktuella undersökningen. Sålunda har klassindelningen genom att tillvarata underklasser ökats till att omfatta 25 klasser. Systemet utför en klassbestämning av var- och je ord'översätter varje mening till en svit klassbetecknande bokstäver. (Fig 1, Fig 2) Sammanlagt har 176 500 ord fördelade på 12 400 meningar skrivits in till analyssystemet via terminaler. Till systemet hör ett stamlexikon. Varje nytt ord som tillförs lexikonet måste förses med en serie kriterier för att ordet när det nästa gång dyker upp i någon annan böjningsform skall kunna identifieras automatiskt. Denna uppdatering av lexikonet har blivit en omfattande uppgift. Som tidigare nämnts modifierades systemet och många tilläggsprogram skrevs. Detta arbete skedde vid Uppsala Datacentral och - på senare tid - vid Uppsala universitet. Centrum för datorlingvistik. På materialet i klassbetecknad form har gjorts ett flertal statistiska undersökningar. Alla resultat tyder på samma sak. Ordklassfördelningen skiljer sig från Krjukovs men är lik Sjolochovs. Som exempel har tagits 4-klasskombinationer. I Fig 3 anges under Hq de förväntade frekvenserna framräknade ur äkta Kr jukov-material och under motsvarande ur Sjolochov-material. Under återfinns de i det omstridda verket observerade frekvenserna. Den svaghet som vidlåder de flesta metoder är, att också det omstridda materialet måste vara ganska stort för att duga till statistiska jämförelser. Vad man eftersträvar är ett test, genom vilket man kan utläsa trolig författartillhörighet på en mindre mängd omstritt material, t ex 20-30 meningar. Detta test bör vara så beskaffat, att man - mening för mening - tillvaratar alla i meningen ingående syntaktiska två-kombinationer och jämför med sannolikheter framräknade ur resp författares oomstridda verk. Genom att multiplicera sannolikheterna i varje mening får man ett mått på hur bra den är som - i detta fallet - Sirlochovmening resp Krjukovmening. Två test enligt denna modell har prövats på det aktuella materialet, 22 22

Fig 1. Klassindelning och klassbetecknin^a**, A Nominatives of animates B C D Other cases of animates Nominatives of inanimates Other cases of inanimates Basic class 1 E F G H I J K N o m i natives O t h e r forms L o ng forms/ nominative.. Long forms, o t h e r cases Short forms, comparative forms like jasnee Nominatives of kto, ^to, m y, v y,' j a, tv^ Other forms of pronouns mentioned in J Basic class 2 Basic class 3 Basic class 4 L Other members of basic class 4 M N All- f.brms; Pure p r e p ositions like bez, b e z o, y, yo] Basic class 5 O Prepositions w h i c h can.also be.a d v e r b s,/ for example v b l i z i, v d o l ', vhutri P Pure c o njunctions like a, ili Basic class 6 Q C o njunctions w h i c h can also-be adverbs, for e.xample o d n a k o, poka R Other m e mbers of basic class 6 S T U V W X Infinitives Gerunds Participles, l o ng forms, n o minative Participles, long forms, other cases Participles, short forms Other forms b e l o n g i n g to basic' class 7j Basic class 7 Y All punctuation marks o t h e r than s e n t e nce-dividing marks 23 23

Fig 2. Meningar översatta till klassbeteckna-pde bokstäver samt de ursprungliga meningarna. 6 G C Y N. H D C 15 C N F C X N C N D 45 G G C N H N C H D Y p; R C Y G C D Y G G C V D C P I' Y U N d " H D C D 1 i «70 N C Y N D H D Y G C Y G C Y U H D G Y G C Y C N D Y N F Y U H D C 75 N D Y G C C 1. Melechovskij d v o r - na s a m o m kraju chutora. 2. V o r o t c a so skotin'ego b a z a vedut na sever k Donu. 3. Krutoj VOS'misazennyj spusk mezdu zan elych v prozeleni m e l o v y c h glyb, i vot bereg: p e r l a m u t r o v a j a rossyp* rakusek, seraja i z l o m i s t a j a k a j m a nacelovannoj volnami gal'ki i dal'se - p e r e k i p a j u s e e p o d v e t r o m voronenoj rjab'ju strem'ja Dona. 4. Na vostok, za k r a s n o t a l o m g u m e nnych p l e t n e j, - getmanskij sljach, p o l y n n a j a p r osed', istoptannyj konskimi kopytami b u r y j, zivus oj p r idoroznik, casovenka na razvilke; za nej - z a d e r n u t a j a t e k u c i m m a r e v o m step'. 5. S juga - m e l o v a j a c h r e b t i n a gory. 24 24

Fig 3. Tetragramfrekvenser. HQ=forvantade frekvenser framraknade ur Krjukov-material. Hj^=f6rvantade frekvenser framraknade ur Sjolochov-mdterial. Xj^=obseverade frekvenser i Stilla flyter Don (Tichij Don = TD) TD total (n = 44,408) «0. «1 ^1 T E T R A expected e x pected o b s e n CYXN 38.63.99.05 104 DYNH 83.04 45.74 50 DYXN. 50.18 127.45 195 GYGC 81.27 19.54 23 GYGY 91.92 19.54 24 HDYN 71.50 48.40. 50 HYHD 95.92 23.09 25 N C YX 45.30 92.37 76 NDYX 83.04 124.34 149 NFDY 63.94 35.52 38 NHDX 51.07 72.83 67 RXND 39.52 58.62 29 XNCY 59.95 133.22 111 XNDY 115.90 166.53 166 YGYG 82.15 18.65 26 YNHD 96.81 64.39 96 YXNC 41.74 129.23.118 YXND 64.84 130.12 196 YXYX 69.72 35.97 42 25 25

Test I. Vi antar att en text ordklassmässigt är en Markovkedja, d v s att ett ords ordklasstillhörighet har en sannolikhetsfördelning som enbart beror av föregående ords ordklass. Vi talar om övergångssannolikheter p(i, j), d v s sannolikheten att ett ord i ordklass i följs av ett ord i ordklass j. Dessa övergångssannolikheter är positionsberoende. Speciellt stort är positionsberoendet i början och slutet av meningen. Dessutom inför vi sannolikheten att en mening börjar med ordklass i. Alla dessa sannolikheter bestäms genom statistik som upprättats på okänt material. Vi får då olika uppsättningar sannolikheter för olika författare. Våra testvariabler blir således (meningen antas vara X2 N-1 i7i Pi (Xj, p _ pk N-1 r r i=1 Pi (xp x.^^) TEST I Test II. Ett problem vid testvalet är: hur bra är approximationen att vi har Markovkedjor? I varje fall inte perfekt. Som alternativt test har därför använts följande. Låt q^(i» j) vara sannolikheten att bigrammet på plats k och k+1 är ett ord i ordklassen i och ett i ordklassen j (hos författaren S) N-1 = TT i=1 (Xj. x,^,) TEST II N-1 = T T i=l '1 (Xj. Xj^,) Detta test (Test II) ger högre värden där författaren använt för sig vanliga ordklasser. Något överraskande ger test II bättre resultat än test I när det prövats på samma S- och K-texter. Testen applicerades på 10-meningsavsnitt ur Stilla flyter Don (Tichij Don= TD). Resultaten exemplifieras av fig 4. 26 26

e >1 M o»h <u c... V4 fl c e >1 H o rh : >o+j ttntcj Q) c.»-i fl (1,c X?W) x 3 «s<o>w>n x 0) a>1 -ij»*-ix < N o n ^ ( N m t - m < N < N L n T - ( N f n T - «N - ^ r n o f s O m 0) H u H c 0) -P -USto ooor^cnoor~<t>r~ooqoln<riadr^<t>oovdr'ooo tn c T- T- (U 0) Eh cn. Q Eh Q) a >1 4J O tn Q) u H C Q) P ui c o o E-tw 'i*rocot ^int-mmro'tromvofnvo'^nrrin u3r'(n(7>voir)<tvininr'vor~r^'^oo'3'vdr~voin >-l 0 Ul XI ' V r o <Ti cr> m i n T ~ T i n CNJ m <T» fo i n e i-l CN T (N OD VD o o O 00 "«T in r * r * 00 CN r - o fn VD D s IW O o > r f r ~ <N vn ro m o GV T <N in 00 CN in ov in r- in T vo ov 00 ro J r- vo T in ov ov vo 00 r*' r~ r- o r o vo ro T) 1 CN LD o vo CN 00 O r> in ov o r- CO O f r" CN Vi e Vi r- OV 1 CN CN CO CO m vn vo vo r* 00 00 ov T r~ t O p 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 c X r- T CO 00 T~ 00 <N o in vo ro t t T in ro o o 00 o r- ov CO r f vo <n m ro T T CN 00 CO o m 1 vo ro O vo ov CO <n vo CN OV ov in ro CN CN fo CO in in VO vo 00 ov C3V o T <N 1 r T 60 0) 0 o >-l c o O O O O o O o o o o O O O O o O o o O X 0 0 ^ 1 T t r 1 T* f r T~ T t r - T T 1 B 4J c D Vw 0 T (N r o m VD r - CO o v o CN r o O' m VO r - OO c v O -y 0 l/) 1 r* t t r CN 27 27

Sammanfattning av resultat 10-meningsavsnitt. Stickprov ur äkta Sjolochov- och Krjukov-texter: Test I Test II S K X S K X Äkta S 12 ' 5 6 22 1 0 Äkta K 0 22 1 3 17 3 Stickprov ur Stilla flyter Don (Tichij Don): Test I Test II S K X S K X TD 1 13 3 4 19 0 1 TD 2 13 4 3 19 0 1 TD 3 15 6 3 22 0 2 TDto' 41 13 10 60 0 4 Under S noteras antal 10-meningsavsnitt med dominans av S-meningar. Under K noteras antal 10-meningsavsnitt med dominans av K-meningar. Under X noteras antal 10-meningsavsnitt där 5 meningar är av S-typ 5 är av K-typ. Anm. Flera skäl kan tänkas till testets goda diskriminerande förmåga, t ex: - de 25 klasserna är en lämplig abstraktionsnivå för ord - kombinationer av två klasser är en nivå på vilken individuella vanor klart framträder - meningskonstruktion, i det avseende som tastet avspeglar, är en djupt rotad vana, som inte förändras vare sig av ämnesområde eller författarens utveckling. 28 28