sture Allén INTE B A R A IDIOM Detta skall handla om ko l l o k a t i o n e r eller ordforbindelser. Vissa g r u n d f r å g o r inom språkvetenskapen upphör inte att fängsla en, och k o l l o k a t i o n e r n a har för m i g varit en sådan g r u n d fråga. Bland m y cket annat har de ett intressant förhållande till parsning. Jag minns m e d stor intensitet mina intryck, när jag såg de första r e s u l t a t e n av k o n k o r d a n s k ö r n i n g a r för ganska många år sedan. De öppnade nya språkliga vyer. Man såg i ett huj vilken betydelse k o l l o k a t i o n e r n a måste ha i den språkliga aktiviteten, Detta har varit en v i k t i g u t gångspunkt för ständigt u p p d a t e r a de tankar kring kollokationer. En av de första jag stötte på som över huvud taget hade tänkt i de här b a n o r n a m e d d a t a m a s k i n e n i perspektivet var John S i nclair (1970). Han m e nade att man skulle ta fasta på vad som är statistiskt s i g n ifikant för att få fram kollokationerna. De ord som uppträdde tillsammans oftare än man hade anledning att f ö rvänta sig, sett mot en slumpmässig bakgrund, skulle ha kollokationell karaktär. K r i t eriet gav både relevanta och i r relevanta (if take osv.) förbindelser. Resultatet av arbetet var således inte övertygande i detta avseende, inte heller för S i nclair själv. Också andra e x p e r i m e n t har sedan visat att det n a t u r l i g t v i s inte är så enkelt, även om det är en del av sann i n g e n. De första tankarna m e d u t g å n g s p u n k t i en allmän uppfattning om språket och om vad k o n k o r d a n s e r n a visade ledde till uppläggn i ngen av arbetet på tredje delen av Nusvensk frekvensordbok (1975) och p r e s e n t a t i o n e n av resultaten. Jag talade under 1970- talets första hälft bland annat i Abo, Pisa och London om k o l l o kationerna och deras roll i språket (föredragen trycktes 1973, 1976 r e s p e k t i v e 1977). Det som var u t g å n g s p u n k t e n för tredje delen av frekvensordboken var i a k t t a g e l s e n att k o l l o k a t i o n e r n a ständigt återkommer. 14 Inte bara idiom Sture Allén, pages 14-20
är rekurrenta i den m e n i n g som anges i inledningen till f r e k vensordboken. V i l l k o r e t i denna u n d e r s ö k n i n g var att det s k u l le finnas minst två identiska b e l ä g g på en m i l j o n löpande ord. Med det villkoret fick vi ut 660 000 b e l ä g g på o r d k o m b i n a t i o ner. Det var kanske den första ö v e r v ä l d i g a n d e siffran för oss. Den vanligaste av alla förbindelserna var det är, sedan kom och den, sig i, än att, på ett helt annat sätt osv., a l ltså välformade och icke välformade o r d k o m b i n a t i o n e r o m vartannat. Ur de 660 000 beläggen analyserade vi fram v a d vi k a llade för konstruktioner. På dem lade vi v i l l k o r e n att de skulle v a ra grammatiskt styrda och lexikaliskt selekterade. De utgör s å l u n da ett urval ur kombinationerna. Vi fick 50 000 olika k o n s t r u k tioner, som vi klassade i 17 olika huvudtyper: den stora frågan, i linje med, ta form, sköta om, kommer att fortsätta, för att undersöka, är på väg, mycket ung, även om, om också, för att, in i, men låt oss inte gå händelserna i förväg, det är givet att, kort sagt, som människa, jo då. Dessa e x empel m a r k e rar de ol i k a typerna. Ur konstruktionerna gjorde vi i sin tur ett urval. Det gällde idiomen i ordets snäva bemärkelse, dvs. de k o l l o k a t i o n e r som har oförutsägbar betydelse sett från de ingående ordens b e t y delsers synpunkt. Vi tillämpade k r i t e r i e r n a ganska strängt och fick fram 300 olika idiom; ge sig i kast med, i elfte timmen, lägga sista handen vid, det är inte utan att, göra avkall på, slå dövörat till osv. Idiomen utgör alltså en m y c k e t liten del av den stora m ä ngden kollokationer. I den nämnda inledningen påpekar jag, att det är ganska tydligt att resultaten bör få k o n s e k v e n s e r för språkteorin. Lexikonet ser antagligen inte ut på det sätt som man har tänkt sig t i d i gare, t. ex. inom den generativa inriktningen. V a d m a n kan kalla lexikaliska block av många olika slag bör finnas i s p r å k medvetandet. Strax efter u t g i vningen av frekvensordbokens tredje del p u b l i cerade Jan A n ward och Per Linell (1976) en uppsats om lexikaliserade fraser i svenskan. De tog fonologi, g r a m m a t i s k a e g e n s k a per m.m. i betraktande och s a m m anfattade sitt r e s o n e m a n g så 15 15
här: varje enskild konstituent i en lexikalisk enhet (dvs. i en kollokation) kan inte e x p l o a t e r a sin betydelse fullt ut och kan inte s y n t aktiskt varieras i någon större utsträckning; kan inte ha egen referens (säger man sparka boll, syftar man inte på en speciell boll); kan inte böjas fritt; kan inte m o d i f i e ras fritt; kan inte fritt befrågas, negeras eller affirmeras; kan inte varieras m e d a v seende på o r dföljd och prosodi i någon större utsträckning; kan å andra sidan utmärkas av m o r f o l o g i s ka och andra oregelbundenheter. O m man tittar lite närmare på detta, ser man att flera av v i l l koren är av sådan karaktär att de k a r a k t e r i s e r a r vad jag vill kalla idiom snarare än k o l l o k a t i o n e r i allmänhet. Men slutsatsen är i alla fall densamma som den jag hade d r agit från andra u t gångspunkter, nämligen att lexikonet spelar en större roll än m a n k a nske trott och att g r a m matiken spelar en något mindre r o l l. Charles Ruhl o c h A d a m Makkai förde en diskussion om idiom i en v o l y m från 1976. U t g å n g s p u n k t e n var att Makkai hade skrivit en bok o m Idiom structure in English. Ruhl m e nade att ett fel med den boken v a r att Makkai inte hade tagit hänsyn till den o m e d v e t n a delen av språkmanifestationen. Han tog som exempel take off som ju på e n g e l s k a b e t y d e r 'become airborne' men som i sin n o m i n a l i s e r a d e form också kan b e tyda 'parody'. Makkai menade att man här har två olika lexikaliska enheter medan Ruhl efter en g e n o m g å n g av ett hundratal b e l ä g g på take off noterar hur man från den ena b e t y d e l s e n gradvis k o mmer över i den andra. På detta s v arar M a kkai g e n o m att ta fram alla ord som i e n g e l s kan slutar på -ic(k) (bia, briak, chick, dick osv.) och t i l l sammans m e d sina s t u d e n t e r r e sonera sig fram till hur vart och ett kan anknytas till dels 'liv' eller 'död', dels 'skatter'. M e d andra ord: från v a d som helst kan m a n resonera sig fram till vad som helst. Det är ett sätt att ironiskt avfärda den tanke som Ruhl hade. Man m å s t e försöka identifiera de olika lexikaliska enheterna, m e n a r Makkai. Han använder rentav b e n ä m n i n g e n institutions för vissa av de här k o llokationerna de har så att säga en stadfäst roll i språket. 16 16
Ungefär samtidigt hade vi i Göteborg ett m i n d r e projekt som h e t te Algoritmisk textanalys. Jag f ö rbigår här det som gjordes på programsidan och i någon mån på syntaxsidan och n ä m n e r de l e xikaliska delresultaten. Vi utarbetade ett p a r a d i g m m ä r k t b a s l e x i kon på ungefär 8000 enheter. Det är p u b l i c e r a t av Staffan H e l l berg i en bok från 1978. B a s l e x i k o n e t u p ptar stam, u p p s l a g s f o r m och p a radigmnummer och täcker d ä rmed i p r i n c i p hela morfologin. Vidare upprättades ett s p eciallexikon över h e t e r o g r a f e r (ickehomografer) på ungefär 900 enheter. Ett tredje resultat v a r ett speciallexikon över d i s a m b i g u e r a n d e k o l l o k a t i o n e r på o m k r i n g 1600 enheter. Det omfattar sådana k o l l o k a t i o n e r som i n nehåller homografer som blir d i s a m b i g u e r a d e g e n o m att ingå i kollokationerna. Ett exempel är komma hem, där komma kan v a ra v e r b eller substantiv och hem kan vara substantiv eller adverb, medan komma hem är entydigt. Till detta k o m ett ä n d e l s e l e x i k o n för s a n n o l ikhetsklassificering av ord som saknas i baslexikonet. Ett av de ständigt å t erkommande p r o b l e m e n är ju att man stöter på nya ord. Bland det mest intressanta var att de två s p e c i a l l e x i k o n e n på 1600 respektive 900 enheter vid körningar v i sade sig täcka 50 procent av en okänd text av normal typ. Det är t a n k e v ä c k a n d e från parsningens synpunkt. Jag kan tillägga att de 8000 e n h e terna i baslexikonet täcker i runda tal 90 % av en text. Då skall vi emellertid komma ihåg att de i n nefattar en m ä n g d h o m o grafer. Det fina med de två speciallexikonen är att de ger stycken av fast mark som a n alysen kan bygga v i dare på. Låt mig nämna ytterligare några som på olika sätt har arbetat med kollokationer. En av d e m är Harald B u rger som har p u b l i c e rat en intressant bok om idiom (1973), där han framför allt är inne på de teoretiska p r o b l e m som k n yter sig till begreppet. Maurice Gross (1982) har undersökt vad han k a llar "frozen sentences", vilket också är ett slags k o l l o k a t i o n s b e g r e p p. I hans fall har det gällt franska. Göran Kjellmer vid engelska i n s t i tutionen i Göteborg är s y sselsatt m e d en g e n o m g å n g av hela Brown-korpusen för att ta fram k o l l o k a t i o n s m a t e r i a l e t ur den. Syftet är främst att utarbeta en frasordbok. 17 17
så är vi framme v i d L e x i k a l i s k databas. Det är det största p r o jektet vid S p r å kdata för närvarande. I det definierar vi o m kring 75 000 lemman ur det moderna svenska språket och ger u p p g i fter av m å n g a olika slag, bl.a. just beträffande fraseologi och idiomatik. Här är ett u t drag ur k o l l o k a t i o n s u p p g i f t e r n a rörande lemmat land, som r e p r e s e n t e r a r tre olika lexem (lexikaliska enheter baserade på k ä r n b e t y d e l s e r ). Jag ger inte deras definitioner, utan vi kan se på exemplen vad de avser. Till det första lexemet hör inom landets gränser, flytta till ett annat land, de afrikanska länderna och idiomen det heliga landet eller det förlovade landet och skuggornas land. Det andra o m fattar en sjöman går i land, land i sikte, på torra land, färdas till lands och idiomen förstå hur landet ligger, gå i land med något och nu går skam på torra land. Det tredje har hon var från landet, resa till landet under veokoslutet och idiomet ingen mans land. En av t a nkarna m e d projektet Lexikalisk databas är just att m a n m e d utgångspunkt från i första hand kollokationerna och d e f i n i t i o n e r n a skall arbeta v i dare i riktning mot ett lexikon för parsning. I e x i s terande system är de såvitt bekant, l i ksom lexikaliska u p p g ifter över huvud, svagt f ö reträdda. Låt m i g ändå i detta sammanhang nämna Kaplan & Bresnan (1980), Sager (1981) och Zimmermann, K r oupa & Keil (1983). På senare tid har jag k o mmit att u p p m ä r k s a m m a en annan typ av i n d i k a t i o n e r som jag anser v a ra v i k t i g från såväl teoretisk som p r a k t i s k o c h p s y k o l o g i s k synpunkt. Det gäller vad jag kallar för de m e t a s p r å k l i g a k o m m e n t a r e r n a i texter. Det är alltså så att språkbrukarna själva i viss u t s t r ä c k n i n g talar om hur d e ras lexikon ser ut, något som m a n kanske inte har u p p m ä r k s a m mat tidigare. De m e t a s p r å k l i g a k o m m e n t a r e r n a gäller rätt ofta enskilda ord men inte sällan just k o l l o k a t i o n e r. Man m a r k e r a r d e m med u t t r y c k av typen som det heter, som det så vackert heter osv. Ett litet urval exempel följer: ett rörligt intellekt, som det heter, karavanen rör sig trots att hundarna skäller, som det heter i ett gammalt arabiskt ordstäv, administrativ databehandling, som det heter; ett förslag till, som det så vackert heter, en förenklad deklarationsblankett; bidrag för att, 18 18
som det heter, förbättra konkurrensmöjligheterna på den internationella marknaden) hon är väl död vid det här laget, om man så säger) vi nådde alltså, för att lätt travestera ett slitet uttryak, ända fram. Själva de me t a s p r å k l i g a uttrycken är rikt v a r i e r a d e och baserar sig på en rad olika verb: för att använda en kliché, för att använda ett gammalt ordspråk, för att använda ett slitet uttryak, för att använda herr NNs egen formulering) för att citera NN) som det heter, som det numera heter, som det brukar heta, som det så vackert heter) som man brukar kalla det, som det kallas, så kallad) som frasen lyder, som uttrycket lyder) som man säger, så att säga, om jag så säger, som det brukar sägas) för att travestera ett gammalt uttryck) om man så vill) om uttrycket tillåts, om man så får uttrycka saken, som NN uttrycker det. Alla de me t a s p r å k l i g a ko m m e n t a r e r n a syftar inte a l l t i d på kollokationer i den m e n i n g jag avser här, men m y c k e t ofta visar det sig vara fallet. M a n kan dela in d e m i några huvudtyper. Som det heter syftar ofta på en k u rant kollokation. Som X lyder syftar gärna på ett o r d s p r å k eller ordstäv. För att citera anger direkt källan: en författare, en lagtext, en förordning eller någonting sådant. För att travestera kan i p r i n c i p syfta på alla de olika typerna. Som travesti å b eropar den indirekt en kollokation av något slag. De metaspråkliga k o m m entarer som man kan p l ocka fram på det här sättet ger ytterligare en inblick i m ä n n i s k a n s lexikon. De fogar sig också till de tidigare typerna av k o l l o k a t i o n e l l a kriterier som har varit rekurrensen, de grammatiska k o n s t r u k - t i o n s k r i t e r i e r n a, i d iomkriteriet och de t i llkommande lingvistiska kriterier som A n w a r d och Linell har pekat på. De bidrar alltså till att ge en ny bild av lexikonet och f ö ljaktligen också en ny bild av hur vi fungerar i s p r å k p r o d u k t i o n e n och i perceptionen. Därmed är de av f u ndamentalt intresse v i d u t vecklingen av parsningsystem. 19 19
Litteratur Allén, Sture, Om fraser i svenskan. (Svenskans beskrivning 7. Ed. C h r i s t e r H u m m e l s t e d t. Abo 1973, s. 24-31.) Allén, Sture, On p h r a s e o l o g y in lexicology. (Cahiers de lexicologie 29 (1976), s. 83-90.) Allén, Sture, T e x t - b a s e d lexicography and algorithmic text analysis. (ALLC Bulletin 5: 2 (1977), s. 126-131.) Allén, Sture, et al.. N u s v e n s k f r ekvensordbok baserad på tidningstext. 3. Ordforbindelser. 1975. Anward, Jan, & Linell, Per, Om lexikaliserade fraser i svenskan. (Nysvenska Studier 55-56 (1975-76), s. 77-119.) Burger, Harald, Idiomatik des Deutschen. Tiibingen 1973. (Germanistische A r b e i t s h e f t e. Ed. Otmar Werner & Franz H u n d s n u r s c h e r. 16.) Gross, Maurice, Simple sentences. (Text processing. P r o c e e d ings of Nobel S y m p o s i u m 51. Ed. Sture Allén. 1982, s. 297-315. ) Hellberg, Staffan, The m o r p h o l o g y of Present-Day Swedish. Word-inflection, word-formation, basic dictionary. 1978. Kaplan, R. M., & Bresnan, J. W., Lexical-functional grammar: a formal s y stem for grammatical representation. Occasional Paper 13. M I T C e nter for Cognitive Science. Cambridge, Mass. 1980. Makkai, Adam, Idioms, psychology, and the lexemic principle. (The T h i r d Lacus Forum. Ed. Robert J. Di Pietro & Edward L. Blansitt, Jr. Columbia, South Carol. 1976, s. 467-478.) Ruhl, Charles, Idioms and data. (The Third Lacus Forum. Ed. Robert J. Di Pietro & E d ward L. Blansitt, Jr. Columbia, South Carol. 1976, s. 456-466.) Sager, Naomi, N a t u r a l language i n f o rmation processing: a c o m p u t e r grammar of E n g l i s h and its applications. Reading, M A 1981. Sinclair, J. M c H., Jones, S., & Daley, R., English lexical studies. D e p a r t m e n t of English. B i r m i n g h a m 1970. Zimmermann, H a rald H., Kroupa, Edith, & Keil, Gerald, CTX. Ein V e r f a h r e n zur computergestiitzten T e x t e r s c h l i e s s u n g. Saarbriicken 1983. 20 20