I de första meningarna i inledningen till del 1 av Nusvensk frekvensordbok framhölls dels att en meningsfull kvantifiering förutsätter en systematisk strukturanalys i vilken de operativa enheterna definieras, dels att undersökningar av autentiska material i sin tur ger bättre underlag för analyser av språksystemet. Denna växelverkan mellan kvalitativa och kvantitativa moment är av grundläggande betydelse. I själva verket kräver en materialbaserad undersökning att problem inom teoretisk såväl som tillämpad språkvetenskap angrips och att metoder utvecklas inom båda domänerna. Det kan kanske tilläggas att de teoretiska frågorna ingalunda är begränsade till den kvalitativa sidan. Projektet startade i ett läge där den i och för sig viktiga introspektionen enligt mitt synsätt överbetonades inom lingvistiken som källa till kunskap om språket. Det ökande intresse för språkliga data som nu kan konstateras ser jag som en utveckling i rätt riktning. Naturligtvis är det så, att data inte bara står att hämta i textmaterial som i det aktuella fallet utan också i informantundersökningar av olika slag. För en allsidig vokabulärundersökning av ett textmaterial är ett studium av själva orden på olika beskrivningsnivåer inte tillräckligt. Också ordförbindelserna och ordleden har direkt relevans för den kvalitativa såväl som den kvantitativa analysen. Det kan här räcka att som exempel peka på vikten av förbindelser som en del, en hel del, ta del av, för egen del osv. och sammansättningar respektive avledningar som deltagare, delvis, fördelardosa, avdelning, bråkdel, flygplansdel osv. för karakteriseringen av enheten del. I Nusvensk frekvensordbok 3 behandlas ordförbindelserna. Beskrivningsmodellen presenteras i denna inledning. Volymen innehåller tjugoåtta olika bearbetningar. Arton av dem är listningar i olika avseenden av ordförbindelser (respektive i ett par fall ord), medan tio utgörs av kompletterande tabeller. Huvudlistan är 2.2.2 som förtecknar alla konstruktionerna under vart och ett av de ord som ingår i dem. Ett fall som över huvud taget förekommer alltså på tre ställen. För varje konstruktion ges ett antal kvantitetsuppgifter, och för de enskilda rubrikorden ges såsom jämförelsetal bland annat deras frekvenser som grafiska ord. Översiktsvis är innehållet i de övriga listningarna följande. Bearbetningarna 1.1.1-1.3.2 ger upplysningar om kombinationerna. Särskilda listor ägnas åt de enheter som förekommer i början respektive slutet av meningar. I 2.1.1-2.5.4 behandlas konstruktionerna. Förutom den nämnda huvudlistan ingår här bland annat baslexikon och fördelning på grammatiska typer. Listorna 3.1.1-3.3 behandlar idiomen. På var och en av de tre beskrivningsnivåerna ges enheternas fördelning på frekvenser. Fördelningen på konstruktionslängder meddelas också. I ett appendix ingår listorna 4.1.1-4.1.2, som ger upplysningar om i vilken utsträckning olika grafiska ord uppträder i konstruktionerna. XIV
Material På s. XIV-XVI i del 1 och s. XIII-XVI i del 2 av ordboken har textmaterialet presenterats och språkstatistiska och lingvistiska synpunkter på det framförts. Här kan erinras om att samplet omfattar en miljon ord ur fem ledande morgontidningar 1965 (GHT, SvD, ST, DN, SDS) och är sammansatt av 1 387 artiklar skrivna av 569 personer i genrerna allmänna reportage, kultursidesartiklar och utlandskorrespondenters rapporter. Som en kommentar till t ypen av material kan nämnas att 75% av ordmassan i årstrycket på svenska i Sverige och Finland (exklusive accidenstrycket), som sammanlagt omfattar drygt tre miljarder löpande ord, utgörs av dagstidningarnas text (enligt en undersökning som utförts vid avdelningen). Vad storleken av samplet beträffar finns det starka skäl att betrakta det som ett tillräckligt underlag för en god approximation av vokabulärens allmänna kvantitetsförhållanden, ordförrådets lingvistiska struktur och basvokabulären (det centrala ordförrådet) i den aktuella texttypen. Se vidare på denna och andra punkter min uppsats Om frekvensordböcker (Språkvård 1973: 1, s. 9-12). När det gäller att få fram säkra uppgifter för mycket lågfrekventa ord (till skillnad från klasser av ord, t. ex. kategorier inom ordböjning och ordbildning, ordklasser m. m.) måste mångdubbelt större material undersökas. Kvalitativa aspekter Liksom tidigare har det gällt att utforma en undersökningsmetod och en beskrivningsmodell. Båda delarna berörs i detta avsnitt. Huvudvikten läggs på de tre beskrivningsnivåerna. Målet för undersökningen i denna tredje del av ordboksserien har varit fraseologin i vid mening. Som jag har framhållit i uppsatsen Om fraser i svenskan (Svenskans beskrivning 7. Red. C. Hummelstedt. Helsingfors 1973, s. 24-31) kan språkets fraseologi ses som skärningsområdet mellan grammatik och lexikon. Exempel som allmänt intresse, blandade känslor, den inslagna vägen, i all oändlighet, i största möjliga utsträckning, på goda grunder, göra gällande att, komma i kontakt med, slå vakt om, det är svårt att veta hur är som enheter betraktade både grammatiskt styrda (dvs. välformade) och lexikaliskt selekterade (ett intresse kan vara allmänt, speciellt, principiellt, stort m. m. men inte gärna kvadratiskt, vedartat, ansvarigt osv.). Kombinationer Enheter (och regler) som tillhör ett språks system kan väntas återkomma gång efter annan i manifestationer av språket. Detta bör gälla ordförbindelser såväl som ord, ordled, grafem osv. Företeelsen kan benämnas rekurrens. På denna vilar den metodologiska grundidén i utförandet av undersökningen. Som utgångsmaterial har sålunda tagits fram alla ordförbindelser som har minst två XV
identiska belägg i det studerade materialet av en miljon ord. Vi kallar dessa rekurrenta förbindelser kombinationer. De bildar den första beskrivningsnivån. Kombinationerna innefattar både fraseologiskt relevanta förbindelser som över huvud taget och fraseologiskt irrelevanta förbindelser som det inte att. Det lingvistiska intresset knyter sig främst till den första typen. Den andra typen är emellertid inte ointressant från lingvistisk synpunkt (man kan bl. a. tänka på transitionsfenomenen), även om det övervägande intresset snarast är informationsteoretiskt. Under alla omständigheter bör i varje fall de vanligaste kombinationerna redovisas. Ett särskilt intresse tilldrar sig de som står i början och slutet av meningar. Det finns naturligtvis en rad fraseologiskt relevanta förbindelser som inte är tillräckligt frekventa för att representeras av två belägg i ett miljonordssampel eller som inte uppfyller villkoret på grund av slumpvariationen eller som har sin (huvudsakliga) förekomst i andra texttyper. Likväl har grundmaterialet fått det överväldigande omfånget av i runt tal 660 000 belägg (inklusive inkluderade och överlappande förbindelser, se nedan). Hela beläggsmaterialet faller inom ramen för kontinuerliga förbindelser (se härom nästa avsnitt). Proceduren för framtagning av de rekurrenta kombinationerna har nämligen i sina huvuddrag varit följande. Som utgångspunkt användes en alfabetiskt sorterad konkordans över hela ordmaterialet. Denna sorterades vidare efter närmsta ord i förkontexten, närmsta ord i efterkontexten, näst närmsta ord i förkontexten, näst närmsta ord i ef terkontexten osv. Därefter skedde en jämförelse mellan på varandra följande belägg, varvid orden i ett stickords kontext jämfördes i samma ordning som den nyss angivna. Belägg som i sin kontext inte uppvisade identitet med något annat belägg slogs ut. Resultatet blev en kombinationskonkordans som kunde ligga till grund för den fortsatta undersökningen. Den speciella sorteringsordningen, som valts med tanke på svenskans struktur, visade sig slå väl ut i det praktiska arbetet. Begreppet identiska belägg kräver en kommentar. Om versal och/eller specialtecken uppträdde i det ena av två jämförda belägg, ansågs identitet ändå föreligga. Sålunda betraktades exempelvis Svenska Turistföreningen och Svenska turistföreningen respektive egna idéer och egna ideer som identiska. Självfallet bevarades informationen om det faktiska utseendet i detalj, så att korrekta former kunde tillhandahållas i ett senare skede. På motsvarande sätt behandlades homografi: tala om med adverbiellt (betonat) om och tala om med prepositionellt (obetonat) om betraktades också som identiska. Om homografi se vidare avsnittet Konstruktioner. För att motverka att junkturella grafem skulle förhindra identifiering av belägg på samma ordkombination vidtogs vissa normaliseringsåtgärder före den nämnda sorteringen. Det gäller för nästan alla junkturer att de är fogade till ord i texten (tankstreck är ett undantag). Normalt står de i slutet på orden (punkt, komma osv.), i vissa fall i början (citationstecken, parentes). En första åtgärd var att eliminera alla dubbla citationstecken, enkla citationstecken (utom i ställningen som genitivmarkörer) och avstavningsdiviser (i samband med hopfogning av orddelarna). En andra åtgärd var att frigöra övriga junkturer från ordkropparna och temporärt behandla dem som XVI
självständiga graford. Härigenom kunde alltså exempelvis ordkropparna i förbindelsen eller inte. i slutet på en mening och i förbindelsen eller inte inuti en mening identifieras. Däremot erhölls inte identitet i ett fall som bl a och bl. a. (men förkortningar av denna typ är i allmänhet rekurrenta var för sig). Vid den senare kumuleringen av belägg återförenades junkturerna med respektive ordkroppar, och de finns alltså med i de tryckta listningarna av kombinationer. Liksom när det gällde graforden i del 1 sattes en nedre frekvensgräns vid 10 belägg för de kombinationer som skulle redovisas i ordboken. Dessa enheter erhölls ur ett material som valdes på följande sätt. Ur grundmaterialet av 660 000 belägg på återkommande kombinationer uttogs alla enheter i vilka stickordet plus närmsta ordet i förkontexten uppvisade minst 10 belägg. Dessutom uppställdes villkoret att minst två av orden i vederbörande kombinationer skulle innehålla något icke-junkturellt grafem. Det resulterande materialet omfattade 335 000 belägg. Därefter utfördes en eliminering av inkluderade belägg. Vad detta innebar var följande. Den algoritm som tillförsäkrade oss alla belägg på återkommande ordförbindelser opererade som nämnts på varje enskilt stickordsbelägg i ordkonkordansen. En ordsekvens som över huvud taget på ett visst ställe i textmaterialet gav härigenom upphov till två ordförbindelser i kombinationskonkordansen. På stickordet huvud fann vi över huvud taget (stickordet, närmsta vänsterordet, närmsta högerordet). På stickordet taget fann vi på motsvarande sätt huvud taget (stickordet, närmsta vänsterordet närmsta högerordet antas inte ge identitet). Märk att textbelägget inte alls blev representerat på stickordet över (närmsta vänsterordet antas inte ge identitet). Det program som ombesörjde elimineringen av inkluderade belägg konstaterade, att över huvud taget och huvud taget hade samma beläggställe. Programmet eliminerade därför belägget huvud taget. Som resultat av programmets arbete fick man fram de maximala rekurrenta kombinationerna i materialet. Vid sidan av över huvud taget förekom bland annat över huvud som maximal förbindelse (sålunda på basis av andra beläggställen). Självfallet var man intresserad av att till beläggen på över huvud foga beläggen på samma kombination i den längre förbindelsen. Följaktligen expanderades i nästa skede alla kombinationer som omfattade tre eller fler ord med avseende på alla ingående (konsekutiva) delfraser. Ur över huvud taget erhölls alltså över huvud och huvud taget. Slutligen kunde så en kumulering av alla etablerade kombinationsbelägg utföras. Proceduren gav vid handen att det fanns strax under 10 000 olika kombinationer som uppvisade minst 10 belägg. Konstruktioner Det har framgått att beläggen i kombinationskonkordansen var ett grundmaterial, som omfattade åtskilligt mer än de fraseologiskt relevanta förbindelserna, konstruktionerna. För att komma åt dessa uppställde vi ett antal lingvistiska urvalskriterier, som fick sin slutliga utformning efter ett test på en 2-NFD3 XVII
tiondel av materialet. Det förtjänar att betonas igen, att kriterierna tog sikte på fraseologin i vid mening. Inte bara fasta förbindelser sådana som över huvud taget, utan vidare spisning och i fjol utan exempelvis också förbindelser som upplyste om bruket av olika slags partiklar information från/för/om/till, hålla efter/i/med/på/till/ut osv. bedömdes som relevanta. Alla nyanser i materialets skiftande rikedom kan inte beaktas i den redogörelse som följer. Det är huvuddragen som anges. Med någon förenkling kan man gruppera kriterierna efter de fyra grammatiska kategorierna nominalfraser, verbalfraser, konnektiver och satser. Den stora frågan. Den första typen gäller nominalfras eller del därav med utsatt huvudord, fakultativt inledd med preposition. Exempel är en lång historia, den offentliga sektorn, Evert Taube, något ditåt, en sprängning av partigränserna, i tidens fullbordan, i vilket fall som helst, vanligt folks och sedan i fjol. I linje med. Huvudordet i denna typ kan vara ett substantiv, ett pronomen eller en numeral. Inledande preposition och attribut kan fakultativt förekomma. Huvudordet följs av ett samhörigt strukturord, som kan vara preposition, underordnande konjunktion, frågeadverb eller infinitivmärke. Exempel: en viktig faktor i, mycket i, två av, frågan hur, förmågan att, i fråga om. Ta form. Denna första typ av verbalfras omfattar huvud verb eller predikativt adjektiv plus minst ett objekt (som kan vara prepositionsobjekt), fakultativt följt av objektivt predikativ, jämte eventuell mellankommande verbbestämning. Hit hör bära frukt, ta ställning, hade inte råd, ge honom rätt, sin vana trogen, får det bättre osv. Sköta om. Detta slags verbalfras omfattar huvudverb eller predikativt adjektiv plus adverbial (inklusive verbpartikel och negation) eller strukturord (preposition, underordnande konjunktion eller infinitivmärke) jämte eventuell mellankommande verbbestämning. Vi får exempelvis flytta in, hålla på, finns inte, gå vidare till, går som en röd tråd genom, framhöll att, fullt av, villig att, större än, komma till uttryck. Kommer att fortsätta. Typen omfattar verbkonstellation jämte eventuellt mellankommande adverbial eller infinitivmärke. Exempel är försöka stoppa, verkar vara, vägrar att betala, har alltid funnits, skulle gärna vilja. För att undersöka. Typen består av infinitiv föregången av infinitivmärke, fakultativt föregånget av preposition, jämte eventuell mellankommande bestämning. Hit hör exempelvis att fatta, för att inte säga, för att bättre kunna osv. Är på väg. Här avses helt enkelt kopula plus predikativ. Exempel: är hemma, är för liten, är förknippad med, var över, var inledningen till, bli bättre, blir inte lätt. Mycket ung. De konstruktioner som förs hit omfattar ett adjektiviskt, pronominellt eller adverbiellt huvudord med adverb eller måttsuttryck som bestämning. Exempel är ganska uppseendeväckande, nästan alla, rätt snart, lika gärna, tio år yngre. Även om. Typen omfattar adverb eller adverbiellt uttryck plus underordnande konjunktion såsom enhetligt konnektiv: därför att, så att, efter det att, till dess att, nu när, just som, så länge som m. fl. XVIII
Om också. Detta slags konnektiv utgörs av underordnande konjunktion (utom att) plus adverb. Exempel är om än, när nu. För att. En tredje typ av konnektiv består av preposition plus underordnande konjunktion eller infinitivmärke. Hit förs genom att, i och med att osv. In i. Det gäller här adverb som betecknar riktning eller befintlighet i tid eller rum plus samhörig preposition, exempelvis bort från, fram till, ut ur, framme vid, uppe på. Men låt oss inte gå händelserna i förväg. Ett studium av nexus (förbindelse mellan subjekt och predikat) har ansetts höra hemma i en rent syntaktisk undersökning och faller därför utanför den aktuella ramen. Vissa typer av satser framstår emellertid som relevanta. En sådan typ utgörs av en fullständig sats, bestående av huvudsats eller bisats jämte eventuell(a) tillhörande bisats(er). Exempel: det är så sant som det är sagt, varför inte, som man kunde vänta, som det heter, man studerar (med utelämnat inledande strukturord som i kontexten det material man studerar). Det är givet att. En karakteristisk satstyp är den som består av en huvudsats med formellt subjekt, följd av underordnande konjunktion, frågeadverb eller infinitivmärke. Bland exemplen är det är inte underligt att, det finns risk för att, det har hänt att, det är tveksamt om, det är svårt att veta hur, inte går det att. Kort sagt. Här avses ett antal uttryck som har karaktär av satsförkortning: rättare sagt, som sagt, därmed inte sagt att, snarast möjligt, bortsett från, detta därför att, om någon (som bland annat i kontexten det bevisar om någon Giacometti) o. d. Som människa. Denna typ utgörs av som eller liksom plus substantiv, självständigt adjektiv eller adverb jämte eventuella bestämningar. Som exempel kan anföras som exempel, som regeringschef, som död, som svensk, som så mycket annat, liksom tidigare. Jo då. Den sista typen omfattar interjektionella och vokativiska uttryck. Hit hör exempelvis april, april och du död. De olika typerna av konstruktioner och kriterierna för dem är härmed genomgångna. Några kompletterande synpunkter tillkommer. En av dem gäller samordning. Först skall i d et sammanhanget påpekas att en inledande samordnande konjunktion frånskiljs, såvida ordförbindelsen i fråga inte är en fullständig sats (som i fallet men låt oss inte gå händelserna i förväg). För att en samordning i övrigt skall accepteras krävs att de ingående leden är likvärdiga. Vi får exempelvis den välanpassade och lycklige läsaren, sida upp och sida ner, både män och kvinnor, mellan öst och väst, i grund och botten, med dunder och brak, på sjukhusens mottagningar och i läkarnas väntrum, är född och uppvuxen i. Också specialfallet att de samordnade leden består av enstaka ord godtas: saker och ting, teori och praktik, gammalt och nytt, inom och utom, då och då, om och när, bekräfta eller förneka, förr eller senare, han eller hon osv. Detsamma gäller typen tros- och livsåskådning, inoch utländska, 20- och 30-talen osv. Koppling mellan olika konstruktionstyper accepteras i den mån det längre uttrycket har en enhetlig karaktär (och förutsatt att det är rekurrent, givetvis). Bland exemplen är göra det bästa möjliga av situationen, för att få råd och hjälp, efter att ha tagit del av. XIX
Den nämnda kopplingen aktualiserar en viktig fråga, nämligen överlappningen mellan belägg på olika konstruktionstyper i textmaterialet. Låt oss anta att vi har följande tre sekvenser belagda en gång var: umgås med sina vänner läppjade vin med sina vänner umgås med omvärlden. De tre beläggen ger oss följande (återkommande) konstruktioner: med sina vänner 2 umgås med 2. Textens tre fall av med har alltså gett upphov till fyra fall i den lexikaliska redovisningen. Detta beror som synes på att de återkommande förbindelserna umgås med och med sina vänner överlappar i det första belägget. Företeelsen är som lätt inses mycket vanlig. Om emellertid en markant konstituentgräns gör sig gällande på den kritiska punkten, godtas inte vederbörande belägg som ett fall av överlappning. I en sekvens som tillfredsställelse över huvud taget noteras alltså inte tillfredsställelse över utan bara över huvud taget, i k om sig för att noteras inget belägg på för att osv. För fullständighetens skull skall det också noteras, att det i fråga om några få par av långa förbindelser vid närmare betraktande visade sig, att det ena belägget var ett direkt citat av det andra. I sådana fall godtogs inte förbindelsen som maximal konstruktion. Som nämndes tidigare gäller undersökningen kontinuerliga förbindelser. Några kommentarer till innebörden i detta kan vara på sin plats. Som så ofta i språkliga sammanhang märker man att konstruktionerna från den aktuella synpunkten ordnar sig enligt en skala. Betraktar vi för enkelhetens skull två ord, finner vi i ena ändan av skalan (nästan) alltid kontinuerliga förbindelser som i fjol, i skymundan, litet annorlunda, befinna sig, även om, för att osv. och i andra ändan (nästan) alltid diskontinuerliga förbindelser som mellan... och... (i t. ex. mellan lärare och elever, mellan tillgång och efterfrågan), från... till... (i t. ex. från fall till fall, från morgon till kväll) osv. Däremellan ligger de som i växlande utsträckning uppträder på båda sätten: hela folket hela svenska folket, har anledning har all anledning, på sikt på kort sikt på lång sikt på längre sikt osv. Undersökningsmetodiken ger oss alla belägg på rekurrenta kontinuerliga förbindelser och alla de belägg på rekurrenta diskontinuerliga förbindelser som har rekurrenta inskott. De nyss givna exemplen från fall till fall etc. och på lång sikt etc. är alla av detta senare slag. Fallen är i själva verket utomordentligt många. Generellt gäller att ju fastare (och därmed fraseologiskt intressantare) en förbindelse är, desto större chans har den att återkomma. Av de uppställda konstruktionstyperna har drygt hälften den karaktären att de helt eller nästan helt uppträder kontinuerligt: i linje med, mycket ung, även om, om också, för att, in i, men låt oss inte gå händelserna i förväg, kort sagt XX
och jo då. För att belysa de övriga typerna har ett antal exempel som hänför sig till dem undersökts fullständigt. Inom den första konstruktionstypen visar fallen stort (x) intresse och vanliga (x) människor endast ett enstaka fall av inskott (x-et inom parentes markerar platsen för eventuellt inskott). Ordboken täcker alltså här praktiskt taget fullständigt förbindelserna. I prepositionsfraserna är variationen naturligtvis större. Likafullt registreras i fråga om i (x) mening och i (x) riktning 57% respektive 67% rekurrenta förbindelser med eller utan inskott. Skillnaden i karaktär mellan rekurrenta och icke-rekurrenta förbindelser åskådliggörs litet längre fram med ett utförligt exempel (på (x) sätt). Verbalfraserna få (x) svar och ta (x) ställning täcks i likhet med de attributiva nominalfraserna praktiskt taget fullständigt. Av förbindelserna med adverbiell partikel är infinitivuttrycken hålla (x) på och ta (x) u pp nästan helt kontinuerliga, medan presensformerna håller (x) på och tar (x) upp täcks till 71% respektive 70%. Icke-attributivt större följt av än täcks nästan helt. Vissa slag av verbkonstellationer har ganska rikligt med inskott av tillfällig natur. Medan skulle (x) medföra täcks till 73%, är motsvarande siffra för torde (x) kunna 32%. Typen är knappast central från fraseologisk synpunkt. Fallen för att (x) lösa och genom att (x) ge är hundraprocentigt kontinuerliga. Predikativen uppvisar som väntat en viss variation. Av de samlade beläggen på blir (x) dyrare och var (x) slut är 62% rekurrenta. Inom satstypen med formellt subjekt täcks de samlade beläggen på det är (x) möjligt att och det finns (x) risk för att till 83%. Exemplen som (x) bakgrund och som (x) barn är rekurrenta på ett enstaka belägg när. Låt oss så betrakta rekurrenta och icke-rekurrenta belägg på en bestämd förbindelse, på (x) sätt. Som rekurrenta uppträder på annat sätt, på bästa sätt, på detta sätt, på ett egendomligt sätt, på ett eller annat sätt, på ett helt annat sätt, på ett sätt, på ett utmärkt sätt, på ett utomordentligt sätt, på flera sätt, på följande sätt, på intet sätt, på lämpligt sätt, på minsta sätt, på motsvarande sätt, på många sätt, på något sätt, på olika sätt, på samma sätt, på sitt sätt, på så sätt, på vanligt sätt, på visst sätt m. fl. Följande har däremot bara ett belägg och är alltså inte med i ordboken: på ett analogt sätt, på sitt högdragna och avmätta sätt, på ett beklämmande sätt, på ett spännande, berikande sätt, på ett betydelsefullt sätt, på sitt eget bombastiska sätt, på ett för oss ovanligt brutalt sätt, på kanske ett bättre sätt, på ett personligt och ganska diskret sätt, på ett direkt och enkelt sätt, på ett frankt sätt, på ett på förhand givet sätt, på Hallströms sätt, på myndigheternas sätt, på ett fackmässigt riktigt sätt, på ett adekvat, dvs av eleverna icke utskrattat sätt, på värdigaste sätt osv. Utfallet framstår som tilltalande. Metoden fångar upp det inarbetade (på ett eller annat sätt osv.) men släpper igenom det tillfälliga (på sitt eget bombastiska sätt osv.). Det förefaller rimligt att på detta sätt belysa de fraseologiska helheterna snarare än den diskontinuerliga förbindelsen på... sätt. Den som emellertid i något sammanhang har intresse av uppgifter rörande denna (eller motsvarande förbindelser) kan vända sig till S pråkdata. När kriterierna för konstruktioner enligt regelspecifikationen hade applicerats på materialet i kombinationskonkordansen kvarstod i r unt tal 200 000 belägg. Några huvudmoment i det fortsatta forskningsarbetet skall i korthet XXI
anges. Närmast kördes en eliminering av inkluderade belägg enligt samma princip som angavs i föregående avsnitt. Som resultat erhölls beläggen på maximala konstruktioner. Liksom när det gäller enskilda ord spelar homografin en betydande roll i fråga om ordförbindelser. Eftersom emellertid varje ord i en ordförbindelse har en viss kontext inom själva förbindelsen, är konstruktionerna inte sällan självförklarande. I stället för att belasta ordboken med en fullständig homografimarkering begränsade vi oss därför till att markera sådana fall som kunde beräknas vålla oklarhet. Efter sista tecknet i ett ord som homografmarkerats har vi satt en asterisk. Denna hänvisar till en lemmatisk klassbeteckning efter ordförbindelsen. Notationen är här densamma som den som utvecklades för delarna 1 och 2 av ordboken. Exempel: vara* behäftad med nn för* oss pp vara* behäftad med vb för* oss vb efter kön* nn -et. Exempel utan markering: vara med på för närvarande. De maximala konstruktionerna expanderades med avseende på ingående delfraser enligt en procedur som i huvudsak motsvarade den som beskrevs i föregående avsnitt. Två moment tillkom. Programmet accepterade endast sådana delfraser som motsvarade belagda maximalfraser. De av programmet accepterade delfraserna kontrollerades vidare med hänsyn till d e lingvistiska kriterierna på konstruktioner, för att felaktiga identifieringar grundade på homografi skulle undvikas. Ett enkelt exempel kan belysa frågan. Ur konstruktionen i djup snö erhölls bl. a. delfrasen i djup. Denna svarade mot maximalfrasen i djup. Denna i sin tur baserade sig emellertid på beläggen (på bredd och) i djup och i djup (och uttryckskraft) med djup som substantiv. Följaktligen deleterades delfrasen. Efter expansionsmomentet följde kumulering, sorteringar och övriga bearbetningar. Till det sagda skall läggas, att kontroller och i förekommande fall korrektioner genomfördes på alla stadier. Som framgår av ordboken har någon lemmatisering av orden i förbindelserna inte utförts. Detta bör ses mot bakgrunden av att det inte som i tidigare delar är enskilda ord utan ord i kontext som behandlas. En generell lemmatisering inom konstruktionernas ram av de ingående orden skulle ge oönskade resultat. Man kan uppenbarligen inte återföra varje form till motsvarande uppslagsform: skola ha kunna vara är exempelvis inget framsteg i förhållande till skulle ha kunnat vara, inte heller tillfällighet spel i förhållande till tillfälligheternas spel. Man kan inte med framgång begränsa lemmatiseringen till huvudordet i en förbindelse heller: i tiden och i tid, i landet och i land osv. måste hållas i sär. Vid användningen av ordboken kan det emellertid finnas anledning att göra vissa grupperingar. Söker man i huvudlistan efter en förbindelse som innehåller till formen variabla och konstanta ord, slår man på ett av de kon- XXII
stanta, lämpligen det som man bedömer som minst frekvent. Under stånd får man t. ex. komma till stånd, kommer till stånd osv. och kan om man så vill ganska enkelt ställa samman uppgifterna för de olika formerna. Man skall ha i åtanke att en form som saknas och alltså inte är rekurrent har 0 eller 1 belägg i materialet (liksom att diskontinuerliga fall med eller utan rekurrenta inskott kan förekomma). Idiom En speciell delmängd av konstruktionerna har tagits fram särskilt. Vi betecknar förbindelserna i fråga som idiom. Termen har i olika sammanhang använts med olika innehåll. Med idiom avses här en konstruktion vars betydelse inte är förutsägbar med utgångspunkt från de ingående ordens betydelser. Exempel är vara på tapeten i betydelsen 'vara aktuell', dra öronen åt sig i b etydelsen 'bli försiktig' osv. Ett specialfall utgör konstruktioner som innehåller ett eller flera ord som uteslutande förekommer i vederbörande konstruktioner och alltså får sin betydelse genom dessa. Exempel på denna typ av idiom är slå döv örat till, med berått mod, in extenso osv. Vid tillämpningen av idiomregeln har vi varit restriktiva när det gällt att acceptera diskuterade fall. Genomskinlig metaforisk användning har inte ansetts vara kvalificerande. Fall som att hålla dörren öppen, läggas till grund för osv. har alltså inte tagits med bland idiomen. Resultatet av den grova analys som företagits har blivit en liten grupp på mindre än 300 enheter med sammanlagt cirka 1 700 belägg. I lista 3.2.1 har rekurrenta delidiom för tydlighets skull kompletterats med ett eller ett par ord inom hakparentes: [inte sticka] under stol med, en fjäder i [hatten] m. fl. Grammatiska typer För att komplettera bilden har vi i tidigare ordboksdelar givit vissa data på andra beskrivningsnivåer än de egentligen fokuserade. Det har t. ex. gällt ordklasser och böjningsklasser. På motsvarande sätt har vi denna gång genomfört en grammatisk typologisering av konstruktionerna. Typologiseringen har gjorts på ordklassnivå. Två modifikationer gäller. För att förtydliga den grammatiska strukturen har vi brutit ut presens particip och perfekt particip ur verbkategorin och låtit dem bilda kategorin particip (pc). I arbetsbesparande syfte har vi vidare sammanhållit konjunktionen och infinitivmärket att i en gemensam kategori (at). I listningarna 2.5.1-2.5.4 representeras således konstruktionerna av strängar av ordklassförkortningar. Bakom pp av nn ligger bland annat på goda grunder, ett fall som det är givet att motsvaras av pn vb pc at osv. Enheter som varit omärkta med avseende på ordklass, t. ex. Öst-, har hänförts till lämplig ordklass. Typologiseringen av Öst- och Västtyskland har givit pm kn pm. I 2.5.4 listas under varje ordklass alla slags strängar den ingår i. Principen är densamma som i bokens huvudlista 2.2.2. XXIII
Lexikaliska block De understrukna ordförbindelserna i följande exempel ur materialet är enheter på konstruktionsnivå: Detta sätt att lösa olika frågor ger en bild av de vägar man gått för att försöka skapa förutsättningar för ett definitivt genombrott för trafikflyget i Dalarna. Det framgår att de två första konstruktionerna överlappar. På liknande sätt har hela textmaterialet skrivits ut i kontrollsyfte. Vid läsningen av detta om inte förr blir man övertygad om att den enorma mängden rekurrenta block måste beaktas vid utformningen av en realistisk, psykologiskt trovärdig modell för språklig produktion och perception. Jag har påpekat detta i den tidigare nämnda uppsatsen Om fraser i svenskan, men det förtjänar att framhållas igen. Det är alltså rimligt att tänka sig att en stor mängd ordförbindelser eller block ingår i det lexikon som språkbrukarna förfogar över. (Detta bör gälla också vissa enheter på kombinationsnivå, t. ex. nexusförbindelser som man kan säga och man räknar med.) Ett huvudargument är just det kvantitativa: det skulle vara ytterst oekonomiskt att åter och åter igen bygga upp alla dessa block av små element. Vissa andrahandsargument gäller för en del av blockmängden. Det är naturligt att idiomen hör dit, eftersom deras betydelser inte byggs upp av ordens betydelser. Detta gäller som nämnts både typen vara på tapeten och typen slå dövörat till. Växling mellan särskrivning och sammanskrivning är ett annat sådant argument. Som exempel på sammanskrivningar kan nämnas framförallt, iallafall, ifråga, istället, iögon(en)fallande och överhuvud taget / över huvudtaget / överhuvudtaget. _ Ytterligare ett argument kan hämtas från psykolingvistisk forskning. När det gäller perception tycks nämligen språkliga strukturer vara en påvisbar faktor, medan lingvistiskt postulerade processer tenderar att inte vara det. Detta att en stor mängd block torde finnas i språkbrukarnas permanenta minne bör som jag antytt få konsekvenser för modellerna inom teoretisk lingvistik med dess hittills markant partikuljära inriktning. En lockande uppgift är också att utnyttja insikten vid algoritmisk textanalys i språklig databehandling. Sortering Huvudlistan 2.2.2, som förtecknar konstruktionerna per ingående ord, har följande sorteringsordning i artiklarna. Första sorteringsgrund är stickordets position i konstruktionen: alla förbindelser som börjar på stickordet kommer först, alla som har stickordet i andra position kommer därnäst osv. Andra sorteringsgrund är alfabetisk ordning: inom varje positionsgrupp ordnas orden XXIV
alfabetiskt. Som exempel på ordningen kan nämnas land som Sverige före i land före på land före i vårt land. För att läsningen skall underlättas kursiveras stickordets förekomster i konstruktionerna. Samma princip gäller för listan 2.5.4, där de grammatiska typerna förtecknas per ordklass. En speciell sorteringsordning har genomförts i listan 1.2.3. Denna ger kombinationer i meningsslut ordnade från sista ordet. Detta innebär att förbindelserna är alfabetiskt ordnade i första hand efter sista ordet, i andra hand efter näst sista ordet osv. Vi får exempelvis till stånd före i stället och vårt land före i vårt land före hela landet. Kvantitativa aspekter Huvudvikten läggs här vid sådana frågor som särskilt rör denna tredje del av ordboken. Kompletterande upplysningar står att få på s. XXV-XXX i del 1. Frekvens Den kvantitativa grunduppgiften är observerad frekvens. Detta begrepp är betydligt mer komplicerat när det gäller ordförbindelser än när det gäller enskilda ord. Vi anknyter till det tidigare exemplet umgås med. Följande beläggsmaterial är relevant i detta sammanhang (den närmaste icke-rekurrenta kontexten har tagits med och satts inom hakparentes): [bevisligen aldrig] umgås med [.] [man dagligen] umgås med [eljest.] [när de] umgås med [sitt estetiska] [inte får] umgås med [andra fångar] [England inte] umgås med [några som] [inte längre] umgås med [sina vänner] [den som] umgås med [sådana.] [att vidare] umgås med [pojken.] [märkliga sätt] att umgås med [omvärlden.] [ännu visste] att umgås med [naturen i] [lära barnen] umgås med blommor [.] [sköta blommor,] att umgås med blommor [!]. Redovisningen av frekvensförhållandena i materialet kräver att man preciserar mer än ett frekvensbegrepp. Till e n början är man intresserad av att kunna ge den observerade frekvensen för en förbindelse som maximal enhet (se ovan s. XVII och XXII). Denna kvantitetsuppgift kan betecknas Fx. Eftersom att umgås med i det sista belägget överlappar med umgås med blommor, får vi följande Fx-värden: Fx umgås med 8 att umgås med 3 umgås med blommor 2. XXV
På kombinationsnivå kan Fx-värdena avvika något: avgörandet av om en enhet är maximal sker inom den ram som det tidigare angivna urvalet ur materialet bildar (dvs. de enheter i kombinationskonkordansen i vilka stickordet plus närmsta ordet i förkontexten uppvisar minst 10 belägg). Vidare vill man kunna ge den observerade frekvensen för en förbindelse med inräknande av de fall i vilka den uppträder som ett led i en längre förbindelse. Vi kan kalla denna kvantitetsuppgift observerad inklusiv frekvens och beteckna den F. Principiellt kan den närmare preciseras på två sätt. Den ena möjligheten är att bestämma den som summan av Fx-värdena för förbindelsen själv och de längre förbindelser den ingår i. Detta skulle ge umgås med värdet 13. Den andra möjligheten är att bestämma den som det antal textbelägg som Fx-värdena för förbindelsen själv och de längre förbindelser den ingår i bygger på. Detta skulle ge värdet 12. Med tanke på överlappningars vanlighet har vi stannat för detta senare alternativ som det mest rättvisande. Vår listning får nu följande utseende: F Fx umgås med 12 8 att umgås med 3 3 umgås med blommor 2 2. Härutöver är det av intresse att för varje enskilt ord, t. ex. umgås, kunna jämföra dess frekvens i ordförbindelser med dess egen observerade totala frekvens. Också i detta fall torde det vara lämpligt att ta fasta på antalet textbelägg. Vi kan kalla det erforderliga jämförelsetalet för ordets beläggsfrekvens i förbindelser och bestämma det som det antal textbelägg på ordet som de förbindelser ordet ingår i bygger på. Som framgår av materiallistan ovan är beläggsfrekvensen i förbindelser 12 för umgås. Den råkar alltså i detta fall vara densamma som F-värdet för umgås med, vilket beror på att beläggen inte innefattar någon rekurrent förbindelse med något annat ord än med efter umgås (t. ex. umgås gärna), alternativt någon rekurrent förbindelse med umgås som sista ord. Om exempelvis 2 av beläggen hade varit av denna typ, skulle F-värdet för umgås med alltså ha sjunkit till 10, medan beläggsfrekvensen för umgås hade legat kvar på 12. Den observerade frekvensen för (graf)ordet umgås är 21. Följaktligen blir den aktuella proportionen 12/21. De kvantitetsuppgifter som står omedelbart efter uppslagsorden i listan 2.2.2 är proportioner av detta slag. De anger sålunda förhållandet mellan grafordets (uppslagsordets) beläggsfrekvens i konstruktioner och grafordets totala frekvens. I de båda listningarna i appendixet, 4.1.1 och 4.1.2, fullföljs proportionsredovisningen. Där ges ett värde som betecknas konstruktionsbenägenhet, Kb. Detta anger hur stor procentuell andel beläggsfrekvensen i konstruktioner utgör av ett grafords totala frekvens. I vårt exempel med umgås blir värdet 57,1%. Definitionen av Fx medger att variabeln antar värdet 1. Betrakta följande tre belägg: [kaninen och] gör av [den ett] [fyrtaktaren inte] gör av med [tillnärmelsevis så] [pengar utan] gör av med [alltihop på]. XXVI
Vi finner att gör av med är en rekurrent maximal förbindelse. Dess Fx-värde är 2. Det framgår också att gör av är rekurrent (jämförelsen sker på grafordsnivå, inom ramen för den på texten byggda konkordansen). Som maximal förbindelse förekommer den emellertid bara en gång: Fx = l. Samma effekt kan uppkomma när en versal eller ett specialtecken spelar in: Fx-värdet för av sand är 2 och för av Sand 1, för genom sundet 1 och för genom Sundet 1 osv. Detsamma gäller vid apostrof som genitivmarkering i ordslut. Också variabeln F kan anta värdet 1. Vi betraktar ånyo de tre beläggen. Om vi inte skulle genomföra någon homografianalys, skulle F-värdet för gör av bli 3, eftersom förbindelsen är ett led i gör av med. Som tidigare nämnts beaktas emellertid homografi. I gör av med är av adverbiell verbpartikel (detta är uppenbart och behöver inte markeras med asterisk och ordklassförkortning). Däremot är av i belägget på gör av som kontexten visar prepositionellt. Följaktligen sammanförs inte fallen vid beräkningen av F. Vad vi får i detta läge är F Fx gör av* pp 1 1 gör av med 2 2. Tilläggas kan att F kan anta värdet 1 också av de skäl som gäller för Fx när versal, specialtecken respektive apostrof är involverade. Variabeln Fx åter kan i själva verket även anta värdet 0. Våra tre belägg är inte slutbehandlade. Vid expanderingen på delfraser genererar treordsförbindelsen gör av med de båda sekvenserna gör av och av med. Den senare förbindelsen är inte belagd i materialet som maximal konstruktion och registreras därför inte på denna nivå. Den förra förekommer däremot som maximal konstruktion (jämförelsen sker oberoende av homografimärkning) och accepteras sålunda. Eftersom den emellertid representerar en annan homografkomponent (nämligen med adverbiell partikel) än den tidigare belagda, etableras den som egen enhet med Fx-värdet 0. Listan får alltså till slut följande utseende: F Fx gör av* ab 2 0 gör av* pp 1 1 gör av med 2 2. Bakom Fx-värdet 0 ligger alltid en expandering på delfraser och en avsaknad av en homografkomponent (eller variant med specialtecken) som maximal enhet. I vissa speciella listor på kombinationsnivå har endast enheter med något maximalbelägg medtagits (Fx>0). Det gäller i första hand listorna 1.1.3, 1.1.4, 1.2.2 och 1.2.3, som alla innehåller enheter i meningsbörjan och meningsslut. Om en mening exempelvis börjar med å andra sidan, behöver det inte också anges, att den börjar med å andra (motsvarande gäller för enheter i meningsslut). Det är skälet till uteslutningen i detta fall. XXVII
Uteslutning av vissa enheter med Fx=0 har skett i listan 1.1.5, som ger uppgifter om teoretisk frekvens. Detta hänger samman med behandlingen av förkortningar. Den teoretiska frekvensen (se vidare nedan) för exempelvis bl. a. har beräknats på basis av frekvenserna för graforden bl. och a., fastän punkten i övrigt på kombinationsnivå behandlas analogt med separata graford i enlighet med vad som tidigare nämnts. Att ta med delfrasen bl. a och beräkna teoretisk frekvens för den blir under angivna omständigheter inte av intresse. I en av listorna på kombinationsnivå, 1.1.5, meddelas som nämnt teoretisk frekvens för förbindelserna. Detta värde har räknats fram med hjälp av formeln tjvf 2-FW Nw-1 där F, är observerad frekvens för det första ordet i förbindelsen, F, är observerad frekvens för det andra ordet, w är antalet ord i förbindelsen och N är antalet löpande ord i materialet. Detta T-värde ger den frekvens vi skulle vänta oss, om ordningen i materialet vore fullständigt slumpmässig. Genom att dividera en kombinations F-värde med dess T-värde får man ett mått som visar, hur många gånger vanligare kombinationen är än väntat. Den aktuella listan innehåller uteslutande kombinationer med FslO. De erhållna värdena på måttet F/T sträcker sig från 1,8-10 8, dvs. 180 000 000, för på ett helt annat sätt till 3,1 10~ 2, dvs. 0,03, för en att. Dessa kombinationer är alltså oerhört mycket vanligare respektive betydligt ovanligare än väntat. Den alldeles övervägande mängden av kombinationer 92% har F/T>1. Värdet 1 är vattendelaren mellan vanligare och ovanligare än väntat. Med fallande värde på F/T förändras kombinationernas karaktär i flera avseenden. Antalet enheter som inte har välformad struktur ökar kraftigt. Strukturorden uppträder allt oftare i förbindelserna, och i samband därmed blir dessa allt kortare. Listan visar att ett rent statistiskt tillvägagångssätt inte är tillfyllest när det gäller att komma åt de fraseologiskt relevanta förbindelserna. Liksom i tidigare delar har vi tagit fram ett baslexikon grundat på enheternas Fmod, deras modifierade frekvens. Detta värde är produkten av observerad frekvens och värdet på ett spridningsindex. Som underlag i fråga om observerad frekvens har valts F (och inte Fx). Såsom spridningsindex har som förut använts dispersionen över tidningar, DT (se vidare avsnittet Spridning). I flera tabeller anges Flex för olika fenomen, t. ex. konstruktionslängd och grammatiska typer. Beteckningen avser lexikalisk frekvens, dvs. det antal olika förbindelser som ett visst värde på variabeln i fråga (konstruktionslängd etc.) uppträder i. Också Tot i listan 4.1.2 avser lexikalisk frekvens. Det viktigaste skälet till valet av denna förkortning är att värdet utgör summan av värdena Init, Med och Fin, som gäller det antal olika konstruktioner vari ett visst graford förekommer i initial, medial respektive final position. Märk också att F i tabellen (liksom i tabell 4.1.1) hänför sig till vederbörande grafords frekvens. XXVIII
Frekvenser för konstruktionslängder meddelas i listan 2.4. Längd bestäms som antalet konsekutiva grafiska ord i en konstruktion. Fall som bland annat och bl. a. har båda längden 2. Fall som hand i hand har längden 3. I denna del av ordboken ges kvantitetsuppgifter för vissa ordförbindelser som innehåller ett par homografkomponenter som saknas i föregående delar: sysslande nn och Utflykten pm. Dessa har tidigare angetts med ordklassförkortningarna vb respektive nn. Avvikelserna får skrivas på den mänskliga faktorns konto. Att däremot homografkomponenten»i ab» är företrädd i den na del (i t. ex.»fylla i* ab») till s killnad från de tidigare delarna beror på att den inte var företrädd i det sampel, med vars hjälp frekvenserna för de 24 mest frekventa homografernas komponenter skattades. Som framgår av s. XXVII i del 1 ä r konfidensintervallet för»i ab» 0-38. Spridning Frekvensernas spridning över deltexter beskrivs i Nusvensk frekvensordbok med hjälp av begreppen dispersion och kontribution (se s. XXVIII-XXX i del 1). Dispersionsvärdena erhålls ur formeln D=1, där s är standardavvikelsen, m delfrekvensernas medelvärde och n antalet deltexter. Värdet varierar mellan 1 för fullständigt jämn fördelning över deltexterna och 0 för klumpning i en enda deltext. Måttet ger naturligtvis en ganska grov bild av förhållandena. Senare föreslagna mått ger inte något väsentligt annorlunda resultat. Till grund för beräkningarna läggs liksom i fråga om Fmod de observerade F-värdena. Dispersionen beräknas över tidningarna, DT, och ämnena, DÄ. Kontributionen upplyser om vilka eller enbart hur många deltexter som har bidragit till d en observerade frekvensen F för en given enhet. I olika listor förekommer kontributionsuppgifterna Tidn och Ämn, som är av den första typen, och För, som är av den andra typen. Såsom deltexter betraktas i des sa fall de 5 tidningarnas, de 6 ämnessfärernas respektive de 569 författarnas bidrag. Rang Rangnummer förekommer i en stor del av listningarna. Med beteckningen Rnr avses ett rangnummer beräknat på F. I flera fall har det varit lämpligt att utföra beräkningen på annan grund. Den underliggande kvantitetsuppgiften ges i dessa fall inom parentes omedelbart efter Rnr: Rnr(F/T), Rnr(Flex), Rnr(Fmod), Rnr(Fx) respektive Rnr(Kb). XXIX
När det gäller rangnumrens numeriska värden är att observera, att beräkningen av Rnr(F/T), Rnr(Fmod) och Rnr(Kb) har baserats på fler decimaler än vad som medtagits i kolumnerna F/T, Fmod respektive Kb. Rnr(Flex) och Rnr(Fx) är ju däremot liksom Rnr baserade på heltal. Vokabulärsektion Den undre frekvensgränsen för numeriskt ordnade listor är som tidigare 10. Vidare står det kvalificerande villkoret Fmod>4 kvar för tillhörighet till baslexikonet. XXX