UPPSALA UNIVERSITET Institution för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf HT 2015 (korrigerad 151126) Depdsgrammatik Dna introduktion till depdsgrammatik försöker följa d standard för svska som fastlagts inom internationella språkteknologiska initiativet Universal Depdcies http://universaldepdcies.github.io/docs/. Depdsgrammatik represterar syntaktiska analyser med typ av träd. Dessa är annorlunda än frasstrukturträd, m fångar i hög grad samma typ av information. Depdsträd byggs av depdser, som är kopplingar mellan två ord. Ena or är överordnat och andra underordnat. Det underordnade or fungerar som bestämning. Depdserna är (i de flesta sammanhang) etiketterade, typiskt med funktionella begrepp närbesläktade med dem som används i traditionell grammatik. Diskussion här förutsätter traditionell satslösning och annan frasanalys som bakgrundsteori. I språkteknologin fokuserar man typiskt på d syntaktiska informations formella struktur när man talar om depdsgrammatik eller depdsanalys. De teoretiska principerna för analys, och framförallt uppsättning funktionella begrepp (depdsetiketter) kan variera. Depdsgrammatik har visat sig vara bra att kombinera med maskininlärning. Parsningssystem som bygger på sådana kombinationer används i många språkteknologiska tillämpningar. 1 Depdsrelationer Bas för depdsgrammatik är relation mellan ord (viktigt!), där a or har ställning av ett huvudord i relation till andra, som därmed betraktas som (underordnad) bestämning. Dna relation kan etiketteras med ett begrepp som svarar mot grammatisk funktion. Depdsgrammatik kan ses som ett sätt att formalisera d information som uttrycks vid satslösning. Här är fem minimala exempel. (De etiketter som används här listas i ett appdix på slutet av ta dokumt.) art bra De läser i Läs Om vi vill kan vi sätta ut ordklassetiketter, som här (äv böjningsinformation skulle kunna anges). Notera att vissa ordklasser och depdsrelationer får samma namn i Universal Depdcies terminologi, t.ex. DET /, eftersom ordklass och depdsrelation är så intimt förknippade. 1
DET NOUN ADJ bra NOUN PRON De VERB läser ADP i NOUN VERB Läs NOUN Eller vi kan ha tre ord och två depdskopplingar: punct DET ADJ NOUN bra PRON VERB NOUN PUNCT Vem stal? Notera PUNCT /punct, alltså att skiljeteck fungerar som skiljeteck. Här införs äv ROOT som pekar ut d överordnade nod i ett depdsträd. Det är ofta innehållsverbet i ming. För att fånga lite större satslösning kan vi rita så här, t.ex.: punct NOUN VERB DET ADJ NOUN PUNCT Studt läste d bästa. Här är t.ex. läste huvudord och studt och bestämningar. Bestämningarnas etiketter är och, som skall utläsas som subjekt och direkt objekt. De grundläggande utsagorna i depdsanalys handlar om relationer mellan ord. Bas för ett depdsanalys är alltså mängd noder (ordförekomster) och treställig relation direkt underordnad... med etikett..., som råder (eller inte råder) mellan två noder och etikett. 2 Universella depdser och innehållsords företräde Analyserna och diskussion här bygger på ett initiativ inom språkteknologin som går under rubrik Universal Depdcies. Syftet har varit att utforma anlyserna så att så stora likheter som möjligt kan bevaras när man jämför data från olika språk. Detta innebär dels att samma begrepp för syntaktiska relationer i så stor utsträckning som möjligt skall användas, dels att så stora delar som möjligt av depdsträd skall stämma övers mellan olika språk. Detta leder till vägledande princip som säger att innehållsord är överordnade (grammatiska) funktionsord. Motivet til ta är att innehållsord tderar att direkt motsvara varandra när man jämför två olika språk, 2
medan användning och förekomst av funktionsord beror på ett språks grammatiska särdrag. Exempelvis kan vi uttrycka ägande med substantiv i gitiv (här på svska) eller med hjälp av preposition (som i gelska översättning). Prepositioner kommer därför konsekvt att analyseras som underordnade huvudor i d fras de ligt traditionell grammatik styr. I ta exempel används dessutom bestämd artikel på gelska, medan bestämdhet visas med substantivets böjning i svskan: PROPN ADJ NOUN Sveriges största insjö DET ADJ NOUN ADP PROPN the largest lake in Swed En lite längre ming aux DET NOUN AUX PRON NOUN VERB ADP ADJ NOUN D rätt har vi kvinnor haft sedan urminnes tider 3 Depdser och depdsträd Vi kan sätta ut uttryckliga beteckningar för ordförekomsterna i ming (w 1, etc.): art art w 1 :En w 2 :studt w 3 :läste w 4 : w 5 : D syntaktiska analys kan alltså formuleras som fyra utsagor så här: w 1 är direkt underordnad w 2 med etikett art. w 2 är direkt underordnad w 3 med etikett. w 5 är direkt underordnad w 3 med etikett. w 4 är direkt underordnad w 5 med etikett art. Så här blir om vi placerar ett adverbial i fundamtsposition. 3
Ibland läste studterna böcker ADV VERB NOUN NOUN Ibland läste studterna böcker 3.1 Max ett huvud och etikett per ord De flesta system för depdsanalys brukar ställa dessa krav på relation direkt underordnad... med etikett... : Det gäller gerellt (för godtyckliga noder w 1, w 2 ): Max ett huvud till bestämning: Om w 1 är direkt underordnad w 2 med någon etikett, så är w 1 inte direkt underordnad något annat ord (med någon etikett). Precis etikett per depds: Om w 1 är direkt underordnad w 2 med viss etikett, så är w 1 inte direkt underordnad w 2 med någon annan etikett. 3.2 Underordnad i mer gerell ming Utifrån ta kan vi definiera mer gerella begreppet underordnad (i ett eller flera led): Det gäller gerellt (för godtyckliga w 1, w 2 och w 3 ): w 1 är underordnad w 2, om w 1 är direkt underordnad w 2 med någon etikett. w 1 är underordnad w 3, om w 1 är direkt underordnad w 2 med någon etikett och w 2 är underordnad w 3 3.3 Depdsträd typ av grafer Ett depdsträd uppfyller följande villkor, givet definitionerna ovan: Trä omfattar ett ändligt antal noder. Precis nod är inte underordnad någon annan. Dna nod kallar vi rot. Alla noder förutom rot är underordnade rot. Ing nod är underordnad sig själv. (Detta förbjuder cirkulära kopplingar. Varför?) 4
De noder som inte har några underordnade noder kallas (som vanligt när vi talar om d typ av grafer som kallas träd) löv. En fullständig analys av ming är där alla ingåde ord är inordnade i ett depdsträd. Notera att antalet depdsbågar för fullständig analys av ming är antalet ord minus ett. (En båge för varje ord utom rot, se på exempl här.) 3.4 Fraser i depdsanalys I depdsanalys finns inga speciella frasnoder, som i frasstrukturanalys. Fraser svarar istället mot delträd i depdsanalys. Vi kan definiera fras med or w som huvud som d ordsekvs som utgörs av w och alla de ord som är underordnade w. Vi kan ta ta exempel: aux De samvetslösa skurkarna hade stulit de största juvelerna på söndag. Dessa är de fraser som innehåller mer än ett ord, med huvu i fetstil: De samvetslösa skurkarna De samvetslösa skurkarna hade stulit de största juvelerna på söndag de största juvelerna på söndag Josefssons 1 analys skulle också urskilja dessa fraser, och tilldela dem kategorierna nominalfras, huvudsats, nominalfras och prepositionsfras. Analyser av mingar i termer av traditionell satslösning och frasanalys i funktionella termer kan, som vi ser här, ofta direkt uttryckas i depdsform. När fras (t.ex de största juverna) har viss funktion i relation till ett huvud (t.ex stulit) drar vi depdsbåge från huvu i fras (i ta exempel juvelerna) till överordnade huvu (i ta exempel stulit) och sätter d aktuella funktion som etikett (i ta exempel do, direkt objekt). Frasstruktur blir kanske tydligare om vi ritar ut depdsträ på ta ekvivalta sätt. 1 Gunlög Josefsson (2009) Svsk universitetsgrammatik för nybörjare. Lund: Studtlitteratur. 5
w 5 : stulit w 3 : skurkarna w 8 : juvelerna w 10 : söndag w 1 : de w 2 : samvetslösa aux w 4 : hade w 6 : de w 7 : största w 9 : på Observera återig att ta inte är ett konvtionellt frasstrukturträd. Se nästa avsnitt. 4 Depdsanalys kontra frasstruktursanalys Här är kel huvudsats med ett predikat, ett subjekt och ett direkt objekt. w 1 :En w 2 :studt w 3 :läste w 4 : w 5 : Detta blir med alternativa sättet att rita trä: w 3 : läste w 2 : studt art w 1 : En w 5 : art w 4 : Depdsträd har bara ord som noder. De blir därför mer kompakta än frasstrukturträd, där alla ord hamnar som löv, och alla fraser blir egna noder. För att fånga analys ovan i ett konvtionellt frasstrukturträd måste vi minst införa två nominalfrasnoder () och huvudsatsnod (S). Depdsträ ovan motsvarar klast ett sådant här platt frasstrukturträd, där subjektet och direkta objektet hanteras på ett symmetriskt sätt, som i depdsanalys. (Ordkategorierna är ytterligare informationsdimsion, m de ändrar inget i princip. De skulle lika lätt kunna knytas äv till ord i depdsträ.) S vtr n läste n studt 6
Här har vi skapat frasstrukturträ gom att införa frasnod för varje ord i depdsträ som är huvud i fras som omfattar flera ord och sedan placerat ta huvud under frasstrukturfrasnod. Eftersom frasstrukturanalys tillåter oss att införa fler frasnoder står oss fritt att anta rikare struktur, t.ex. sätta in VP i vid bemärkelse av d typ som är vanlig i frasstrukturanalys, så här: S VP n vtr studt läste n Detta är möjligt just därför att vi har fraser som egna noder i trä. En depdsanalys ger oss inte d typ av val. Detta kan vara fördel, då vark människor eller datorer i så fall behöver ställas inför valet mellan de två alternativ. 5 Samordning och depdsanalys Depdser är, som sagt, relationer mellan huvud och bestämningar. Depdsanalys är därmed skräddarsydd för analys av syntaktisk underordning. Samordning är dock annan typ av syntaktisk konstruktion. I Stockholm och Uppsala har vi ligt traditionell grammatik inget huvud, utan två jämställda led och konjunktion. I ett frasstrukturträd är lätt att fånga dna symmetri: pn Stockholm conj och pn Uppsala I rodlad depdsanalys måste all syntax fångas i termer av bestämningar till huvud. Universal Depdcies förordar dna analys: cc conj PROPN CONJ PROPN Stockholm och Uppsala 7
Relation conj betyder här samordnad med. Etikett cc knyter samman första le i samordning med d konjunktion som är ansvarig för samordning. Notera lite luriga förhållan mellan ordklass CONJ (konjunktion) och och depdsrelation conj (konjungerat/samordnat led). Äv om depdsanalyser är av samordning är lite kontraintuitiva från d traditionella grammatiks perspektiv, så kan de fungera i praktiska tillämpningar. När vi fångar samordning i depdsanalys är givetvis viktigt att vara konsekvt, om vi t.ex. skall använda depdsdata för maskininlärning och parsning. Annotationmanuals analys blir så här när vi har fler än två samordnade led: punct conj punct conj cc conj PROPN PUNCT PROPN PUNCT PROPN CONJ PROPN Stockholm, Västerås, Gävle och Uppsala 6 Syntaktisk flertydighet Detta är ett exempel på hur de olika läsningarna av syntaktiskt flertydig ordsekvs kan fångas i depdsanalys. Tvetydighet är av d vanliga typ som uppstår när prepositionsfras är placerad så att d kan bestämma två olika led. PROPN VERB NOUN ADP NOUN Pelle slog studt med linjal PROPN VERB NOUN ADP NOUN Pelle slog studt med linjal Prepositionsfras kan alltså knytas anting till verbet (som adverbial) eller till objektets huvudord (som attribut). Skillnad framgår på ett tydligt och naturligt sätt. 8
7 Projektivitet ytterligare än begränsning Ordföljd är (självklart) aspekt av d syntaktiska analys i depdsgrammatik, som i all grammatik. Hittills har vi inte sagt något om samban mellan depdsanalys och ordföljd. Ofta vill man att analys skall vara projektiv, vilket är ett krav som handlar om samban mellan depdsanalys och ordföljd. Att ett depdsträd är projektivt innebär att varje fras (se definition ovan) svarar mot kontinuerlig sekvs av ord. Detta lägger begränsningar på analys, och gör automatisk analys till ett klare problem. Alla träd vi tittat på hittills är projektiva. Här kommer ytterligare två projektiva exempel: cop :poss PRON AUX ADV ADJ ADP DET NOUN Hon är väldigt glad över sina framgångar cop :poss ADP DET NOUN AUX PRON ADV ADJ Över sina framgångar är hon väldigt glad I dessa två strukturer har vi alltså dessa fraser: över sina framgångar Hon är väldigt glad över sina framgångar. Över sina framgångar är hon väldigt glad. Alla dessa fraser är kontinuerliga ordsekvser och de två strukturerna ovan är alltså projektiva. Om vi däremot har att göra med prepositionsfraser där rektion flyttats fram ( extraherats ), så vill vi kanske ha sådan här struktur hos satsanalys: 9
cop :poss DET NOUN AUX PRON ADV ADJ ADP Sina framgångar är hon väldigt glad över Här ser vi att sina framgångar [... ] över är fras, utan att vara kontinuerlig ordsekvs. Närvaron av dna fras gör alltså dna depdsanalys icke-projektiv. Detta (Josefsson, s. 125) är ett annat icke-projektivt depdsträd, där D här klänning [... ] på bildar icke-kontinuerlig fras. aux mwe DET ADV NOUN AUX PRON VERB ADP ADV D här klänning vill jag titta på gast Eftersom icke-projektivitet är dyr sak beräkningsmässigt, så vill vi kanske inte tillåta oss sådana analyser. En möjlighet är att inte uppfatta de strandade prepositionernas rektioner som bestämningar till dem, utan som bestämningar på högre nivå. Vi skulle t.ex. kunna kalla dem för extraherade led, och räkna dessa som satsdel underordnad verbet. På så sätt skulle vi kunna hantera deras syntax inom ram för projektiva strukturer. 10