Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Relevanta dokument
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Karp. Övningar Språkbankens höstworkshop oktober 2016

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Ett svenskt konstruktikon

Lingvistiskt uppmärkt text

Grammatik för språkteknologer

Karp. Övningar Språkbankens höstworkshop oktober 2017

INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Grundläggande textanalys. Joakim Nivre

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

X som en gnu. GÖTEBORGS UNIVERSITET Institutionen för svenska språket. [adjektiv/verb] + [som] + [en] + [gnu] Linn Trieb

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

Kungliga Tekniska Högskolan Patrik Dallmann

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Språkrådet fånar sig rätt ofta vad gäller Nyordslistan.

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Tekniker för storskalig parsning

Hur konstigt som helst!

Kan man vara dödare än dödast? En undersökning av konstruktionen [Adj]-are än [Adj]-ast

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpuslingvistik (SV2119) Föreläsning 4: Statistiska metoder

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Relationer, samordningar och retorik på Språkbanken. Swe-Clarin workshop 17 april 2015 Nina Tahmasebi

Korp. Övningar Språkbankens höstworkshop oktober 2016

Inte billigt precis. En konstruktionsgrammatisk undersökning. Damir Dizdar

Språk, datorer och textbehandling

VEM TROR DU ATT DU ÄR? En konstruktionsgrammatisk undersökning. Tina From

Lite småkonstigt! GÖTEBORGS UNIVERSITET Institutionen för svenska språket. En konstruktionsgrammatisk undersökning av [lite små-adj]

Språk, datorer och textbehandling

Ett svenskt konstruktikon Utgångspunkter och preliminära ramar

Bootstrapping för substantivtaggning

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Tekniker för storskalig parsning

Lexikon och konstruktikon ett konstruktionsgrammatiskt perspektiv på lexikografi

Garva lagom! Imperativa fraser med lagom

Statistisk grammatikgranskning

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Det gick fort som bara den.

Hur böjs Astrid Lindgrens hjältar i (i) Empirisk språkforskning i ett nötskal

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Lingvistiskt uppmärkt text

Språk, datorer och textbehandling

Kniven i lådan. GOTEBORGS UNIVERSITET Institutionen for svenska spraket

Lingvistiska grundbegrepp

Meningssegmentering i SUC och Talbanken

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Det svenska konstruktikonet: språkpedagogiska tillämpningar och integrering med andra resurser

Tentamen Del A. Marco Kuhlmann

Språkbanken en (inter)nationell forskningsinfrastruktur

Din jävel! Vokativa nominalfraser med possessivpronomen

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Titta på tv:n. en konstruktionsgrammatisk undersökning av bestämdhet i texter skrivna av andraspråksinlärare

Datorlingvistisk grammatik

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Såsom X så ock Y En konstruktionsgrammatisk undersökning

FÖRSLAG TILL KANDIDATLISTA

729G09 Språkvetenskaplig databehandling

Kort presentation av Korp, Sveriges nationalkorpus

GU-ISS Korp 6 - Användarmanual

Mönsterigenkänning i konstruktionsgrammatiska och läroboksbaserade övningar i sfi-undervisning

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Vad är syntax? Olika språksyn

Tentamen Marco Kuhlmann

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Konstruktioner och sånt Värderande och/eller abstraherande XP_konj_NP. Joel Abad

Språkpsykologi/psykolingvistik

Word- sense disambiguation

Särdrag, lexikon och syntax. Ordklasser. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Typer och kategorier som länkningssystem inom flerspråkig konstruktikografi

Konstruktioner i kontrast

729G09 Språkvetenskaplig databehandling

Ordklasser. Särdrag, lexikon och syntax. Ordklasskriterier II. Ordklasskriterier. Öppna klasser. Slutna klasser

Parsningens olika nivåer

inte jobbet i sig, men En korpusstudie av konstruktionen X i sig

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Korpusuppbyggnad Från textsamling till korpus

Introduktion till språkteknologi. Datorstöd för språkgranskning

Språkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren

Yvonne Adesam. Syntaktisk analys. Parsning. Ambiguitet. Utvärdering. References

Korpuslingvistik vt 2007

Så, ska det taggas som adverb?

Språkteknologi och Open Source

Manual Kulturpool Värmland 2.0

Frasstrukturgrammatik

Suffixet som kom smygandes tillbaka

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

Poeten och barnet ORDLISTA JOHANNA NILSSON ARBETSMATERIAL FÖR ELEVEN

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

Transkript:

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19

Föredraget Föredraget är baserat på en artikel inskickad igår till NoDaLiDa 2013 workshop: Lexical semantic resources for NLP. Automatic identification of construction candidates for a Swedish constructicon Linnea Bäckström, Lars Borin, Markus Forsberg, Benjamin Lyngfelt, Julia Prentice, and Emma Sköldberg Detta föredrag kommer handla om partiellt schematiska konstruktioner, metodutveckling och språkteknologi.

Ett svenskt konstruktikon Ett svenskt konstruktikon är ett projekt med fokus på svenska konstruktioner som samlas in, analyseras, beskrivs, och görs allmänt tillgängliga via Språkbanken. Projektet är ett samarbete mellan språkteknologer, grammatiker, lexikografer, fraseologer, semantikforskare och L2-forskare. Utvecklingsversionen är tillgänglig här: http://spraakbanken.gu.se/resurs/konstruktikon

Partiellt schematiska konstruktioner Detta föredrags fokus är partiellt schematiska konstruktioner = flerordsuttryck med både fasta och variabla led. Exempel: X och X (bra och bra) Exempel (?): RG kronor (42 kronor)

Automatisk identifiering av konstruktioner Det språkteknologiska arbetet i projektet fokuserar på identifiering av konstruktioner i dubbel bemärkelse: att upptäcka partiellt schematiska konstruktioner i stora mängder text; att lokalisera konstruktikonets konstruktionerna i text.

Automatisk identifiering av flerordsuttryck Att automatiskt identifiera flerordsuttryck med språkteknologiska metoder är komplicerat. Anledningen till detta är att det är svårt att skilja flerordsuttryck från kollokationer. Att identifiera partiellt schematiska konstruktioner ärver detta problem (och lägger till nya).

Språkbankens forskningsinfrastruktur Arbetet har Språkbankens forskningsinfrastruktur som startpunkt. Korp en korpusinfrastruktur Karp en lexikal infrastruktur Tillsammans utgör de en plattform som möjliggör att språkteknologiska experiment kan snabbt kan gå från idé till faktiska resultat.

Materialval: SUC 2.0 Materialval: SUC 2.0, en balanserad korpus för svenska som är manuellt annoterad med grundform och morfosyntaktisk beskrivning. Det är ett relativt litet material: 1,17 miljoner token.

Hybrida n-gram Experimentet bygger på arbetet med StringNet. Ett grundläggande koncept i StringNet är hybrida n-gram. Hybrida n-gram är en generalisering av n-gram där vi även inkluderar informationen i annotationslagren. Här tar vi bara med grundformer och ordklasser, men många andra alternativ är möjliga. Hur är hur vara, hur VB, HA vara och HA VB.

Generering av hybrida n-gram 2-, 3-, 4-gram Med tanke på att vi vill fånga partiellt schematiska konstruktioner, så filtrerar vi bort de helt schematiska (HA VB) och helt lexikala (hur vara). Vi filtrerar också bort hybrida n-gram som innehåller följande ordklasser: MID, MAD, PAD och UO. Resultat: 16 miljoner hybrida n-gram varav 8.8 miljoner är unika.

Rangordning Nästa steg är att rangordna alla hybrida n-gram. Detta kan göras med ett samförekomstmått. PMI point-wise mutual information PMI har ett känt problem: måttet föredrar lågfrekventa samförekomster. En känd lösning är att multiplicera med den absoluta frekvensen.

Rangordning Ännu ett problem: klippa-klistra text. UIF: unik instansfrekvens PMI-UIF(H) = UIF log 2 ( P(H) x H P(x))

Redundansproblemet Problem: större delen av de hybrida n-grammen är delsekvenser av andra hybrida n-gram, vilket ger ett resultat med stor redundans. Lösning: rensa bort alla hybrida n-gram som är delsekvenser av andra n-gram med högre PMI-UIF. Ett något luftigare identitetsbegrepp: att IE = IE.

Kandidatlistan Top-2500 <http://http://spraakbanken.gu.se/swe/resurs/ konstruktikon/kandidater> Det finns även andra kandidatlistor (precis nu bara en) som är baserade på automatiskt annoterat material (via Korps importkedja).

Korpinstanser

Analys av konstruktionskandidaterna Av 2500 kandidater godtogs 50 som fullvärdiga konstruktioner. En indikation på att metoden fångar vad vi vill är att den också fångar konstruktioner som redan finns med i det svenska konstruktikonet. Exempel: RG NN per PP NN en gång per dygn, 500 kronor per månad

Analys av konstruktionskandidaterna Ett annat exempel: den DT RO NN den 1 juli och den tionde mars jämför med PP NN: i mars, på morgonen och på eftermiddagen.

Analys av konstruktionskandidaterna Exempel på konstruktioner som inte finns med i SweCxn: RG år NNGEN ålder NN sju års ålder varken KN NN eller KN NN varken uppehållstillstånd eller arbetstillstånd vara VB sig PN NN eller KN (NN) vare sig fotboll eller ishockey vara VB sig PN PN VB (eller KN inte AB ) vare sig vi vill eller inte

Analys av konstruktionskandidaterna vara VB ute AB och KN VB vara ute och jaga Men även metaforiskt: vara ute och cykla vara ute och segla vara ute och snurra

Felanalys Syntaktiska djur: dendt JJ NN VB (de nordiska länderna är) SN PN VB endt (att det var en) Fragmentariska djur: varavb sig PN NN eller KN (NN) lexikala djur: ipp all DT fall NN VB överpp huvud NN tagen PC VB

Resultat Ur en metodologisk synvinkel har experimentet gett bra resultat, eftersom vi kunnat hitta tidigare obeskrivna partiellt schematiska konstruktioner. Precisionen är inte imponerande (typ 2%), men som ett tryck-på-en-knapp-verktyg för att upptäcka nya konstruktioner har det visat sig vara ett värdefullt bidrag till arbetet med ett svenskt konstruktikon.

Problem och möjliga lösningar Problem: lexikala djur syntaktiska djur fragmentariska (djur) Framtida arbete: att utnyttja Språkbankens lexikala resurser i kombination med Korpimportens syntaktiska analys för att försöka förbättra precisionen. att undersöka hur vi kan göra kandidaterna mer flexibla för att fånga de större enheterna.

Demonstration? Tid över för en snabb demonstration? http://spraakbanken.gu.se/swe/resurs/ konstruktikon/kandidater