Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Relevanta dokument
1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Meningssegmentering i SUC och Talbanken

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Språk, datorer och textbehandling

Elementära verktyg för korpusbearbetning

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Tekniker för storskalig parsning

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lingvistiskt uppmärkt text

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Datorbaserade verktyg i humanistisk forskning

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Korpuslingvistik vt 2007

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Grundläggande textanalys. Joakim Nivre

Lektion 3. Anteckningar

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Språk, datorer och textbehandling

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Datorbaserade verktyg i humanistisk forskning

Lingvistik I Delmoment: Datorlingvistik

Korpusuppbyggnad Från textsamling till korpus

Tekniker för storskalig parsning

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

1. M öt et s öp pn an d e S ve n fö r k la r a r mö t et ö p p nat k lo c k a n i me d le ms k o nt o r et.

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Språkteknologi och Open Source

samhälle Susanna Öhman

Syntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax

Lingvistik I Delmoment: Datorlingvistik

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Trygghet kring hållplatser Ett framtaget verktyg vid trygghetsanalysering i samband med hållplatser och dess närmaste omgivning

Svenska som additivt språk. Skolverket Berit Lundgren FD, Umeå universitet Lilian Nygren Junkin FD, Göteborgs universitet

Grammatik för språkteknologer

VECKANS LILLA POSTKODVINST á kronor Inom nedanstående postkoder vinner följande 219 lottnummer kronor vardera:

Att använda ELAN - Bruksanvisning för annotering och studie av teckenspråkstexter

729G09 Språkvetenskaplig databehandling

Korpusbaserad Maskinöversättning

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Tentamensschema VÅREN 2015 Uppdaterat (Anmälan på nätet senast en vecka innan)

ASU-korpusen. Dess sy&e, uppbyggnad och särart. Björn Hammarberg Stockholms universitet, för

Statistisk grammatikgranskning

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Opp, Amaryllis (Fredmans sång nr 31)

Översikt. Mer om XML & TEI Kurstillfälle 2. Grundläggande principer 1. Grundläggande principer 2. Hierarkisk dokumentmodell. XML & flexibilitet

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Språk, datorer och textbehandling

Språkbanken en (inter)nationell forskningsinfrastruktur

Tranås vattenkuranstalt. Tranås vattenkuranstalt.

Changes in value systems in Sweden and USA between 1996 and 2006

Introduktion till språkteknologi. Datorstöd för språkgranskning

äkta Bredband, ett krav för framtidens multiservice nät?

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Swell code book (error taxonomy + examples)

om Stockholm Befolkning Basområdeslistan 2012

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

LABORATION 4: Textmanipulering Introduktion till lingvistik och datalingvistik XD1110

R app o r t T A n a l y s a v f as t p r o v. Ut f ä r dad A le xa n d e r G i r on

NODALIDA '93. Proceedings of 9:e Nordiska Datalingvistikdagarna' Stockholm 3-5 June R o b e r t E k l u n d, e d i t o r

Thomas Gartz

Information från Medborgarkontoret Hösten 2013

L iv e t s b ö r ja n

Read, work and talk! - och Lgr 11

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Teoretisk lingvistik och datalingvistik. Robin Cooper

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Mer aktuell eller aktuellare? En korpusbaserad undersökning av svenskans adjektivkomparation de senaste årtiondena

Lingvistik I Delmoment: Datorlingvistik

Maskinöversättning möjligheter och gränser

Konventionaliserade fraser i en akademisk ordlista

Morfologi, särdrag, lexikon och syntax. När är det bra med morfologi? Vad är ett ord? Morfem. Stam och affix

Korpusmått, korpusbalans och korpusrepresentativitet

Att undersöka språkmöten med datorn

Lingvistiskt uppmärkt text

Listen to me, please!

Språk och begriplighet i journaler Mia Kvist

En pilotstudie för automatisk analys av elevtexter

Bootstrapping för substantivtaggning

VECKANS LILLA POSTKODVINST á kronor Inom nedanstående postkoder vinner följande 270 lottnummer kronor vardera:

Så, ska det taggas som adverb?

eìã~åáëíáëâ~=ñ~âìäíéíéå= = = = c opi^d=======_n=numslmp= = OMMQJMRJOR= = = c~âìäíéíëå ãåçéåë=äéç~ã íéê

Blåsen nu alla (epistel nr 25)

Svenskans digitala resurser. Elzbieta Strzelecka

Korpussökning och korpusmått 1(44)

In Bloom CAL # 5. Virka inte v för hårt / don t crochet r to tight. V 35 / r 35 (5) Upprepa v 18. [38 1-lm-bågar / sida och 2 lm / hörn]

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Att använda ELAN. Bruksanvisning för annotering och studie av teckenspråkstexter. Johanna Mesch

Avtal om nyttjande av maskinellt läsbara texter för forskningsändamål

Transkript:

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004

vad är en korpus? korpusar är (stora) textsamlingar (typiskt tiotals miljoner ord), sammanställda och annoterade med ett syfte i åtanke, (för vilket man utvecklar [dator]verktyg)

sammanställda... korpussammanställning är precis som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen

... och annoterade strukturmärkning och textmetadata ordklass -taggning lemmatisering syntaxanalys ( trädbanker ) länkning (av parallellkorpusar) länkning (av modaliteter) textbindning, dialogakter, m.m.

korpusklassificering tal ~ skrift balanserade flerspråkiga: parallella ~ jämförbara inlärarkorpusar domänkorpusar (fackspråk, m.m.) monitorkorpusar små ~ stora

Kinnaurikorpusen \ref 07/007a/01 \tx @ma r@n boa loshigyo // \mrep @ma r@n boba lo -sh-i -gyo \gl mother with father say-?-?-d.pst \tr Mother and father said: \ref 07/007a/02 \tx jo tshetsats-u nam@n ch@ tate // \mrep jo tshetsats-u nam@n ch@d ta -te \gl this girl-poss name(n) what keep-let's \tr "what should we name this girl?" \ref 07/007a/03 \tx nam@n t@ sothlets tate // \mrep nam@n t@ sothlets ta -te \gl name(n) EMP name keep-let's \tr Let's keep the name (=name her) Sothlets."

Stockholm Umeå Corpus: textmetadata <tei.2> <teiheader id=h.kl01> <filedesc> <titlestmt> <title>suc-kl01</title> </titlestmt> <extent words=2001>2001 word tokens</extent> <publicationstmt> <distributor>suc</distributor> </publicationstmt> <sourcedesc> <listbibl id="file-kl01"> <biblfull id="bib-kl01"> <titlestmt> <title level=m>akilles häl</title> <author>jan Mårtenson</author> </titlestmt> <extent words=2001>pp 99-106</extent> <publicationstmt> <publisher>wahlström & Widstrand</publisher> <pubplace>stockholm</pubplace> <idno type="isbn">91-46-15872-3</idno> <date>1990</date> </publicationstmt> </biblfull> </listbibl> </sourcedesc> </filedesc> <profiledesc> <textclass> <catref target=suc.kl> </textclass> </profiledesc> </teiheader>

Stockholm Umeå Corpus: SUC-taggar <text id=kl01> <body> <p> <s id=kl01-001> <d n=1>-<ana><ps>mid<b>-</d> <w n=2>vilka<ana><ps>hd<m>utr/neu PLU IND<b>vilken</w> <w n=3>djävla<ana><ps>jj<m>pos UTR/NEU SIN/PLU IND/DEF.. <w n=4>optimister<ana><ps>nn<m>utr PLU IND NOM<b>opti... <d n=5>,<ana><ps>mid<b>,</d> <w n=6>frustade<ana><ps>vb<m>prt AKT<b>frusta</w> <name type=person> <w n=7>lasse<ana><ps>pm<m>nom<b>lasse</w> </name> <d n=8>.<ana><ps>mad<b>.</d> </s>

Stockholm Umeå Corpus: PAROLE-taggar <text id=kl01> <body> <p> <s id=kl01-001> <c lem='-' msd='fi' n=1>-</c> <w lem='vilken' msd='dh@0p@s' n=2>vilka</w> <w lem='djävla' msd='aqp00n0s' n=3>djävla</w> <w lem='optimist' msd='ncupn@is' n=4>optimister</w> <c lem=',' msd='fi' n=5>,</c> <w lem='frusta' msd='v@iias' n=6>frustade</w> <name type=person> <w lem='lasse' msd='np00n@0s' n=7>lasse</w> </name> <c lem='.' msd='fe' n=8>.</c> </s>

Talbanken: Bruksprosa P10234081001 0000 << GM 086 P10234081002 *DE PODPHH SS 086 P10234081003 1000 RC SSET 086 P1023408100410002SOM PORPHH SS 086 P1023408100510002TAGITS VVSN PAIV 086 P1023408100610002UT ABZA PL 086 P1023408100710002TILL PR OAPR 086 P1023408100810002UNDEROFFICERSUTBILDNING VN SS OA 086 P10234081009 KOMMER KVPS FV 086 P10234081010 ATT ID IM 086 P10234081011 FÅ FVIV IV 086 P10234081012 DET PODP OO DT 086 P10234081013 STÖRSTA AJSU OO AT 086 P10234081014 ANSVARET NNDD OO 086 P10234081015 OCH ++OC OO++ 086 P10234081016 DE PODP OO DT 086 P10234081017 SVÅRASTE AJSU OO AT 086 P10234081018 UPPGIFTERNA NNDD OO 086 P10234081019 AV PR OOETPR 086 P10234081020 ALLA POTP OOETDT 086 P10234081021 VÄRNPLIKTIGA AJ HS OOET 086

korpusar och språkvetenskap om inte den empiriskaste, så i alla fall mycket objektiv lingvistik enda sättet att undersöka frekvens [se N. Ellis, 'Frequency effects in language processing', Studies in Second Language Acquisition 24 (2002): 142-188, + fler i samma nummer]

konkreta exempel [1]

konkreta exempel [2]

konkreta exempel [3]

konkreta exempel [4]

konkreta exempel [5]