Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Relevanta dokument
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korp. Övningar Språkbankens höstworkshop oktober 2016

Kort presentation av Korp, Sveriges nationalkorpus

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Språk, datorer och textbehandling

GU-ISS Korp 6 - Användarmanual

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Att söka i Korp med CQP och Regexp - en introduktion

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

MÅL OCH BETYGSKRITERIER I SVENSKA

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Tekniker för storskalig parsning

Korpuslingvistik (SV2119) Föreläsning 4: Statistiska metoder

Språkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren

Mer aktuell eller aktuellare? En korpusbaserad undersökning av svenskans adjektivkomparation de senaste årtiondena

Karp. Övningar Språkbankens höstworkshop oktober 2016

Studenter drillar Lärkas sång om hur studenter lär grammatik via korpusverktyget Lärka

Dependensregler - Lathund

ANDREAS ISSA SVENSKA SPRÅKET

INNEHÅLLSFÖRTECKNING... 1 INLEDNING ORDBOKEN I VERKTYGSLISTEN ORDBOKEN... 3

Svenskans digitala resurser. Elzbieta Strzelecka

E-PLIKT E-PLIKT FÖR GÖTEBORGS UNIVERSITET

Suffixet som kom smygandes tillbaka

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

Informationssökning. Joakim Nivre. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lexikon: ordbildning och lexikalisering

SALDO. En ruta kommer upp och du uppmanas att skriva in ett ord inte nödvändigtvis en lexikonform, det kan också vara en böjd form.

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Meningssegmentering i SUC och Talbanken

GU-ISS Korpblickar. om möjliga ingångar med sökverktyget Korp för studier av orden tänka och tanke i korpusar.

Språk, datorer och textbehandling

Smedingeskolan LPP och matris för tema klassiker. LPP och matris för tema klassiker

Svensk nationell datatjänst, SND BAS Online

En samling fårskallar

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Kungliga Tekniska Högskolan Patrik Dallmann

Elementära verktyg för korpusbearbetning

Lingvistiskt uppmärkt text

Instuderingsmaterial: Adjektiv, Substantiv och Verb

LPP 7P2 i svenska och svenska som andra språk

Grim. Några förslag på hur du kan använda Grim. Version 0.8

VEM TROR DU ATT DU ÄR? En konstruktionsgrammatisk undersökning. Tina From

Relationer, samordningar och retorik på Språkbanken. Swe-Clarin workshop 17 april 2015 Nina Tahmasebi

Ordklasser och satsdelar

Att använda ELAN - Bruksanvisning för annotering och studie av teckenspråkstexter

version 2.5 CONTENTO SVENSKA AB Introduktion till Kursbyggarverktyg

Såsom X så ock Y En konstruktionsgrammatisk undersökning

Joakim Nivre och Jörg Tiedemann

Centralt innehåll Centralt innehåll för årskurserna 1-3 Kommunikation Texter

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Tentamen Marco Kuhlmann

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi

Informationssökning. Jörg Tiedemann. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Lathund Ff-torget Försäkringsinformatörerna

Garva lagom! Imperativa fraser med lagom

ÄLTA SKOLAS LOKALA KURSPLAN

Sofie Johansson Kokkinakis

TEMA ARBETSPLAN ABC-Leksaker

Kurs: Svenska. Kurskod: GRNSVE2. Verksamhetspoäng: 1000

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

Datorbaserade verktyg i humanistisk forskning

Språk, datorer och textbehandling

Följa upp, utvärdera och förbättra

Välkommen att träna skriva!

Lathund Ff-torget Förbundsansvariga Distriktsansvariga Kurshandledare

Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser

NewsMachines Vecko Barometer - Mona Sahlin och partikongress-effekten

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Del ur Läroplanen för specialskolan 2011: kursplan i teckenspråk för döva och hörselskadade

Om detta må ni berätta... Om dåtid, nutid och framtid. Namn. Grupp

ENGELSKA ÅR 7-9, RISBROSKOLAN I FAGERSTA

NYORDEN SOM SPEGLAR NUTIDEN

Vi vidgar vyerna. Det är det översättare gör.

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Lathund för rapporter och statistik i Synergi

Datorbaserade verktyg i humanistisk forskning

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Pedagogisk planering tidningstexter. Syfte

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSERNA I. Ett sätt att sortera våra ord

Vad kan statistik avslöja om svenska sammansättningar?

Pedagogisk Planering - Qahuuls skattkammare

Pedagogisk planering tidningstexter

Digitalkunskap år 1-6

Transkript:

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015

dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur är de annoterade er uppgift

sökverktyget Korp: inledning Språkbankens korpusar söks med hjälp av verktyget Korp Korp nns på http://spraakbanken.gu.se/korp användarhandledning http://spraakbanken.gu.se/swe/forskning/ infrastruktur/korp/anvandarhandledning

Korps uppbyggnad Korp är ett webbaserat sökverktyg som kommunicerar med ett serverprogram (webbtjänst) på Språkbanken du kan också själv utveckla egna program som använder Korps webtjänst http://spraakbanken.gu.se/eng/research/ infrastructure/korp/ws Korp bygger på ett underliggande verktyg, Corpus Workbench, utvecklat vid universitetet i Stuttgart: http://cwb.sourceforge.net/

Korps uppbyggnad

sökningar i Korp enkel sökning på enskilda ord utökad sökning med mer komplexa kriterier (graskt) avancerad sökning med sökspråket CQP

enkla sökningar i Korp sökning på enskilt ord sökning på grundform välj korpusar att söka i tips: om det går väldigt långsamt, välj ett mindre antal korpusar resultatikar: KWIC, statistik, ordbild

statistik sammanställning och rangordning exportera

korpusar i Språkbanken http://spraakbanken.gu.se/swe/resurser/corpus modern dagstidningstext: GP, DN,... modern romantext: Bonniers, Norstedts,... populärvetenskap: Läkartidningen, F&F,... sociala medier: bloggar, twitter 1800-talslitteratur: Litteraturbanken, tidnngar medeltida text (fornsvenska) parallella korpusar inlärarkorpusar... och en hel rad andra Nedladdningsbart: http://spraakbanken.gu.se/eng/node/1587

exempel: bloggkorpusar

utökade sökningar i Korp sök på ordattribut kombination av villkor: och, eller sökning på en kombination samma resultatikar: KWIC, statistik, ordbild

exempel verb som följs av Göteborg? vanligaste substantiv i partiprogrammen inför valet 2002?

ordattribut ordet i sig grundform ordklass, t.ex. verb formbeskrivning (msd), t.ex. verb presens aktiv förled och efterled i sammansättning...

textattribut textattributen beror på vilken korpus vi använder. exempel GP 2012: avdelning i GP författarnamn datum exempel Strindbergs brev: författarnamn mottagarnamn år band i brevsamlingen... exempel bloggkorpusar: författarens namn, ålder, hemort,... bloggens teman

varifrån kommer annoteringen? korpusar och dokument är givna (eller manuellt indelade) texterna är antingen elektroniska i ursprungsformen (t.ex. GP) eller digitaliserade (ibland med OCR) i de esta fall automatiskt indelade i ord och meningar i de esta fall automatiskt lingvistiskt analyserade förutom manuellt annoterade korpusar som SUC och Talbanken

begränsningar i Korp begränsade möjligheter för t.ex. syntaktisk sökning, i jämförelse med TIGERSearch t.ex. vilka objekt är vanligast för verbet köpa?

äldre texter vi har korpusar från många olika tidsperioder, från landskapslagar till nutid exempel på samlingar från äldre perioder: lag och rätt, t.ex. landskapslagar, Tänkeböckerna tidningstext från 1700- och 1800-talet biblar äldre romaner

exempel: Tänkeböckerna (under Lagrummet)

exempel: Kubhist

trenddiagram: exempel på en neologism välj visa trenddiagram under statistikiken

exempel på variation pga historiska omständigheter

avancerad sökning: sökspråket CQP prova att växla mellan utökad och avancerad! [(word = "köttbulle") & (pos = "NN")] [(pos = "VB")] [((word = "köttbulle" word = "hamburgare"))] [(pos = "VB")] http://cwb.sourceforge.net/documentation.php

uppgiften

metodologiska förmaningar är urvalet representativt? hur operationaliserar jag mitt problem vilka förenklingar var jag tvungen att göra? är mina data pålitliga?