Datorbaserade verktyg i humanistisk forskning

Relevanta dokument
Språk, datorer och textbehandling

Datorbaserade verktyg i humanistisk forskning

Språk, datorer och textbehandling

Elementära verktyg för korpusbearbetning

Lingvistik I Delmoment: Datorlingvistik

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Lingvistik I Delmoment: Datorlingvistik

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Språkteknologi och Open Source

Lingvistik I Delmoment: Datorlingvistik

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Kort presentation av Korp, Sveriges nationalkorpus

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Teoretisk lingvistik och datalingvistik. Robin Cooper

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Söktips Att hitta det man letar efter

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Att söka information (med betoning på Internet)

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Språk, datorer och textbehandling

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Introduktion till språkteknologi. Datorstöd för språkgranskning

Språk, datorer och textbehandling

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

729G09 Språkvetenskaplig databehandling

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

KN - Seminarium. (Litteratursökning)

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Ku soo dhawaada Jaamacadda Göteborg!

Talko korpus över den talade svenskan i Finland april 2016

Språk, datorer och textbehandling

Målet är att ge maskiner förmågan att plocka ut information ur

Språk, datorer och textbehandling

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Tekniken bakom språket

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

Korpusar och deras användning

On the role of corpora in cross-linguistic research, Stig Johansson (3-24)

Svensk nationell datatjänst, SND BAS Online

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Semantik. Semantik och språkteknologi

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Våren Nationalencyklopedin. Avancerad guide

Grammatik för språkteknologer

1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

Introduktion till biblioteket och informationssökning Språk och litteraturer

Att skriva en språkvetenskaplig uppsats. Ingmar Söhrman

Grundläggande textanalys. Joakim Nivre

EN2D11, Engelska: Språkvetenskaplig teori och metod, 15,0 högskolepoäng English: Linguistic Theory and Method, 15.0 higher education credits

Lässtrategier för att förstå, tolka och analysera texter från olika medier.

Kursplan. Introduktion till översättning. Introduction to translation. Nordiska språk, engelska, franska, tyska

Internets historia Tillämpningar

Inledande programmering med C# (1DV402) Introduktion till C#

Lexikal semantik. Lingvistik 1. Hanna Seppälä Uppsala universitet 1

Välkommen till informationssökning via webben. Tips om sökningar inför uppsatsskrivandet med klickbara länkar.

Österlengymnasiet

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

INFOKOLL. Formulera frågor Söka information

Vad är upphovsrätt och hur uppstår den? Hur lång är skyddstiden? Vad skyddas av upphovsrätten? Vad innebär symbolen?

Elevers användning av maskinöversättning vid skrivande på främmande språk.

Källkritik och upphovsrätt i skapande processer. Josef Sahlin Medioteket, Stockholms stad 2019 Presentationen finns på josefsahlin.

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.

Terminsplanering i Svenska årskurs 9 Ärentunaskolan

Centralt innehåll årskurs 7-9

Lathund för Gustavas ordböcker

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Upphovsrätten sätter maten på upphovsmannens bord

Tabell 4. Indelningar av enskilda språk och språkfamiljer

SVENSKA SOM ANDRASPRÅK

Exempel på gymnasiearbete inom humanistiska programmet språk

729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp

Den ständiga strömmen av människor, i boken s Ett barndomsminne, i boken s Skrivuppgift, i boken s

PIM Lärresurser

Digital inkludering i det uppkopplade samhället för grupper med speciella behov. Arne Jönsson Linköpings universitet och RISE SICS East

Det bästa är att kombinera flera olika metoder och källor. TIPS - för informationssökning på webben!

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Internet En enkel introduktion

Lathund för webbpublicering av bilder

FRAK01, franska, kandidatkurs

DET MODERNA SPRÅKSAMHÄLLET, 714G47 (1 30 HP). DELKURS 1. SPRÅK, SPRÅKANDE, SPRÅKVETENSKAP (7.5 hp)

Mer aktuell eller aktuellare? En korpusbaserad undersökning av svenskans adjektivkomparation de senaste årtiondena

svenska kurskod: sgrsve7 50

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Maskinöversättning möjligheter och gränser

Centralt innehåll. I årskurs 1 3

VADÅ UPPHOVSRÄTT? Att använda andras material i skolarbete

Utbildningsplan för masterprogrammet Språk och språkvetenskap (2015)

Packa kappsäcken till translatorprovet

Korpussökning och korpusmått 1(44)

LITK10 Teckenspråk i teori och praktik I, 30 hp

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)

Transkript:

Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se

Föreläsningsöversikt Vad är en korpus? Vad är korpuslingvistik? Varför korpuslingvistik? Sökmotorer och korpussökning på Internet Upphovsrätt Nätresurser (ordböcker och online-databaser) Dagens labb

Vad är en korpus? Korpus av latinets corpus = kropp Nationalencyklopedins definition: text eller texter som är föremål för språkvetenskapliga studier, i synnerhet med hjälp av dator Samling språkliga data som: o består av en samling skrivna texter eller transkriptioner av talspråk o är mer eller mindre representativt för språket i fråga o lagras elektroniskt Internet = Världens största korpus!

Vad är korpuslingvistik? Huvudsyftet med en korpus är att verifiera hypoteser om språket, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion faktiskt används: När började man skriva ''mejl'' istället för ''mail''? Säger man ''bättre än jag'' eller ''bättre än mig''? Gammal idé (dialektstudier, studier av utdöda språk etc.) Förverkligad genom modern teknik (framfart sedan 80- talet)

Varför korpuslingvistik? Objektiv lingvistik: Man studerar språket som det används i verkligheten (ej påhittade exempel) Enda sättet att undersöka frekvens i språkbruket Talforskning (talspråkskorpusar): prosodi, ålder, klass, kön etc. Korpusbaserad grammatik: empiriska data för att testa hypoteser om grammatik Historisk lingvistik: diakroniska korpusar för jämförande studier ur olika tidsepoker

Korpusannotering/taggning Att märka upp korpusen med lingvistisk information, ex: Ordklass (part-of-speech) Böjningsinformation (morfo-syntaktisk information) Lemma (grundform, d.v.s. uppslagsord i lexikon) Syntax Fonetik (uttal) - transkription Semantik Annoteringen kan göras för hand eller automatiskt.

Olika korpustyper Skriftspråkskorpusar Talspråkskorpusar Balanserade korpusar Består av olika texttyper i bestämda proportioner, avsett att representera ett språk eller en aspekt av ett språk. Monitorkorpusar Korpusen växer ständigt. Möjliggör studier av hur språkbruket förändras över tiden.

Fler korpustyper Trädbanker - Grammatiskt uppmärkta korpusar Flerspråkiga korpusar Innehåller texter på flera olika språk. Två undertyper: jämförbara korpusar (Samma texttyper på flera olika språk) parallellkorpusar (Samma texter på flera olika språk) Specialkorpusar Korpusar som utvecklats för att studera en viss språktyp, t.ex. ungdomsspråk eller fornengelska.

Välkända korpusar Engelska BNC (British National Corpus, 100 milj ord) Brown corpus (1 milj ord) Svenska SUC (Stockholm-Umeå Corpus, 1 milj ord) PAROLE (19 milj ord) Flerspråkiga Hansard (Kanadensiska parlamentstexter på engelska och franska) EUROPARL (Europaparlamentstexter på EU-språk) JRC-Acquis (Lagtexter från EU)

Hur hittar man korpusar på Internet? Sökning med hjälp av sökmotor o lämpliga sökord o lämplig sökmotor Leta hos tillgänglig korpusdistributör, t.ex. Linguistic Data Consortium Samla ihop texter till en egen korpus...

Sökmotorer och korpussökning på Internet Informationssökning o att söka upp dokument som är relevanta för det som användaren efterfrågar o Sökmotorer, ex: Google, AltaVista Informationsextraktion o att dessutom svara på en fråga som användaren ställer o ex: Ask Jeeves, www.ask.com

Ask Jeeves www.ask.com

Avancerad sökning med Google www.google.se

Informationssökning hur fungerar det? Ledtrådar som sökmotorer använder för att få fram och rangordna dokument: o nyckelord och frekvensberäkningar i de hittade texterna o automatisk morfologisk analys för att hitta alla ordformer, t.ex. flicka-flickor-flickornas o automatisk stavningskontroll

Korpusdistributörer Linguistic Data Consortium (LDC): http://www.ldc.upenn.edu o stödjer språkrelaterad forskning, utbildning och teknologi genom att skapa och distribuera lingvistiska resurser: data, verktyg och standarder o distribuerar korpusar (text och tal för många olika språk), lexikon etc. Oxford Text Archive (OTA): http://ota.ahds.ac.uk/ o samlar in, katalogiserar och bevarar elektroniska texter av hög kvalitet för forskning och undervisning o distribuerar mer än 2000 resurser för över 20 språk.

Korpusdistributörer European Language Resources Association (ELRA): http://www.elra.info/ Evaluations and Language Resources Distribution Agency (ELDA): http://www.elda.org o Distribuerar, producerar, standardiserar och utvärderar språkresurser (lexikon, korpusar etc) o Organiserar konferenser: The Language Resources and Evaluation Conference, LREC o Ger underlag för utvärdering av olika applikationer

Korpusdistributörer International Computer Archive of Modern English (ICAME): http://nora.hd.uib.no/whatis.html osamordnar och underlättar distribution av korpusar oorganiserar konferens, ger ut tidskriften ICAME Journal TELRI: http://www.telri.de osamlar in och distribuerar en- och flerspråkiga språkresurser med speciellt fokus på central- och östeuropeiska språk.

Användbara länkar för den korpusintresserade CORPORA-listan: http://nora.hd.uib.no/fileserv.html oelektronisk mejlinglista för alla som är intresserade av korpusar ohär kan man få tips och svar på frågor ACL SIGLEX: http://www.clres.com/siglex.html Special Interest Group on the Lexicon of the Association for Computational Linguistics olänkar till elektroniska lexikon, korpusar etc.

Bygg din egen korpus Välj ut lämpliga nyckelord och kombinera dessa på bästa sätt i lämplig sökmotor Samla ihop de webbadresser du fått fram och sätt ihop dem till din egen korpus Ordklasstagga gärna din korpus med allmänt tillgänglig taggare Var laglig: Tänk på upphovsrätten!

Tänk på upphovsrätten! Vilka lagar gäller för material som man hittar på nätet? Bara för att en text är publicerad på Internet, så betyder det inte att den är fri att använda och sprida vidare! Upphovsrätt till ett verk gäller intill utgången av sjuttionde året efter det år då upphovsmannen avled eller [...] efter den sist avlidne upphovsmannens dödsår. Många korpusar som finns på Internet kräver licens för att man ska få tillgång till dem

Vad säger lagen? Du kan alltid ladda hem ett verk som finns tillgängligt på Internet, kopiera från digital till digital form och/eller skriva ut det om du endast gör det för ditt privata bruk. Förlagan du kopierar från får inte vara en olovlig förlaga (piratkopia). Du får inte sprida det kopierade exemplaret utanför din närmaste familj eller vänkrets. Du får aldrig, inte ens för privat bruk, kopiera datorprogram eller databaser.

Upphovsrätt på Internet Problem med lagtolkningen: Internet är internationellt, medan upphovsrättslagarna ser olika ut i olika länder Indien: Ett verk är skyddat i 60 år efter upphovsmannens död (jmf Sverige 70 år) Internationella överenskommelser om upphovsrätt, t.ex. Bernkonventionen (Victor Hugo, 1880-talet) Kuba: Har ej skrivit under Bernkonventionen, upphovsrätten inget skydd

Ordböcker och online-databaser (1) Ontologier o Betydelsebaserade lexikon o Visar de semantiska relationerna mellan ord (synonymi, antonymi, hyponymi och meronymi) o WordNet: http://wordnet.princeton.edu/ o Svenskt OrdNät: http://www.lingfil.uu.se/ling/swn.html o EuroWordNet: http://www.illc.uva.nl/eurowordnet/ holländska, italienska, spanska, tyska, franska, tjeckiska och estniska

Ur Svenskt Ordnät av Åke Viberg: Grundläggande semantiska relationer i ordnät

WordNet http://wordnet.princeton.edu/

Svenskt OrdNät http://www.lingfil.uu.se/ling/swn.html

Ordböcker och online-databaser (2) Thesaurusar/synonymordböcker http://www.synonymer.se Flerspråkiga lexikon Lexin: http://lexin.nada.kth.se/ o Framtaget av Myndigheten för skolutveckling för användning i invandrarundervisningen o Cirka 30 000 svenska uppslagsord o Fjorton olika språk o De svenska orden kan man få upplästa (öva uttal)

synonymer.se http://www.synonymer.se

Lexin http://lexin.nada.kth.se/

Ordböcker och online-databaser (3) Enspråkiga lexikon Nationalencyklopedin: http://www.ne.se o ca 172 000 uppslagsord o kräver licens Oxford English Dictionary: http://www.oed.com/ o ca 500 000 uppslagsord o innehåller ord från hela engelskspråkiga världen o visar etymologi, uttal och stavning o autentiska exempel från texter o kräver licens

Nationalencyklopedin (NE) http://www.ne.se

Oxford English Dictionary (OED) http://www.oed.com/

Ordböcker och online-databaser (4) Databaser med samlat material Språkbanken: http://spraakbanken.gu.se/ outvecklat av Göteborgs universitet otillhandahåller referensmaterial i form av lexikon, korpusar och verktyg för sökning i korpusarna m.m. oinnehåller bl.a. Lexin, SUC-korpusen och Svenska Akademiens Ordbok i datorläsbar form

Språkbanken http://spraakbanken.gu.se/

Ordböcker och online-databaser (4) Korpussamlingar Gutenberg: http://www.gutenberg.org/ o innehåller ca 20 000 fritt nedladdbara e-böcker o när författaren har varit död i 70 år skyddas verket inte längre av upphovsrättslagarna Runeberg: http://runeberg.org/ o som Gutenberg, fast för nordisk litteratur o skapat av Linköpings universitet Gallica: http://gallica.bnf.fr/ o fransk motsvarighet

Runeberg http://runeberg.org/

Gallica http://gallica.bnf.fr/

Labben Deluppgift 1: Ta reda på mer om några av de mest kända korpusdistributörerna Deluppgift 2: Hitta korpusar på Internet för det språk ni är intresserade av Labbinstruktioner: http://stp.lingfil.uu.se/~evapet/undervisning/datorverktyg07/labb1.html