Korpuslingvistik (SV2119) Föreläsning 1

Relevanta dokument

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

Språk, datorer och textbehandling

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Vi skall skriva uppsats

Vad är en webbläsare?

Syftet är att öka medvetenheten dels om vilka språkliga handlingar som krävs i ämnet, dels om vilka som utförs.

Logga in. Gå in på: Klicka på Logga in. Klicka på den region, kommun eller organisation där din verksamhet finns

Guide för att hitta markavvattningssamfälligheter och täckdikningsplaner

912 Läsförståelse och matematik behöver man lära sig läsa matematik?

DEMOKRATI 3 DEMOKRATINS VILLKOR

VÄRDERINGSÖVNINGAR. Vad är Svenskt?

Invandrarföretagare om att starta, driva och expandera företagande i Sverige

Särskilt stöd i grundskolan

Exempel på tentamensuppgifter i LMA100, del 1

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

Resultat av enkät till assistansberättigade

För dig som är valutaväxlare. Så här följer du reglerna om penningtvätt i din dagliga verksamhet INFORMATION FRÅN FINANSINSPEKTIONEN

Lathund, procent med bråk, åk 8

Medioteket. Introduktion till sli.se/medioteket för lärare

Föräldrabroschyr. Björkhagens skola - en skola med kunskap och hjärta. Vad ska barnen lära sig i skolan?

LATIN SPRÅK OCH KULTUR

DATASAMORDNING NYHETERNA I CHAOS Utbildning Chaos/Handledning - Nyheterna i Chaos 3/

Skogsbruk på ren svenska Lektion 4: Mästare på både förnyelse och återvinning. Tema: Återvinning Ämne: Biologi, Kemi Årskurs: 7-9

Individuellt Mjukvaruutvecklingsprojekt

Efter att du har installerat ExyPlus Office med tillhörande kartpaket börjar du med att göra följande inställningar:

Bild Engelska Idrott

SVENSKA FÖR DÖVA OCH HÖRSELSKADADE ELEVER MED UTVECKLINGSSTÖRNING

Föreningen Nordens lokala hemsidor

Så sparar vi till barnen. Rapport från Länsförsäkringar sommar 2016

Webb-bidrag. Sök bidrag på webben Gäller från

ELEV- HANDLEDNING (Ansökan via webben)

Kurs: Svenska som andraspråk Kurskod: GRNSVA2 Verksamhetspoäng: 1000

Svenska som andraspråk, 1000 verksamhetspoäng

Nämnarens adventskalendern 2007

Sammanfattning på lättläst svenska

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

Planering - LPP Fjällen år 5 ht-16

FRÅN A TILL Ö LäraMera Ab / och Allemansdata Ab / FRÅN A TILL Ö

Varför är det så viktigt hur vi bedömer?! Christian Lundahl!

D A B A D B B D. Trepoängsproblem. Kängurutävlingen 2012 Benjamin

Riktlinjer - Rekryteringsprocesser inom Föreningen Ekonomerna skall vara genomtänkta och välplanerade i syfte att säkerhetsställa professionalism.

Dagspresskollegiet. Bloggare vilka är de? Göteborgs universitet Institutionen för journalistik och masskommunikation. PM nr. 73

Kvinnor som driver företag pensionssparar mindre än män

Det flippade klassrummet hur uppfattas det av eleverna?

Mer än varannan sambo riskerar ekonomisk smäll. Undersökning från Länsförsäkringar hösten 2009

Hjälp för digital röst. Mikro Værkstedet A/S

Uppföljning av webbtillgänglighet

Visuell Identitet Logotype Logotype

Översikt. Rapport från skolverket. Förändring av matematikprestationerna Grundtankar bakom Pixel

My Language a g Biography

4-6 Trianglar Namn:..

BFL & IKT (och SUA kommer )

Q1 Hur många undervisningstillfällen har du haft under september månad?

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Lathund för överföring av rapporter och ljudfiler

Svenska som andraspråk, år 8

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

Snabbslumpade uppgifter från flera moment.

Kvalitativ innehållsanalys

Kännedomsundersökning 2015

Medieplan. för Högskolebiblioteket i Skövde Reviderad

Låt din berättelse bli en värdefull del av våra samlingar!

Samtals- och dokumentationsunderlag Språk och erfarenheter

Kursplan i svenska. Därför tränar vi följande färdigheter under elevens skoltid i ämnet svenska: Tala, lyssna och samtala. År 1

För unga vuxna Vuxenutbildning. Den svenska skolan för nyanlända

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

BibliotekMitt.se. Riktlinjer för Boktips, Artiklar, Arrangemang, Utställningar Arrangemang mm

SVENSKA ÖVERGRIPANDE MÅL FÖR ÅR 6, 7, 8, 9: LYSSNA

Arbetsplan. Lillbergets förskola Avd /2016. Barn och utbildning

Föräldrar i Skola24. Schema

Naturvetenskap, vad är det? Attityder till naturvetenskap hos elever i årskurs sex

Föreläsning 8: Räkning. Duvhålsprincipen. Kombinatorik

Studiehandledning. Projektplan för ett evidensbaserat vårdutvecklingsprojekt HT-11

B-uppsatsen: mål, krav, bedömning

ANVÄND NAVIGATIONEN I CAPITEX SÄLJSTÖD

Det är bra om även distriktsstyrelsen gör en presentation av sig själva på samma sätt som de andra.

Axiell Arena. Samarbeta om bilder Regionbiblioteket i Kalmar län

Omvandla Vinklar. 1 Mattematiskt Tankesätt

Vardagar Lunch 70 kr Lasagne Pasta med köttfärssås Fisk med ris Bröd, dryck och kaffe ingår

Utbytesstudier. Malin Gröndahl Maass Justyna Jonsson Pernilla Mideskog Johanna Persson

DOP-matematik Copyright Tord Persson. Bråktal Läs av vilka tal på tallinjen, som pilarna pekar på. Uppgift nr

Energi & Miljötema Inrikting So - Kravmärkt

Användarmanual och policy för Göteborgs Evenemangskalender på goteborg.com

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

Repetitivt arbete ska minska

Hur utvecklar man användbara system? Utvärdering. Användbarhet handlar om kvalitet. Utvärdering. Empiriska mätningar. Metoder

Handelskammarens rapport nr Folkets röst om E22. Allmänhetens svar på frågor om E22 i Skåne, Blekinge och Kalmar län

POL 102 VT07, Polska, språkfärdighet I

Handbok Blinken. Danny Allen Översättare: Stefan Asserhäll

Menys webbaserade kurser manual för kursdeltagare. Utbildningsplattform: Fronter

Skriva B gammalt nationellt prov

Bygg ditt eget dataspel på sommarlovet!

Tentamensdeltagare från Dataekonomutbildningen, Textilekonomutbildningen och Affärsinformatikutbildningen.

Göm ninjorna. Det här projektet kommer att bygga på din kunskap om CCS-kung fu.

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Modul 6: Integraler och tillämpningar

POST & TELESTYRELSEN Postens service-kassatjänst T-20963

Formativ bedömning - en möjlighet till professionellt lärande och en mer likvärdig utbildning?

Transkript:

Korpuslingvistik (SV2119) Föreläsning 1 Richard Johansson richard.johansson@svenska.gu.se 6 september 2013

vad är korpusar och korpuslingvistik? korpus: en samling av datoriserad text korpuslingvistik: att undersöka språkvetenskapliga frågor med hjälp av korpusar (SAOL sg. en korpus, pl. korpusar; engelska sg. corpus, pl. corpora)

schema kurshemsida: http://spraakbanken.gu.se/personal/richard/kl2013 7 föreläsningar klockan 10.15 varannan vecka föreläsningarna i L308 eller K235 datorlaboration i november (datum meddelas senare)

kurslitteratur kursbok: Wynne, M. (ed). Developing Linguistic Corpora: a Guide to Good Practice. Oxford, 2005. http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm artiklar länkas från kurshemsidan

uppgifter två kursuppgifter: sökningar i Språkbankens korpussamlingar (oktober) användning av syntaktiska korpusar (november) lös uppgifterna individuellt, skriv kort rapport instruktioner till uppgifterna länkas från hemsidan

projektuppgift välj ett korpusrelaterat ämne av eget forskningsintresse formulera en frågeställning gör en undersökning individuellt eller i par skriv en uppsats (december) presentera den inför kurskamraterna (december)

1. Översikt

vad är det här? korpusar är samlingar med autentiska texter, utvalda, datoriserade, och annoterade (lingvistiskt analyserade), med ett syfte i åtanke, korpuslingvistik: undersöka språkvetenskapliga frågor med hjälp av korpusar metoder verktyg

(stora) textsamlingar... text = skriftspråk, (transkriberat) talspråk... typiskt miljoner ord: SUC (Stockholm Umeå Corpus): 1 miljon ord [publicerat skriftspråk] Språkbankens moderna korpustexter >1 miljard ord, mest skriftspråk BNC (British National Corpus) och andra nationella korpusar 100 miljoner ord [skrift/talspråk]

... utvalda... korpussammanställning är som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldenierad population för att kunna ställa frågor och få svar som ger (statistiskt) signikant information om populationen

... och annoterade... metadata på olika nivåer tid författare (och information om författaren) kategori... strukturmärkning morfologisk analys och disambiguering / ordklass-taggning syntaxanalys (trädbanker) länkning (av parallellkorpusar) länkning (av modaliteter) språkfel dialogakter...

... med ett syfte i åtanke korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vitt och vagt korpusarna kan ofta vara användbara för andra syften också syften: språkvetenskapligt: empirisk lingvistisk forskning (belägg, frekvens) språkteknologiskt: utveckling och utvärdering av automatiska datorprogram som analyserar språk kulturvårdande: bevarande och tillgängliggörande av äldre texter, döda eller döende språk

så: varför korpuslingvistik? om inte den empiriskaste, så i alla fall mycket objektiv lingvistik enda sättet att undersöka frekvens (se N. Ellis, Frequency eects in lg processing, Studies in SLA 24 (2002): 143-188, + er i samma nummer)

men Google då? det nns ingen större korpus (åtminstone för vissa sorters texter) än webben,... men en grundprincip i all slags forskning är reproducerbarhet,... och Googlesökningar är inte reproducerbara

varför inte Google? Kilgarri (Googleology is bad science, 2007) resultaten inte konsekventa (webben förändras) träarna är antal dokument, inte antal förekomster Google är inte avsett för språkliga undersökningar, och sökmotorn gör hemliga och oförutsägbara saker med sökorden (t.ex. normalisering) vi vet inget om urvalet

varför Google? man kan söka efter belägg (bevis för förekomsten) på ord ordformer (fasta) fraser man kan få en informell uppfattning om den relativa brukligheten av alternativa sätt att uttrycka samma sak (jfr Lingvistbloggen och Language Log)

kort korpushistoria Index Thomisticus (19462005) http://www.corpusthomisticum.org Brown Corpus (1967) Press-65 (1970) Talbanken / MAMBA (197678) LOB, London-Lund (1978, 1980) HANSARD ( 1990) BNC, Penn Treebank (1995) SUC (1996) Web as Corpus ( 2003) (SweWAC 2010)

2. Typer av korpusar

typer av korpusar modalitet: skrivet, talat, tal, tecknat, multimodal språktyp, genre, etc. språk: ett, två, många; relation mellan språken (parallell, jämförbar) storlek typ av annotering: ingen, morfologisk, syntaktisk,...

några korpusar, exempel: typisk blandad SUC (allmänsvenskt skriftspråk): 500 texter om c:a 2000 ord 9 huvudgenrer, med undergenrer: K imaginative prose KK general ction KL science ction and mystery KN light reading KR humour Brown corpus (Francis & Ku era, 1964)

några korpusar, exempel: begränsad mängd Skriven nsk romani (Borin et al): c:a 110.000 ord en betydande del av den totala skrivna produktionen på nsk romani

några korpusar, exempel: parallella Europarl: http://www.statmt.org/europarl Europaparlamentsprotokoll 19962006 Protokollen översätts till alla medlemsspråk 20 språk, 1050 miljoner ord/språk Alla språk länkade meningsvis till engelska EN: Technical requirements for inland waterway vessels (vote) ET: Siseveelaevade tehnilised nõuded (hääletus) SV: Tekniska föreskrifter för fartyg i inlandssjöfart (omröstning) Föregångaren: Hansard (engelskafranska) Bibeln (eller delar av den) på 100 språk: http://homepages.inf.ed.ac.uk/s0787820/bible/

några korpusar, exempel: jämförbar Wikipedia (http://sv.wikipedia.org,... ) länkad artikelartikel (287 språk) texterna likartade men inte översatta innehåller också användbar halvstrukturerad information Sverige, ociellt Konungariket Sverige (info), är ett nordiskt land på Skandinaviska halvön i Nordeuropa. Sverige har landgräns i väst med Norge (svensk-norska gränsen) och i nordost med Finland, samt en fast förbindelse över havet med Danmark via Öresundsbron i sydväst. Med en area på 449 964 km 2 är Sverige det storleksmässigt femte största landet i Europa och har en befolkning på 9,5 miljoner människor. Sverige har en låg befolkningstäthet med 21 invånare per km 2 men med en betydligt högre täthet i södra halvan av landet.... La Svèsia (449 964 km 2 ; 9 082 995) la xe un Stado del nord de l'eoropa inte la Penisola Scandinava. La so cavedal la xe Stocolma che La gà 765 044 abitanti. Altre cità importante le xe Göteborg, Uppsala, Malmö e Lund. La conna co la Norveja a nord-ovest e co la Finlandia a est; la xe coligada co la Danimarca traverso del Ponte del Øresund. La xe bagnà dal Mar Baltego. La ga na densità demografega pitosto bassa e despensada iregolarmente. El so teritorio el xe sior de legne, fero e aqua. I Svedesi i gode de un bon livel de vita...

några korpusar, exempel: talat barnspråk CHILDES (http://childes.psy.cmu.edu) *NOR: did you wash your hands Jinny? *JIN: yeah. *NOR: you did already? *JIN: already. *NOR: you forgot the candy off from around your mouth huh? <n is wiping J's face> *JIN: yeah. *NOR: <laughs> okay <% N goes back to sit down>. *JIN: do I look dirty?

några korpusar, exempel: inlärarspråk ICLE (International Corpus of Learner English) ASU (Andraspråkets StrukturUtveckling) USE (Uppsala Student English corpus) SFI och SSM

korpusar i Språkbanken http://spraakbanken.gu.se/swe/resurser/corpus http://spraakbanken.gu.se/korp modern dagstidningstext modern romantext populärvetenskap sociala medier (bloggar, twitter) 1800-talslitteratur (Litteraturbanken) medeltida text (fornsvenska) färöisk textkorpus (dagstidningstext) parallella korpusar (skönlitteratur) inlärarkorpusar... och en hel rad andra

3. Urval av korpusar

korpusurval TOP-DOWN: syfte urval (vad? hur mycket?) BOTTOM-UP: varifrån? hur? undersökning av (eller undervisning om/i): allmänspråk stora balanserade korpusar genre/delspråk små (specialiserade) korpusar inlärarspråk inlärarkorpusar översättning/språkkontakt/språktypologi erspråkiga korpusar

korpusurval och -representativitet en korpus är ett urval urvalet är representativt om det som gäller för urvalet också gäller i allmänhet är Göteborgsposten representativ för svenska språket? För svensk tidningstext? omöjligt att objektivt avgöra om en korpus är representativ Clear (Corpus sampling, 1992) Biber (Representativeness in corpus design, 1993)

exempel, BNC:s skriftspråksdel http://www.natcorp.ox.ac.uk DOMAIN % TIME % Imaginative 21.91 1960-74 2.26 Arts 8.08 1975-93 89.23 Belief and thought 3.40 Unclassied 8.49 Commerce/nance 7.93 MEDIUM % Leisure 11.13 Book 58.58 Natural/pure science 4.18 Periodical 31.08 Applied science 8.21 Misc. published 4.38 Social science 14.80 Misc. unpublished 4.00 World aairs 18.39 To-be-spoken 1.52 Unclassied 1.93 Unclassied 0.40

exempel, BNC:s talspråksdel REGION % CONTEXT-GOVERNED % South 45.61 Educational 20.56 Midlands 23.33 Business 21.47 North 25.43 Institutional 21.86 Unclassied 5.61 Leisure 23.71 Unclassied 12.38 INTERACTION % Monologue 18.64 Dialogue 74.87 Unclassied 6.48

tillgänglighet hur mycket material kan vi komma åt? (t.ex. nsk romani, runsvenska) licenser och copyright... publicerat på nätet fritt tillgängligt! det nns en risk att ditt arbete blir oanvändbart! (t.ex. ESPC) Språkbankens lösning: korpusarna kan laddas ned gratis, men meningarna är omkastade.

4. Korpusbearbetning

att få tag i texten och göra den användbar vi vill ha äkta texter (korpuslingvistik är ju empirisk), men äkta texter är fulla av oväsentligheter som vi vill ta bort (men bara oväsentligheterna!), så korpusinsamling och -beredning innebär abstraktion hur mycket?

kodning av tecken datorn lagrar text som en följd av symboler (siror) symbolerna är specicerade i en x teckenuppsättning teckenuppsättningen är numrerad och positionerna kallas kodpunkter (codepoints) för länge sedan: 128 symboler (ASCII) därefter: 256 symboler (Latin-1,... ) numera: obegränsat antal symboler (Unicode) t.ex. texten lök motsvaras av Unicode-symbolerna med kodpunkterna 108, 246, 107.

vad är bokstäver egentligen? är ligaturen en bokstav? bokstavsbegreppet ännu mer komplicerat för en del icke-latinska skriftsystem arabiska Devanagari och dess släktingar Hangul Unicode-standarden denierar också regler för rendering (uppritning) av bokstavskombinationer

exempel: arabiska arabiska bokstäver renderas (ritas) olika beroende på position i ordet från höger till vänster! men det är ändå samma symboler, och i datorns minne nns inget höger/vänster kaf, teh, 'alef, beh

nns det bokstäver till mitt språk? http://www.unicode.org/charts de esta kända skriftsystem (levande och döda) är nu standardiserade i Unicode t.ex. äldre, yngre, och kortkvistrunor (http://www.unicode.org/charts/pdf/u16a0.pdf) dock varken dalrunor eller hälsingerunor ett antal halvstandardiserade system nns också

digitalisering...

från bild till text: OCR 1. Lund Halmstad. Färden från Lund gjordes genom Engelholm till Margretetorp. Uppkomne på höjden af Hallandsås nedsände vi afskedstagande blickar öfver en bördig sträckning af Skåne. Engeltoftas välbyggda sätesgård med dithörande utbrytningar och skimrande kyrkor i förening med täcka lundar pryda den vackra slätten....

när OCR ställer till det Google ngram viewer: http://books.google.com/ngrams http://languagelog.ldc.upenn.edu/nll/?p=2848

nätpublicerad text... boilerplate removal http://code.google.com/p/boilerpipe

5. Information om texten och dess egenskaper

metadata och annotering för att göra intressantare analyser behöver vi mer information än bara texten i sig

metadata: information om texten information om dokumentet i stort: språk tillkomst- eller publiceringstid författaren: modersmål och hemort inlärarnivå kön ålder genre originalets modalitet (skrivet? talat?) klassicering, t.ex. enligt SAB eller enligt en svårighetsskala information om delar av dokumentet: stil- och typsnittsinformation skadade / oläsliga partier språk i delar av texten rättning av stavfel

indelning av texten texten delas in i lingvistiskt mer intressanta delar meningar ord detta görs vanligen automatiskt eftersom det är för tråkigt att göra det för hand

indelning av texten: svåra fall punkter kan orsaka problem... an account with the U.S. Treasury to buy Savings Bonds online...... then I went back to the U.S. My dad and I moved... avstavade ord: ska vi ta bord bindestrecket? ordindelning i t.ex. kinesiska är inte enkelt att göra automatiskt exemplet lånat av Liang Huang

lingvistisk annotering vi kan tillföra lingvistisk information, t.ex. morfologisk eller syntaktisk analys manuellt för kvalitet, automatiskt för kvantitet mer om detta på föreläsning 3 och 5

länkning av ord i parallelltext

6. Sökning och statistik

konkordanser t.ex. Korp (föreläsning 2, uppgift 1), AntConc, Wordsmith lista över de sammanhang där ett ord förekommer pionjären: Hugues de St. Cher (d. 1263) och 500 munkar

syfte med konkordanser översikt av ett ords betydelser idiom vanliga samförekomster typisk användning, t.ex. för ordböcker

syntaktiska sökverktyg T.ex TIGERSearch (föreläsning 5, uppgift 2)

korpusstatistik frekvenser jämför bruklighet av olika ord eller uttryck utveckling över tid (neologismer, nya betydelser) ord, fraser, syntaktiska konstruktioner,... samförekomster vilka ord brukar förekomma nära ordet jazz? vilka verb tar substantivet tårta som objekt? hur brukar ordet case översättas från engelska till svenska?

nästa föreläsning (20 september) Språkbankens korpusar sökverktyget Korp tag gärna med egen laptop! OBS! hålls i K235!