Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09

Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem Informationssökning - Språkgranskning Frågesvarsystem - CALL Textsammandrag - Textklassficering Talteknologi - Maskinöversättning Grundläggande NLP-tekniker Utmaningar i analys av naturligt språk Inlämningsuppgift 1 short paper med posterpresentation

Denna gång Val av ämne för inlämningsuppgift 1 Akademiskt skrivande och referenser Korpuslingvistik Korpustyper Språkstatistik Korpusar och utvärdering av språkteknologiska program Frekvenser och språkteknologi (Automatisk språkgranskning)

VAL AV ÄMNE FÖR INLÄMNINGSUPPGIFT 1

Web search and ranking Inlämningsuppgift 1: ämnesval Google Language support tools Anna, Ellinor Lingsoft Recommender systems Tedy Netflix Dialogue systems Ramazan, Nai, Jonathan Apple s Siri Speech synthesis Ebba, Ingrid, Matilda AT&T Natural Voices Statistical machine translation Rule-based/hybrid machine translation Social network data mining Social media sentiment analysis Alexander, Oscar, Erik Google Translate Systran Facebook Plagiarism detection Emelie, Markus, Ahmed Urkund socialmention.com

AKADEMISKT SKRIVANDE OCH REFERENSER

Att skriva vetenskapligt Läs Mats Dahllöfs PM om akademiska uppsatsers uppbyggnad (http://stp.lingfil.uu.se/~matsd/pub/akupp.pdf) Lite overkill för denna uppgift att ta till sig allt därifrån, men ger en del goda tips om hur man skriver vetenskapligt

Objektivitet och saklighet Skriv objektivt och sakligt Skriv med dina egna ord det är inte okej att kopiera delar av källtexten, då detta räknas som plagiat! Google har tillgång till många parallella texter att träna sina maskinöversättningssystem på. Det tycker jag verkar bra. Google har tillgång till många parallella texter att träna sina maskinöversättningssystem på. Detta talar för att de har möjlighet att uppnå goda resultat i översättningen.

Citat Citat är ett stycke ordagrann återgivning av vad som står i en text, till skillnad från din artikel i övrigt, där du som sagt skriver med dina egna ord Citat måste tydligt märkas upp som citat, med citationstecken, indentering och angivande av källa Ange även vilken sida i källan som citatet är hämtat från Max 15 rader utan tillstånd från upphovsrättsinnehavare

Citat: exempel Persson (2004, 27) skriver: Kunskap om olika typer av partier och partisystem ger en generell förståelse av partiernas utveckling. För att kunna beskriva ett partisystems kännetecken krävs kunskap om antalet partier, om de partier som ingår i systemet och den omgivning som partiet befinner sig i.

Ära den som äras bör Gör tydlig skillnad mellan dina egna bidrag och andras äras den som äras bör Redovisa alltid källan till de fakta du lägger fram, dvs var du har hittat denna information Inom statistisk maskinöversättning används parallellkorpusar för att träna systemet på att översätta mellan olika språk. En viktig del i detta är länkning på menings- och ordnivå. Inom statistisk maskinöversättning används parallellkorpusar för att träna systemet på att översätta mellan olika språk. En viktig del i detta är länkning på menings- och ordnivå (författare, årtal).

Källhänvisningar Varje gång du nämner något som du har läst någonstans, måste du ange källan, även om du inte citerar dem bokstavligen Källa med en författare Bla bla bla (Nilsson 2010). Nilsson (2010) redogör för bla bla bla Källa med två eller tre författare Bla bla bla (Fossum, Skantz och Katzeff 1997). Fossum, Skantz och Katzeff (1997, 25-31) menar att bla bla bla... Källa med fyra eller fler författare Om det finns fyra eller flera författare till samma bok skriver du i den löpande texten bara det första namnet och et al. Bla bla bla (Johnson et al. 2001). Johnson et al. (2001) framför bla bla bla...

I slutet av artikeln listas alla referenser i bokstavsordning (sorterat på efternamn) Referenslista Asher, Nicholas. 1993. Reference to Abstract Objects in Discourse. Dordrecht: Kluwer. DOI: 10.1007/978-94-011-1715-9 Baker, Mona. 1993. Corpus Linguistics and Translation Studies: Implications and Applications. In Text and Technology: In Honour of John Sinclair, ed. by Mona Baker, Gill Francis, and Elene Tognini-Bonelli, 233 250. Amsterdam: John Benjamins. Baker, Mona. 1995. Corpora in Translation Studies: An Overview and Some Suggestions for Future Research. Target 7 (2): 223 243. DOI: 10.1075/target.7.2.03bak Becher, Viktor. 2010a. Abandoning the Notion of Translation-Inherent Explicitation: Against a Dogma of Translation Studies. Across Languages and Cultures 1 (1): 1 28. DOI: 10.1556/ Acr.11.2010.1.1 Becher, Viktor. 2010b. Towards a More Rigorous Treatment of the Explicitation Hypothesis in Translation Studies. Trans-Kom 1: 1 25. Becher, Viktor. 2011. When and Why Do Translators Add Connectives? Target 23 (1): 26 47.

Referenslista: böcker Bok med en författare Inkludera följande (om tillgängligt): författarens efternamn, förnamn. Utgivningsår. Titel. Upplaga (om ej 1:a uppl.). Förlagsort: förlag. Exempel: Bryman, Alan. 2008. Social research methods. 3. uppl. Oxford: Oxford University Press. Bok med två eller flera författare Fabozzi, Frank J., Modigliani, Franco och Jones, Frank J. 2010. Foundations of financial markets and institutions. 4. uppl. Boston: Prentice Hall. Bok med redaktör/er (antologi/samlingsverk) Kamrany, Nake M. och Day, Richard H. (red.). 1980. Economic issues of the eighties. Baltimore: Johns Hopkins University Press.

Referenslista: konferensartiklar Föredrag på konferenser och seminarier publiceras i samlingsverk som ofta kallas proceedings. Konferensens titel och tidpunkt samt konferensort ska tas med om de är kända. När du refererar till ett konferensbidrag refererar du till en del i en bok. Hall, C. Michael. 2007. North-south perspectives on tourism, regional development and peripheral areas. I Dieter K. Müller and Bruno Jansson (red.) Tourism in peripheries: perspectives from the north and south, 19-38. Perspectives on tourism in Nordic and other peripheral areas, 2004, Umeå. Wallingford: CABI.

Referenslista: webbsidor För internetkällor inkluderas i den mån det finns tillgängligt följande uppgifter: Författarens, organisationens eller myndighetens namn. Årtal då webbsidan/motsvarande uppdaterades. Dokumentets eller sidans titel. Webbplatsens titel eller ägare. Fullständig URL-adress (http:// ), (datum då du hämtade dokumentet/informationen från dess plats på nätet). Samuelsson, Johan. 2012. Fasta kriterier för bedömning täcker inte in allt. Skolverket.http://www.skolverket.se/skolutveckling/forskning/omraden/bedo mning-och-betyg/summativ_bedomning/rapporter/fasta-kriterier-forbedomning-tacker-inte-in-allt-1.187698 (Hämtad 2012-01-09).

Referenser i Harvardsystemet Läs mer om källhänvisningar och referenslistor enligt Harvardsystemet på följande url: http://www.ub.umu.se/skriva/skrivareferenser/referenser-harvard Kom ihåg att alla källhänvisningar som nämns i texten även måste finnas med i referenslistan, och vice versa!

KORPUSLINGVISTIK

Vad är en korpus? Term korpus korpusar/korpora Definition samling autentiska språkliga data (naturligt språk) som speglar hur språket används och därmed kan användas för språkforskning texter eller transkriptioner av talspråk hopsamlade (samplade) för att vara representativa för språket i fråga lagras elektroniskt

Vad är korpuslingvistik? Genom att använda en korpus kan man studera hur språket faktiskt används, t.ex: Används konjunktivformer i svenska språket idag? 205 konjunktivfomer i SUC-korpusen vore, vare och måtte överlägset vanligast Säger vi bättre än jag eller bättre än mig? bättre än jag: 40 träffar (PAROLE) bättre än mig: 1 träff (PAROLE) Hur skiljer sig språkbruket med avseende på kön, klass och etnicitet? När började ordet e-post användas i svenskan? Metoden att använda korpusdata för språkstudier kallas korpuslingvistik.

Att fundera på Hur används det relativt nytillkomna verbet googla? Vilken valensram har det?

Korpussökning i Korp: googla

Varför är korpusar viktiga inom Visar hur språket används språkteknologin? Kan lära datorn hur språk ska analyseras/genereras Används för uppträning och utvärdering av nästan alla typer av språkteknologiska system

Löpord (tokens) Några viktiga termer Sekvens av bokstäver (inkl. kolon eller bindestreck) som avgränsas av mellanslag eller skiljetecken eller radbrytning Oftast räknas även skiljetecken av olika slag som löpord I den här meningen finns åtta löpord. Typord (types) Textens unika ord, dvs. räkna identiska löpord endast en gång Malte och Nora gillar att läsa och busa. 9 löpord och 8 typord (Malte och Nora gillar att läsa busa.) Hapax Legomena Ord som förekommer endast en gång i en korpus

...ännu en viktig term Lemma Grundform/uppslagsform, dvs den oböjda formen av ett ord, som (vanligen) används för att representera ett ord i exempelvis en ordbok fot är lemma till fötter för två ord som har samma stavning men olika betydelser (homografi, homofoni) används normalt två olika lemman banan substantiv, olika uttal en frukt à obestämd form av lemmat banan spåret à bestämd form av lemmat bana kort olika ordklasser, olika uttal kort à adjektiv, i motsats till lång kort à substantiv, spelkort

och ytterligare en term n-gram Fasta sekvenser om flera på varandra följande ord (alternativt fonem/stavelser/bokstäver etc) i en given sekvens av text eller tal n=1: unigram n=2: bigram n=3: trigram Exempel: att vara eller inte vara 5 unigram: att, vara, eller, inte, vara 4 bigram: att vara, vara eller, eller inte, inte vara 3 trigram: att vara eller, vara eller inte, eller inte vara

Korpusen som statistiskt urval Insamling av texter görs efter samma principer som opinonsundersökningar: Man tar ett representativt och tillräckligt stort stickprov (urval/sampel) ur en väldefinierad population...för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen Hur gör vi ett representativt (balanserat) urval? Låt mängden text i olika textgenrer stå i proportion till hur mycket text som produceras (eller läses) i respektive genre Kontrollera ålder och kön på skribenterna för att uppnå balans med avseende på vem som skrivit texten

Korpusstorlek Exempel 60-tal Brown Corpus 1 milj. löpord 80-tal Birmingham collection of English Text 20 milj. löpord 90-tal British National Corpus (BNC) 100 milj. löpord 00-tal Bank of English (COBUILD) 525 milj. löpord Ju större korpus, desto mer pålitliga resultat Fler språkliga fenomen finns representerade Bättre generaliseringar från urvalet till språket i stort Svårigheter med stora korpusar Kostsamt och tidskrävande att manuellt annotera dem

KORPUSTYPER

Korpustyper Modalitet text och/eller (transkriberat) tal Genre generella ßà specialiserade korpusar balanserade korpusar Språk ett, två eller många Tidsperiod historiska ßà moderna korpusar synkroniska ßà diakroniska korpusar Uppmärkning (annotering) Manuellt eller automatiskt Typ av annotering (morfologisk, syntaktisk etc)

Generella korpusar En generell korpus är balanserad med avseende på genre och domän, och anses vara representativ för språket i fråga Innehåller text och ofta även tal Exempel: British National Corpus (BNC) American National Corpus (ANC) Stockholm-Umeå Corpus (SUC) Kan användas som så kallad referenskorpus i kontrastiva studier

Specialiserade korpusar En specialiserad korpus är mer avgränsad än en generell korpus domän- eller genrespecifik syftar till att representera en delmängd av språket Värdefullt om man vill studera hur språkbruket inom en viss domän skiljer sig från allmänspråket jämför ordfrekvenser o dyl mot en generell referenskorpus Exempel: Bloggmix Tillhandahålls av Språkbanken: https://spraakbanken.gu.se/

Andraspråkskorpusar Inlärningskorpusar (Learner Corpora) texter/tal av andraspråksinlärare exempel: Tisus-korpusen texter från Test i svenska för universitetsstudier (2005-2006) Utvecklingskorpusar texter/tal av barn som lär sig sitt första språk exempel: CHILDES Språkteknologisk användning anpassning av språkgranskningsprogram utveckling och förbättring av CALL-program

Flerspråkiga korpusar Parallellkorpusar samma text på två eller flera språk EuroParl http://www.statmt.org/europarl/ Protokoll från Europaparlamentet (21 officiella EU-språk) Canadian Hansard Corpus Kanadensiska parlamentsprotokoll (engelska franska) Jämförbara korpusar liknande texter på olika språk samma textgenre samma tidsperiod etc.

Skapa översättningslexikon Flerspråkiga korpusar och språkteknologi Träna statistiska maskinöversättningssystem Ett viktigt steg för båda dessa tillämpningar är länkning på menings- och ord/fras-nivå I take the middle seat, which I dislike Jag tar mittplatsen, vilket jag inte tycker om

Synkroniska korpusar Samling texter från samma tidsperiod Exempel: International Corpus of English (ICE) för synkroniska studier av engelska i världen 20 delkorpusar på 1 miljon ord vardera skriven och talad engelska från 1989 och framåt täcker länder/områden där modersmålet är engelska Få korpusar tillgängliga över regionala dialekter

Diakroniska korpusar Texter på samma språk men från olika tidsperioder Kan exempelvis användas för att: undersöka språkförändringar anpassa språkteknologiska verktyg till analys av historisk text Exempel: Helsinki Diachronic Corpus of English Texts 1,5 miljoner ord från 400 texter texter från 800-talet till 1800-talet Lite skojigare exempel: Star Trek-korpusen undersöker genusaspekter i Star Trek-episoder från 1966-1993

Korpusannotering Extra-textuell information författare år beskrivning av innehållet etc Strukturmärkning blankrader rubriker specialtecken etc Lingvistisk annotering

Lingvistisk annotering ordklasstaggning ord à ordklass (+ morfologi) lemmatisering ord à grundform parsning mening à syntaktisk struktur semantisk struktur mening à semantisk struktur semantiska relationer: agent, patient, mål etc semantiska kategorier: personnamn, tid, plats etc fonetisk transkription ord à fonetisk representation

Ordklasstaggning Traditionellt sett nio ordklasser i svenska substantiv, adjektiv, verb, pronomen, prepositioner, adverb, räkneord, konjunktioner, interjektioner I korpussammanhang ofta betydligt fler svenska Parole-korpusen: 153 olika taggar den traditionella ordklassen kombineras med uppgifter om numerus, genus, species etc

Parsning Annotering av någon form av grammatisk analys på högre nivå än enskilda ord frasstruktur (S, NP, VP etc) dependensrelationer (subjekt, objekt, averbial etc)

Trädbanker (Treebanks) (manuellt) lingvistiskt annoterad korpus som innehåller någon form av grammatisk analys på högre nivå än ordklasstaggning Myntat av Geoffrey Leech på 80-talet syntaktisk struktur representeras ofta i trädformat

Mer om trädbanker Tidiga trädbanker skapades redan på 1970-talet Exempel: Talbanken av Ulf Teleman (Lunds universitet, 1974) ca 300 000 löpord skriven och talad svenska annoterad med frasstrukturer och syntaktiska funktioner Kanske mest kända: Penn Treebank (engelska) Språkteknologisk användning Träna upp parsrar för automatisk syntaktisk analys Grammatikkontrollprogram Grammatiskt medveten maskinöversättning

Material till trädbanker Trädbanker har ofta vuxit fram ur redan ordklasstaggade korpusar Består ofta av en delmängd av den ordklasstaggade korpusen (stort jobb att manuellt annotera syntaktiskt) Exempel: Swedish Treebank SUC-korpusen skrivna delen av Talbanken

Swedish Treebank illustrerat WC Löpord Lemma POS Morfologisk annotering Dep Rel 1 Han han PN UTR SIN DEF SUB 2 SS 2 hänvisade hänvisa VB PRT AKT 0 ROOT 3 utan utan PP _ 2 AA 4 att att IE _ 3 PA 5 blinka blinka VB INF AKT 4 IF 6 till till PP _ 5 OA 7 Gamla gammal JJ POS UTR/NEU SIN DEF NOM 8 HD 8 testamentet testamente NN NEU SIN DEF NOM 6 PA 9.. MAD _ 2 IP SS = subjekt IF = fras i infinitiv HD = huvud AA = adverbial OA = objektsadverbial IP = interpunktion PA = prepositionskomplement

Annotering av talspråkskorpusar Vad ska transkriberas? Hur mycket paralingvistisk information ska tas med i beskrivningen av ett samtal? pauser? skratt? hummanden? harklingar? hostningar? bakgrundsljud? etc

TVÅ EXEMPELKORPUSAR

British National Corpus (BNC) http://www.natcorp.ox.ac.uk/ Modern brittisk engelska Över 100 miljoner ord Skrivet och talat språk Balanserad tidningstext, tidskrift för olika åldrar, intressen, skönlitteratur, populärvetenskap, brev, uppsatser, dialoger och monologer med ortografisk transkription annoterad med ordklasstaggar engelsk referenskorpus

BNC illustrerat <p> <s n=011> <w AT0>The <w AJ0>medical <w NN2>aspects <w VM0>can <w VBI>be <w NN1>cancer <c PUN>, <w NN1>pneumonia <c PUN>, <w AJ0>sudden <w NN1>blindness <c PUN>, <w NN1>dementia <c PUN>, <w AJ0>dramatic <w NN1>weight loss <w CJC>or <w DT0>any <w NN1>combination <w PRF>of <w DT0>these <c PUN>. </p> <p> <s n=012> <w AV0>Often <w AJ0>infected <w NN0>people <w VBB>are <w VVN>rejected <w PRP>by <w NN0>family <w CJC>and <w NN2>friends<c PUN>, <w VVG>leaving <w PNP>them <w TO0>to <w VVI>face <w DT0>this <w AJ0>chronic <w NN1>condition <w AJ0-AV0>alone <c PUN>. </p>

Stockholm-Umeå Corpus (SUC) Allmänsvenskt skriftspråk från 1990-talet 1 miljon löpord Balanserad 500 texter med cirka 2 000 löpord per text 9 huvudgenrer, med subkategorier, ex: K (skönlitteratur) KK allmän skönlitteratur KN triviallitteratur KL deckare och science fiction Annoterad med: ordklass (part-of-speech) lemma namnuttryck (named entities) KR humor svensk referenskorpus

SUC illustrerat <HEAD> <s id=aa01c-001> <w lem= sovjetisk msd= AQPNSNIS n=1952>sovjetiskt</w> <w lem= pansar msd= NCNSN@IS n=1953>pansar</w> <w lem= i msd= SPS n=1954>i</w> <NAME TYPE=PLACE> <w lem= Vilnius msd= NP00N@0S n=1955>vilnius</w> </NAME> </s> </HEAD> <BYLINE> <s id=aa01c-002> <w lem= av msd= SPS n=1956>av</w> <NAME TYPE=PERSON> <w lem= Michael msd= NP00N@0S n=1957>michael</w> <w lem= Winiarski msd= NP00N@0S n=1958>winiarski</w> </NAME> </s> </BYLINE>

SPRÅKSTATISTIK

Korpusstatistik Vilka ord som förekommer i en text säger ganska mycket om vad texten handlar om, värderingar och attityder bakom texten, samt hur språket används. Vanliga statistiska sätt att undersöka en korpus är att titta på: ordfrekvenser nyckelord konkordanser kollokationer

Frekvensordlistor En frekvenslista är en sorterad lista över antal förekomster av en enhet, t.ex. löpord, typord eller lemman i en korpus. De 10 vanligaste löporden i SUC-korpusen 31761 och 25691 i 23959 att 19261 som 17329 en 15041 av 14656 på 14039 det 13973 är 11788 med

Vad innebär ordfrekvenser? Kvantitativ ansats som visar antal förekomster av en enhet Listan kan ordnas efter frekvens, alfabetiskt, eller efter förekomst i korpusen Man kan räkna frekvenser på olika sätt: löpord: springa, sprang, sprungit, hus, huset, husen lemman: springa, hus alla ord, innehållsord, specifika ordklasser, ordformer av ett visst lemma etc.

Råa och relativa frekvenser Att jämföra frekvenslistor i två (specialiserade) korpusar kan ge information om skillnader i hur olika lexikala enheter används mellan dessa. råa frekvenser Det faktiska antal gånger ett ord förekommer i en viss korpus. Används när man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus. relativa frekvenser Den procentandel ordets frekvens utgör av alla ord i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar.

Råfrekvenser: exempel AE BA KL KR 74 år 38 parti 63 gång 75 man 48 match 37 år 61 hand 74 far 30 tränare 26 fråga 46 väg 70 häst 29 minut 25 socialdemokrat 45 fråga 58 år 27 dag 25 land 45 bil 57 tid 24 seger 24 riksdag 40 fall 50 dag 24 mål 24 regering 38 statsråd 48 gång 23 spel 23 dag 37 huvud 45 väg 23 lag 22 väg 37 dörr 41 hand 21 tävling 20 procent 35 rum 39 öga 21 plats 19 stat 32 år 39 sak 20 tid 19 del 32 polis 36 del 20 gång 18 politiker 31 tid 35 mor Sport Ledare Deckare Trivia

Exemplet Texter från SUC-korpusen Sport Deckare Ledare Trivia Frekvenslistor baserade på endast substantiv Sökning på lemman (grundformer)

Relativa frekvenser Ibland vill man jämföra ordfrekvenser mellan korpusar av olika storlek Relativa frekvenser är den procentandel ett ord utgör av det totala antalet ord i korpusen

Relativa frekvenser: exempel Pronomenet vi förekommer: 2,142 i en korpus innehållande totalt 148,624 löpord och 2,666 i en annan korpus innehållande totalt 483,913 löpord Eftersom de två delkorpusarna är olika stora så säger inte de råa frekvenserna mycket, så vi måste normalisera Dela frekvensen för det löpord vi är intresserade av med det totala antalet ord i korpusen, och multiplicera med exempelvis tusen, för att få fram förekomsten per tusen ord 2142/148624*1000 = 14,41 (ca 14 förekomster per tusen ord) 2666/483913*1000 = 5,5 (ca 6 förekomster per tusen ord) vi är alltså mer än dubbelt så vanligt i den första korpusen

Nyckelord Ord som är mer frekvent förekommande i en text än vad vi skulle förvänta oss genom slumpen återspeglar vad texten handlar om inte nödvändigtvis de mest frekventa orden i en text Tas fram genom att jämföra de relativa frekvenserna i en text med de relativa frekvenserna i en generell referenskorpus Språkteknologiska tillämpningar informationssökning (exvis Google) textklassificering

Sökord i kontext Konkordanser (concordances) ej att förväxla med tidigare definition av nyckelord! KWIC KeyWord In Context Alfabetisk lista över ett sökord med kontext runtom Används för att undersöka vilka ord som förekommer kring ett givet ord

Konkordanser i Korp: googla

Konkordanser: användning Kan användas för att undersöka skillnader i betydelser för ett ord och hur ordet används Kan säga något om ett ords semantiska preferens Exempel: Ger verbet orsaka mest positiva eller negativa associationer?

Konkordanser för verbet orsaka

Kollokationer (collocations) Samförekomst Två eller flera ord som förekommer tillsammans oftare än vad som förväntas av slumpen NE: sammanhang som ett ord kan eller brukar ingå i Specifika kombinationer av ord (inte hela kontexten) Typer: sammanhängande: röd tråd, på grund av diskontinuerliga: för... skull, ju... desto varierande: komma () ihåg, sitta () still, köra () bil

Kollokationer och förväntan Kollokationer innebär att vi förväntar oss att se vissa ord tillsammans Vilka ord kan förväntas här? buller och?? väcka?? blod Låter fel om man byter ett visst ord mot en synonym när hon var 45 bildade/skapade/byggde/gjorde hon ny familj och levde sedan i frid och lugn/glädje/ro/fröjd Låter fel om man byter plats på ord bång och buller

Konkordanser och kollokationer Konkordanser En lista med ord där träffarna är centrerade och omgivna av sin kontext. Behöver gås igenom manuellt för att hitta mönster i kontexten. Kollokationer En lista med ord som förekommer ofta tillsammans. Kan ge information om intressanta mönster som man kan undersöka vidare genom konkordanser.

Sammanfattning: termer Frekvensordlista Nyckelord Sorterad lista som visar antal förekomster av en enhet, t.ex. löpord eller lemman i en korpus. Innehållsord som förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen och som därmed kan tänkas återspegla vad texten handlar om. Konkordanser Kollokationer Lista över ord där träffarna är centrerade och omgivna av sin kontext. Kallas också KWIC (KeyWord-In-Context). Samförekomst, dvs ord som förekommer tillsammans oftare än förväntat av slumpen, t.ex. idiom och fasta fraser.

KORPUSAR OCH UTVÄRDERING AV SPRÅKTEKNOLOGISKA PROGRAM

Korpusar och utvärdering av språkteknologiska program Vanligaste sättet att utvärdera språkteknologisk programvara är jämföra de resultat man får mot ett facit, en så kallad guldstandard Exempelvis om man har utvecklat en ordklasstaggare, så jämför man de taggar som taggaren spottar ur sig mot manuellt annoterade taggar i en korpus Vanligaste formen av utvärdering är i termer av precision och täckning

Precision och täckning Precision Andelen utpekade exempel som är verkliga exempel Täckning (recall) Andelen verkliga exempel som pekas ut

Precision gulstandard ja guldstandard nej datorprogram ja sanna positiva falska positiva datorprogram nej falska negativa sanna negativa Precision = sanna positiva sanna positiva + falska positiva

Täckning gulstandard ja guldstandard nej datorprogram ja sanna positiva falska positiva datorprogram nej falska negativa sanna negativa Täckning = sanna positiva sanna positiva + falska negativa

Precision och täckning: korstabell gulstandard ja guldstandard nej datorprogram ja sanna positiva falska positiva datorprogram nej falska negativa sanna negativa Precision = sanna positiva sanna positiva + falska positiva Täckning = sanna positiva sanna positiva + falska negativa

F-score Ett sätt att väga samman precision och täckning 2 * (täckning * precision) täckning + precision

FREKVENSER OCH SPRÅKTEKNOLOGI

Frekvenser och språkteknologi Exempel på frekvensberäkningar i en text/korpus och språkteknologiska tillämpningar som kan dra nytta av dessa: bokstavsfrekvenser kryptoknäckning ordfrekvenser stavningskontroll, informationssökning n-gram av bokstäver OCR, stavningskontroll n-gram av ord taligenkänning ordlängd och meningslängd läsbarhetsmätningar (LIX) ordklasstaggfrekvenser, n-gram av ordklasstaggar ordklasstaggning, grammatikkontroll

Användbara Unix-kommandon (1) I Unix-systemet finns många inbyggda kommandon som är användbara för språkstatistiska beräkningar, ex: grep/egrep söker i en text efter rader som innehåller en viss sträng sort sorterar raderna i en fil (alfabetiskt eller numeriskt) uniq slår ihop identiska rader i en text wc räknar antalet rader, ord och tecken i en text

Användbara Unix-kommandon (2) tr bokstavsvis utbyte, t.ex. A byts ut mot a cat sammanslagning av två eller flera filer sekventiellt paste sammanslagning av två eller flera filer radvis head plockar ut början av en fil tail plockar ut slutet av en fil Till samtliga kommandon finns ett antal flaggor som kan anges för att specificera ytterligare hur kommandot ska bete sig. I ett terminalfönster, skriv man följt av det kommando du är intresserad av, för att få mer information om hur kommandot används.

Övning 1. Anta att ni har en vanlig text, utifrån vilken ni vill skapa en ordlista på automatisk väg. Vilka delsteg kan tänkas ingå i den här processen? Försök att skriva ett recept på vanlig svenska för hur datorn kan gå till väga för att lösa uppgiften. Ni måste alltså bryta ner problemet i mindre bitar. Använd era egna ord. Varje steg i receptet ska börja med ett verb (t.ex. Ta fram..., Ta bort..., Sortera..., ). 2. Ändra receptet så att det blir en frekvensordlista istället. 3. Fundera kring hur ditt recept kan skrivas om till Unixkommandon.

Nästa gång 14 november laboration 1: ord och n-gram 16 november Föreläsning 3: digital humaniora