Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Storlek: px
Starta visningen från sidan:

Download "Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik"

Transkript

1 Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson

2 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem Informationssökning - Språkgranskning Frågesvarsystem - CALL Textsammandrag - Textklassficering Talteknologi - Maskinöversättning Grundläggande NLP-tekniker Utmaningar i analys av naturligt språk Inlämningsuppgift 1 short paper med posterpresentation

3 Denna gång Val av ämne för inlämningsuppgift 1 Akademiskt skrivande och referenser Korpuslingvistik Korpustyper Språkstatistik Korpusar och utvärdering av språkteknologiska program Frekvenser och språkteknologi (Automatisk språkgranskning)

4 VAL AV ÄMNE FÖR INLÄMNINGSUPPGIFT 1

5 Web search and ranking Inlämningsuppgift 1: ämnesval Google Language support tools Anna, Ellinor Lingsoft Recommender systems Tedy Netflix Dialogue systems Ramazan, Nai, Jonathan Apple s Siri Speech synthesis Ebba, Ingrid, Matilda AT&T Natural Voices Statistical machine translation Rule-based/hybrid machine translation Social network data mining Social media sentiment analysis Alexander, Oscar, Erik Google Translate Systran Facebook Plagiarism detection Emelie, Markus, Ahmed Urkund socialmention.com

6 AKADEMISKT SKRIVANDE OCH REFERENSER

7 Att skriva vetenskapligt Läs Mats Dahllöfs PM om akademiska uppsatsers uppbyggnad ( Lite overkill för denna uppgift att ta till sig allt därifrån, men ger en del goda tips om hur man skriver vetenskapligt

8 Objektivitet och saklighet Skriv objektivt och sakligt Skriv med dina egna ord det är inte okej att kopiera delar av källtexten, då detta räknas som plagiat! Google har tillgång till många parallella texter att träna sina maskinöversättningssystem på. Det tycker jag verkar bra. Google har tillgång till många parallella texter att träna sina maskinöversättningssystem på. Detta talar för att de har möjlighet att uppnå goda resultat i översättningen.

9 Citat Citat är ett stycke ordagrann återgivning av vad som står i en text, till skillnad från din artikel i övrigt, där du som sagt skriver med dina egna ord Citat måste tydligt märkas upp som citat, med citationstecken, indentering och angivande av källa Ange även vilken sida i källan som citatet är hämtat från Max 15 rader utan tillstånd från upphovsrättsinnehavare

10 Citat: exempel Persson (2004, 27) skriver: Kunskap om olika typer av partier och partisystem ger en generell förståelse av partiernas utveckling. För att kunna beskriva ett partisystems kännetecken krävs kunskap om antalet partier, om de partier som ingår i systemet och den omgivning som partiet befinner sig i.

11 Ära den som äras bör Gör tydlig skillnad mellan dina egna bidrag och andras äras den som äras bör Redovisa alltid källan till de fakta du lägger fram, dvs var du har hittat denna information Inom statistisk maskinöversättning används parallellkorpusar för att träna systemet på att översätta mellan olika språk. En viktig del i detta är länkning på menings- och ordnivå. Inom statistisk maskinöversättning används parallellkorpusar för att träna systemet på att översätta mellan olika språk. En viktig del i detta är länkning på menings- och ordnivå (författare, årtal).

12 Källhänvisningar Varje gång du nämner något som du har läst någonstans, måste du ange källan, även om du inte citerar dem bokstavligen Källa med en författare Bla bla bla (Nilsson 2010). Nilsson (2010) redogör för bla bla bla Källa med två eller tre författare Bla bla bla (Fossum, Skantz och Katzeff 1997). Fossum, Skantz och Katzeff (1997, 25-31) menar att bla bla bla... Källa med fyra eller fler författare Om det finns fyra eller flera författare till samma bok skriver du i den löpande texten bara det första namnet och et al. Bla bla bla (Johnson et al. 2001). Johnson et al. (2001) framför bla bla bla...

13 I slutet av artikeln listas alla referenser i bokstavsordning (sorterat på efternamn) Referenslista Asher, Nicholas Reference to Abstract Objects in Discourse. Dordrecht: Kluwer. DOI: / Baker, Mona Corpus Linguistics and Translation Studies: Implications and Applications. In Text and Technology: In Honour of John Sinclair, ed. by Mona Baker, Gill Francis, and Elene Tognini-Bonelli, Amsterdam: John Benjamins. Baker, Mona Corpora in Translation Studies: An Overview and Some Suggestions for Future Research. Target 7 (2): DOI: /target bak Becher, Viktor. 2010a. Abandoning the Notion of Translation-Inherent Explicitation: Against a Dogma of Translation Studies. Across Languages and Cultures 1 (1): DOI: / Acr Becher, Viktor. 2010b. Towards a More Rigorous Treatment of the Explicitation Hypothesis in Translation Studies. Trans-Kom 1: Becher, Viktor When and Why Do Translators Add Connectives? Target 23 (1):

14 Referenslista: böcker Bok med en författare Inkludera följande (om tillgängligt): författarens efternamn, förnamn. Utgivningsår. Titel. Upplaga (om ej 1:a uppl.). Förlagsort: förlag. Exempel: Bryman, Alan Social research methods. 3. uppl. Oxford: Oxford University Press. Bok med två eller flera författare Fabozzi, Frank J., Modigliani, Franco och Jones, Frank J Foundations of financial markets and institutions. 4. uppl. Boston: Prentice Hall. Bok med redaktör/er (antologi/samlingsverk) Kamrany, Nake M. och Day, Richard H. (red.) Economic issues of the eighties. Baltimore: Johns Hopkins University Press.

15 Referenslista: konferensartiklar Föredrag på konferenser och seminarier publiceras i samlingsverk som ofta kallas proceedings. Konferensens titel och tidpunkt samt konferensort ska tas med om de är kända. När du refererar till ett konferensbidrag refererar du till en del i en bok. Hall, C. Michael North-south perspectives on tourism, regional development and peripheral areas. I Dieter K. Müller and Bruno Jansson (red.) Tourism in peripheries: perspectives from the north and south, Perspectives on tourism in Nordic and other peripheral areas, 2004, Umeå. Wallingford: CABI.

16 Referenslista: webbsidor För internetkällor inkluderas i den mån det finns tillgängligt följande uppgifter: Författarens, organisationens eller myndighetens namn. Årtal då webbsidan/motsvarande uppdaterades. Dokumentets eller sidans titel. Webbplatsens titel eller ägare. Fullständig URL-adress ( ), (datum då du hämtade dokumentet/informationen från dess plats på nätet). Samuelsson, Johan Fasta kriterier för bedömning täcker inte in allt. Skolverket. mning-och-betyg/summativ_bedomning/rapporter/fasta-kriterier-forbedomning-tacker-inte-in-allt (Hämtad ).

17 Referenser i Harvardsystemet Läs mer om källhänvisningar och referenslistor enligt Harvardsystemet på följande url: Kom ihåg att alla källhänvisningar som nämns i texten även måste finnas med i referenslistan, och vice versa!

18 KORPUSLINGVISTIK

19 Vad är en korpus? Term korpus korpusar/korpora Definition samling autentiska språkliga data (naturligt språk) som speglar hur språket används och därmed kan användas för språkforskning texter eller transkriptioner av talspråk hopsamlade (samplade) för att vara representativa för språket i fråga lagras elektroniskt

20 Vad är korpuslingvistik? Genom att använda en korpus kan man studera hur språket faktiskt används, t.ex: Används konjunktivformer i svenska språket idag? 205 konjunktivfomer i SUC-korpusen vore, vare och måtte överlägset vanligast Säger vi bättre än jag eller bättre än mig? bättre än jag: 40 träffar (PAROLE) bättre än mig: 1 träff (PAROLE) Hur skiljer sig språkbruket med avseende på kön, klass och etnicitet? När började ordet e-post användas i svenskan? Metoden att använda korpusdata för språkstudier kallas korpuslingvistik.

21 Att fundera på Hur används det relativt nytillkomna verbet googla? Vilken valensram har det?

22 Korpussökning i Korp: googla

23 Varför är korpusar viktiga inom Visar hur språket används språkteknologin? Kan lära datorn hur språk ska analyseras/genereras Används för uppträning och utvärdering av nästan alla typer av språkteknologiska system

24 Löpord (tokens) Några viktiga termer Sekvens av bokstäver (inkl. kolon eller bindestreck) som avgränsas av mellanslag eller skiljetecken eller radbrytning Oftast räknas även skiljetecken av olika slag som löpord I den här meningen finns åtta löpord. Typord (types) Textens unika ord, dvs. räkna identiska löpord endast en gång Malte och Nora gillar att läsa och busa. 9 löpord och 8 typord (Malte och Nora gillar att läsa busa.) Hapax Legomena Ord som förekommer endast en gång i en korpus

25 ...ännu en viktig term Lemma Grundform/uppslagsform, dvs den oböjda formen av ett ord, som (vanligen) används för att representera ett ord i exempelvis en ordbok fot är lemma till fötter för två ord som har samma stavning men olika betydelser (homografi, homofoni) används normalt två olika lemman banan substantiv, olika uttal en frukt à obestämd form av lemmat banan spåret à bestämd form av lemmat bana kort olika ordklasser, olika uttal kort à adjektiv, i motsats till lång kort à substantiv, spelkort

26 och ytterligare en term n-gram Fasta sekvenser om flera på varandra följande ord (alternativt fonem/stavelser/bokstäver etc) i en given sekvens av text eller tal n=1: unigram n=2: bigram n=3: trigram Exempel: att vara eller inte vara 5 unigram: att, vara, eller, inte, vara 4 bigram: att vara, vara eller, eller inte, inte vara 3 trigram: att vara eller, vara eller inte, eller inte vara

27 Korpusen som statistiskt urval Insamling av texter görs efter samma principer som opinonsundersökningar: Man tar ett representativt och tillräckligt stort stickprov (urval/sampel) ur en väldefinierad population...för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen Hur gör vi ett representativt (balanserat) urval? Låt mängden text i olika textgenrer stå i proportion till hur mycket text som produceras (eller läses) i respektive genre Kontrollera ålder och kön på skribenterna för att uppnå balans med avseende på vem som skrivit texten

28 Korpusstorlek Exempel 60-tal Brown Corpus 1 milj. löpord 80-tal Birmingham collection of English Text 20 milj. löpord 90-tal British National Corpus (BNC) 100 milj. löpord 00-tal Bank of English (COBUILD) 525 milj. löpord Ju större korpus, desto mer pålitliga resultat Fler språkliga fenomen finns representerade Bättre generaliseringar från urvalet till språket i stort Svårigheter med stora korpusar Kostsamt och tidskrävande att manuellt annotera dem

29 KORPUSTYPER

30 Korpustyper Modalitet text och/eller (transkriberat) tal Genre generella ßà specialiserade korpusar balanserade korpusar Språk ett, två eller många Tidsperiod historiska ßà moderna korpusar synkroniska ßà diakroniska korpusar Uppmärkning (annotering) Manuellt eller automatiskt Typ av annotering (morfologisk, syntaktisk etc)

31 Generella korpusar En generell korpus är balanserad med avseende på genre och domän, och anses vara representativ för språket i fråga Innehåller text och ofta även tal Exempel: British National Corpus (BNC) American National Corpus (ANC) Stockholm-Umeå Corpus (SUC) Kan användas som så kallad referenskorpus i kontrastiva studier

32 Specialiserade korpusar En specialiserad korpus är mer avgränsad än en generell korpus domän- eller genrespecifik syftar till att representera en delmängd av språket Värdefullt om man vill studera hur språkbruket inom en viss domän skiljer sig från allmänspråket jämför ordfrekvenser o dyl mot en generell referenskorpus Exempel: Bloggmix Tillhandahålls av Språkbanken:

33 Andraspråkskorpusar Inlärningskorpusar (Learner Corpora) texter/tal av andraspråksinlärare exempel: Tisus-korpusen texter från Test i svenska för universitetsstudier ( ) Utvecklingskorpusar texter/tal av barn som lär sig sitt första språk exempel: CHILDES Språkteknologisk användning anpassning av språkgranskningsprogram utveckling och förbättring av CALL-program

34 Flerspråkiga korpusar Parallellkorpusar samma text på två eller flera språk EuroParl Protokoll från Europaparlamentet (21 officiella EU-språk) Canadian Hansard Corpus Kanadensiska parlamentsprotokoll (engelska franska) Jämförbara korpusar liknande texter på olika språk samma textgenre samma tidsperiod etc.

35 Skapa översättningslexikon Flerspråkiga korpusar och språkteknologi Träna statistiska maskinöversättningssystem Ett viktigt steg för båda dessa tillämpningar är länkning på menings- och ord/fras-nivå I take the middle seat, which I dislike Jag tar mittplatsen, vilket jag inte tycker om

36 Synkroniska korpusar Samling texter från samma tidsperiod Exempel: International Corpus of English (ICE) för synkroniska studier av engelska i världen 20 delkorpusar på 1 miljon ord vardera skriven och talad engelska från 1989 och framåt täcker länder/områden där modersmålet är engelska Få korpusar tillgängliga över regionala dialekter

37 Diakroniska korpusar Texter på samma språk men från olika tidsperioder Kan exempelvis användas för att: undersöka språkförändringar anpassa språkteknologiska verktyg till analys av historisk text Exempel: Helsinki Diachronic Corpus of English Texts 1,5 miljoner ord från 400 texter texter från 800-talet till 1800-talet Lite skojigare exempel: Star Trek-korpusen undersöker genusaspekter i Star Trek-episoder från

38 Korpusannotering Extra-textuell information författare år beskrivning av innehållet etc Strukturmärkning blankrader rubriker specialtecken etc Lingvistisk annotering

39 Lingvistisk annotering ordklasstaggning ord à ordklass (+ morfologi) lemmatisering ord à grundform parsning mening à syntaktisk struktur semantisk struktur mening à semantisk struktur semantiska relationer: agent, patient, mål etc semantiska kategorier: personnamn, tid, plats etc fonetisk transkription ord à fonetisk representation

40 Ordklasstaggning Traditionellt sett nio ordklasser i svenska substantiv, adjektiv, verb, pronomen, prepositioner, adverb, räkneord, konjunktioner, interjektioner I korpussammanhang ofta betydligt fler svenska Parole-korpusen: 153 olika taggar den traditionella ordklassen kombineras med uppgifter om numerus, genus, species etc

41 Parsning Annotering av någon form av grammatisk analys på högre nivå än enskilda ord frasstruktur (S, NP, VP etc) dependensrelationer (subjekt, objekt, averbial etc)

42 Trädbanker (Treebanks) (manuellt) lingvistiskt annoterad korpus som innehåller någon form av grammatisk analys på högre nivå än ordklasstaggning Myntat av Geoffrey Leech på 80-talet syntaktisk struktur representeras ofta i trädformat

43 Mer om trädbanker Tidiga trädbanker skapades redan på 1970-talet Exempel: Talbanken av Ulf Teleman (Lunds universitet, 1974) ca löpord skriven och talad svenska annoterad med frasstrukturer och syntaktiska funktioner Kanske mest kända: Penn Treebank (engelska) Språkteknologisk användning Träna upp parsrar för automatisk syntaktisk analys Grammatikkontrollprogram Grammatiskt medveten maskinöversättning

44 Material till trädbanker Trädbanker har ofta vuxit fram ur redan ordklasstaggade korpusar Består ofta av en delmängd av den ordklasstaggade korpusen (stort jobb att manuellt annotera syntaktiskt) Exempel: Swedish Treebank SUC-korpusen skrivna delen av Talbanken

45 Swedish Treebank illustrerat WC Löpord Lemma POS Morfologisk annotering Dep Rel 1 Han han PN UTR SIN DEF SUB 2 SS 2 hänvisade hänvisa VB PRT AKT 0 ROOT 3 utan utan PP _ 2 AA 4 att att IE _ 3 PA 5 blinka blinka VB INF AKT 4 IF 6 till till PP _ 5 OA 7 Gamla gammal JJ POS UTR/NEU SIN DEF NOM 8 HD 8 testamentet testamente NN NEU SIN DEF NOM 6 PA 9.. MAD _ 2 IP SS = subjekt IF = fras i infinitiv HD = huvud AA = adverbial OA = objektsadverbial IP = interpunktion PA = prepositionskomplement

46 Annotering av talspråkskorpusar Vad ska transkriberas? Hur mycket paralingvistisk information ska tas med i beskrivningen av ett samtal? pauser? skratt? hummanden? harklingar? hostningar? bakgrundsljud? etc

47 TVÅ EXEMPELKORPUSAR

48 British National Corpus (BNC) Modern brittisk engelska Över 100 miljoner ord Skrivet och talat språk Balanserad tidningstext, tidskrift för olika åldrar, intressen, skönlitteratur, populärvetenskap, brev, uppsatser, dialoger och monologer med ortografisk transkription annoterad med ordklasstaggar engelsk referenskorpus

49 BNC illustrerat <p> <s n=011> <w AT0>The <w AJ0>medical <w NN2>aspects <w VM0>can <w VBI>be <w NN1>cancer <c PUN>, <w NN1>pneumonia <c PUN>, <w AJ0>sudden <w NN1>blindness <c PUN>, <w NN1>dementia <c PUN>, <w AJ0>dramatic <w NN1>weight loss <w CJC>or <w DT0>any <w NN1>combination <w PRF>of <w DT0>these <c PUN>. </p> <p> <s n=012> <w AV0>Often <w AJ0>infected <w NN0>people <w VBB>are <w VVN>rejected <w PRP>by <w NN0>family <w CJC>and <w NN2>friends<c PUN>, <w VVG>leaving <w PNP>them <w TO0>to <w VVI>face <w DT0>this <w AJ0>chronic <w NN1>condition <w AJ0-AV0>alone <c PUN>. </p>

50 Stockholm-Umeå Corpus (SUC) Allmänsvenskt skriftspråk från 1990-talet 1 miljon löpord Balanserad 500 texter med cirka löpord per text 9 huvudgenrer, med subkategorier, ex: K (skönlitteratur) KK allmän skönlitteratur KN triviallitteratur KL deckare och science fiction Annoterad med: ordklass (part-of-speech) lemma namnuttryck (named entities) KR humor svensk referenskorpus

51 SUC illustrerat <HEAD> <s id=aa01c-001> <w lem= sovjetisk msd= AQPNSNIS n=1952>sovjetiskt</w> <w lem= pansar msd= n=1953>pansar</w> <w lem= i msd= SPS n=1954>i</w> <NAME TYPE=PLACE> <w lem= Vilnius msd= NP00N@0S n=1955>vilnius</w> </NAME> </s> </HEAD> <BYLINE> <s id=aa01c-002> <w lem= av msd= SPS n=1956>av</w> <NAME TYPE=PERSON> <w lem= Michael msd= NP00N@0S n=1957>michael</w> <w lem= Winiarski msd= NP00N@0S n=1958>winiarski</w> </NAME> </s> </BYLINE>

52 SPRÅKSTATISTIK

53 Korpusstatistik Vilka ord som förekommer i en text säger ganska mycket om vad texten handlar om, värderingar och attityder bakom texten, samt hur språket används. Vanliga statistiska sätt att undersöka en korpus är att titta på: ordfrekvenser nyckelord konkordanser kollokationer

54 Frekvensordlistor En frekvenslista är en sorterad lista över antal förekomster av en enhet, t.ex. löpord, typord eller lemman i en korpus. De 10 vanligaste löporden i SUC-korpusen och i att som en av på det är med

55 Vad innebär ordfrekvenser? Kvantitativ ansats som visar antal förekomster av en enhet Listan kan ordnas efter frekvens, alfabetiskt, eller efter förekomst i korpusen Man kan räkna frekvenser på olika sätt: löpord: springa, sprang, sprungit, hus, huset, husen lemman: springa, hus alla ord, innehållsord, specifika ordklasser, ordformer av ett visst lemma etc.

56 Råa och relativa frekvenser Att jämföra frekvenslistor i två (specialiserade) korpusar kan ge information om skillnader i hur olika lexikala enheter används mellan dessa. råa frekvenser Det faktiska antal gånger ett ord förekommer i en viss korpus. Används när man enbart arbetar inom en korpus och jämför ordförekomster inom denna korpus. relativa frekvenser Den procentandel ordets frekvens utgör av alla ord i korpusen. Används när man jämför ordfrekvenser mellan olika korpusar.

57 Råfrekvenser: exempel AE BA KL KR 74 år 38 parti 63 gång 75 man 48 match 37 år 61 hand 74 far 30 tränare 26 fråga 46 väg 70 häst 29 minut 25 socialdemokrat 45 fråga 58 år 27 dag 25 land 45 bil 57 tid 24 seger 24 riksdag 40 fall 50 dag 24 mål 24 regering 38 statsråd 48 gång 23 spel 23 dag 37 huvud 45 väg 23 lag 22 väg 37 dörr 41 hand 21 tävling 20 procent 35 rum 39 öga 21 plats 19 stat 32 år 39 sak 20 tid 19 del 32 polis 36 del 20 gång 18 politiker 31 tid 35 mor Sport Ledare Deckare Trivia

58 Exemplet Texter från SUC-korpusen Sport Deckare Ledare Trivia Frekvenslistor baserade på endast substantiv Sökning på lemman (grundformer)

59 Relativa frekvenser Ibland vill man jämföra ordfrekvenser mellan korpusar av olika storlek Relativa frekvenser är den procentandel ett ord utgör av det totala antalet ord i korpusen

60 Relativa frekvenser: exempel Pronomenet vi förekommer: 2,142 i en korpus innehållande totalt 148,624 löpord och 2,666 i en annan korpus innehållande totalt 483,913 löpord Eftersom de två delkorpusarna är olika stora så säger inte de råa frekvenserna mycket, så vi måste normalisera Dela frekvensen för det löpord vi är intresserade av med det totala antalet ord i korpusen, och multiplicera med exempelvis tusen, för att få fram förekomsten per tusen ord 2142/148624*1000 = 14,41 (ca 14 förekomster per tusen ord) 2666/483913*1000 = 5,5 (ca 6 förekomster per tusen ord) vi är alltså mer än dubbelt så vanligt i den första korpusen

61 Nyckelord Ord som är mer frekvent förekommande i en text än vad vi skulle förvänta oss genom slumpen återspeglar vad texten handlar om inte nödvändigtvis de mest frekventa orden i en text Tas fram genom att jämföra de relativa frekvenserna i en text med de relativa frekvenserna i en generell referenskorpus Språkteknologiska tillämpningar informationssökning (exvis Google) textklassificering

62 Sökord i kontext Konkordanser (concordances) ej att förväxla med tidigare definition av nyckelord! KWIC KeyWord In Context Alfabetisk lista över ett sökord med kontext runtom Används för att undersöka vilka ord som förekommer kring ett givet ord

63 Konkordanser i Korp: googla

64 Konkordanser: användning Kan användas för att undersöka skillnader i betydelser för ett ord och hur ordet används Kan säga något om ett ords semantiska preferens Exempel: Ger verbet orsaka mest positiva eller negativa associationer?

65 Konkordanser för verbet orsaka

66 Kollokationer (collocations) Samförekomst Två eller flera ord som förekommer tillsammans oftare än vad som förväntas av slumpen NE: sammanhang som ett ord kan eller brukar ingå i Specifika kombinationer av ord (inte hela kontexten) Typer: sammanhängande: röd tråd, på grund av diskontinuerliga: för... skull, ju... desto varierande: komma () ihåg, sitta () still, köra () bil

67 Kollokationer och förväntan Kollokationer innebär att vi förväntar oss att se vissa ord tillsammans Vilka ord kan förväntas här? buller och?? väcka?? blod Låter fel om man byter ett visst ord mot en synonym när hon var 45 bildade/skapade/byggde/gjorde hon ny familj och levde sedan i frid och lugn/glädje/ro/fröjd Låter fel om man byter plats på ord bång och buller

68 Konkordanser och kollokationer Konkordanser En lista med ord där träffarna är centrerade och omgivna av sin kontext. Behöver gås igenom manuellt för att hitta mönster i kontexten. Kollokationer En lista med ord som förekommer ofta tillsammans. Kan ge information om intressanta mönster som man kan undersöka vidare genom konkordanser.

69 Sammanfattning: termer Frekvensordlista Nyckelord Sorterad lista som visar antal förekomster av en enhet, t.ex. löpord eller lemman i en korpus. Innehållsord som förekommer mer frekvent i en text än vad vi skulle förvänta oss av slumpen och som därmed kan tänkas återspegla vad texten handlar om. Konkordanser Kollokationer Lista över ord där träffarna är centrerade och omgivna av sin kontext. Kallas också KWIC (KeyWord-In-Context). Samförekomst, dvs ord som förekommer tillsammans oftare än förväntat av slumpen, t.ex. idiom och fasta fraser.

70 KORPUSAR OCH UTVÄRDERING AV SPRÅKTEKNOLOGISKA PROGRAM

71 Korpusar och utvärdering av språkteknologiska program Vanligaste sättet att utvärdera språkteknologisk programvara är jämföra de resultat man får mot ett facit, en så kallad guldstandard Exempelvis om man har utvecklat en ordklasstaggare, så jämför man de taggar som taggaren spottar ur sig mot manuellt annoterade taggar i en korpus Vanligaste formen av utvärdering är i termer av precision och täckning

72 Precision och täckning Precision Andelen utpekade exempel som är verkliga exempel Täckning (recall) Andelen verkliga exempel som pekas ut

73 Precision gulstandard ja guldstandard nej datorprogram ja sanna positiva falska positiva datorprogram nej falska negativa sanna negativa Precision = sanna positiva sanna positiva + falska positiva

74 Täckning gulstandard ja guldstandard nej datorprogram ja sanna positiva falska positiva datorprogram nej falska negativa sanna negativa Täckning = sanna positiva sanna positiva + falska negativa

75 Precision och täckning: korstabell gulstandard ja guldstandard nej datorprogram ja sanna positiva falska positiva datorprogram nej falska negativa sanna negativa Precision = sanna positiva sanna positiva + falska positiva Täckning = sanna positiva sanna positiva + falska negativa

76 F-score Ett sätt att väga samman precision och täckning 2 * (täckning * precision) täckning + precision

77 FREKVENSER OCH SPRÅKTEKNOLOGI

78 Frekvenser och språkteknologi Exempel på frekvensberäkningar i en text/korpus och språkteknologiska tillämpningar som kan dra nytta av dessa: bokstavsfrekvenser kryptoknäckning ordfrekvenser stavningskontroll, informationssökning n-gram av bokstäver OCR, stavningskontroll n-gram av ord taligenkänning ordlängd och meningslängd läsbarhetsmätningar (LIX) ordklasstaggfrekvenser, n-gram av ordklasstaggar ordklasstaggning, grammatikkontroll

79 Användbara Unix-kommandon (1) I Unix-systemet finns många inbyggda kommandon som är användbara för språkstatistiska beräkningar, ex: grep/egrep söker i en text efter rader som innehåller en viss sträng sort sorterar raderna i en fil (alfabetiskt eller numeriskt) uniq slår ihop identiska rader i en text wc räknar antalet rader, ord och tecken i en text

80 Användbara Unix-kommandon (2) tr bokstavsvis utbyte, t.ex. A byts ut mot a cat sammanslagning av två eller flera filer sekventiellt paste sammanslagning av två eller flera filer radvis head plockar ut början av en fil tail plockar ut slutet av en fil Till samtliga kommandon finns ett antal flaggor som kan anges för att specificera ytterligare hur kommandot ska bete sig. I ett terminalfönster, skriv man följt av det kommando du är intresserad av, för att få mer information om hur kommandot används.

81 Övning 1. Anta att ni har en vanlig text, utifrån vilken ni vill skapa en ordlista på automatisk väg. Vilka delsteg kan tänkas ingå i den här processen? Försök att skriva ett recept på vanlig svenska för hur datorn kan gå till väga för att lösa uppgiften. Ni måste alltså bryta ner problemet i mindre bitar. Använd era egna ord. Varje steg i receptet ska börja med ett verb (t.ex. Ta fram..., Ta bort..., Sortera..., ). 2. Ändra receptet så att det blir en frekvensordlista istället. 3. Fundera kring hur ditt recept kan skrivas om till Unixkommandon.

82 Nästa gång 14 november laboration 1: ord och n-gram 16 november Föreläsning 3: digital humaniora

Korpussökning och korpusmått 1(44)

Korpussökning och korpusmått 1(44) Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44) Förra gången Korpustyper Korpusdistributörer

Läs mer

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik? Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet

Läs mer

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41) Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Elementära verktyg för korpusbearbetning

Elementära verktyg för korpusbearbetning Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

Korpusmått, korpusbalans och korpusrepresentativitet

Korpusmått, korpusbalans och korpusrepresentativitet Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet

Läs mer

Korpusuppbyggnad Från textsamling till korpus

Korpusuppbyggnad Från textsamling till korpus Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid

Läs mer

Korpusundersökningar, referat

Korpusundersökningar, referat Korpusundersökningar, referat Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusundersökningar, referat 1(38) Förra gången Korpustyper Korpusdistributörer

Läs mer

Informatik C, VT 2014 Informationssökning och referenshantering. Therese Nilsson therese.nilsson@ub.umu.se 0660-292519

Informatik C, VT 2014 Informationssökning och referenshantering. Therese Nilsson therese.nilsson@ub.umu.se 0660-292519 Informatik C, VT 2014 Informationssökning och referenshantering therese.nilsson@ub.umu.se 0660-292519 Umeå UB Datorer och nät, utskrifter, kopiering Studieplatser Böcker, avhandlingar, uppslagsverk E-resurser

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid

Läs mer

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer

Läs mer

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016 Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.

Läs mer

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Lösningsförslag till tentamen i Språkteknologi 2D1418, Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det

Läs mer

Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek

Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek Referera rätt Christina Brage, förste bibliotekarie, Linköpings universitetsbibliotek Det hör till god vetenskaplig praxis att redovisa de källor som använts. Det måste alltid framgå av texten vem som

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna

Läs mer

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET? ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET? JOHAN FRID, HUMANISTLABORATORIET Lunds Matematiska Sällskap, Lund 7 November 2017 Humanistlaboratoriet

Läs mer

Korpusar och deras användning

Korpusar och deras användning Korpusar och deras användning Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar och deras användning 1(39) Förra gången Studiet av språk

Läs mer

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data

Labb 2: Syntax och ordklasstaggning. Att arbeta med grammatiskt analyserade data Labb 2: Syntax och ordklasstaggning Att arbeta med grammatiskt analyserade data Labb 2 Arbete med grammatiskt analyserad text Vilka ord finns i texten? Hur många ordtyper innehåller den? Hur ser fördelningen

Läs mer

Ordklasser och satsdelar

Ordklasser och satsdelar Ordklasser och satsdelar Vi kommer under de kommande fyra veckorna att arbeta med ordklasser och satsdelar. Under det här arbetsområdet kommer du att få öva på följande förmågor: formulera sig och kommunicera

Läs mer

GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT

GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT Ditt gymnasiearbete ska bygga kring den frågeställning du kommit fram till i slutet av vårterminen i årskurs 2 och du ska i ditt arbete besvara din frågeställning

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

REFERENSHANTERING. Svenska Jonathan Thorsell

REFERENSHANTERING. Svenska Jonathan Thorsell REFERENSHANTERING Svenska 1 2013-03-11 Jonathan Thorsell Varför referenser? Refererar du till någon annans arbete måste källan anges (referensen). Läsaren ska lätt kunna hitta materialet för att läsa mer

Läs mer

Kort presentation av Korp, Sveriges nationalkorpus

Kort presentation av Korp, Sveriges nationalkorpus Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,

Läs mer

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast)

Läs mer

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274

Kungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274 Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.

Läs mer

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954 Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Cristina Eriksson oktober 2001

Cristina Eriksson oktober 2001 Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner

Läs mer

Skrivstrategier. En framgångsrik språkinlärare: Tror på sin förmåga att lära sig. Är motiverad. Är medveten om varför hon/han vill lära sig

Skrivstrategier. En framgångsrik språkinlärare: Tror på sin förmåga att lära sig. Är motiverad. Är medveten om varför hon/han vill lära sig 1 Skrivstrategier En framgångsrik språkinlärare: Tror på sin förmåga att lära sig Är motiverad Är medveten om varför hon/han vill lära sig Är inte rädd för att göra misstag Tar risker Är bra på att gissa

Läs mer

Meningssegmentering i SUC och Talbanken

Meningssegmentering i SUC och Talbanken Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se

Läs mer

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng

Läs mer

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK Sökning, källkritik och referenshantering EITA55 2018-09-07 LINA AHLGREN & OLA HEDBÄCK Agenda Sökprocessen Söktjänster Referenshantering Sökprocessen Problemställning Källkritik Sökord Sökresultat Söktjänster

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Håkan Jansson, Judy Ribeck & Emma Sköldberg Institutionen för svenska språket Göteborgs universitet NFL, Oslo 2013 En

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 bakgrund och förutsättningar

Läs mer

UTBILDNING & ARBETE Uppsatsskrivandets ABC

UTBILDNING & ARBETE Uppsatsskrivandets ABC UTBILDNING & ARBETE Uppsatsskrivandets ABC Borgarskolan Polhemsskolan Vasaskolan 1 Innehåll Abstract... 1 Analys... 1 Argument... 1 Bilagor... 1 Citat... 1 Enkät... 1 Fotnot... 1 Frågeställning... 1 Innehållsförteckning...

Läs mer

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,

Läs mer

Pre-editering och maskinöversättning. Convertus AB

Pre-editering och maskinöversättning. Convertus AB Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Källkritisk tänkande i den digitala världen. Ulf Jämterud

Källkritisk tänkande i den digitala världen. Ulf Jämterud Källkritisk tänkande i den digitala världen Ulf Jämterud 1 Källkritik blir allt viktigare Medaljens baksida Ytinlärning och brist på källkritik 2 (Från Emanuel Karlstens Facebook) Källkritik i skolan 3

Läs mer

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE Språteknologi på SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE digital kompetens kring ordböcker, språkkontroller, korpusar och söktjänster! Följer teknikens påverkan på språk och språkanvändning! Bevakar språkteknisk

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019) 729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi

Läs mer

Att citera och referera

Att citera och referera Att citera och referera Studieguide Hvitfeldtska gymnasiet Vanliga frågor Vad är en referens? En referens är en beskrivning av en källa du använt i ditt arbete. Varför ska du referera? Det ska vara väldigt

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Litteratursökning och referenser. Agenda. Vetenskapliga artiklar (granskade) Ej vetenskapligt granskade källor.

Litteratursökning och referenser. Agenda. Vetenskapliga artiklar (granskade) Ej vetenskapligt granskade källor. Agenda Litteratursökning och referenser Varför detta moment? Källor Litteratursökning Att referera Övning Anders Avdic (anders@avdic.se) IT o hälso- och sjukvård 2018-08-21 1 Vetenskapliga artiklar (granskade)

Läs mer

Källuppgifter i fysik FAFA55

Källuppgifter i fysik FAFA55 Källuppgifter i fysik FAFA55 Varför är vi här? Kursmål: korrekta källuppgifter på universitetsnivå Projekt under LP 1 - Att hitta information - Korrekta källuppgifter i fysikformat Gäller även labbrapport

Läs mer

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1

Läs mer

Lingvistiska grundbegrepp

Lingvistiska grundbegrepp 729G09 Språkvetenskaplig databehandling (2016) Lingvistiska grundbegrepp Marco Kuhlmann Institutionen för datavetenskap Vad är korpuslingvistik? Korpuslingvistik handlar om att undersöka språkvetenskapliga

Läs mer

Uppsatsskrivandets ABC

Uppsatsskrivandets ABC UTBILDNING GÄVLE GYMNASIEBIBLIOTEKARIERNA Uppsatsskrivandets ABC Borgarskolan Polhemsskolan Vasaskolan 1 Innehåll Abstract... 1 Analys... 1 Argument... 1 Bilagor... 1 Bilder... 1 Citat... 2 Enkät... 2

Läs mer

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk Lokal kursplan i svenska/svenska som andra språk Skriva alfabetets bokstavsformer t.ex. genom att forma eller att skriva bokstaven skriva sitt eget namn forma varje bokstav samt skriva samman bokstäver

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Examensarbete i språkteknologi

Examensarbete i språkteknologi Examensarbete i språkteknlgi Beáta Bandmann Megyesi Institutinen för lingvistik ch fillgi Uppsala universitet Översikt Frågr från förra gången Dispsitin genmgång diskussin Att skriva bakgrund ch referera

Läs mer

Grundläggande textanalys, VT2013

Grundläggande textanalys, VT2013 Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-

Läs mer

Översättningsuniversalier i svenska översatta texter

Översättningsuniversalier i svenska översatta texter EXAMENSARBETE VT 2014 MASTER I ÖVERSÄTTNING Specialisering i engelska Språk- och litteraturcentrum Översättarutbildningen Översättningsuniversalier i svenska översatta texter En undersökning av tecken

Läs mer

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans

Läs mer

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad? Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första

Läs mer

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001

Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, , 15 oktober 2001 Taggning av räkneord som årtal eller andra räkneord, Språkteknologi 2D1418, HT 01 Jonas Sjöbergh, 761029-0178, jsh@nada.kth.se 15 oktober 2001 1 Bakgrund 1.1 Kort om taggning Taggning innebär att man ger

Läs mer

Bootstrapping för substantivtaggning

Bootstrapping för substantivtaggning Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas

Läs mer

Språkteknologi. Språkteknologi

Språkteknologi. Språkteknologi Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi

Läs mer

Mål som eleverna skall ha uppnått i slutet av femte skolåret Eleverna skall:

Mål som eleverna skall ha uppnått i slutet av femte skolåret Eleverna skall: SVENSKA - SPRÅKUTVECKLING Med språkutveckling menar vi: Genom språket sker kommunikation och samarbete med andra. Svenskämnet syftar till att tillsammans med andra ämnen i skolan utveckla elevernas kommunikationsförmåga,

Läs mer

Tekniken bakom språket

Tekniken bakom språket Tekniken bakom språket Red. Rickard Domeij Småskrift utarbetad av SPRÅKRÅDET 2008 NORSTEDTS AKADEMISKA FÖRLAG INNEHÅLL Språkteknologi för språken i Sverige 13 Rickard Donieij Tekniken bakom språket 13

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

KN - Seminarium. (Litteratursökning)

KN - Seminarium. (Litteratursökning) KN - Seminarium (Litteratursökning) Elektroniska medier Åbo Akademis bibliotek http://www.abo.fi/library/dbs Virtuellt bibliotek / länksamling för sökning på internet Referensdatabaser, som innehåller

Läs mer

Gränssnitt för FakeGranska. Lars Mattsson

Gränssnitt för FakeGranska. Lars Mattsson Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken

Läs mer

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ

PAROLE Exempel Förklaring SUC. PARTICIP AF00000A tf particip förkortning PC AN. pluralis obestämd/bestämd genitiv. pluralis obestämd/bestämd nominativ Nyckel till SUCs taggset i PAROLE-format Från Språkbanken: http://spraakbanken.gu.se/ PAROLE Exempel Förklaring SUC PARTICIP AF00000A tf particip förkortning PC AN AF00PG0S deporterades AF00PN0S kallade

Läs mer

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011 Kort om Coxheads Academic Word List Emma Sköldberg, maj 2011 Två viktiga artiklar Coxhead, A. 2000: A New Academic Word List (TESOL Quarterly 34:2, 2000, 213-238). Coxhead, A. 2002: The Academic Word List:

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och

Läs mer

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Maia Andréasson, Susanna Karlsson, Erik Magnusson och Sofia Tingsell Att de finita formerna av verbet ha, dvs. har och hade, kan utelämnas när

Läs mer

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning

Läs mer

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng STOCKHOLMS UNIVERSITET Institutionen för slaviska och baltiska språk, finska, nederländska och tyska Nederländska avdelningen Höstterminen 2018 Kursinformation med litteraturförteckning Nederländska I

Läs mer

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson

Linköpings universitet Artificiell Intelligens II 729G11 HT Maskinöversättning. med hjälp av statistik. Erik Karlsson Maskinöversättning med hjälp av statistik Erik Karlsson erika669@student.liu.se Innehåll Inledning... 1 Bakgrund och historia... 2 Historia... 2 Klassiska designer... 2 Direkt översättning... 2 Interlingua...

Läs mer