Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
|
|
- Tobias Lundqvist
- för 5 år sedan
- Visningar:
Transkript
1 Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
2 Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs. kvalitativa metoder Korpuslingvistik Lexikala databaser Korpusar 2(41)
3 Innehåll Befintliga språkresurser: textsamlingar, taldabaser, korpusar, trädbanker, parallella korpusar, parallella trädbanker Olika typer av korpora samt deras användning inom språkvetenskaplig forskning Olika typer av kvantitativa analyser såsom t.ex. ordfrekvens, meningslängd och nyckelordsanalys Att bygga en korpus: datainsamling, scanning, formatering, uppmärkning, annotering Befintliga verktyg för korpusuppbyggnad och analys Korpusar 3(41)
4 Lärandemål översiktligt redogöra för grundläggande begrepp inom korpuslingvistik; översiktligt redogöra för olika slags korpusar, inklusive parallella korpusar; redogöra för och i viss mån behärska tekniker för elementär kvantitativ analys av korpusar; översiktligt redogöra för grammatisk uppmärkning av korpusar och dess innebörd; exemplifiera och redogöra för en- eller flerspråkiga lexikala databaser och deras lingvistiska organisation. Korpusar 4(41)
5 Examination Fyra laborationer varav två med skriftlig redovisning Korpusar och korpusuppbyggnad Korpussökning med Webcorp Wordsmith Tools: 20/10 Korp: 27/10 Fördjupningsuppgift: referat av artikel (max 3 per grupp) Skriftlig rapport på 2 A4 sidor senast 4/11 till Bea Muntlig presentation, ca 10 minuter/grupp Dugga på alla begrepp som tagits upp på föreläsningarna Korpusar 5(41)
6 Litteratur och hemsida Baker, Paul (2006) Using Corpora in Discourse Analysis. London & New York: Continuum. Artiklar för fördjupningsuppgifter får gärna väljas ur: McCarthy, Michael, och O Keeffe Anne (2009) The Routledge Handbook of Corpus Linguistics, London och New York: Routledge. Course page: Korpusar 6(41)
7 Innehåll Studiet av språk Korpuslingvistik Korpusar: definition och innehåll Arkiv och distribution Laboration Korpusar 7(41)
8 Studiet av språk Intuitionsbaserad traditionell hitta på exempel för analys representerar inte nödvändigtvis typisk språkanvändning vad som är acceptabelt är individuellt bör användas med försiktighet; kan påverkas av ens dialekt, sociolekt resultat som baseras på introspektion är inte observerbar och är svårt att verifiera Korpusar 8(41)
9 Studiet av språk Korpusbaserad undersöka språket genom att använda autentiska exempel som tas från textssamlingar, en korpus vad vi ser i en korpus är i stort sett grammatiskt och/eller acceptabelt en korpus kan ge tillförlitlig kvantitativ data Korpusar 9(41)
10 Kvinnospråk, Cederschiöld 1899 Naturligtvis skulle det säkraste och fullständigaste resultatet vinnas genom antecknande, granskande och jämförande af det språkliga material, som ett stort antal individer af hvartdera könet faktiskt vid bestämda tillfällen användt, - alltså genom vetenskaplig induktion enligt den vanliga, godkända metoden. Denna väg är emellertid mycket lång och besvärlig. Det insamlade materialet måste blifva ofantligt rikhaltigt och omfattande för att kunna tjäna till säker grundval för undersökningen. Också kommer det utan tvifvel att dröja länge, innan någon forskare underkastar sig mödan att göra dylika materialsamlingar. Korpusar 10(41)
11 Cederschiölds mål Att uppvisa, hvad som är karakteristiskt för kvinnornas språk i motsats till männens, hvad som konstituerar kvinnospråket. Att undersöka olika gruppers språk och försöka se vad som karakteriserar respektive grupps språk. Hur speglar språket identitet och grupptillhörighet? Korpusar 11(41)
12 Korpuslingvistik - Corpus linguistics Termen lanserades först på 1980-talet (Leech) Metoden användes redan på 20-talet Förr: texter på papper, manuell bearbetning Empiriskt, analysen baseras på observerad men liten mängd data Korpusar 12(41)
13 Vad är korpuslingvistik? Studera språket genom att studera en viss mängd av språket - en korpus! Gammal idé att upprätta en speciell mängd data språkliga data (dialektstudier, studier av utdöda språk, komparativ lingvistik, deskriptiv grammatik) förverkligad genom modern teknik (började på 60-talet, vanligt sedan 80-talet) Korpuslingvistik är empirisk lingvistik Jämför med s.k. fåtöljlingvistik där den egna intuitionen utgör måttstock. Korpusar 13(41)
14 Korpuslingvistik? hårt kritiserad av Chomsky... real language is riddled with performance-related errors, thus requiring careful analysis of small speech samples obtained in a highly controlled laboratory setting... Kombinera insamling av texter med modern datateknik Korpusar 14(41)
15 Studiet av språk Neither the corpus linguist of the 1950s, who rejected intuition, nor the general linguist of the 1960s, who rejected corpus data, was able to achieve the interaction of data coverage and the insight that characterise the many successful corpus analyses of recent years. (Leech, 1991) Korpusar 15(41)
16 Varför använda datorer? The immense scope of a modern corpus, and the range of computing resources that are available for exploiting it, make up a powerful force for deepening our awareness and understanding of language. (M.A.K. Halliday) Korpusar 16(41)
17 Varför använda datorer? lätt att söka, sortera, formatera data snabbt, konsekvent och (oftast) korrekt mer pålitliga resultat jämfört med människor kan annoteras automatiskt för att berika den lingvistiska analysen Korpusar 17(41)
18 Varför korpuslingvistik? Objektiv lingvistik genom att undersöka språk som det används i verkligheten Enda sättet att undersöka frekvens i språkbruket Två grenar av korpuslingvistik: språkvetenskap kontra språkteknologi Olika bakgrund, syften, verktyg, sammanslutningar, konferenser, tidskrifter Empirisk språkforskning kontra (halv)automatisk extraktion av språklig kunskap för språkteknologiska tillämpningar Korpusar 18(41)
19 Språkvetenskap Bakgrund: empirisk lingvistik Syfte: traditionell språkforskning Verktyg: konkordans/ordlista/statistikprogram Konferenser: t.ex. Tidskrifter: t.ex. Conference of the Int. Computer Archive of Modern/Mediaeval English (ICAME) Teaching and Language Corpora Conference (TALC) International Journal of Corpus Linguistics Korpusar 19(41)
20 Språkteknologi Bakgrund: datalogi, matematisk lingvistik Syfte: maskininlärning Verktyg: taggare, parser, länkningsverktyg Konferenser: t.ex. Tidskrifter: t.ex. Int. Conf. on Computational Linguistics (COLING) Meetings of the ACL (ACL, EACL, NAACL) Empirical Methods in NLP (EMNLP) Computational Linguistics, Journal of Natural Language Engineering Korpusar 20(41)
21 Vad är en korpus? (1) Term: korpus/korpusar vs corpus/corpora Definition: samling autentiska språkliga data (texter eller transkriptioner av talspråk) som är hopsamlad/samplad för att vara mer eller mindre representativ för språket i fråga och som lagras elektroniskt i databas Mål: Med hjälp av en korpus kan man upprätta och verifiera hypoteser om naturligt språk, t.ex. att undersöka hur ett visst ljud, ord eller syntaktisk konstruktion används. Eftersom korpora är elektroniskt lagrade och sökbara, kan man raskt få fram alla förekomster av en viss företeelse. Korpusar 21(41)
22 Vad är en korpus? (2) A body of naturally occurring text Korpusar är (stora) textsamlingar eller transkriptioner av taldata, sammanställda för att vara en representativ samling av ett viss språk eller språkvariant ofta begränsad storlek och annoterade med ett syfte i åtanke Korpusar 22(41)
23 Vad är en korpus? (3) It should be added that computer corpora are rarely haphazard collections of textual material: They are generally assembled with particular purposes in mind, and are often assembled to be (informally speaking) representative of some language or text type. (Leech, 1992) A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. (Sinclair, 1996) Korpusar 23(41)
24 Korpus: exempel SUC (Stockholm Umeå Corpus): 1 miljon ord (skrift) PAROLE corpus from Språkbanken: 19 miljon ord (skrift) BNC (Brittish National Corpus): 100 miljon ord (skrift/tal) London-Lund corpus: 0,5 miljon ord (tal) Korpusar 24(41)
25 ... (stora) textsamlingar (2) Ett språk eller flera språk Parallella korpusar (t.ex. EuroParl) Synkronisk eller diakronisk Historisk Modern Diakronisk (Vad behöver man tänka på för att korpusen verkligen skall lämpa sig för diakroniska studier?). Korpusar 25(41)
26 ... sammanställda Korpussammanställning är precis som opinionsundersökningar: Man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population... för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen Det är alltså mycket viktigt att planera hur stickprovet görs! Korpusar 26(41)
27 ... och annoterade Textmetadata Strukturmärkning Lingvistisk annotering Ordklasstaggning Syntaxanalys (trädbank) Semantisk information Länkade på menings- och ordnivå (parallellkorpusar) Korpusar 27(41)
28 ... med ett syfte i åtanke Korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vagt Korpusar kan ofta vara användbara för andra syften också t.ex. diakroniska korpusar: empiriska undersökningar av språkförändringar t.ex. parallella korpusar: inlärning av översättningsparametrar fär översättningssystem Korpusar kan vara standardrefererens för komparativa studier Korpusar 28(41)
29 Korpusar en korpus i modern lingvistik är inte bara en eller flera texter utgör också ett representativt urval (vad är det?) har en begränsad storlek (inte alltid) är maskinläsbar används som standardreferens Korpusar 29(41)
30 Korpusurval och representativitet Korpusar fungerar som ett representativt stickprov av en (mycket större) population (t.ex. ett språk) med ett syfte i åtanke Biber ( Representativeness in corpus design, 1993) diskuterar representativitet i texturval för korpusar definiera populationen ( sampling frame ) fastställ den hierarkiska strukturen i populationen ( strata ) - genre, texttyper, ursprung bestäm storleken (vad är den optimala storleken?) Korpusar 30(41)
31 Korpustyper: parametrar modalitet: text, tal, tecknat, multimodalt material språktyp, genre, etc. språk: ett, två, många relation mellan språken (jämförbar, parallell,...) storlek: finit storlek (undantag: monitorkorpusar) analyserat, disambiguerat, typ av annotering Korpusar 31(41)
32 Korpustyper ett språk (monolingual corpus) eller flera språk (multilingual corpus) translation: original text and dess översättning till olika språk comparable: jämförbara originaltexter i olika språk, där texterna i varje språk har valts ut utifrån samma kriterier (genre, innehåll, publikation, datum, etc) parallel: översättningskorpus särkilt formaterad så att texterna är länkade (e.g. EuroParl) synkronisk, diakronisk, historisk eller modern Korpusar 32(41)
33 Typ av (annoterings)information Extra-textuell information (Metadata) Titel, författare, datum, språk, domän Ortografisk information Lingvistisk information Ordklass (part-of-speech) Lemma Semantisk uppmärkning Textlingvistisk annotering (t.ex. pragmatisk-retorisk, stilanalys) Fonetik Länkning (alignment) Korpusar 33(41)
34 Korpusar - ett par exempel SUC: allmänsvenskt skriftspråk från 1990-talet 500 texter, 2000 token per text 9 genrer, med subkategorier, t.ex. K - imaginative prose KK - general fiction KL - science fiction KN - light reading KR - humour info om lemma, ordklass (part-of-speech), namnuttryck (named entities) Korpusar 34(41)
35 Example: SUC <text id=suctext-aa01c> <body> <div type= sucdiv > <HEAD> <s id=aa01c-001> <w lem= sovjetisk msd= AQPNSNIS n=1952>sovjetiskt</w> <w lem= pansar msd= n=1953>pansar</w> <w lem= i msd= SPS n=1954>i</w> <NAME TYPE=PLACE> <w lem= Vilnius msd= NP00N@0S n=1955>vilnius</w> </NAME> </s> </HEAD> <BYLINE> <s id=aa01c-002> <w lem= av msd= SPS n=1956>av</w> <NAME TYPE=PERSON> <w lem= Michael msd= NP00N@0S n=1957>michael</w> <w lem= Winiarski msd= NP00N@0S n=1958>winiarski</w> </NAME> </s> <BYLINE> Korpusar 35(41)
36 Brown corpus Brown University Corpus (Brown corpus) 1964: släkt med SUC amerikansk engelska balanserad over 1 miljon ord 500 sampel med 2000 i varje ordklasstaggad (82 tags) W. Nelson Francis and Henry Kucera, Korpusar 36(41)
37 Example: Brown THE AT A E1 *FULTON NP-TL A E1 *COUNTY NN-TL A E1 *GRAND JJ-TL A E1 *JURY NN-TL A E1 SAID VBD A E1 *FRIDAY NR A E1 AN AT A E1 INVESTIGATION NN A E1 OF IN A E1 *ATLANTA S NP A E1 RECENT JJ A E1 PRIMARY NN A E1 ELECTION NN A E1 PRODUCED VBD A E1 NO AT A E1 EVIDENCE NN A E1 THAT CS A E1 ANY DTI A E1 IRREGULARITIES NNS A E1 TOOK VBD A E1 PLACE NN A E1.. A E1 Korpusar 37(41)
38 LOB LOB (Lancaster-Oslo/Bergen) Corpus: åstadkomma Brown för brittisk engelska 500 texter med 2000 ord i varje version med eller utan PoS taggar PoS taggad, taggarna är från Brown med viss modifikation Eric Atwell, Roger Garside, Stig Johansson, Geoffrey Leech, Korpusar 38(41)
39 Sammanfattning En korpus kan se ut på många olika sätt men alla har de gemensamt att de består av autentisk text, är systematiskt hopsamlade (samplade), är representativa för sitt område, och är elektroniskt lagrade. Olika typer av korpora har kommit att bli ett mycket viktigt redskap inom språkforskningen. Korpusar 39(41)
40 Sammanfattning Använder man sig av korpora är det alltid viktigt att man som användare vet hur de är uppbyggda. Hur väl passar korpusmaterialet min frågeställning? Vad kan jag förvänta mig av min korpus avseende olika skevheter? Korpora är ett effektivt sätt att nå längre än till sin egen intuition... men de kan ge missvisande (eller snarare feltolkade) resultat om inte användaren är noga med att sätta sig in i data. Korpusar 40(41)
41 Laboration 1 Sök i korpusarkiv. Hitta och välj två korpusar som du är intresserad av och jämför dessa. Anteckna n ågra punkter om de viktigaste dragen och jämförelserna mellan de tv å korpusarna. Korpusar 41(41)
Datorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs mer1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT
Läs mervad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merElementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merKorpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merKursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Läs merKorpussökning och korpusmått 1(44)
Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44) Förra gången Korpustyper Korpusdistributörer
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna
Läs mer729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs merIntroduktion till språkteknologi Föreläsning 2: Korpuslingvistik
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem
Läs merSpråkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?
Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid
Läs merProjekt i språkteknologi Projektförslag Johanna Karlsson joka1954
Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i
Läs merKorpusmått, korpusbalans och korpusrepresentativitet
Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet
Läs merETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter
ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning
Läs merKorpusar och deras användning
Korpusar och deras användning Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar och deras användning 1(39) Förra gången Studiet av språk
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Läs merTDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merKort om Coxheads Academic Word List. Emma Sköldberg, maj 2011
Kort om Coxheads Academic Word List Emma Sköldberg, maj 2011 Två viktiga artiklar Coxhead, A. 2000: A New Academic Word List (TESOL Quarterly 34:2, 2000, 213-238). Coxhead, A. 2002: The Academic Word List:
Läs merSvensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
Läs merb) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)
LINKÖPINGS TEKNISKA HÖGSKOLA Tekniska fakultetskansliet FÖRSLAG TILL PROGRAMNÄMND INFÖR ÅR NÄMND/NÄMNDER: Förslagsställare (Namn, funktion, Inst/Enhet) FÖRSLAGET GÄLLER: a) EXISTERANDE KURS (Ange kurskod
Läs mer729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
Läs merÄmnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson
Ämnesområden Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson martin.fredriksson@lnu.se 1 Ämnesområden ÖVERSIKT 2 Översikt Dagens föreläsning Fokus Innehåll Relevans Presentation Ämnesområden
Läs merBetygskriterier. US610F - Språkdidaktik I, 30 hp
1 (5) US610F - Språkdidaktik I, 30 hp Kursen avser första terminens studier i ämnet språkdidaktik. I kursen behandlas grunderna för såväl språkbeskrivning, språkanvändning, språkinlärning och språkutveckling
Läs merINSTITUTIONEN FÖR SVENSKA SPRÅKET
INSTITUTIONEN FÖR SVENSKA SPRÅKET SV1118 Svenska med språkvetenskaplig inriktning A, 30 högskolepoäng Swedish Linguistics A, Introductory Fastställande Kursplanen är fastställd av Institutionen för svenska
Läs merMed Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi
Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 bakgrund och förutsättningar
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merKorpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,
Läs merTeoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
Läs merKURSPLAN Engelska, 31-60 hp, 30 högskolepoäng
1(5) KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng English, 31-60 credits, 30 credits Kurskod: LENB17 Fastställd av: VD 2008-03-17 Gäller fr.o.m.: VT 2012 Version: 2 Utbildningsnivå: Utbildningsområde:
Läs merbakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO
bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1
Läs merSkäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.
Ulla Veres viceprefekt för utbildning på grund- och avancerad nivå Prefekten 2013-10-28 FÖRSLAG till beslut Fastställande och revideringar av kursplaner Lingvistik Ärendet med förslag till beslut Prefekten
Läs merAnnette Lennerling. med dr, sjuksköterska
Annette Lennerling med dr, sjuksköterska Forskning och Utvecklingsarbete Forskning - söker ny kunskap (upptäcker) Utvecklingsarbete - använder man kunskap för att utveckla eller förbättra (uppfinner) Empirisk-atomistisk
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merSVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna SVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle Fastställande Kursplanen
Läs merPedagogik AV, Nätbaserat lärande, 7,5 hp
1 (5) Kursplan för: Pedagogik AV, Nätbaserat lärande, 7,5 hp Education MA, On-line learning Allmänna data om kursen Kurskod Ämne/huvudområde Nivå Inriktning (namn) Högskolepoäng PE021A Pedagogik Avancerad
Läs merSession: Historieundervisning i högskolan
Session: Historieundervisning i högskolan Ansvarig: David Ludvigsson, Uppsala universitet Kommentator: Henrik Ågren, Högskolan i Gävle Övriga medverkande: Lena Berggren, Umeå universitet Peter Ericsson,
Läs merFR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)
Humanistisk fakultetsnämnd FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng (French: Intermediate course, 30 higher education Grundnivå (First cycle) 1. Fastställande Kursplanen är fastställd
Läs merför att komma fram till resultat och slutsatser
för att komma fram till resultat och slutsatser Bearbetning & kvalitetssäkring 6:1 E. Bearbetning av materialet Analys och tolkning inleds med sortering och kodning av materialet 1) Kvalitativ hermeneutisk
Läs merForskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer
Läs merÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
Läs merDetta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.
Sökplan TDDD39 Perspektiv på informationsteknologi Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi. Anvisningar Sökplanen påbörjas
Läs merÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle Fastställande
Läs merSpråkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering
Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering Richard Johansson richard.johansson@svenska.gu.se 24 januari 2014 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering
Läs merIdrottsvetenskap AV, Magisterkurs i idrottsvetenskap, 30 hp
1 (5) Kursplan för: Idrottsvetenskap AV, Magisterkurs i idrottsvetenskap, 30 hp Sports Sciences MA, Master Degree Project, 30 Credits Allmänna data om kursen Kurskod Ämne/huvudområde Nivå Inriktning (namn)
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs merOn the role of corpora in cross-linguistic research, Stig Johansson (3-24)
Klas Prytz: Johansson, Stig och Signe Oksefjell. 1998. Corpora and Cross-linguistic Research. Stig Johansson, och Signe Oksefjell (red.). Rodopi: Amsterdam, Atlanta. Trots det myckna användandet av ordet
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merKURSPLAN Engelska, hp, 30 högskolepoäng
1(5) KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng English, 31-60 credits, 30 credits Kurskod: LENB17 Fastställd av: VD 2008-03-17 Gäller fr.o.m.: VT 2011 Version: 1 Utbildningsnivå: Utbildningsområde:
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs merBetygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp
Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp astställda av institutionsstyrelsen 2012-05-09. Gäller fr.o.m. ht 12. elkurs 1: et talade språket, 7,5 hp örväntade studieresultat
Läs merLitteraturstudie. Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund
Litteraturstudie Utarbetat av Johan Korhonen, Kajsa Lindström, Tanja Östman och Anna Widlund Vad är en litteraturstudie? Till skillnad från empiriska studier söker man i litteraturstudier svar på syftet
Läs merINSTITUTIONEN FÖR SVENSKA SPRÅKET
INSTITUTIONEN FÖR SVENSKA SPRÅKET SV1101 Svenska språket, grundkurs, 30 högskolepoäng Swedish Language, Introductory Course, 30 higher Fastställande Kursplanen är fastställd av Humanistiska fakultetsnämnden
Läs merKristina Säfsten. Kristina Säfsten JTH
Att välja metod några riktlinjer Kristina Säfsten TD, Universitetslektor i produktionssystem Avdelningen för industriell organisation och produktion Tekniska högskolan i Jönköping (JTH) Det finns inte
Läs merEngelska. Programkurs 30 hp English 973G06 Gäller från: Fastställd av. Fastställandedatum. Styrelsen för utbildningsvetenskap
DNR LIU 2012-00259 1(6) Engelska Programkurs 30 hp English 973G06 Gäller från: Fastställd av Styrelsen för utbildningsvetenskap Fastställandedatum 2012-05-16 2(6) Huvudområde Inget huvudområde Utbildningsnivå
Läs merExamensarbete i språkteknologi
Examensarbete i språkteknologi Beáta Bandmann Megyesi Institutionen för lingvistik och filologi Uppsala universitet Översikt Examensarbetets innehåll Regler och principer Lärare och handledare Lärandemål
Läs merHur kan vi använda korpusmaterial och teckenspråkslexikon i språkutbildningen?
Exempel på texttranskription i Excel 3b...TIDNING SOM HETA A-L-L-E-R-S (a:r-dur) VÄNTA HAFT FÖRST FRÅGA POSS-c MAMMA FUNGERA HUR PEK-c VARIT PEK-c LITEN FRÅGA FUNGERA BRA MED FÖRÄLDRAR DÖVA MAMMA DÖV PEK-c
Läs merKURSPLAN Engelska, 31-60 hp, 30 högskolepoäng
1(6) KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng English, 31-60 credits, 30 credits Kurskod: LENB17 Fastställd av: Utbildningsledare 2013-11-01 Gäller fr.o.m.: Hösten 2015 Version: 8 Diarienummer: HLK
Läs merKursbeskrivning. Språkvetenskaplig introduktion till svenskt teckenspråk, 5 hp. Teckenspråk i teori och praktik, 30 hp, LITU10
Avdelningen för teckenspråk Kursbeskrivning Språkvetenskaplig introduktion till svenskt teckenspråk, 5 hp Teckenspråk i teori och praktik, 30 hp, LITU10 Gäller ht 2018. Innehåll och förväntade studieresultat
Läs merPEC: European Science Teacher: Scientific Knowledge, Linguistic Skills and Digital Media
PEC: Fredagen den 22/9 2006, Forum För Ämnesdidaktik The aim of the meeting A presentation of the project PEC for the members of a research group Forum För Ämnesdidaktik at the University of Gävle. The
Läs merKursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt
Kursplan ENGELSKA Ämnets syfte Undervisningen i ämnet engelska ska syfta till att deltagarna utvecklar språk- och omvärldskunskaper så att de kan, vill och vågar använda engelska i olika situationer och
Läs merFör universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/417 Allmän studieplan för licentiatexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 30 mars 2017.
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merFrån aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd
Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Håkan Jansson, Judy Ribeck & Emma Sköldberg Institutionen för svenska språket Göteborgs universitet NFL, Oslo 2013 En
Läs merSPRÅKTEKNOLOGIPROGRAMMET
SPRÅKTEKNOLOGIPROGRAMMET Kandidatprogram, 3 år, 180 hp. Mats Dahllöf Institutionen för lingvistik och filologi Augusti 2012 1 Språkteknologer arbetar med... att utveckla, utvärdera och underhålla system
Läs merFaculty of social sciences University, SE-901 87 Umea, Sweden Phone: +46 90 786 0000 E-mail: ulrika.haake@umu.se Dnr FS 3.4.2-1982-16 Datum 2016-11-07 Sid 1 (4) www umu se Qualitative research methods
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Läs merENGK01, Engelska: Kandidatkurs, 30 högskolepoäng English: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ENGK01, Engelska: Kandidatkurs, 30 högskolepoäng English: Level 3 - B. A. Course, 30 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av utbildningsledaren
Läs merUtbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits
Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande
Läs merNS2027 Språkkonsultprogrammet, Kurs 2, 30 hp
NS2027 Språkkonsultprogrammet, Kurs 2, 30 hp Fastställda av institutionsstyrelsen 2019-02-06. Gäller fr.o.m. vt 2019. Delkurs 1: Språkhistoria, 4 hp Förväntade studieresultat För godkänt resultat på delkursen
Läs merKURSPLAN Engelska, 1-60 hp, 60 högskolepoäng
1(8) KURSPLAN Engelska, 1-60 hp, 60 högskolepoäng English, 1-60 credits, 60 credits Kurskod: LENA17 Fastställd av: VD 2007-12-18 Gäller fr.o.m.: Ht 2011 Reviderad 2010-06-01 Version: 1 Utbildningsnivå:
Läs merUtbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits
Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande
Läs merKorpusbaserad Maskinöversättning
Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning
Läs merÄSVA11, Svenska 1, 30 högskolepoäng Swedish 1, 30 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄSVA11, Svenska 1, 30 högskolepoäng Swedish 1, 30 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av prodekanen med ansvar för grundutbildning
Läs merEngelska B Eller: Engelska 6 (Områdesbehörighet 2/A2 med ett eller flera undantag)
1EN000 Engelska A, Allmän inriktning 30.0 hp 1EN000 English A, General Course 30.0 credits Fält markerade med en asterisk (*) är obligatoriska Betygsskala* För denna kurs ges betygen VG Väl godkänd, G
Läs merKursinformation och schema Lingvistik 729G08 (6 hp)
LINKÖPINGS UNIVERSITET Institutionen för kultur och kommunikation Kognitionsvetenskapliga kandidatprogrammet V1 Kursinformation och schema Lingvistik 729G08 (6 hp) HT 2016 Lärare och examinatorer: Mathias
Läs merKursplan och läromedelsförteckning
Kursplan och läromedelsförteckning Institutionen för humaniora Kurskod ENB102 Dnr 03:91D Beslutsdatum 2003-06-10 Kursens benämning Engelsk benämning Ämne ENGELSKA - allmän kurs ENGLISH - General course
Läs merOmvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter
Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,
Läs merPerspektiv på kunskap
Perspektiv på kunskap Alt. 1. Kunskap är något objektivt, som kan fastställas oberoende av den som söker. Alt. 2. Kunskap är relativ och subjektiv. Vad som betraktas som kunskap är beroende av sammanhanget
Läs merChapter 1 : Who do you think you are?
Arbetslag: Gamma Klass: 9A Veckor: 34-39 År: 2019 Chapter 1 : Who do you think you are?. Syfte Förstå och tolka innehållet i talad engelska och i olika slags texter. Formulera sig och kommunicera i tal
Läs merEngelska (31-55 hp) Programkurs 25 hp English (31-55 cr) 92EN31 Gäller från: Fastställd av. Fastställandedatum. Revideringsdatum
DNR LIU 2012-00260 1(5) Engelska (31-55 hp) Programkurs 25 hp English (31-55 cr) 92EN31 Gäller från: Fastställd av Styrelsen för utbildningsvetenskap Fastställandedatum 2012-05-16 Revideringsdatum 2018-05-22
Läs merINSTITUTIONEN FÖR SVENSKA SPRÅKET
INSTITUTIONEN FÖR SVENSKA SPRÅKET SV1101 Svenska språket, grundkurs, 30 högskolepoäng Swedish Language, Introductory Course, 30 higher Fastställande Kursplanen är fastställd av Humanistiska fakultetsnämnden
Läs merÄr icke-sannolikhetsurval aldrig representativa?
Surveyföreningens webbpanelseminarium 2011-02-03 Är icke-sannolikhetsurval aldrig representativa? Jan Wretman Webbpanelkommittén 1 Det kommer att handla om: Begreppet representativitet. Bedömning av skattningars
Läs mer