1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet
|
|
- Åke Sandström
- för 5 år sedan
- Visningar:
Transkript
1 1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade med ett syfte i åtanke, så, korpuslingvistik innebär: (för vilkets uppfyllande man utvecklar) (dator)verktyg
2 (stora) textsamlingar, 1 text = skriftspråk, talspråk (tal) typiskt miljoner ord: SUC (Stockholm Umeå Corpus) =1 miljon ord [skriftspråk] Språkbankens PAROLE-korpus =20 miljoner ord [skriftspråk] BNC (British National Corpus) =100 miljoner ord [skrift/talspråk] (stora) textsamlingar, 2 ett språk flera språk(former) parallella (översättningsrelation), t.ex. ETAP, PLUG, TELRI jämförbara, t.ex. Oslo Multilingual Corpus
3 sammanställda... korpussammanställning är precis som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen... och annoterade... strukturmärkning och textmetadata ordklass -taggning syntaxanalys ( trädbanker ) länkning (av parallellkorpusar) länkning (av modaliteter) dialogakter, m.m.
4 ... med ett syfte i åtanke korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vitt och vagt korpusarna kan ofta vara användbara för andra syften också det finns två korpuslingvistiktraditioner och två syftestyper så: varför korpuslingvistik? om inte den empiriskaste, så i alla fall mycket objektiv lingvistik enda sättet att undersöka frekvens (se N. Ellis, Frequency effects in lg processing, Studies in SLA 24 (2002): , + fler i samma nummer)
5 två sorters korpuslingvistik språkvetenskap språkteknologi olika bakgrund, syften, verktyg, sammanslutningar, konferenser, tidskrifter empirisk språkforskning (halv)automatisk extraktion av språklig kunskap för språkteknologiska tillämpningar språkvetenskap bakgrund: empirisk lingvistik syfte: traditionell språkforskning verktyg: konkordans/ordliste/- statistikprogram (för ordformer) konferenser: ICAME, ASLA, TALC tidskrifter: International J. of Corpus Linguistics Literary & Linguistic Computing Computers and the Humanities
6 språkteknologi bakgrund: datalogi, mat. lingvistik syfte: (induktiv) maskininlärning verktyg: taggare, parsrar, länkare konferenser: EMNLP, WVLC, CoNLL, COLING tidskrifter: Computational Linguistics J. Natural Language Engineering J. Machine Learning Research "So, a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration." (McEnery and Wilson 2001: 32)
7 korpustyper: parametrar modalitet: skrivet, talat, tal, tecknat, multimodal språktyp, genre, etc. språk: ett, två, många; relation mellan språken (parallell, jämförbar,...) storlek några korpusar/korpustyper, 1 SUC (allmänsvenskt skriftspråk): 500 texter om c:a 2000 ord 9 huvudgenrer, med undergenrer: K imaginative prose KK general fiction KL science fiction and mystery KN light reading KR humour
8 några korpusar/korpustyper, 2 Scania: teknisk text (bilverkstadsmanualer) flera miljoner ord, 8 språk, översättningar från svenska Skriven finsk romani: c:a ord en betydande del av den totala skrivna produktionen på finsk romani några korpusar/korpustyper, 3 inlärarkorpusar (inlärarspråk): ICLE (International Corpus of Learner English) ASU (Andraspråkets StrukturUtveckling) USE (Uppsala Student English corpus) SFI och SSM
9 några korpusar/korpustyper, 4 monitorkorpusar (växer hela tiden): Språkbanken, Bank of English, KTH News Corpus virtuella korpusar; två sorter: 1: bildas på begäran 2: består av länkar talkorpusar, multimodala korpusar några korpusar/korpustyper, 5 Trädbanker: Tal- och Skrivsyntax (Lund) SynTag (Göteborg) Penn Treebank (UPenn) ICE-GB (London) NEGRA (Saarbrücken) Prague Dependency Treebank
10 SUC, format 1 (original TEI) <s id=kl01-002> <w n=9>tror<ana><ps>vb<m>prs AKT<b>tro</w> <w n=10>dom<ana><ps>pn<m>utr/neu PLU DEF SUB/OBJ<b>dom</w> <w n=11>att<ana><ps>sn<b>att</w> <w n=12>han<ana><ps>pn<m>utr SIN DEF SUB<b>han</w> <w n=13>rusar<ana><ps>vb<m>prs AKT<b>rusa</w> <w n=14>dit<ana><ps>ab<b>dit</w> <w n=15>med<ana><ps>pp<b>med</w> <w n=16>mössan<ana><ps>nn<m>utr SIN DEF NOM<b>mössa</w> <w n=17>i<ana><ps>pp<b>i</w> <w n=18>näven<ana><ps>nn<m>utr SIN DEF NOM<b>näve</w> <w n=19>för<ana><ps>pp<b>för</w> <w n=20>att<ana><ps>ie<b>att</w> <w n=21>ta<ana><ps>vb<m>inf AKT<b>ta</w> <w n=22>sitt<ana><ps>ps<m>neu SIN DEF<b>sin</w> <w n=23>straff<ana><ps>nn<m>neu SIN IND NOM<b>straff</w> <d n=24>?<ana><ps>mad<b>?</d> </s> SUC, format 2 (PAROLE-taggar) <s id=kl01-002> <w lem='tro' msd='v@ipas' n=9>tror</w> <w lem='dom' msd='pf@0p0@s' n=10>dom</w> <w lem='att' msd='css' n=11>att</w> <w lem='han' msd='pf@uss@s' n=12>han</w> <w lem='rusa' msd='v@ipas' n=13>rusar</w> <w lem='dit' msd='rg0s' n=14>dit</w> <w lem='med' msd='sps' n=15>med</w> <w lem='mössa' msd='ncusn@ds' n=16>mössan</w> <w lem='i' msd='sps' n=17>i</w> <w lem='näve' msd='ncusn@ds' n=18>näven</w> <w lem='för' msd='sps' n=19>för</w> <w lem='att' msd='cis' n=20>att</w> <w lem='ta' msd='v@n0as' n=21>ta</w> <w lem='sin' msd='ps@ns0@s' n=22>sitt</w> <w lem='straff' msd='ncnsn@is' n=23>straff</w> <c lem='?' msd='fe' n=24>?</c> </s>
11 Skrivsyntax, bruksprosa P TX TX 000 P ST ST 000 P << GM 001 P *PSYKOLOGERNA NNDDHH SS 001 P UTARBETAR VVPSSM FV 001 P ALLT POKP OODT 001 P FLER ID OODT 001 P FÖRFINADE TP PAOOAT 001 P TEST NN OO 001 P FÖR PR AAPR 001 P IF AA 001 P ATT IM IM 001 P FÅ FVIV IV 001 P RÄTT POSU OODT 001 P MAN NN HH OO 001 P PLACERAD TP PAOP 001 P PÅ PR RAPR 001 P RÄTT POSU RADT 001 P PLATS NN RA 001 P I PR RAETPR 001 P PRODUKTIONEN VNDD RAET 001 P IP IP 001 lingvistisk korpuslingvistik vilka problem vill man lösa? lexikografiska/lexikologiska språkbeskrivning för människor pedagogiska överhuvudtaget är korpusar en alternativ datakälla för traditionella språkvetenskapliga undersökningar
12 korpusverktyg konkordans-/ordliste-/statistik- /kollokationsprogram (WordSmith Tools, System Quirk) arbetsbänkar (IMS Corpus Workbench, SARA, [GATE,] etc.) taggare och taggargeneratorer (Brill, WinBrill, µtbl, TnT, etc.) meningslänkare (för parallellkorpusar) dessutom: robusta parsrar CG Constraint Grammar /Lingsoft/, FDG Functional Dependency Grammar /Conexor/, chunking, etc. ordlänkare för översättningslexikonextraktion ; UWA - Uppsala Word Aligner, LWA - Linköping Word Aligner
13 länkning av parallelltext Number of matches: 1482 # id2 xid2 xid3 (1) Vaagos sas Lau, ta Lau sas Deevelesko neere, ta Lau sas Deevel. [I början var Ordet, och Ordet var hos Gud, och Ordet var Gud.] (2) Alussa oli Sana. (2) Sana oli Jumalan luona, ja Sana oli Jumala. # id3 xid4 (1) Jou sas vaagos Deevelesko neere. [Det var först hos Gud.] (2) Jo alussa Sana oli Jumalan luona. [Länkad med UWA, utvecklat av Jörg Tiedemann, Inst. för lingvistik, UU]
14 två sorter: korpusarbetsbänkar korpuscentrerade (IMS CWB; System Quirk; SARA) språkteknologicentrerade (GATE och kopior)
15 korpussöksystem (med visualisering) (ingår i arbetsbänkar, men också specialiserade, t.ex.:) Språkbanken (webbaserad) ICECUP, TIGER (för trädbanker) GSearch (syntaktisk analys av ordklasstaggade korpusar) webcorp m.fl. (WWW-konkordanser) korpusstatistik unigramstatistik (textord, lemman, ordklasstaggar, etc.) type-token-statistik (lömsk!) samförekomststatistik statistiskt signifikanta likheter och skillnader mellan korpusar (Kilgarriff)
16 1.2: korpusuppbyggnad: urval och sammansättning korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 korpusurvalet styrs av syftet undersökning av (eller undervisning om/i): allmänspråk stora balanserade korpusar genre/delspråk ( sublanguage ) små (specialiserade) korpusar inlärarspråk inlärarkorpusar (och flerspråkiga korpusar) översättning/språkkontakt/språktypologi flerspråkiga korpusar
17 korpusurval och -representativitet Clear ( Corpus sampling, 1992) och Biber ('Representativeness in corpus design', 1993) diskuterar representativitet i texturval för korpusar sampling för representativitet bestäm populationen (syftet viktigt!) bestäm samplingsprincip: proportionell stratifierad bestäm sampelstorlek och -mängd cyklisk, iterativ process (Biber)
18 vilken är 'populationen'? [1] samtal brev, etc. övr. skrivande Biber: språkproduktion vilken är 'populationen'? [2] uppläst tal samtal monolog tidskrifter böcker div. skrivet opubl. skrivet Clear: språkintag
19 stratumegenskaper genrer/register eller texttyper? genrer/register säger Biber (åtminstone i första iterationen; de är ju utomspråkligt definierade) stratumparametrar (Biber) modalitet/kanal format miljö mottagare avsändare faktualitet ändamål ämne
20 viktiga urvalstyper (Biber) publicerat skrivet språk (enligt kataloger) opublicerat skrivet språk: institutionellt/offentligt/privat talspråk: institutionellt/offentligt/privat uppläst (tal)språk: institutionellt/offentliga media/annat proportionalitetsproblem (ofta) hela den språkliga variationsvidden intressant, inte bara 'centrala' fenomen många variabler med olika distribution ( olika sampelstorlekar)
21 representativitet... beror således på vad man undersöker: högfrekventa språkdrag korta textsnuttar sällsynta språkdrag långa textsnuttar språkdragstyper följer Zipfs lag och kräver lagom långa textsnuttar men från många texttyper variation är att föredra framför längd
vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merKorpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
Läs merElementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merAtt undersöka språkmöten med datorn
Att undersöka språkmöten med datorn Lars Borin Vad är språkmöten och hur märker man av dem? Det som jag i rubriken syftar på med termen språkmöten studeras i språkvetenskapen under några olika rubriker;
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merKorpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs merSpråkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering
Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering Richard Johansson richard.johansson@svenska.gu.se 24 januari 2014 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering
Läs merKorpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter
ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs merMed Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi
Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 bakgrund och förutsättningar
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merKursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
Läs mer729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merKorpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,
Läs merKorpusmått, korpusbalans och korpusrepresentativitet
Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Läs merbakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO
bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Läs merASU-korpusen. Dess sy&e, uppbyggnad och särart. Björn Hammarberg Stockholms universitet, för
ASU-korpusen Dess sy&e, uppbyggnad och särart Björn Hammarberg Stockholms universitet, Ins@tu@onen för lingvis@k Swe-Clarin på turné, Stockholms universitet 2018-05-16 Vad är ASU-korpusen tänkt för? Dataresurs
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna
Läs merSpråkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?
Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Läs merTeoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
Läs mer729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merSpråkbanken under åren Verksamhet och budget. Reviderad version, 16 januari 2004
Språkbanken under åren 2004 2006. Verksamhet och budget. Reviderad version, 16 januari 2004 Här följer ett förslag till treårsbudget för Språkbanken avseende åren 2004 2006. Förslaget har författats av
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merIntroduktion till språkteknologi Föreläsning 2: Korpuslingvistik
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem
Läs merProjekt i språkteknologi Projektförslag Johanna Karlsson joka1954
Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merKort om Coxheads Academic Word List. Emma Sköldberg, maj 2011
Kort om Coxheads Academic Word List Emma Sköldberg, maj 2011 Två viktiga artiklar Coxhead, A. 2000: A New Academic Word List (TESOL Quarterly 34:2, 2000, 213-238). Coxhead, A. 2002: The Academic Word List:
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merKorpussökning och korpusmått 1(44)
Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44) Förra gången Korpustyper Korpusdistributörer
Läs merOn the role of corpora in cross-linguistic research, Stig Johansson (3-24)
Klas Prytz: Johansson, Stig och Signe Oksefjell. 1998. Corpora and Cross-linguistic Research. Stig Johansson, och Signe Oksefjell (red.). Rodopi: Amsterdam, Atlanta. Trots det myckna användandet av ordet
Läs merAnna-Lena Godhe. Sylvana Sofkova Hashemi. docent i utbildningsvetenskap. lektor i pedagogik. Institutionen för pedagogik kommunikation och lärande
Anna-Lena Godhe lektor i pedagogik Institutionen för pedagogik kommunikation och lärande Sylvana Sofkova Hashemi docent i utbildningsvetenskap Institutionen för didaktik och pedagogisk profession Rik och
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merInledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE
Språteknologi på SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE digital kompetens kring ordböcker, språkkontroller, korpusar och söktjänster! Följer teknikens påverkan på språk och språkanvändning! Bevakar språkteknisk
Läs merForskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Läs merFrån aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd
Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Håkan Jansson, Judy Ribeck & Emma Sköldberg Institutionen för svenska språket Göteborgs universitet NFL, Oslo 2013 En
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merb) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)
LINKÖPINGS TEKNISKA HÖGSKOLA Tekniska fakultetskansliet FÖRSLAG TILL PROGRAMNÄMND INFÖR ÅR NÄMND/NÄMNDER: Förslagsställare (Namn, funktion, Inst/Enhet) FÖRSLAGET GÄLLER: a) EXISTERANDE KURS (Ange kurskod
Läs merFR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)
Humanistisk fakultetsnämnd FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng (French: Intermediate course, 30 higher education Grundnivå (First cycle) 1. Fastställande Kursplanen är fastställd
Läs merKorpusar och deras användning
Korpusar och deras användning Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar och deras användning 1(39) Förra gången Studiet av språk
Läs merKorpusbaserad Maskinöversättning
Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merSvenskans digitala resurser. Elzbieta Strzelecka elzbieta.strzelecka@miun.se
Svenskans digitala resurser Elzbieta Strzelecka elzbieta.strzelecka@miun.se 1 Utbildning och underhållning språkkurser, interaktiva övningar, diagnostiska prov, kvantitativa mått, radio- och teveprogram,
Läs merProjektförslag. Datalingvistisk projektkurs VT mars 2007
Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett
Läs merSpråkbanken en (inter)nationell forskningsinfrastruktur
Språkbanken en (inter)nationell forskningsinfrastruktur 1 Språkbanken en (inter)nationell forskningsinfrastruktur Språkbanken som forskningsenhet Språkbanken inrättades 1975
Läs merKonventionaliserade fraser i en akademisk ordlista
Konventionaliserade fraser i en akademisk ordlista Forskning kring Academic Formulas List (AFL) Ellis, Simpson-Vlach & Maynard 2008 Simpson-Vlach & Ellis 2010 Julia Prentice, ISA, Julia.prentice@svenska.gu.se
Läs merINFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK
INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK ARBEITSTAGUNG DER SKANDINAVISTIK (ATDS) KIEL, 27-29 SEPTEMBER 2017 JULIA
Läs merSpråkteknologiprogrammet
Språkteknologiprogrammet Institutionen för lingvistik och filologi Uppsala universitet Beáta Bandmann Megyesi 1 Institutionen för lingvistik och filologi 3 grupper (1 januari 2004) 1. Klassiska språk 2.
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer
Läs merStöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum
Stöd för webbredaktörer att skapa mer tillgängliga texter Projektet har utvecklat Internet i Sverige Projektet var framgångsrikt Projektet nådde målen Projektet höll budgeten Projektet höll tidsplanen
Läs merÄr icke-sannolikhetsurval aldrig representativa?
Surveyföreningens webbpanelseminarium 2011-02-03 Är icke-sannolikhetsurval aldrig representativa? Jan Wretman Webbpanelkommittén 1 Det kommer att handla om: Begreppet representativitet. Bedömning av skattningars
Läs merNedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.
Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla
Läs merKorpusanalyser och Lab G09 Språkvetenskaplig databehandling
Korpusanalyser och Lab 4 729G09 Språkvetenskaplig databehandling 2014-05-21 Laborationens syfte Öva användningen av webbaserade korpusar och korpusverktyg frekvensberäkningar konkordanser kollokationsverktyg
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merKorpuslingvistik (SV2119) Föreläsning 3: Annotering
Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du
Läs merÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
Läs merFör universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/417 Allmän studieplan för licentiatexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 30 mars 2017.
Läs merInnehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?
Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins
Läs merUtbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits
Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande
Läs merHur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren
Hur man kan tillämpa Data Science och AI i säkerhetsarbetet Magnus Sahlgren FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merFör universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/663 Allmän studieplan för doktorsexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 17 november 2016.
Läs merAutomatisk extraktion av idiom ur text ANDREAS PETTERSSON
Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng
Läs merUNIVERSITETSRANKINGEN FRÅN QS 2013
UNIVERSITETSRANKINGEN FRÅN QS 2013 Resultat för Göteborgs universitet Magnus Gunnarsson Enheten för analys och utvärdering PM 2013:10 Diarienummer V 2013/698 GÖTEBORGS UNIVERSITET September 2013 Analys
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merUNIVERSITETSRANKNINGEN FRÅN QS 2015
UNIVERSITETSRANKNINGEN FRÅN QS 2015 Resultat för Göteborgs universitet Magnus MacHale-Gunnarsson Analys och utvärdering, Forsknings- och innovationskontoret PM 2015:03 Diarienummer V 2015/739 PM Introduktion
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merKort och gott Svenskt basordförråd. Katarina Mühlenbock, DART
Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast)
Läs merTDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Läs merSofie Johansson Kokkinakis
CLT Institutet för ISA - Svenska som Andraspråk IKT i lärarutbildningen Anknytning mellan IKT i forskning och undervisning Datorbaserad textanalys och ordförrådsbedömning. Sofie Johansson Kokkinakis sofie@svenska.gu.se
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merInlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Läs merKorp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016
Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.
Läs merBootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Läs merSpråkbanken. Årsrapport 2010
Språkbanken Årsrapport 2010 ÖVERSIKT I DENNA ÅRSRAPPORT redovisas merparten av de språkteknologiverksamheter som bedrivs vid institutionen för svenska språket. I vårt identitetsarbete för vi samman dessa
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merBibliometri & publiceringsstrategiska knep SOLD. Viktor Öman, bibliotekarie viktor.oman@mdh.se
Bibliometri & publiceringsstrategiska knep SOLD Viktor Öman, bibliotekarie viktor.oman@mdh.se Vad är bibliometri? Bibliometri är en uppsättning kvantitativa metoder som används för att mäta publikationer.
Läs merSPRÅKTEKNOLOGIPROGRAMMET
SPRÅKTEKNOLOGIPROGRAMMET Kandidatprogram, 3 år, 180 hp. Mats Dahllöf Institutionen för lingvistik och filologi Augusti 2012 1 Språkteknologer arbetar med... att utveckla, utvärdera och underhålla system
Läs merKorpuslingvistik (SV2119) Föreläsning 1
Korpuslingvistik (SV2119) Föreläsning 1 Richard Johansson richard.johansson@svenska.gu.se 6 september 2013 vad är korpusar och korpuslingvistik? korpus: en samling av datoriserad text korpuslingvistik:
Läs merKognitionsvetenskap Kandidatprogrammet
Kognitionsvetenskap Kandidatprogrammet Mattias Arvola Programansvarig 1 2 3 4 5 6 HUR TÄNKER FOLK EGENTLIGEN? 7 HUR TÄNKER FOLK EGENTLIGEN? VAD ÄR EN TANKE? HUR ÄR SPRÅK UPPBYGGT? VAD BETYDER BILDER? VAD
Läs merPerceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning
Läs mer