1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet
|
|
- Åke Sandström
- för 6 år sedan
- Visningar:
Transkript
1 1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade med ett syfte i åtanke, så, korpuslingvistik innebär: (för vilkets uppfyllande man utvecklar) (dator)verktyg
2 (stora) textsamlingar, 1 text = skriftspråk, talspråk (tal) typiskt miljoner ord: SUC (Stockholm Umeå Corpus) =1 miljon ord [skriftspråk] Språkbankens PAROLE-korpus =20 miljoner ord [skriftspråk] BNC (British National Corpus) =100 miljoner ord [skrift/talspråk] (stora) textsamlingar, 2 ett språk flera språk(former) parallella (översättningsrelation), t.ex. ETAP, PLUG, TELRI jämförbara, t.ex. Oslo Multilingual Corpus
3 sammanställda... korpussammanställning är precis som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen... och annoterade... strukturmärkning och textmetadata ordklass -taggning syntaxanalys ( trädbanker ) länkning (av parallellkorpusar) länkning (av modaliteter) dialogakter, m.m.
4 ... med ett syfte i åtanke korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vitt och vagt korpusarna kan ofta vara användbara för andra syften också det finns två korpuslingvistiktraditioner och två syftestyper så: varför korpuslingvistik? om inte den empiriskaste, så i alla fall mycket objektiv lingvistik enda sättet att undersöka frekvens (se N. Ellis, Frequency effects in lg processing, Studies in SLA 24 (2002): , + fler i samma nummer)
5 två sorters korpuslingvistik språkvetenskap språkteknologi olika bakgrund, syften, verktyg, sammanslutningar, konferenser, tidskrifter empirisk språkforskning (halv)automatisk extraktion av språklig kunskap för språkteknologiska tillämpningar språkvetenskap bakgrund: empirisk lingvistik syfte: traditionell språkforskning verktyg: konkordans/ordliste/- statistikprogram (för ordformer) konferenser: ICAME, ASLA, TALC tidskrifter: International J. of Corpus Linguistics Literary & Linguistic Computing Computers and the Humanities
6 språkteknologi bakgrund: datalogi, mat. lingvistik syfte: (induktiv) maskininlärning verktyg: taggare, parsrar, länkare konferenser: EMNLP, WVLC, CoNLL, COLING tidskrifter: Computational Linguistics J. Natural Language Engineering J. Machine Learning Research "So, a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration." (McEnery and Wilson 2001: 32)
7 korpustyper: parametrar modalitet: skrivet, talat, tal, tecknat, multimodal språktyp, genre, etc. språk: ett, två, många; relation mellan språken (parallell, jämförbar,...) storlek några korpusar/korpustyper, 1 SUC (allmänsvenskt skriftspråk): 500 texter om c:a 2000 ord 9 huvudgenrer, med undergenrer: K imaginative prose KK general fiction KL science fiction and mystery KN light reading KR humour
8 några korpusar/korpustyper, 2 Scania: teknisk text (bilverkstadsmanualer) flera miljoner ord, 8 språk, översättningar från svenska Skriven finsk romani: c:a ord en betydande del av den totala skrivna produktionen på finsk romani några korpusar/korpustyper, 3 inlärarkorpusar (inlärarspråk): ICLE (International Corpus of Learner English) ASU (Andraspråkets StrukturUtveckling) USE (Uppsala Student English corpus) SFI och SSM
9 några korpusar/korpustyper, 4 monitorkorpusar (växer hela tiden): Språkbanken, Bank of English, KTH News Corpus virtuella korpusar; två sorter: 1: bildas på begäran 2: består av länkar talkorpusar, multimodala korpusar några korpusar/korpustyper, 5 Trädbanker: Tal- och Skrivsyntax (Lund) SynTag (Göteborg) Penn Treebank (UPenn) ICE-GB (London) NEGRA (Saarbrücken) Prague Dependency Treebank
10 SUC, format 1 (original TEI) <s id=kl01-002> <w n=9>tror<ana><ps>vb<m>prs AKT<b>tro</w> <w n=10>dom<ana><ps>pn<m>utr/neu PLU DEF SUB/OBJ<b>dom</w> <w n=11>att<ana><ps>sn<b>att</w> <w n=12>han<ana><ps>pn<m>utr SIN DEF SUB<b>han</w> <w n=13>rusar<ana><ps>vb<m>prs AKT<b>rusa</w> <w n=14>dit<ana><ps>ab<b>dit</w> <w n=15>med<ana><ps>pp<b>med</w> <w n=16>mössan<ana><ps>nn<m>utr SIN DEF NOM<b>mössa</w> <w n=17>i<ana><ps>pp<b>i</w> <w n=18>näven<ana><ps>nn<m>utr SIN DEF NOM<b>näve</w> <w n=19>för<ana><ps>pp<b>för</w> <w n=20>att<ana><ps>ie<b>att</w> <w n=21>ta<ana><ps>vb<m>inf AKT<b>ta</w> <w n=22>sitt<ana><ps>ps<m>neu SIN DEF<b>sin</w> <w n=23>straff<ana><ps>nn<m>neu SIN IND NOM<b>straff</w> <d n=24>?<ana><ps>mad<b>?</d> </s> SUC, format 2 (PAROLE-taggar) <s id=kl01-002> <w lem='tro' msd='v@ipas' n=9>tror</w> <w lem='dom' msd='pf@0p0@s' n=10>dom</w> <w lem='att' msd='css' n=11>att</w> <w lem='han' msd='pf@uss@s' n=12>han</w> <w lem='rusa' msd='v@ipas' n=13>rusar</w> <w lem='dit' msd='rg0s' n=14>dit</w> <w lem='med' msd='sps' n=15>med</w> <w lem='mössa' msd='ncusn@ds' n=16>mössan</w> <w lem='i' msd='sps' n=17>i</w> <w lem='näve' msd='ncusn@ds' n=18>näven</w> <w lem='för' msd='sps' n=19>för</w> <w lem='att' msd='cis' n=20>att</w> <w lem='ta' msd='v@n0as' n=21>ta</w> <w lem='sin' msd='ps@ns0@s' n=22>sitt</w> <w lem='straff' msd='ncnsn@is' n=23>straff</w> <c lem='?' msd='fe' n=24>?</c> </s>
11 Skrivsyntax, bruksprosa P TX TX 000 P ST ST 000 P << GM 001 P *PSYKOLOGERNA NNDDHH SS 001 P UTARBETAR VVPSSM FV 001 P ALLT POKP OODT 001 P FLER ID OODT 001 P FÖRFINADE TP PAOOAT 001 P TEST NN OO 001 P FÖR PR AAPR 001 P IF AA 001 P ATT IM IM 001 P FÅ FVIV IV 001 P RÄTT POSU OODT 001 P MAN NN HH OO 001 P PLACERAD TP PAOP 001 P PÅ PR RAPR 001 P RÄTT POSU RADT 001 P PLATS NN RA 001 P I PR RAETPR 001 P PRODUKTIONEN VNDD RAET 001 P IP IP 001 lingvistisk korpuslingvistik vilka problem vill man lösa? lexikografiska/lexikologiska språkbeskrivning för människor pedagogiska överhuvudtaget är korpusar en alternativ datakälla för traditionella språkvetenskapliga undersökningar
12 korpusverktyg konkordans-/ordliste-/statistik- /kollokationsprogram (WordSmith Tools, System Quirk) arbetsbänkar (IMS Corpus Workbench, SARA, [GATE,] etc.) taggare och taggargeneratorer (Brill, WinBrill, µtbl, TnT, etc.) meningslänkare (för parallellkorpusar) dessutom: robusta parsrar CG Constraint Grammar /Lingsoft/, FDG Functional Dependency Grammar /Conexor/, chunking, etc. ordlänkare för översättningslexikonextraktion ; UWA - Uppsala Word Aligner, LWA - Linköping Word Aligner
13 länkning av parallelltext Number of matches: 1482 # id2 xid2 xid3 (1) Vaagos sas Lau, ta Lau sas Deevelesko neere, ta Lau sas Deevel. [I början var Ordet, och Ordet var hos Gud, och Ordet var Gud.] (2) Alussa oli Sana. (2) Sana oli Jumalan luona, ja Sana oli Jumala. # id3 xid4 (1) Jou sas vaagos Deevelesko neere. [Det var först hos Gud.] (2) Jo alussa Sana oli Jumalan luona. [Länkad med UWA, utvecklat av Jörg Tiedemann, Inst. för lingvistik, UU]
14 två sorter: korpusarbetsbänkar korpuscentrerade (IMS CWB; System Quirk; SARA) språkteknologicentrerade (GATE och kopior)
15 korpussöksystem (med visualisering) (ingår i arbetsbänkar, men också specialiserade, t.ex.:) Språkbanken (webbaserad) ICECUP, TIGER (för trädbanker) GSearch (syntaktisk analys av ordklasstaggade korpusar) webcorp m.fl. (WWW-konkordanser) korpusstatistik unigramstatistik (textord, lemman, ordklasstaggar, etc.) type-token-statistik (lömsk!) samförekomststatistik statistiskt signifikanta likheter och skillnader mellan korpusar (Kilgarriff)
16 1.2: korpusuppbyggnad: urval och sammansättning korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 korpusurvalet styrs av syftet undersökning av (eller undervisning om/i): allmänspråk stora balanserade korpusar genre/delspråk ( sublanguage ) små (specialiserade) korpusar inlärarspråk inlärarkorpusar (och flerspråkiga korpusar) översättning/språkkontakt/språktypologi flerspråkiga korpusar
17 korpusurval och -representativitet Clear ( Corpus sampling, 1992) och Biber ('Representativeness in corpus design', 1993) diskuterar representativitet i texturval för korpusar sampling för representativitet bestäm populationen (syftet viktigt!) bestäm samplingsprincip: proportionell stratifierad bestäm sampelstorlek och -mängd cyklisk, iterativ process (Biber)
18 vilken är 'populationen'? [1] samtal brev, etc. övr. skrivande Biber: språkproduktion vilken är 'populationen'? [2] uppläst tal samtal monolog tidskrifter böcker div. skrivet opubl. skrivet Clear: språkintag
19 stratumegenskaper genrer/register eller texttyper? genrer/register säger Biber (åtminstone i första iterationen; de är ju utomspråkligt definierade) stratumparametrar (Biber) modalitet/kanal format miljö mottagare avsändare faktualitet ändamål ämne
20 viktiga urvalstyper (Biber) publicerat skrivet språk (enligt kataloger) opublicerat skrivet språk: institutionellt/offentligt/privat talspråk: institutionellt/offentligt/privat uppläst (tal)språk: institutionellt/offentliga media/annat proportionalitetsproblem (ofta) hela den språkliga variationsvidden intressant, inte bara 'centrala' fenomen många variabler med olika distribution ( olika sampelstorlekar)
21 representativitet... beror således på vad man undersöker: högfrekventa språkdrag korta textsnuttar sällsynta språkdrag långa textsnuttar språkdragstyper följer Zipfs lag och kräver lagom långa textsnuttar men från många texttyper variation är att föredra framför längd
vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
Elementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Språk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Att undersöka språkmöten med datorn
Att undersöka språkmöten med datorn Lars Borin Vad är språkmöten och hur märker man av dem? Det som jag i rubriken syftar på med termen språkmöten studeras i språkvetenskapen under några olika rubriker;
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Datorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering
Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering Richard Johansson richard.johansson@svenska.gu.se 24 januari 2014 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering
Korpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter
ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning
Datorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi
Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 bakgrund och förutsättningar
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Meningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,
Korpusmått, korpusbalans och korpusrepresentativitet
Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO
bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
ASU-korpusen. Dess sy&e, uppbyggnad och särart. Björn Hammarberg Stockholms universitet, för
ASU-korpusen Dess sy&e, uppbyggnad och särart Björn Hammarberg Stockholms universitet, Ins@tu@onen för lingvis@k Swe-Clarin på turné, Stockholms universitet 2018-05-16 Vad är ASU-korpusen tänkt för? Dataresurs
Språk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna
Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?
Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första
Språk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Teoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Språkbanken under åren Verksamhet och budget. Reviderad version, 16 januari 2004
Språkbanken under åren 2004 2006. Verksamhet och budget. Reviderad version, 16 januari 2004 Här följer ett förslag till treårsbudget för Språkbanken avseende åren 2004 2006. Förslaget har författats av
Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem
Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954
Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Språk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011
Kort om Coxheads Academic Word List Emma Sköldberg, maj 2011 Två viktiga artiklar Coxhead, A. 2000: A New Academic Word List (TESOL Quarterly 34:2, 2000, 213-238). Coxhead, A. 2002: The Academic Word List:
Tekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Korpussökning och korpusmått 1(44)
Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44) Förra gången Korpustyper Korpusdistributörer
On the role of corpora in cross-linguistic research, Stig Johansson (3-24)
Klas Prytz: Johansson, Stig och Signe Oksefjell. 1998. Corpora and Cross-linguistic Research. Stig Johansson, och Signe Oksefjell (red.). Rodopi: Amsterdam, Atlanta. Trots det myckna användandet av ordet
Anna-Lena Godhe. Sylvana Sofkova Hashemi. docent i utbildningsvetenskap. lektor i pedagogik. Institutionen för pedagogik kommunikation och lärande
Anna-Lena Godhe lektor i pedagogik Institutionen för pedagogik kommunikation och lärande Sylvana Sofkova Hashemi docent i utbildningsvetenskap Institutionen för didaktik och pedagogisk profession Rik och
Lingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE
Språteknologi på SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE digital kompetens kring ordböcker, språkkontroller, korpusar och söktjänster! Följer teknikens påverkan på språk och språkanvändning! Bevakar språkteknisk
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd
Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Håkan Jansson, Judy Ribeck & Emma Sköldberg Institutionen för svenska språket Göteborgs universitet NFL, Oslo 2013 En
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)
LINKÖPINGS TEKNISKA HÖGSKOLA Tekniska fakultetskansliet FÖRSLAG TILL PROGRAMNÄMND INFÖR ÅR NÄMND/NÄMNDER: Förslagsställare (Namn, funktion, Inst/Enhet) FÖRSLAGET GÄLLER: a) EXISTERANDE KURS (Ange kurskod
FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)
Humanistisk fakultetsnämnd FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng (French: Intermediate course, 30 higher education Grundnivå (First cycle) 1. Fastställande Kursplanen är fastställd
Korpusar och deras användning
Korpusar och deras användning Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar och deras användning 1(39) Förra gången Studiet av språk
Korpusbaserad Maskinöversättning
Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Svenskans digitala resurser. Elzbieta Strzelecka elzbieta.strzelecka@miun.se
Svenskans digitala resurser Elzbieta Strzelecka elzbieta.strzelecka@miun.se 1 Utbildning och underhållning språkkurser, interaktiva övningar, diagnostiska prov, kvantitativa mått, radio- och teveprogram,
Projektförslag. Datalingvistisk projektkurs VT mars 2007
Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett
Språkbanken en (inter)nationell forskningsinfrastruktur
Språkbanken en (inter)nationell forskningsinfrastruktur 1 Språkbanken en (inter)nationell forskningsinfrastruktur Språkbanken som forskningsenhet Språkbanken inrättades 1975
Konventionaliserade fraser i en akademisk ordlista
Konventionaliserade fraser i en akademisk ordlista Forskning kring Academic Formulas List (AFL) Ellis, Simpson-Vlach & Maynard 2008 Simpson-Vlach & Ellis 2010 Julia Prentice, ISA, Julia.prentice@svenska.gu.se
INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK
INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK ARBEITSTAGUNG DER SKANDINAVISTIK (ATDS) KIEL, 27-29 SEPTEMBER 2017 JULIA
Språkteknologiprogrammet
Språkteknologiprogrammet Institutionen för lingvistik och filologi Uppsala universitet Beáta Bandmann Megyesi 1 Institutionen för lingvistik och filologi 3 grupper (1 januari 2004) 1. Klassiska språk 2.
Språk, datorer och textbehandling
Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer
Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum
Stöd för webbredaktörer att skapa mer tillgängliga texter Projektet har utvecklat Internet i Sverige Projektet var framgångsrikt Projektet nådde målen Projektet höll budgeten Projektet höll tidsplanen
Är icke-sannolikhetsurval aldrig representativa?
Surveyföreningens webbpanelseminarium 2011-02-03 Är icke-sannolikhetsurval aldrig representativa? Jan Wretman Webbpanelkommittén 1 Det kommer att handla om: Begreppet representativitet. Bedömning av skattningars
Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.
Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla
Korpusanalyser och Lab G09 Språkvetenskaplig databehandling
Korpusanalyser och Lab 4 729G09 Språkvetenskaplig databehandling 2014-05-21 Laborationens syfte Öva användningen av webbaserade korpusar och korpusverktyg frekvensberäkningar konkordanser kollokationsverktyg
Word- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Korpuslingvistik (SV2119) Föreläsning 3: Annotering
Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du
ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/417 Allmän studieplan för licentiatexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 30 mars 2017.
Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?
Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins
Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits
Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande
Hur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren
Hur man kan tillämpa Data Science och AI i säkerhetsarbetet Magnus Sahlgren FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare
Grammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/663 Allmän studieplan för doktorsexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 17 november 2016.
Automatisk extraktion av idiom ur text ANDREAS PETTERSSON
Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng
UNIVERSITETSRANKINGEN FRÅN QS 2013
UNIVERSITETSRANKINGEN FRÅN QS 2013 Resultat för Göteborgs universitet Magnus Gunnarsson Enheten för analys och utvärdering PM 2013:10 Diarienummer V 2013/698 GÖTEBORGS UNIVERSITET September 2013 Analys
Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
UNIVERSITETSRANKNINGEN FRÅN QS 2015
UNIVERSITETSRANKNINGEN FRÅN QS 2015 Resultat för Göteborgs universitet Magnus MacHale-Gunnarsson Analys och utvärdering, Forsknings- och innovationskontoret PM 2015:03 Diarienummer V 2015/739 PM Introduktion
Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART
Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast)
TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Sofie Johansson Kokkinakis
CLT Institutet för ISA - Svenska som Andraspråk IKT i lärarutbildningen Anknytning mellan IKT i forskning och undervisning Datorbaserad textanalys och ordförrådsbedömning. Sofie Johansson Kokkinakis sofie@svenska.gu.se
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Inlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016
Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.
Bootstrapping för substantivtaggning
Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas
Språkbanken. Årsrapport 2010
Språkbanken Årsrapport 2010 ÖVERSIKT I DENNA ÅRSRAPPORT redovisas merparten av de språkteknologiverksamheter som bedrivs vid institutionen för svenska språket. I vårt identitetsarbete för vi samman dessa
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Bibliometri & publiceringsstrategiska knep SOLD. Viktor Öman, bibliotekarie viktor.oman@mdh.se
Bibliometri & publiceringsstrategiska knep SOLD Viktor Öman, bibliotekarie viktor.oman@mdh.se Vad är bibliometri? Bibliometri är en uppsättning kvantitativa metoder som används för att mäta publikationer.
SPRÅKTEKNOLOGIPROGRAMMET
SPRÅKTEKNOLOGIPROGRAMMET Kandidatprogram, 3 år, 180 hp. Mats Dahllöf Institutionen för lingvistik och filologi Augusti 2012 1 Språkteknologer arbetar med... att utveckla, utvärdera och underhålla system
Korpuslingvistik (SV2119) Föreläsning 1
Korpuslingvistik (SV2119) Föreläsning 1 Richard Johansson richard.johansson@svenska.gu.se 6 september 2013 vad är korpusar och korpuslingvistik? korpus: en samling av datoriserad text korpuslingvistik:
Kognitionsvetenskap Kandidatprogrammet
Kognitionsvetenskap Kandidatprogrammet Mattias Arvola Programansvarig 1 2 3 4 5 6 HUR TÄNKER FOLK EGENTLIGEN? 7 HUR TÄNKER FOLK EGENTLIGEN? VAD ÄR EN TANKE? HUR ÄR SPRÅK UPPBYGGT? VAD BETYDER BILDER? VAD
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens
Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning