1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet

Storlek: px
Starta visningen från sidan:

Download "1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet"

Transkript

1 1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade med ett syfte i åtanke, så, korpuslingvistik innebär: (för vilkets uppfyllande man utvecklar) (dator)verktyg

2 (stora) textsamlingar, 1 text = skriftspråk, talspråk (tal) typiskt miljoner ord: SUC (Stockholm Umeå Corpus) =1 miljon ord [skriftspråk] Språkbankens PAROLE-korpus =20 miljoner ord [skriftspråk] BNC (British National Corpus) =100 miljoner ord [skrift/talspråk] (stora) textsamlingar, 2 ett språk flera språk(former) parallella (översättningsrelation), t.ex. ETAP, PLUG, TELRI jämförbara, t.ex. Oslo Multilingual Corpus

3 sammanställda... korpussammanställning är precis som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldefinierad population för att kunna ställa frågor och få svar som ger (statistiskt) signifikant information om populationen... och annoterade... strukturmärkning och textmetadata ordklass -taggning syntaxanalys ( trädbanker ) länkning (av parallellkorpusar) länkning (av modaliteter) dialogakter, m.m.

4 ... med ett syfte i åtanke korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vitt och vagt korpusarna kan ofta vara användbara för andra syften också det finns två korpuslingvistiktraditioner och två syftestyper så: varför korpuslingvistik? om inte den empiriskaste, så i alla fall mycket objektiv lingvistik enda sättet att undersöka frekvens (se N. Ellis, Frequency effects in lg processing, Studies in SLA 24 (2002): , + fler i samma nummer)

5 två sorters korpuslingvistik språkvetenskap språkteknologi olika bakgrund, syften, verktyg, sammanslutningar, konferenser, tidskrifter empirisk språkforskning (halv)automatisk extraktion av språklig kunskap för språkteknologiska tillämpningar språkvetenskap bakgrund: empirisk lingvistik syfte: traditionell språkforskning verktyg: konkordans/ordliste/- statistikprogram (för ordformer) konferenser: ICAME, ASLA, TALC tidskrifter: International J. of Corpus Linguistics Literary & Linguistic Computing Computers and the Humanities

6 språkteknologi bakgrund: datalogi, mat. lingvistik syfte: (induktiv) maskininlärning verktyg: taggare, parsrar, länkare konferenser: EMNLP, WVLC, CoNLL, COLING tidskrifter: Computational Linguistics J. Natural Language Engineering J. Machine Learning Research "So, a corpus in modern linguistics, in contrast to being simply any body of text, might more accurately be described as a finite-sized body of machine-readable text, sampled in order to be maximally representative of the language variety under consideration." (McEnery and Wilson 2001: 32)

7 korpustyper: parametrar modalitet: skrivet, talat, tal, tecknat, multimodal språktyp, genre, etc. språk: ett, två, många; relation mellan språken (parallell, jämförbar,...) storlek några korpusar/korpustyper, 1 SUC (allmänsvenskt skriftspråk): 500 texter om c:a 2000 ord 9 huvudgenrer, med undergenrer: K imaginative prose KK general fiction KL science fiction and mystery KN light reading KR humour

8 några korpusar/korpustyper, 2 Scania: teknisk text (bilverkstadsmanualer) flera miljoner ord, 8 språk, översättningar från svenska Skriven finsk romani: c:a ord en betydande del av den totala skrivna produktionen på finsk romani några korpusar/korpustyper, 3 inlärarkorpusar (inlärarspråk): ICLE (International Corpus of Learner English) ASU (Andraspråkets StrukturUtveckling) USE (Uppsala Student English corpus) SFI och SSM

9 några korpusar/korpustyper, 4 monitorkorpusar (växer hela tiden): Språkbanken, Bank of English, KTH News Corpus virtuella korpusar; två sorter: 1: bildas på begäran 2: består av länkar talkorpusar, multimodala korpusar några korpusar/korpustyper, 5 Trädbanker: Tal- och Skrivsyntax (Lund) SynTag (Göteborg) Penn Treebank (UPenn) ICE-GB (London) NEGRA (Saarbrücken) Prague Dependency Treebank

10 SUC, format 1 (original TEI) <s id=kl01-002> <w n=9>tror<ana><ps>vb<m>prs AKT<b>tro</w> <w n=10>dom<ana><ps>pn<m>utr/neu PLU DEF SUB/OBJ<b>dom</w> <w n=11>att<ana><ps>sn<b>att</w> <w n=12>han<ana><ps>pn<m>utr SIN DEF SUB<b>han</w> <w n=13>rusar<ana><ps>vb<m>prs AKT<b>rusa</w> <w n=14>dit<ana><ps>ab<b>dit</w> <w n=15>med<ana><ps>pp<b>med</w> <w n=16>mössan<ana><ps>nn<m>utr SIN DEF NOM<b>mössa</w> <w n=17>i<ana><ps>pp<b>i</w> <w n=18>näven<ana><ps>nn<m>utr SIN DEF NOM<b>näve</w> <w n=19>för<ana><ps>pp<b>för</w> <w n=20>att<ana><ps>ie<b>att</w> <w n=21>ta<ana><ps>vb<m>inf AKT<b>ta</w> <w n=22>sitt<ana><ps>ps<m>neu SIN DEF<b>sin</w> <w n=23>straff<ana><ps>nn<m>neu SIN IND NOM<b>straff</w> <d n=24>?<ana><ps>mad<b>?</d> </s> SUC, format 2 (PAROLE-taggar) <s id=kl01-002> <w lem='tro' msd='v@ipas' n=9>tror</w> <w lem='dom' msd='pf@0p0@s' n=10>dom</w> <w lem='att' msd='css' n=11>att</w> <w lem='han' msd='pf@uss@s' n=12>han</w> <w lem='rusa' msd='v@ipas' n=13>rusar</w> <w lem='dit' msd='rg0s' n=14>dit</w> <w lem='med' msd='sps' n=15>med</w> <w lem='mössa' msd='ncusn@ds' n=16>mössan</w> <w lem='i' msd='sps' n=17>i</w> <w lem='näve' msd='ncusn@ds' n=18>näven</w> <w lem='för' msd='sps' n=19>för</w> <w lem='att' msd='cis' n=20>att</w> <w lem='ta' msd='v@n0as' n=21>ta</w> <w lem='sin' msd='ps@ns0@s' n=22>sitt</w> <w lem='straff' msd='ncnsn@is' n=23>straff</w> <c lem='?' msd='fe' n=24>?</c> </s>

11 Skrivsyntax, bruksprosa P TX TX 000 P ST ST 000 P << GM 001 P *PSYKOLOGERNA NNDDHH SS 001 P UTARBETAR VVPSSM FV 001 P ALLT POKP OODT 001 P FLER ID OODT 001 P FÖRFINADE TP PAOOAT 001 P TEST NN OO 001 P FÖR PR AAPR 001 P IF AA 001 P ATT IM IM 001 P FÅ FVIV IV 001 P RÄTT POSU OODT 001 P MAN NN HH OO 001 P PLACERAD TP PAOP 001 P PÅ PR RAPR 001 P RÄTT POSU RADT 001 P PLATS NN RA 001 P I PR RAETPR 001 P PRODUKTIONEN VNDD RAET 001 P IP IP 001 lingvistisk korpuslingvistik vilka problem vill man lösa? lexikografiska/lexikologiska språkbeskrivning för människor pedagogiska överhuvudtaget är korpusar en alternativ datakälla för traditionella språkvetenskapliga undersökningar

12 korpusverktyg konkordans-/ordliste-/statistik- /kollokationsprogram (WordSmith Tools, System Quirk) arbetsbänkar (IMS Corpus Workbench, SARA, [GATE,] etc.) taggare och taggargeneratorer (Brill, WinBrill, µtbl, TnT, etc.) meningslänkare (för parallellkorpusar) dessutom: robusta parsrar CG Constraint Grammar /Lingsoft/, FDG Functional Dependency Grammar /Conexor/, chunking, etc. ordlänkare för översättningslexikonextraktion ; UWA - Uppsala Word Aligner, LWA - Linköping Word Aligner

13 länkning av parallelltext Number of matches: 1482 # id2 xid2 xid3 (1) Vaagos sas Lau, ta Lau sas Deevelesko neere, ta Lau sas Deevel. [I början var Ordet, och Ordet var hos Gud, och Ordet var Gud.] (2) Alussa oli Sana. (2) Sana oli Jumalan luona, ja Sana oli Jumala. # id3 xid4 (1) Jou sas vaagos Deevelesko neere. [Det var först hos Gud.] (2) Jo alussa Sana oli Jumalan luona. [Länkad med UWA, utvecklat av Jörg Tiedemann, Inst. för lingvistik, UU]

14 två sorter: korpusarbetsbänkar korpuscentrerade (IMS CWB; System Quirk; SARA) språkteknologicentrerade (GATE och kopior)

15 korpussöksystem (med visualisering) (ingår i arbetsbänkar, men också specialiserade, t.ex.:) Språkbanken (webbaserad) ICECUP, TIGER (för trädbanker) GSearch (syntaktisk analys av ordklasstaggade korpusar) webcorp m.fl. (WWW-konkordanser) korpusstatistik unigramstatistik (textord, lemman, ordklasstaggar, etc.) type-token-statistik (lömsk!) samförekomststatistik statistiskt signifikanta likheter och skillnader mellan korpusar (Kilgarriff)

16 1.2: korpusuppbyggnad: urval och sammansättning korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT 2004 korpusurvalet styrs av syftet undersökning av (eller undervisning om/i): allmänspråk stora balanserade korpusar genre/delspråk ( sublanguage ) små (specialiserade) korpusar inlärarspråk inlärarkorpusar (och flerspråkiga korpusar) översättning/språkkontakt/språktypologi flerspråkiga korpusar

17 korpusurval och -representativitet Clear ( Corpus sampling, 1992) och Biber ('Representativeness in corpus design', 1993) diskuterar representativitet i texturval för korpusar sampling för representativitet bestäm populationen (syftet viktigt!) bestäm samplingsprincip: proportionell stratifierad bestäm sampelstorlek och -mängd cyklisk, iterativ process (Biber)

18 vilken är 'populationen'? [1] samtal brev, etc. övr. skrivande Biber: språkproduktion vilken är 'populationen'? [2] uppläst tal samtal monolog tidskrifter böcker div. skrivet opubl. skrivet Clear: språkintag

19 stratumegenskaper genrer/register eller texttyper? genrer/register säger Biber (åtminstone i första iterationen; de är ju utomspråkligt definierade) stratumparametrar (Biber) modalitet/kanal format miljö mottagare avsändare faktualitet ändamål ämne

20 viktiga urvalstyper (Biber) publicerat skrivet språk (enligt kataloger) opublicerat skrivet språk: institutionellt/offentligt/privat talspråk: institutionellt/offentligt/privat uppläst (tal)språk: institutionellt/offentliga media/annat proportionalitetsproblem (ofta) hela den språkliga variationsvidden intressant, inte bara 'centrala' fenomen många variabler med olika distribution ( olika sampelstorlekar)

21 representativitet... beror således på vad man undersöker: högfrekventa språkdrag korta textsnuttar sällsynta språkdrag långa textsnuttar språkdragstyper följer Zipfs lag och kräver lagom långa textsnuttar men från många texttyper variation är att föredra framför längd

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:

vad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär: 1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade

Läs mer

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet

Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar

Läs mer

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)

Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41) Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.

Läs mer

Elementära verktyg för korpusbearbetning

Elementära verktyg för korpusbearbetning Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla

Läs mer

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31) Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering

Läs mer

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik? Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet

Läs mer

Att undersöka språkmöten med datorn

Att undersöka språkmöten med datorn Att undersöka språkmöten med datorn Lars Borin Vad är språkmöten och hur märker man av dem? Det som jag i rubriken syftar på med termen språkmöten studeras i språkvetenskapen under några olika rubriker;

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens

Läs mer

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering

Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering Richard Johansson richard.johansson@svenska.gu.se 24 januari 2014 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering

Läs mer

Korpusuppbyggnad Från textsamling till korpus

Korpusuppbyggnad Från textsamling till korpus Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)

Läs mer

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter

ETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning

Läs mer

Datorbaserade verktyg i humanistisk forskning

Datorbaserade verktyg i humanistisk forskning Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt

Läs mer

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur

Läs mer

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi

Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 bakgrund och förutsättningar

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Meningssegmentering i SUC och Talbanken

Meningssegmentering i SUC och Talbanken Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se

Läs mer

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)

Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019) 729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi

Läs mer

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och

Läs mer

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,

Läs mer

Korpusmått, korpusbalans och korpusrepresentativitet

Korpusmått, korpusbalans och korpusrepresentativitet Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:

Läs mer

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO

bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

729G09 Språkvetenskaplig databehandling

729G09 Språkvetenskaplig databehandling 729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik

Läs mer

ASU-korpusen. Dess sy&e, uppbyggnad och särart. Björn Hammarberg Stockholms universitet, för

ASU-korpusen. Dess sy&e, uppbyggnad och särart. Björn Hammarberg Stockholms universitet, för ASU-korpusen Dess sy&e, uppbyggnad och särart Björn Hammarberg Stockholms universitet, Ins@tu@onen för lingvis@k Swe-Clarin på turné, Stockholms universitet 2018-05-16 Vad är ASU-korpusen tänkt för? Dataresurs

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna

Läs mer

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad? Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och

Läs mer

Språkbanken under åren Verksamhet och budget. Reviderad version, 16 januari 2004

Språkbanken under åren Verksamhet och budget. Reviderad version, 16 januari 2004 Språkbanken under åren 2004 2006. Verksamhet och budget. Reviderad version, 16 januari 2004 Här följer ett förslag till treårsbudget för Språkbanken avseende åren 2004 2006. Förslaget har författats av

Läs mer

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se

Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik

Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem

Läs mer

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954

Projekt i språkteknologi Projektförslag Johanna Karlsson joka1954 Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i

Läs mer

Lingvistiskt uppmärkt text

Lingvistiskt uppmärkt text 729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi

Läs mer

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011

Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011 Kort om Coxheads Academic Word List Emma Sköldberg, maj 2011 Två viktiga artiklar Coxhead, A. 2000: A New Academic Word List (TESOL Quarterly 34:2, 2000, 213-238). Coxhead, A. 2002: The Academic Word List:

Läs mer

Tekniker för storskalig parsning: Grundbegrepp

Tekniker för storskalig parsning: Grundbegrepp Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)

Läs mer

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck

Läs mer

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Korpussökning och korpusmått 1(44)

Korpussökning och korpusmått 1(44) Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44) Förra gången Korpustyper Korpusdistributörer

Läs mer

On the role of corpora in cross-linguistic research, Stig Johansson (3-24)

On the role of corpora in cross-linguistic research, Stig Johansson (3-24) Klas Prytz: Johansson, Stig och Signe Oksefjell. 1998. Corpora and Cross-linguistic Research. Stig Johansson, och Signe Oksefjell (red.). Rodopi: Amsterdam, Atlanta. Trots det myckna användandet av ordet

Läs mer

Anna-Lena Godhe. Sylvana Sofkova Hashemi. docent i utbildningsvetenskap. lektor i pedagogik. Institutionen för pedagogik kommunikation och lärande

Anna-Lena Godhe. Sylvana Sofkova Hashemi. docent i utbildningsvetenskap. lektor i pedagogik. Institutionen för pedagogik kommunikation och lärande Anna-Lena Godhe lektor i pedagogik Institutionen för pedagogik kommunikation och lärande Sylvana Sofkova Hashemi docent i utbildningsvetenskap Institutionen för didaktik och pedagogisk profession Rik och

Läs mer

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:

Läs mer

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE Språteknologi på SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE digital kompetens kring ordböcker, språkkontroller, korpusar och söktjänster! Följer teknikens påverkan på språk och språkanvändning! Bevakar språkteknisk

Läs mer

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA

Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk

Läs mer

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd Håkan Jansson, Judy Ribeck & Emma Sköldberg Institutionen för svenska språket Göteborgs universitet NFL, Oslo 2013 En

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.)

b) NY KURS (Ange kursnamn, årskurs, önskad läsperiod, schemablocksplacering. Bifoga utkast till kursplan.) LINKÖPINGS TEKNISKA HÖGSKOLA Tekniska fakultetskansliet FÖRSLAG TILL PROGRAMNÄMND INFÖR ÅR NÄMND/NÄMNDER: Förslagsställare (Namn, funktion, Inst/Enhet) FÖRSLAGET GÄLLER: a) EXISTERANDE KURS (Ange kurskod

Läs mer

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits)

FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng. (French: Intermediate course, 30 higher education credits) Humanistisk fakultetsnämnd FR1201, Franska: Fortsättningskurs på distans, 30 högskolepoäng (French: Intermediate course, 30 higher education Grundnivå (First cycle) 1. Fastställande Kursplanen är fastställd

Läs mer

Korpusar och deras användning

Korpusar och deras användning Korpusar och deras användning Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar och deras användning 1(39) Förra gången Studiet av språk

Läs mer

Korpusbaserad Maskinöversättning

Korpusbaserad Maskinöversättning Linköpings Universitet Institutionen för Datavetenskap Artificiell Intelligens, HKGBB0, HT 2002 Korpusbaserad Maskinöversättning Anna Hillertz KogVet 3, fack14 annhi662@student.liu.se 1 Innehållsförteckning

Läs mer

Korpuslingvistik vt 2007

Korpuslingvistik vt 2007 Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk

Läs mer

Svenskans digitala resurser. Elzbieta Strzelecka elzbieta.strzelecka@miun.se

Svenskans digitala resurser. Elzbieta Strzelecka elzbieta.strzelecka@miun.se Svenskans digitala resurser Elzbieta Strzelecka elzbieta.strzelecka@miun.se 1 Utbildning och underhållning språkkurser, interaktiva övningar, diagnostiska prov, kvantitativa mått, radio- och teveprogram,

Läs mer

Projektförslag. Datalingvistisk projektkurs VT mars 2007

Projektförslag. Datalingvistisk projektkurs VT mars 2007 Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett

Läs mer

Språkbanken en (inter)nationell forskningsinfrastruktur

Språkbanken en (inter)nationell forskningsinfrastruktur Språkbanken en (inter)nationell forskningsinfrastruktur 1 Språkbanken en (inter)nationell forskningsinfrastruktur Språkbanken som forskningsenhet Språkbanken inrättades 1975

Läs mer

Konventionaliserade fraser i en akademisk ordlista

Konventionaliserade fraser i en akademisk ordlista Konventionaliserade fraser i en akademisk ordlista Forskning kring Academic Formulas List (AFL) Ellis, Simpson-Vlach & Maynard 2008 Simpson-Vlach & Ellis 2010 Julia Prentice, ISA, Julia.prentice@svenska.gu.se

Läs mer

INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK

INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK ARBEITSTAGUNG DER SKANDINAVISTIK (ATDS) KIEL, 27-29 SEPTEMBER 2017 JULIA

Läs mer

Språkteknologiprogrammet

Språkteknologiprogrammet Språkteknologiprogrammet Institutionen för lingvistik och filologi Uppsala universitet Beáta Bandmann Megyesi 1 Institutionen för lingvistik och filologi 3 grupper (1 januari 2004) 1. Klassiska språk 2.

Läs mer

Språk, datorer och textbehandling

Språk, datorer och textbehandling Språk, datorer och textbehandling Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt Sökmotorer

Läs mer

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum

Stöd för webbredaktörer att skapa mer tillgängliga texter. Projektets slutdatum Stöd för webbredaktörer att skapa mer tillgängliga texter Projektet har utvecklat Internet i Sverige Projektet var framgångsrikt Projektet nådde målen Projektet höll budgeten Projektet höll tidsplanen

Läs mer

Är icke-sannolikhetsurval aldrig representativa?

Är icke-sannolikhetsurval aldrig representativa? Surveyföreningens webbpanelseminarium 2011-02-03 Är icke-sannolikhetsurval aldrig representativa? Jan Wretman Webbpanelkommittén 1 Det kommer att handla om: Begreppet representativitet. Bedömning av skattningars

Läs mer

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan. Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla

Läs mer

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling

Korpusanalyser och Lab G09 Språkvetenskaplig databehandling Korpusanalyser och Lab 4 729G09 Språkvetenskaplig databehandling 2014-05-21 Laborationens syfte Öva användningen av webbaserade korpusar och korpusverktyg frekvensberäkningar konkordanser kollokationsverktyg

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer

Korpuslingvistik (SV2119) Föreläsning 3: Annotering

Korpuslingvistik (SV2119) Föreläsning 3: Annotering Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du

Läs mer

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Humanistiska och teologiska fakulteterna ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning

Läs mer

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna. HUMANISTISKA FAKULTETEN Dnr: U 2016/417 Allmän studieplan för licentiatexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 30 mars 2017.

Läs mer

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning? Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins

Läs mer

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits

Utbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande

Läs mer

Hur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren

Hur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren Hur man kan tillämpa Data Science och AI i säkerhetsarbetet Magnus Sahlgren FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare

Läs mer

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk

Läs mer

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna. HUMANISTISKA FAKULTETEN Dnr: U 2016/663 Allmän studieplan för doktorsexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 17 november 2016.

Läs mer

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng

Läs mer

UNIVERSITETSRANKINGEN FRÅN QS 2013

UNIVERSITETSRANKINGEN FRÅN QS 2013 UNIVERSITETSRANKINGEN FRÅN QS 2013 Resultat för Göteborgs universitet Magnus Gunnarsson Enheten för analys och utvärdering PM 2013:10 Diarienummer V 2013/698 GÖTEBORGS UNIVERSITET September 2013 Analys

Läs mer

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk

Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri

Läs mer

UNIVERSITETSRANKNINGEN FRÅN QS 2015

UNIVERSITETSRANKNINGEN FRÅN QS 2015 UNIVERSITETSRANKNINGEN FRÅN QS 2015 Resultat för Göteborgs universitet Magnus MacHale-Gunnarsson Analys och utvärdering, Forsknings- och innovationskontoret PM 2015:03 Diarienummer V 2015/739 PM Introduktion

Läs mer

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?

Innehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax? Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika

Läs mer

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast)

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas

Läs mer

Sofie Johansson Kokkinakis

Sofie Johansson Kokkinakis CLT Institutet för ISA - Svenska som Andraspråk IKT i lärarutbildningen Anknytning mellan IKT i forskning och undervisning Datorbaserad textanalys och ordförrådsbedömning. Sofie Johansson Kokkinakis sofie@svenska.gu.se

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

Inlämningsuppgift: Pronomenidentifierare

Inlämningsuppgift: Pronomenidentifierare 1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...

Läs mer

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016

Korp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016 Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.

Läs mer

Bootstrapping för substantivtaggning

Bootstrapping för substantivtaggning Kungliga Tekniska Högskolan NADA Bootstrapping för substantivtaggning -Djur eller icke djur Hösten 2004 Kurs: Språkteknologi 2D1418 Jonathan Johnson j0j0@kth.se Mikael Melin mime@kth.se Handledare: Jonas

Läs mer

Språkbanken. Årsrapport 2010

Språkbanken. Årsrapport 2010 Språkbanken Årsrapport 2010 ÖVERSIKT I DENNA ÅRSRAPPORT redovisas merparten av de språkteknologiverksamheter som bedrivs vid institutionen för svenska språket. I vårt identitetsarbete för vi samman dessa

Läs mer

Tekniker för storskalig parsning

Tekniker för storskalig parsning Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning

Läs mer

Bibliometri & publiceringsstrategiska knep SOLD. Viktor Öman, bibliotekarie viktor.oman@mdh.se

Bibliometri & publiceringsstrategiska knep SOLD. Viktor Öman, bibliotekarie viktor.oman@mdh.se Bibliometri & publiceringsstrategiska knep SOLD Viktor Öman, bibliotekarie viktor.oman@mdh.se Vad är bibliometri? Bibliometri är en uppsättning kvantitativa metoder som används för att mäta publikationer.

Läs mer

SPRÅKTEKNOLOGIPROGRAMMET

SPRÅKTEKNOLOGIPROGRAMMET SPRÅKTEKNOLOGIPROGRAMMET Kandidatprogram, 3 år, 180 hp. Mats Dahllöf Institutionen för lingvistik och filologi Augusti 2012 1 Språkteknologer arbetar med... att utveckla, utvärdera och underhålla system

Läs mer

Korpuslingvistik (SV2119) Föreläsning 1

Korpuslingvistik (SV2119) Föreläsning 1 Korpuslingvistik (SV2119) Föreläsning 1 Richard Johansson richard.johansson@svenska.gu.se 6 september 2013 vad är korpusar och korpuslingvistik? korpus: en samling av datoriserad text korpuslingvistik:

Läs mer

Kognitionsvetenskap Kandidatprogrammet

Kognitionsvetenskap Kandidatprogrammet Kognitionsvetenskap Kandidatprogrammet Mattias Arvola Programansvarig 1 2 3 4 5 6 HUR TÄNKER FOLK EGENTLIGEN? 7 HUR TÄNKER FOLK EGENTLIGEN? VAD ÄR EN TANKE? HUR ÄR SPRÅK UPPBYGGT? VAD BETYDER BILDER? VAD

Läs mer

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens

Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Perceptron som ordklasstaggare: ett fördjupningsarbete i 729G43 -Artificiell Intelligens Niklas Blomstrand Linköpings Universitet Inledning Att veta vilken ordklass ett ord tillhör är en viktig del i bearbetning

Läs mer