eìã~åáëíáëâ~ñ~âìäíéíéå c opi^d_nnumslmp OMMQJMRJOR c~âìäíéíëå ãåçéåëäéç~ã íéê Utlysning av medel till forskning inom språkteknologi ûêéåçéí c~âìäíéíëå ãåçéåäéü~åçä~çéommqjmpjmqñê Ö~åçãìíäóëåáåÖ~îãÉÇÉäÑ êëíê~íéöáëâ~ ë~íëåáåö~êáåçãñçêëâåáåökbñíéêçáëâìëëáçåäéëäìí~çéë~ííêéãáííéê~ñê Ö~åçãÉîÉåíìÉää ìíäóëåáåö~îãéçéäíáääñçêëâåáåöáåçãëéê âíéâåçäçöáíáääéåöêìééäéëí ÉåÇÉ~î`ÜêáëíÉê ^ÜäÄÉêÖÉêIp~ääó_çóÇIj~êÖ~êÉí~e~ääÄÉêÖçÅÜiáëÄÉíÜi~êëëçåK eáëíçêáëâ îéêääáåâ~îçãê ÇÉíëéê âíéâåçäçöá péäáä~ö~k bâçåçãáëâ~êéëìêëéêíáääëéê âíéâåçäçöáìåçéêééêáççéånvvtjommq c~âìäíéíéåë~íë~êãéçéäíáääëéê âíéâåçäçöáä ÇÉìê~åëä~ÖÉíÑ êöêìåçìíäáäçåáåö EÇ~í~äáåÖîáëíéêçÖê~ããÉíFçÅÜìêÑ~âìäíÉíë~åëä~ÖÉíEëéê âä~åâéåfk_ Ç~îÉêâë~ãÜÉíÉêå~ êëéç~å ä åöééåçéä~îñ~âìäíéíéåëêéöìäà ê~ìíäìçkpéç~å êommn êñ~âìäíéíë~åëä~öéíñ êëí êâíãéç ãéçéäñ êçéåå~íáçåéää~ñçêëâ~êëâçä~åáëéê âíéâåçäçöáedpiqfk DatalingvistprogrammetÜ~êOMMQÉííìééÇê~Öé QTÜÉä êëëíìçéåíéêçåüéåíáääçéäåáåöé OMQM íâêkråçéê êéånvvtóommqü~êíáääçéä~íëíçí~äínpvmmíâêíáääéêçöê~ããéík Språkbanken Ñ êñçö~çénvvt îéêéåäìçöéíé NMMMíâêIÇÉíî Ñ äà~åçé êéåë åâíéë íáääçéäåáåöéåíáäätmmíâêñ ê~ííëéç~åäáöö~é VSMíâêÑê~ãíáää êommpç ÉåÜ àåáåöíáäänpqm íâêöéåçãñ êçéëkfååéî~ê~åçé êëíáääçéäåáåö ênrsuíâêkqçí~äíü~êñ~âìäíéíéåíáääçéä~í ëéê âä~åâéåunuuíâêìåçéê êéånvvtóommqk eìã~åáëíáëâ~ñ~âìäíéíéå êëéç~åommnî êçñ ê nationella forskarskolan i språkteknologi. cçêëâ~êëâçä~å êéííë êëâáäíìééçê~öíáääñ~âìäíéíéåçåüíáääçéä~çéãéçéäâ~åáåíéçáëéçåéê~ëñ ê ~åå~í åç~ã äkcçêëâ~êëâçä~åü~êëéç~åëí~êíéåommnçáëéçåéê~ípprqsíâêñ êëáåîéêâë~ãüéíi ÄìÇÖÉíÉåÑ êáååéî~ê~åçé ê ênmtumíâêkbåëíçêçéä~îçéëë~ãéçéäñ êëîáç~êéíáääçé îêáö~ ìåáîéêëáíéílü ÖëâçäçêëçããÉÇîÉêâ~êáìíÄáäÇåáåÖÉåKråáîÉêëáíÉíëëíóêÉäëÉåÜ~êÄÉëäìí~í~ííãÉÇÉä Ñ êñçêëâ~êëâçä~åâçããéê~ííäáöö~âî~êáåçãüìã~åáëíáëâ~ñ~âìäíéíëå ãåçéåë~åëî~êíçã OMNOK d qb_lodrkfsbopfqv c~åìäíóçñ^êíë _Éë âë~çêéëëeìã~åáëíéåioéåëíê ãëö~í~åsimçëí~çêéëë_çñommipbqmrpmd íéäçêö qéähqsemfpnmpnjttpnmumc~ñhqsemfpnmpnjttpnnqqbjéçëíj~êá~ååékbçëü~öé]üìãköìkëé
fåçããççéääéåñ êñ êçéäåáåö~îãéçéäñ êforskning inom professorers anställningar êommq êíáääçéäåáåöéåñ êëéê âíéâåçäçöáëâñçêëâåáåönnpmíâêeoçäáå`ççééêiqçêäà êåi~öéêçåü i~êë_çêáåfkqçí~äíìåçéêééêáççéåìééö êíáääçéä~çéãéçéäíáäärnnsíâêka êìí îéêü~ê Ñ~âìäíÉíÉåÄÉëäìí~íçãtvå rekryteringsanställningaráåçãçãê ÇÉíKbåÑçêëâ~ê~ëëáëíÉåíá ëéê âíéâåçäçöá~åëí ääçéëommpçåüéåñçêëâ~ê~ëëáëíéåíáëéê âîéíéåëâ~éäáöç~í~äéü~åçäáåö âçããéê~ííé Ä êà~ëáå~åëí ääåáåöìåçéêommqk bñíéêå~äáçê~ölìééçê~ö üêéånvvtjnvvvíáääçéä~çéëpéê âä~åâéåçêóöípmmmíâêáéñíéêå~ñçêëâåáåöëäáçê~ökråçéê êéåç êéñíéêü~êéåç~ëíëã êêéäáçê~öéêü ääáíëkråçéêééêáççéåü~êìééçê~öëñçêëâåáåöäéçêáîáíë Ñ êéííé~êüìåçê~íìëéåâêçåçêk fåëíáíìíáçåéåñ êäáåöîáëíáâü~êãéää~ånvvtóommpíáääçéä~íëçêóöínormmíâêñ êñçêëâåáåö áåçãçéíëéê âíéâåçäçöáëâ~çãê ÇÉíK cçêëâ~êëâçä~ådpiqü~êìåçéê êéåommnjommpíáääçéä~íëåáêâ~nommíâêáéñíéêå~äáçê~ök c êëä~ö ^êäéíëöêìéééå~åëéê~ííëéê âíéâåçäçöá êéåñçêëâåáåöëéêçñáäîáçñ~âìäíéíéåç êñ ê~ííñçêëâ~êå~ ãéççéåå~éêçñáäü~êîáë~íëáåñ êã Ö~~ííÄÉÇêáî~Ü Öâî~äáí~íáîÑçêëâåáåÖëçãÇê~êáåîáâíáÖ~ ãéçéäíáääñ~âìäíéíéåk båãççéääãéçäáçê~öíáääéêçàéâíñ êäéêéçéäëéêáåñ êéñíéêå~~åë âåáåö~ê êéåäê~ëíê~íéöáëçã Ä êíáää ãé~ëáü ÖêÉÖê~ÇîáÇÑ~âìäíÉíÉåK^êÄÉíëÖêìééÉåÑ êéëä êç êñ ê~íííêéäáçê~öé î~êçéê~ PMMíâêìíäóëÉëëçãéä~åÉêáåÖëÄáÇê~ÖÑ êìí~êäéí~åçé~î~åë âåáåö~êçãáñ êëí~ü~åçéñíéêå~ éêçàéâíãéçéäéääéêñ ê~åå~åíóé~îëéê âíéâåçäçöáëâíñçêëâåáåöëë~ã~êäéíéîáçñ~âìäíéíéåkbåçéä ~îéä~åéêáåöëäáçê~öéåëâ~ääâìåå~~åî åç~ëñ êìí íêáâí~çéçåüáåíêéëëéáåîéåíéê~åçéëéãáå~êáéêk aéí êîáâíáöí~ííçéåñçêíë~íí~ë~íëåáåöéåé ëéê âíéâåçäçöááååéä êéåäêéççåáåö~î îéêâë~ãüéíéåíáääñäéê ãåéåîáçñ~âìäíéíéåñ ê~ííç êáöéåçãäéíçå~çéåüìã~åáëíáëâ~ Ñ ê~åâêáåöéå~îëéê âíéâåçäçöáîáçüìã~åáëíáëâ~ñ~âìäíéíéåk^åë âåáåö~êå~ëâ~ääç êñ ê~îëé îéêâë~ãüéíãéçíî êîéíéåëâ~éäáöáåêáâíåáåöçåüáåîçäîéê~ãáåëííî ãåéåîáçñ~âìäíéíéåk ^êäéíëöêìéééåëéêö êå~ñ êëä~öëçãáåîçäîéê~ê îéåüáëíjñáä ãåéåk bñíéêå~ë~ââìååáö~âçããéê~íííáääë íí~ëîáçäéç ãåáåöéå~î~åë âåáåö~êå~k `ÜêáëíÉê^ÜäÄÉêÖÉê p~ääó_çóç j~êö~êéí~e~äääéêö iáëäéíüi~êëëçå O
Åsa Abelin 2004-05-25 Kort historik över språkteknologi vid Humanistiska fakulteten, GU Språkteknologi vid Humanistiska fakulteten finns främst vid (i bokstavsordning) GSLT (http://www.gslt.hum.gu.se), institutionen för lingvistik (http://www.ling.gu.se), Språkbanken (http://spraakbanken.gu.se/), SSKKII (http://www.sskkii.gu.se/). och institutionen för Svenska språket, Språkdata (http://svenska.gu.se/sprakdata). Nedanstående översikt har gjorts med en vid definition av Språkteknologi, inkluderande gränsområden mot andra ämnen. Modern språkteknologi började utvecklas vid GU 1966 då Språkdata bildades. Sture Allén blev professor på 70-talet. På Språkdata samlade man in maskinläsbara texter, framför allt tidningstexter, för framställande av konkordanser och produktion av frekvensordlistor, morfemordböcker, ordböcker o.d. samt som underlag för forskning om faktiskt språkbruk. Språkbanken startade 1975. Avdelningen finansieras numer av Humanistiska fakulteten och är knuten till Institutionen för svenska språket. Man började också spela in talspråksdata 1980, som transkriberades och lagrades maskinläsbart. Vid språkbanken finns idag texter av olika slag och från olika tider tillgängliga via Internet. Materialet omfattar texter på ca 75 miljoner ord. Språkbankens referensmaterial har spelat en viktig roll i samband med institutionens lexikografiska och lexikologiska projekt, exempelvis Nationalencyklopedins ordbok (1995) och Svenska Akademiens ordlista (1998). Dessutom har Språkbanken medverkat i EU-projekt med inriktning på både uppbyggnad av systematiskt insamlade texter ("korpusar"), såsom i PAROLE-projektet, och i dess lexikaliska fortsättning, SIMPLE-projektet, där ett bestämt ordmaterial har klassificerats med avseende på betydelse. I bägge dessa fall har arbetet skett i samarbete med ett tiotal europeiska länder. Andra pågående projekt vid institutionen för svenska språket, Språkdata är: Nomen Nescio, nordiskt namnigenkännings-projekt tillsammans med norsk och dansk partner, SemanticMining, EU-Network of Excellence om flerspråkig informationshantering inom biomedicin, med c:a 20 partner, SALETEK, nordiskt nätverk om samisk lexikografi och språkteknologi, med deltagare från Finland, Norge och Sverige, CrossCheck, språkgranskning för andraspråksskribenter av svenska och insamling av skriftlig svensk inlärarkorpus; tillsammans med KTH och Stockholms universitet, Nordiskt trädbanksnätverk med deltagare från alla nordiska länder. En förteckning över Språkdatas pågående och avslutade projekt finns på http://svenska.gu.se/forsk/projektmm.html 1984 startade Datalingvistiklinjen (som senare blev Datalingvistikprogrammet) som ett samarbete mellan Institutionen för lingvistik och Språkdata (numera under institutionen för svenska språket) på initiativ av Jens Allwood, Barbro Attestam. Förslaget stöddes av Sture Allén. Involverade blev även institutionerna för filosofi, informatik samt datavetenskap. Fram till 1992 låg datalingvistikprogrammet organisatoriskt under institutionen för Svenska språket men flyttades då över till institutionen för lingvistik. Vid institutionen för Lingvistik startade i början på 80-talet upprättandet av en talspråksdatabas, numera Göteborg Spoken Language Corpus (GSLC) www.ling.gu.se/projekt/tal/. I denna finns inspelningar ur olika sociala aktiviteter med ca 1,2 miljoner ord transkriberade. Ett antal transkripitons-, taggnings- och analys- och konkordansverktyg har framarbetats. Ett antal språkteknologiska projekt har sedan 1990-talets början drivits vid institutionen. Just nu drivs till exempel NORDTALK Corpus based research on spoken language. Corporation between general linguistics, computational linguistics, language technology, and speech technology in the Nordic countries (NorFA,
koordinator Jens Allwood), Anpassningen av svenskans skriftspråk till on-line kommunikation (Elisabeth Ahlsén, Jens Allwood), SweDane A Corpus based Spoken Language Comparison of Swedish and Danish (NorFA, Jens Allwood), Korpusbaserad talspråksbeskrivning (VR, Jens Allwood), Spoken Language Corpora for the Official African Languages of South Africa (SIDA & NRF, Jens Allwood), Interactive Language Technology (Vinnova, Robin Cooper), Language Technology Documentation Centre (Vinnova, Robin Cooper, GSLT), Records, types and computational dialogue semantics (VR, Robin Cooper), TALK -Talk and look, Tools for ambient linguistic knowledge (EU, Robin Cooper). Tidigare projekt vid institutionen för lingvistik är: Siridus, Specification, Interaction and Reconfiguration in Dialogue Understanding Systems (EU, Robin Cooper), PLUS, Pragmatics based language understanding sysem (EU, Jens Allwood), Integrated language tools for writing and document handling (Nutek, HSFR, Robin Cooper), Task Oriented Instructional Dialogue (EU, Robin Cooper), Swedish Dialogue Systems (Nutek/HSFR, Jens Allwood, Robin Cooper), Taglog - A Logic-Based Corpus Theory Development Environment (Torbjörn Lager), s-dime Swedish Dialogue Move Engine (Robin Cooper), Mjukvarubibliotek, GU, Robin Cooper), En plattform för multimodala talspråkskorpora (HSFR/NUTEK, Jens Allwood), D homme Dialogue in the Home Environment (EU, Robin Cooper), PaNoLa (Torbjörn Lager). Kollegium SSKKII blev självständig arbetsenhet 1994 efter ett ursprung 1988 i arbetsgruppen för studier av människa-datorinteraktion. På kollegium SSKKII har bland annat följande projekt bedrivits: Kulturell variation och kommunikationsteknologi i Sverige, Kina och Japan (Jens Allwood), MAISIE: Multimodal access to public information services, Intermodal translation (Elisabeth Ahlsén), AMFO: Databaser för samarbete (Carl-Martin Allwood, Jens Allwood), IVES I och IVES II: Information Visualization and Exploration support (Jens Allwood). Vid kollegium SSKKII startades också 1994 utbildning i kognitionsvetenskap som har betydande språkteknologiska inslag. År 2001 skapades GSLT (National Swedish Graduate School of Langugae Technology), med säte vid humanistiska fakulteten, GU, under ledning av Robin Cooper, Joakim Nivre (Växjö universitet) och Lars Ahrenberg (LiU). Vid institutionen för lingvistik finns också Dialog-labbet som är ett samarbete mellan humanistiska fakulteten och IT-universitetet. Dialog-labbet är bas för GoDAG (Gothenburg Dialogue Applications Group). Chalmers forskningsgrupp för Språkteknologi deltar också i labbets arbete. Dialog-labbet är för närvarande finansierat av VR, Vinnova och EU. Logik är ett vikigt ämne inom språkteknologi och här har traditionellt institutionen för filosofi vid GU haft en stark position. Det finns en stor korpusverksamhet vid flera institutioner på humanistisk fakultet, och det finns korpusar i mer eller mindre bearbetad form. Dessa korpusar kan vara av stor betydelse för språkteknologi. Tjänster År 1995 blev Robin Cooper professor i datalingvistik och 2002 blev Torbjörn Lager professor i allmän språkvetenskap, särskilt datalingvistik.
2002 blev Lars Borin professor i språkvetenskaplig databehandling på Språkdata. 2003 blev Staffan Larsson forskarassistent i språkteknologi År 2003 fick institutionen för lingvistik en professor i fonetik, Anders Eriksson. Fonetik utgör en teoretisk bas för en del av talteknologin talsyntes och automatisk taligenkänning 2004 blev Dimitrios Kokkinakis forskarassistent i språkvetenskaplig databehandling Avhandlingar Avhandlingar och licentiatuppsatser från Språkdata: 2002 Johansson Kokkinakis, Sofie: En studie över påverkande faktorer i ordklasstaggning. Baserad på taggning av svensk text med EPOS. 2001 Kokkinakis, Dimitrios: A framework for the acquisition of lexical knowledge; description and application. 2001 Danielsson, Pernilla: The Automatic Identification of Meaningful Units in Language 1998 Dura, Elzbieta: Parsing Words 1996 Holmqvist, Eva: Strukturerad visuell information i en tesaurus för svenska. (lic.) Toporowska Gronostaj, Maria: Integrerad valensbeskrivning. Mot ett formaliserat verbvalenslexikon 1991 Eeg-Olofsson, Mats: Word-class tagging. Some computational tools Toporowska Gronostaj, Maria: Mot ett formaliserat verbvalenslexikon. (lic.) 1988 Huber, Dieter: Aspects of the communicative function of voice in text intonation. Constancy and variability in Swedish fundamental frequency contours 1984 Gavare, Rolf: A system for computer-assisted proofreading. Automatic detection of orthographic errors in typographic text 1984 Järborg, Jerker: A semantic model for a performance framework. Studies in the possibilities of formalization 1980 Bierschenk, Inger: Intermediate language structure. A method for the generation of a language for representing scientific information Datalingvistiskt orienterade avhandlingar från Institutionen för lingvistik: 2003 Sofkova Hashemi, Sylvana: Automatic detection of grammar errors in primary school children s texts. A finite state approach 2002 Hård af Segerstad, Ylva: Use and adaptation of written language to the conditions of computer-mediated communication 2002 Larsson, Staffan: Issue-based dialogue management 2002 Wengelin, Åsa: Text production in adults with reading and writing difficulties 1995 Lager, Torbjörn: A logical approach to computational corpus linguistics 1995 Dahllöf, Mats: On the semantics of propositional attitude reports 1992 Nivre, Situations, meaning and communications. A situation theoretic approach to meaning in language and communication