INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK

Relevanta dokument
SWELL FORSKNINGSINFRASTRUKTUR FÖR SVENSKA SOM ANDRASPRÅK

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

SweLL & legal aspects. Elena Volodina

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

X som en gnu. GÖTEBORGS UNIVERSITET Institutionen för svenska språket. [adjektiv/verb] + [som] + [en] + [gnu] Linn Trieb

Unit course plan English class 8C

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

VAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK

SweLL Forskningsinfrastruktur för. svenska som andraspråk. Elena Volodina Göteborgs universitet, Språkbanken

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Språkbanken en (inter)nationell forskningsinfrastruktur

Utvärdering SFI, ht -13

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE

InterFra en andraspråkskorpus av talad franska

Ett svenskt konstruktikon

FORSKNINGSKOMMUNIKATION OCH PUBLICERINGS- MÖNSTER INOM UTBILDNINGSVETENSKAP

EVALUATION OF ADVANCED BIOSTATISTICS COURSE, part I

Workplan Food. Spring term 2016 Year 7. Name:

Teoretisk lingvistik och datalingvistik. Robin Cooper

Grundläggande textanalys. Joakim Nivre

Chapter 1 : Who do you think you are?

Arbetsplatsträff 5 april, 2017 Workplace meeting April 5, 2017

The Arctic boundary layer

CHANGE WITH THE BRAIN IN MIND. Frukostseminarium 11 oktober 2018

Svensk nationell datatjänst, SND BAS Online

Session: Historieundervisning i högskolan

Introducing Peer-based Intervention to improve learning in foreign language translation classes

PORTSECURITY IN SÖLVESBORG

Språkteknologi. Språkteknologi

Stad + Data = Makt. Kart/GIS-dag SamGIS Skåne 6 december 2017

Språk, datorer och textbehandling

Ready for Academic Vocabulary?

Från extern till intern på tre dagar Erfarenheter från externa lärares pedagogiska kompetensutveckling

NYANLÄNDA OCH LÄRANDE

Introduktion till vetenskaplig metodik. Johan Åberg

Att skriva en språkvetenskaplig uppsats. Ingmar Söhrman

Make a speech. How to make the perfect speech. söndag 6 oktober 13

Elevers användning av maskinöversättning vid skrivande på främmande språk.

Konventionaliserade fraser i en akademisk ordlista


Manhour analys EASA STI #17214

Institutionen för individ och samhälle Kurskod SAF200

Grammar exercises in workbook (grammatikövningar i workbook): WB p 121 ex 1-3 WB p 122 ex 1 WB p 123 ex 2

Syns du, finns du? Examensarbete 15 hp kandidatnivå Medie- och kommunikationsvetenskap

Språk, datorer och textbehandling

Forskningsperspektiv inom MDI Vetenskap, mångvetenskap och tvärvetenskap Vad är forskning inom MDI?

UPPFÖLJNING AV VERKSAMHETSPLAN 2013

Vässa kraven och förbättra samarbetet med hjälp av Behaviour Driven Development Anna Fallqvist Eriksson

Fortbildningsavdelningen för skolans internationalisering. Dossier 3. European Language Portfolio 16+ Europeisk språkportfolio 16+ English version

Forskningsdata i öppna arkiv och universitetsarkiv

Second handbook of research on mathematics teaching and learning (NCTM)

Vad säger forskningen om programmering som kunskapsinnehåll? Karin Stolpe, föreståndare NATDID liu.se/natdid

English. Things to remember

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Swell code book (error taxonomy + examples)

Hur fattar samhället beslut när forskarna är oeniga?

Flervariabel Analys för Civilingenjörsutbildning i datateknik

State Examinations Commission

Fokus Yrkesutbildning VO

SVENSK STANDARD SS-EN 1728:2012/AC:2013

Småprat Small talk (stressed vowels are underlined)

Språkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Uttagning för D21E och H21E

SWESIAQ Swedish Chapter of International Society of Indoor Air Quality and Climate

Resultat av den utökade första planeringsövningen inför RRC september 2005

Maskinöversättning 2008

Writing with context. Att skriva med sammanhang

Cristina Eriksson oktober 2001

1. How many hours per week have you on average spent on the course, including scheduled time?

Isolda Purchase - EDI

Samhälle och karriärutveckling Stockholm sept 2011 Voice of Users

Språket, individen och samhället VT08

Assigning Ethical Weights to Clinical Signs Observed During Toxicity Testing

EXTERNAL ASSESSMENT SAMPLE TASKS SWEDISH BREAKTHROUGH LSPSWEB/0Y09

Service och bemötande. Torbjörn Johansson, GAF Pär Magnusson, Öjestrand GC

The reception Unit Adjunkten - for newly arrived pupils

Användning av Erasmus+ deltagarrapporter för uppföljning

Värmeväxlare - Terminologi. Heat exchangers -Terminology

Protokoll Föreningsutskottet

1. How many hours per week have you on average spent on the course, including scheduled time?

ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?

729G09 Språkvetenskaplig databehandling

Några skillnader mellan svenska och engelska

#minlandsbygd. Landsbygden lever på Instagram. Kul bild! I keep chickens too. They re brilliant.

Eurokod 3: Dimensionering av stålkonstruktioner Del 4-3: Rörledningar. Eurocode 3 Design of steel structures Part 4-3: Pipelines

Svenska som additivt språk. Skolverket Berit Lundgren FD, Umeå universitet Lilian Nygren Junkin FD, Göteborgs universitet

Genusstudier i Sverige

Språk, datorer och textbehandling

Patientutbildning om diabetes En systematisk litteraturstudie

Svensk forskning näst bäst i klassen?

Grammatik skillnader mellan svenska och engelska

Transkript:

INFRASTRUKTUR FÖR SVENSK ANDRASPRÅKSFORSKNING (OCH ANNAN SVENSK SPRÅKFORSKNING) MÖTEN MELLAN ANDRASPRÅKSFORSKNING OCH DATALINGVISTIK ARBEITSTAGUNG DER SKANDINAVISTIK (ATDS) KIEL, 27-29 SEPTEMBER 2017 JULIA PRENTICE, INSTITUTIONEN FÖR SVENSKA SPRÅKET, GÖTEBORGS UNIVERSITET

Upplägg Interdisciplinära möten mellan interdisciplinära forskningsfält Andraspråksforskning, data/korpuslingvistik och Learner Corpus Research Vad är språkteknologisk infrastruktur exempel från Språkbanken vid Institutionen för svenska språket, GU Något om interdisciplinär kommunikation SweLL Forskningsinfrastruktur för svenska som andraspråk

Andraspråksforskning interdisciplinärt från början och än idag Kopplingar till Lingvistik Förstaspråksinlärning Språkdidaktik kognitiv psykologi Idag även datalingvistik (språkteknologi) och korpuslingvistik

Andraspråksforskning och datalingvistik Möts idag inom flera forskningsområden Inlärarkorpusar Olika typer av deskriptiva digitala resurser med inlärarperspektiv (lexikon, konstruktikon) Computer assisted language learning (CALL) Learner modelling Viss skepsis bland både lärare och andraspråksforskare mot språkteknologiska lösningar och CALL (jfr Volodina et al. under arbete) Tendens bland datalingvister att utvärdera sina system verktyg i termer av accuracy och F-scores användarperspektivet prioriteras inte alltid högst (ibid.)

Learner corpus research Kärnkomponenter Korpuslingvistik Lingvistisk teori Språkdidaktik Andraspråksforskning Kopplingarna mellan LCR och andraspråksforskning inte så starka och tydliga som man skulle kunna tro många forskare inom LCR är snarare korpuslingvister och språklärare än andraspråksforskare (Granger 2009)

Vad är språkteknologisk infrastruktur? Språkbanken vid institutionen för svenska språket, GU Bedriver språkteknologisk forskning om det svenska språket få datorer att hantera mänskligt språk i alla dess former (https://spraakbanken.gu.se/swe) Utveckla språkteknologisk infrastruktur tillgängliggöra språkliga resurser som olika typer av lexikala resurser (t.ex. lexikon) och korpusar (textsamlingar) för forskare och allmänheten digitala plattformar sökverktyg för att utforskar resurserna annotering (lingvistik uppmärkning av texter)

Olika discipliner under samma tak Fem profilområden vid Institutionen för svenska språket, GU Grammatik Lexikologi och lexikografi Språkteknologi Svenska som andraspråk Text och kontext Det finns samarbeten mellan olika profilområden samtliga samarbetar på ett eller annat sätt med Språkbanken (språkteknologi)

Exempel på Språkbankens infrastruktur Karp Lexikal infrastruktur (Ahlberg et al. 2016) Korp Korpusinfrastruktur (Borin et al. 2012) Lärka ICALL plattform för inlärning av svenska (Volodina & Borin 2012, ) Learner modelling (Alfter 2016) https://spraakbanken.gu.se/swe/forskning/infrastruktur

Viktig del i infrastrukturarbete: annotering Vad annoteringar gör i ett korpusmaterial: hjälper till att filtrera sökresultaten för användaren. De låter oss hitta "sjöng" och "sjungit" när vi söker efter "sjunga" och alla ställen där Caesar är objekt till verbet besegra utan att vi behöver titta på dem där han är subjektet, samt att vi inte behöver titta på meningar om lokaler när vi letar efter "lounge", utan kan fokusera på förekomsterna som handlar om djuret. Annoteringarnas kvalitet är avgörande för att få bra sökresultat, särskilt för forskare som annars kan behöva gå igenom tusentals irrelevanta meningar. (<https://spraakbanken.gu.se/swe/forskning/infrastruktur/koala>)

Interdisciplinär kommunikation 1 Ändamål: sätta ihop ett kollokationstest för andraspråksinlärareinlärare av svenska, verb + substantiv kollokationer t.ex. dra en slutsats, laga mat baserad på data från Korp Andraspråksforskarens fråga: Vad innebär det statistiska måttet som rankningen i ordbilden baseras på? INSTITUTIONEN FÖR SVENSKA SPRÅKET Systemutvecklarens svar: Hej! Formeln vi använder är följande: lmi = x_rel_y * log2( (rel * x_rel_y) / (x_rel * rel_y) ) rel = antalet gånger relationen förekommer x_rel_y = antalet gånger ordet x står i relation till ordet y x_rel = antalet gånger ordet x står i relationen rel_y = antalet gånger ordet y står i relationen Här är en artikel: http://www.mt-archive.info/mts-2001-kilgarriff.pdf

?? INSTITUTIONEN FÖR SVENSKA SPRÅKET

Interdisciplinär kommunikation 2 Re: Tack! Kan inte påstå att jag fattar formeln, men det kanske går att reda ut med hjälp av artikeln... Re: Jag vet inte om artikeln är mer begriplig. :) Ett exempel kanske kan göra det tydligare. Om vi säger att x är "mata", rel är "direkt objekt", och y är "fågel". Då är rel = antalet gånger relationen "direkt objekt" förekommer i korpusen x_rel_y = antalet gånger "fågel" står som direkt objekt till "mata" i korpusen x_rel = antalet gånger "mata" förekommer med relationen "direkt objekt" rel_y = antalet gånger "fågel" förekommer med relationen "direkt objekt"

SweLL forskningsinfrastruktur för svenska som andraspråk (Riksbankens jubileumsfond 2017-2019) Projektets syfte: Att utveckla en elektronisk forskningsinfrastruktur för svensk andraspråksforskning bearbeta andraspråksmaterial utveckla språkteknologiska metoder som kan hantera avvikelser från standardsvenska Större, sökbar inlärarkorpus för svenska (Volodina et al. 2016) Det finns idag stora inlärarkorpusar för andra språk men inte för svenska Några exempel Norska: ASK (Tenfjord et al 2004) Tyska, tjeckiska, italienska : MERLIN (Boyd 2014) Engelska: International Corpus of Learner English, ICLE (Granger et al. 2002)

Utmaningar i samband med korpusinfrastruktur för L2-data (Volodina et al. 2016) Tillgång till och insamling av inlärartexter måste samlas in direkt ifrån och med tillstånd från textförfattare som skriver på sitt L2 tillstånd av vårdnadshavare behövs för yngre barn känslig information i texter och metadata kan förekomma, anonymisering och juridisk rådgivning behövs För lite dialog och samarbete mellan olika fält (jfr Granger 2009) Olika projekt inom olika fält med olika utgångspunkter, syften och metoder Brist på jämförbarhet av data från olika projekt Annoteringsverktyg är utvecklade för standardsvenska svårt att hantera avvikelser Annotering av sådant material är komplicerat och tar tid texter behöver bl.a. normaliseras

Interdisciplinär kommunikation 3 SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska. En sådan textsamling skulle möjliggöra sökningar efter språkliga strukturer som utmärker inlärarspråk, med en normaliserad version till ett urval av texter. För andra språk finns flera andraspråkskorpusar, men de är en bristvara för svenskans del. (Språkbanken 2017)

Normalisera?! INSTITUTIONEN FÖR SVENSKA SPRÅKET

Annotering och val av taxonomi ASK : 23 feltyper Lexikon (8), morfologi (3), syntax (7), interpunktion (4), oidentifierbart(1) MERLIN: 64 feltyper grammatik (21), ortografi (8), begriplighet (8), vokabulär (10), koherens (4), sociolingvistisk lämplighet, (10), pragmatik (3) Hur detaljerad behöver taxonomin vara? Hur stor roll spelar de enstaka språken här likhet mellan norska och svenska en faktor jämförbarhet mellan ASK och SweLL önskvärd ASK + (en del av MERLIN-taxonomin)? ASK + (språkspecifika vanliga feltyper i svenska som andraspråk)

Annotering och val av taxonomi Annoteringsexperiment manuell annotering av inlärarexperiment Inter- annotater agreement? Vad är målhypotesen? Exempel: Orthografic error eller wrong word? jag bara dricker te med två broad [>bröd/skivor bröd/mackor?] minimala ändringar vid normalisering och annotering?

Interdisciplinär kommunikation 4 (får man säga fel?) Inom LCR talar man om feltaxonomier och felannotering (error taxonomies, error annotation) àproblematiskt inom andraspråksforskningen Men: Normavvikelseannotering? Normavvikelsetaxonomifastställan?

Vad är problemet? Andraspråksforskningens förflutna Kontrastiv analys: jämförelse av inlärares L1 och L2 för att förutsäga svårigheter och fel Felanalys: man studerar avvikelser från målspråksnormen (fel) som problem som måste rådas bot på bristperspektiv Idag är den rådande uppfattningen inom andraspråksforskningen att inlärarspråket (interimspråket) ska studeras i sin egen rätt ett system under utveckling inte en bristfällig version av målspråket Idé inom SweLL-projektet: Can-do taxonomi Annotera succé i inlärares produktion (jfr Granger 2009)

Stora skillnader och stora möjligheter It is important to bear in mind, however, that for the SLA [second language acquisition] specialist big is not nessecarily beautiful (Granger 2009:4) Data- och korpuslingvister jobbar i huvudsak kvantitativt poängen är tillgång till stora mängder data Andraspråksforskare behöver kunna kontrollera för många bakgrundsfaktorer som kan påverkar inlärares språkliga produktion Det ställer höga krav på t.ex. korpusdesign och tillgång till metadata (ibid.) Mer samarbete och kommunikation mellan disciplinerna behövs och har förespråkats länge och har även börjat ta fart, se t.ex. Chen & Meurers 2017, Rudzewitz, Ziai, De Kuthy & Meurers 2017 Volodina et al. 2016, Volodina et al. under arbete Workshop på NoDaLida: NLP 4 CALL & Language acquisition Utveckling av forskningsinfrastruktur för, och med tydlig teoretisk förankring i, (svensk) andraspråksforskning

United we stand, divided we fall Prioriteringar för fortsatt LC-forskning (Granger 2009:13) Fler inlärarkorpusar, särskilt longitudinella på fler språk, mer representativa för den stora varieteten bland inlärare, genre, uppgifter Utveckling av annoteringsstandard och bättre, mer användarvänlig infrastruktur Noggrann och teoretiskt välförankrad analys av inlärarmaterial och utveckling av pedagogiska verktyg som är lämpliga för verkligheten i en undervisnings- och inlärningskontext This will take time as there is no such thing as quick and dirty learner corpus analysis (or, at least, there should not be!).in view of the interdisciplinary nature of the field, this programme can only be carried out by multi-disciplinary teams made up of corpus linguists, computer scientists, SLA specialists and teaching practitioners. As in many fields but perhaps more so in learner corpus research than in some others, the motto United we stand, divided we fall has a strong resonance. (ibid.)

Referenser (urval) Ahlberg, Malin, Lars Borin, Markus Forsberg, Olof Olsson, Anne Schumacher, Jonatan Uppström. 2016 Karp: Språkbanken s Open Lexical Infrastructure Alfter, Davis. 2016. Learning the Learner: User Modeling in Intelligent Computer Assisted Language Learning Systems. CEUR Workshop Proceedings, v.1618. UMAP 2016 Extended Proceedings. Halifax, Canada, July 13-16, 2016. Borin, Lars, Markus Forsberg & Johan Roxendal. 2012. Korp the corpus infrastructure of Språkbanken. Proceedings of LREC 2012. Istanbul: ELRA, 474 478. Boyd, Adriane, Jirka Hana, Lionel Nicolas, Detmar Meurers, Katrin Wisniewski, Andrea Abel, Karin Schöne, Barbora Štindlová and Chiara Vettori. The MERLIN corpus: Learner Language and the CEFR. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), European Language Resources Association (ELRA), Reykjavik, May 26-31, 2014. Chen, Xiaobin & Detmar Meurers. Developmental Benchmark of Syntactic Complexity. Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition, NoDaLiDa 2017, Gothenburg. Granger, Sylviane. 2009. The contribution of learner corpora to second language acquisition and foreign language teaching: A critical evaluation. I: Aijmer, Karin (red.), Corpora and Language Teaching. Amterdam & Philadelphia: John Benjamins, 13-32. Sråkbanken 2017. <https://spraakbanken.gu.se/swe> Tenfjord, Kari, Meurers, P. & Hofland, K. 2004. The ASK corpus - a language learner corpus of Norwegian as a second language. Paper presented at the TALC 2004 conference, Granada - Spain, 6-9 July 2004. Volodina, Elena & Lars Borin. 2012. Developing a freely available web-based exercise generator for Swedish. EuroCALL 2012 Proceedings, Gothenburg. Volodina, Elena, Beata Megyesi, Mats Wirén, Lena Granstedt, Julia Prentice, Monica Reichenberg, Gunlög Sundberg. 2016. A Friend in Need? Research agenda for electronic Second Language infrastructure. Proceedings of SLTC 2016, Umeå, Sweden

Interdisciplinär kommunikation Projektet Ett svenskt konstruktikon Konstruktionsdatabas, för närvarande ca 400 konstruktionsbeskrivningar delsyfte: att särskilt beskriva konstruktioner som är speciellt relevanta ur ett andraspråksperspektiv interdisciplinärt: lingvistik, lexikografi, datalingvistik, andraspråksforskning Delprojekt: From construction candidates to constructicon entries (Forsberg et al. 2014) Experiment: användning av halvautomatiska metoder för att identifiera construktioner i korpusar 3 mänsliga bedömare som utvärderar resultaten

Interdisciplinär kommonikation Exempel från experimentet: [Pronomen som KN Adj Substantiv] =konstruktionskandidat vi som intresserade skandinavister lyssna uppmärksamt på föredraget de som enskild organisation, hon som Bedömarna tittar på de mest frekventa exemplen från korpusen och svarar på (sammanlagt 7) frågor om kandidatens relevans för konstruktikonet, resultat: The inte-annotator agreement was surprisingly small, ranging from low to moderate, which suggests that the task was is difficult, and the the evaluators background had a strong effect on their judgement (Forsberg et al. 2014:124) the method provided a good number of intreresting cxn candidates. Of the 1200 candidates concidered in the experiment, 314 were assigned a relevance score of 2-3 by at least one of the evaluators. Adjusting for dublicates, a fair estamate is that the outcome is about 200 potential constructicon entries