ASU-korpusen. Dess sy&e, uppbyggnad och särart. Björn Hammarberg Stockholms universitet, för

Relevanta dokument
Arbeta med ASU-korpusen Partiell bruksanvisning till ITG:s användargränssnitt

InterFra en andraspråkskorpus av talad franska

Introduktion till ASU-korpusen

kunna vara en aktiv part i ett samtal och kunna ställa och besvara frågor kunna muntligt och skriftligt redogöra för en händelse på korrekt franska

Utbildningsplaner för kandidat-, magister och masterprogram. 1. Identifikation. Avancerad nivå

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Betygskriterier. US610F - Språkdidaktik I, 30 hp

SPRÅKKONSULTPROGRAMMET

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

ÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng

Kurs 1. Informationsförmedlingens vetenskapliga och sociala sammanhang, 30.0 hp

LSI110, Svenska som andraspråk för blivande lärare I, 30 högskolepoäng

Undervisning och bedömning av språkfärdighet inför högre studier

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

Kursplan i svenska grundläggande kurs X

MODERSMÅL. Ämnets syfte. Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande: Kurser i ämnet

SVENSKA. Lokal kursplan för ämnet Svenska. Kungsmarksskolan Strävansmål år 9

NS2023 Språkkonsultprogrammet, Kurs 2, 30 hp

Kursplanen i engelska

NS2027 Språkkonsultprogrammet, Kurs 2, 30 hp

En jämförelse av ilex och Elan

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Masterprogram i biomedicin

ÄSAD11, Svenska som andraspråk 1, 30 högskolepoäng Swedish as a Second Language 1, 30 credits Grundnivå / First Cycle

Kurser i svenska för internationella studenter och forskare

Mål för generella examina

SVENSKA SOM ANDRASPRÅK

Exempel på ämnen för examensarbete inom kurserna UÖÄ007, HOA400, UÖÄ008: (Se också DIVA:

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Kursplan i svenska grundläggande kurs Y

Undervisningen ska även bidra till att eleverna får möta och bekanta sig med såväl de nordiska grannspråken som de nationella minoritetsspråken.

LSI110, Svenska som andraspråk för blivande lärare I, 30 högskolepoäng

Hur kan vi använda korpusmaterial och teckenspråkslexikon i språkutbildningen?

Allmän studieplan för licentiatexamen i svenska som andraspråk

Kursplanen i svenska som andraspråk

Språkkonsultprogrammet

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Svenska som andraspråk för lärare åk hp (1-30). Ingår i lärarlyftet

INSTITUTIONEN FÖR SVENSKA SPRÅKET

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

U = Underkänd Studenten uppnår inte kunskapsnivån för de förväntade studieresultaten.

Undervisningen i ämnet modersmål ska ge eleverna förutsättningar att utveckla följande:

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

SVEA20, Svenska: Språklig inriktning - fortsättningskurs, 30 högskolepoäng Swedish Language: Level 2, 30 credits Grundnivå / First Cycle

SPECIALPEDAGOGIK. Ämnets syfte

Svenska som andraspråk för lärare åk 7-9, 45 högskolepoäng (1-45 högskolepoäng). Ingår i Lärarlyftet II.

INSTITUTIONEN FÖR SVENSKA SPRÅKET

US154U - Svenska som andraspråk för lärare i svenska för invandrare (sfi), (1-30 hp) - ingår i Lärarlyftet II, 30 hp

Bilaga 8. Förslag till kursplan för sameskolan inklusive kunskapskrav Dnr 2008:741

Magisterprogram i språkvetenskap 60 hp

Allmän studieplan för doktorsexamen i japanska

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Mer aktuell eller aktuellare? En korpusbaserad undersökning av svenskans adjektivkomparation de senaste årtiondena

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Grundläggande textanalys. Joakim Nivre

Lokal examensbeskrivning

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

ÄENC51, Engelska 4, 30 högskolepoäng English 4, 30 credits Grundnivå / First Cycle

USS79B - Svenska som andraspråk II inom Ämneslärarprogrammet, för arbete i årskurs 7-9, 15 hp

Tentamensschema ht 2018

SGSKO, Kandidatprogram i strategisk kommunikation, 180 högskolepoäng Bachelor of Science Programme in Strategic Communication, 180 credits

Examensbeskrivningar för filosofie kandidat-, magister-, och masterexamen vid HT-fakulteterna

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Anhållan om ändrad ersättning för vissa HST

USSV2B - Svenska som andraspråk II inom Ämneslärarprogrammet, för arbete i åk 7-9, gymnasieskolan och vuxenutbildningen, 30 hp

3.7.4 Modersmål - meänkieli som nationellt minoritetsspråk

Kursplan - Grundläggande engelska

Utbildningsplan. 1. Identifikation

LPP Magiska dörren ÅR 4

Kursplan - Grundläggande svenska

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

3.7.3 Modersmål - jiddisch som nationellt minoritetsspråk

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Talko korpus över den talade svenskan i Finland april 2016

ALLMÄN STUDIEPLAN FÖR UTBILDNING PÅ FORSKARNIVÅ I ENGELSKA MED DIDAKTISK INRIKTNING. FFN - ordförande

KUNSKAPSKRAV I ÄMNET SVENSKA

1: 2: 3: 1900 (MH3A), 1900 (POPA)

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Kursplan i SVENSKA År 1-5 Rösjöskolan TÄBY KOMMUN

Utbildningsplan för masterprogrammet Språk och språkvetenskap

SVENSKA SOM ANDRASPRÅK

Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon

CIVILINGENJÖRSEXAMEN MASTER OF SCIENCE IN ENGINEERING

Examensarbeten i datavetenskap

Utbildningsplan för: Masterprogrammet i pedagogik med inriktning mot professionsutveckling och forskning, 120 hp MIUN 2017/460. Utbildningsvetenskap

Allmän studieplan för licentiatexamen i vetenskapsteori

KUNSKAPSKRAV I ÄMNET SVENSKA SOM ANDRASPRÅK

Lokal examensbeskrivning

Tvåspråkighetssatsning Manillaskolan ~^

Lokal examensbeskrivning

Utbildningsplan. Masterprogram i statsvetenskap. Dnr HS 2019/45 SASTV. Programkod:

För Humanistiska fakultetens regler för forskarutbildningen se Regler för utbildning på forskarnivå vid Humanistiska fakulteten.

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

För universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.

Undervisningen ska erbjuda möjlighet till anpassning av stoff efter elevernas intresse och utbildning.

Kort presentation av Korp, Sveriges nationalkorpus

Språk, datorer och textbehandling

VFU 2 FÖRSKOLLÄRARE HT 2018

Transkript:

ASU-korpusen Dess sy&e, uppbyggnad och särart Björn Hammarberg Stockholms universitet, Ins@tu@onen för lingvis@k Swe-Clarin på turné, Stockholms universitet 2018-05-16

Vad är ASU-korpusen tänkt för? Dataresurs för forskning och utbildning (senior forskning, avhandlingar, uppsatser, kursuppgifter) Utvecklingsmönster i inlärarspråket, framväxten av ett utvecklat svenskt andraspråk hos vuxna I någon mån yttrandeplanerings- och tillägnandeprocesser Grammatiska och lexikala undersökningar (även fonologi, diskurs/text, samtalsanalys) Språkproduktion på individnivå Sökning, analys och dokumentation av språkliga detaljdata Fånga upp relativt frekventa företeelser i språket och karakteristiska inlärarfenomen i svenskan 2

Historik Korpusen byggdes upp 1990-93 (inlärardelen) och 1998 (infödda delen) i projektet Andraspråkets strukturutveckling (ASU) vid Institutionen för lingvistik, SU, av en grupp under ledning av Björn Hammarberg. Ursprunglig programvara: Benny Broddas PC Beta och PC Tagger (Brodda 1982, 1991). ASCII-format och DOSkommandon. På 2000-talet modernisering i samarbete med Språkbanken (Lars Borin, Leif-Jöran Olsson, Elena Volodina). XML och koppling till ITG-gränssnittet. Extern finansiering från HSFR, Magn. Bergvalls Stiftelse, Birgit & Gad Rausings Stiftelse, Henrik Granholms Stiftelse.

Riktlinjer för uppbyggnaden Grundläggande syfte: dokumentera inlärarspråkets dynamik, utveckling och förhållande till målspråket; vuxna personers språk. Kriterier: Individinriktning - följa och jämföra individer; mycket från få Inlärartyp - inlärare som strävar till utvecklat språk Utveckling - påtaglig förändring över tid, observera ofta Stadieomfång - noll till avancerat stadium hos samma personer Tal och skrift - tal o skrift parallellt över tid hos samma personer Inföddas språkbruk - jämförbar kontrollkorpus från infödda (interlanguage-modell ej felanalysmodell) Intern jämförbarhet - inlärningsstadier; individer; inlärare-infödda; tal-skrift; olika aktiviteter i tal, slag av text i skrift

Olika textslag Longitudinellt över inlärningsstadier Mellan individer INTERN JÄMFÖRBARHET Olika talaktiviteter Inlärare infödda Tal skrid 5

Indelning och omfång Fyra huvuddelar, antal löpord: Inlärare Infödda Summa Inl+Inf Muntligt* 269 000 / 147 000 149 000 / 98 000 418 000 Skriftligt 50 000 25 000 75 000 ASU totalt 493 000 *Uppgiften avser: hela dialogen / informanternas yttranden Texterna indelas efter huvuddel > person > kronologi

Korpusens inlärardel Informanter: 10 studenter 19-28 år, 3K 7M Förstaspråk: kin (3), gre (2), por (2), spa (1), pol (1), ty+eng (1); L2-kunskaper i engelska + ytterligare språk Rekryterades från preparandkursen i svenska för utländska studenter vid SU, lå 1990-91 Nybörjare i svenska i starten, läste vid svenska högskolor i slutet, efter rikstestet (TISUS) Allmän karakteristik: semi-formella, kvalificerade, snabba inlärare Material: 10 inspelade samtal individuellt i studio varvade med 11 uppsatstillfällen, allt insamlat utanför kursen 7

Korpusens kontrolldel 7 svenska studenter 20-29 år, 4K 3M, centralsvensk standardvarietet 5 inspelningar + 5 uppsatstillfällen, vt 1998 Informanter, metod och innehåll jämförbart med inlärardelen, så långt möjligt 8

Texternas innehåll Muntliga delen - Berättelse av bildserier utan text - Beskrivning av föremål och foton - Intervjusamtal och diskussioner - Diskussion utifrån lästa tidningsartiklar Skriftliga delen - Berättelse av bildserier - Beskrivande texter - Diskuterande och redogörande texter

Textens form i korpusen Muntliga delen (Kvasi-)ortografisk transkription som återger talspråksformer; tillagda tecken för talaridentifikation, meningsgränser, pauser, turstruktur mm. Även inlagda mellanrubriker. Skriftliga delen Transkription efter handskrivna originalet med viss normalisering av skiljetecken. Taggning Morfologisk taggning av inlärarnas text. Halvautomatisk procedur (PC Tagger, Brodda 1982). Fast radbrytning och radnumrering

Typ av korpus (1) Nomote&sk och idiografisk forskningsinriktning (Windelband 1894, Geschichte und NaturwissenschaR) NOMOTETISKT FOKUS - söka generell kunskap - ofta kvantitativa metoder - makro-perspektiv - abstraherande, reduktionistisk - typiskt för: naturvetenskap - psykologi: klasser, kohorter, populationer - språkvetenskap IDIOGRAFISKT FOKUS - belysa enskilda händelser - ofta kvalitativa metoder - mikro-perspektiv - konkretiserande - typiskt för: historia, humaniora - psykologi: individer - språkvetenskap Hur placerar sig språkkorpusar?

Typ av korpus (2) Korpusar, schematiskt betraktade: Övervägande nomotetiskt perspektiv; språket i samhället Ex.: BNC, COCA, Språkbankens storkorpusar Framträdande idiografiskt perspektiv; språket hos individen Ex.: ASU Utpräglat idiografiskt perspektiv Ex.: Strindbergs brev (i Korp) ASU ska kunna zooma in : - Involverar detaljarbete ner på person- och beläggnivå, tidpunkter, händelser - Sökning bearbetning av sökresultatet

Krav på ett gränssnitt Lagring i ordning e+er korpusens indelning Flexibla korpusurval Flexibla sökmöjligheter Frekvensuppgi+er, sta;s;k Beläggställen i konkordanser och textvisning Textvisning: kontext ;ll sökträffar; fulltext Bearbeta sökresultat, spara/återhämta versioner Exportera

Lagring i ordning efter korpusens indelning Huvuddel (muntligt/skriftligt, inlärare/infödda) > person (informant) > textenhet (inspelningstillfälle, uppsats) > tidsföljd i text Visa konkordanser och text i samma ordning

Frekvensuppgi,er, sta1s1k Räkningar på text Textlängd (valda textdelar; antal löpord), talarval (informanten resp. andra talare), typ/teckenrelationer, ordfrekvenser, taggfrekvenser Skilja mellan token / (egentliga) ord / skiljetecken Räkningar på sökträffar Antal träffar i konkordans, antal träffar av visst slag (angivna rader). Räkningar på bearbetade konkordanser.

Bearbetning av konkordans Annotera (tilläggskategorisera) träffar Omsortera (även komplexa omsorteringar) Stryka överflödiga träffar (irrelevanta items, iterationer, ekon) Ny räkning efter bearbetning Benämna och spara/återhämta arbetsversioner Skriva ut

Konkordansegenskaper Exempel på en egenuppmärkt och omsorterad ASU-konkordans i ITG-gränssnittet. 17

Exportera Exportera frekvenser i text - - - Exportera konkordanser t.ex. för vidare bearbetning i Excel: - Hela konkordansen - Intakt struktur

Forskningsfrågor: E. detaljexempel 90 GRADING Equative / Comparative / Superlative, total 80 70 Frequency per 10 000 words 60 50 40 30 Equative Comparative Superlative 20 10 0 1 2 3 4 5 6 7 8 9 10 Time Figure 3. Developmental profile in the GRADING dimension: equative vs. comparative (inequative-exclusive) vs. superlative (inequative-inclusive), total frequencies. (Hammarberg, B. 2014. Constructions of comparison in Swedish: Quantitative dominance patterns in acquisition and use. Constructions 1-5/2014.)