(The Göteborg Spoken Language Corpus, GSLC) Jens Allwood, Leif Grönqvist, Elisabeth Ahlsén och Magnus Gunnarsson
|
|
- Lars-Erik Olofsson
- för 8 år sedan
- Visningar:
Transkript
1 Copenhagen. Akademisk Forlag. Nydanske Studier 30, 2002, pp (The Göteborg Spoken Language Corpus, GSLC) Jens Allwood, Leif Grönqvist, Elisabeth Ahlsén och Magnus Gunnarsson 1. Inledning Denna uppsats innehåller en beskrivning av talspråkskorpusen (GSLC) vid institutionen för lingvistik, Göteborgs universitet, samt en sammanfattning av de olika typer av analys och verktyg som har utvecklats för arbete med denna korpus. Arbete på korpusen inleddes under sent 1970-tal (det finns dock även material från talet) och har inkrementellt byggts på sedan dess. Idag innehåller korpusen ca. 1,3 millioner ord från omkring 25 olika sociala verksamheter. Korpusen har byggts upp för att tillgodose det växande intresset inom lingvistik för naturalistiska talspråksdata. En utgångspunkt är här att talspråk i stor utsträckning varierar i olika sociala verksamheter med avseende på uttal, ordförråd, grammatik och kommunikativa funktioner. Målsättningen för korpusen är att inkludera talspråk från så många typer av social verksamhet som möjligt för att få en mera fullständig förståelse av den roll språk och kommunikation spelar i mänskligt socialt liv. Denna typ av talspråkskorpus är fortfarande relativt unik, t.o.m. för engelska, eftersom många talspråkskorpora har insamlats för speciella syften såsom taligenkänning, fonetik, dialektal variation eller interaktion med ett datorstött dialogsystem. Oftast kommer också inspelningarna från en mycket begränsad verksamhet eller domän, se t.ex. Edinburgh Map Task (Isard och Carletta (1995), TRAINS (Heeman och Allen (1994) Waxholm (Blomberg m.fl. (1993). Jämfört med engelska korpora liknar Göteborgskorpusen kanske mest den nya zeeländska Wellington Corpus of Spoken New Zealand English (Holmes, Vine och Johnson 1998), men den har också gemensamma drag med BNC (British National Corpus) och London/Lund-korpusen (Svartvik 1990). Likheter finns också med den danska BySoc-korpusen (Gregersen 1991, Henrichsen 1997). När det gäller inspelningar baseras korpusen till 50% på audio- och till 50% på videoinspelningar av naturalistiskt förekommande interaktion. Inspelningarna har transkriberats enligt en transkriptionsstandard, GTS 6.2 (Nivre 1999b), (den har testats på kinesiska, arabiska, engelska, spanska, bulgariska och finska) och en språkspecifik del som gäller svenska Modifierad Standard-Ortografi, MSO, f.n. version 6 (Nivre 1999a). Båda delarna har gått igenom 6 stora revisioner och flera mindre. För att förbättra reliabiliteten kontrolleras alla transkriptioner av en person utöver transkriptören. De kontrolleras också automatiskt så att deras format blir korrekt innan de inkluderas i korpusen. I MSO används standardortografi om det inte finns flera konventionella talspråksvarianter av ett ord. När det finns flera varianter hålls de isär grafiskt. Även om målet är att hålla transkriptionerna enkla, innehåller standarden talspråksdrag såsom kontrastiv betoning, överlapp och pauser. Den innehåller också procedurer för att anonymisera transkriptioner och för att introducera kommentarer gällande delar av transkriptionen.
2 Parallellt med att korpusen insamlats och transkriberats har kontinuerligt olika datorbaserad verktyg utvecklats för att underlätta arbetet med korpusen. Dessa beskrivs korfattat nedan. Genom att använda korpusen och dessa verktyg har vi kunnat göra olika typer av kvalitativ och kvantitativ analys, ett exempel på detta är en bok med jämförelser av frekvenser för svenskt tal- och skriftspråk (Allwood 1998). Boken innehåller ordfrekvenser både för ord skrivna i MSO-format och skrivna i standardortografiskt format. Den innehåller vidare statistik gällande ordklasser i tal och skrift, grundade på en automatisk probabilistisk taggning som ger 97% korrekt klassifikation. Korpusen har inte bara bearbetats automatiskt utan har också använts för olika typer av manuell kodning, t.ex. kommunikationsreglering (innefattande tvekljud, taländringar, återkoppling och turtagande), talakter, åtaganden, missförstånd etc. (Allwood 2001). Korpusen kan också utnyttjas för andra typer av kvalitativ analys, t.ex. för CA-relaterad sekventiell analys. Inspelningarna i korpusen digitaliseras kontinuerligt på digitala band eller CD med Mpeg-kompression. Varje CD innehåller både transkriptioner och inspelningar. 2. GSLC och andra korpora i Göteborg Talspråkskorpora vid institutionen för lingvistik vid Göteborgs universitet innehåller förutom GSLC flera andra typer av korpora, se tabell 1 nedan. Dessutom arbetar vi också med talspråkskorpora som insamlats av andra forskargrupper. Tabell 1. Talspråkskorpora vid Göteborgs universitet, institutionen för lingvistik Göteborgskorpusen för talspråk GSLC (kärnkorpusen vuxna förstaspråkstalare av svenska), 1,3 millioner ord Talare med afasi Barnspråkskorpus (svenska och andra nordiska språk), 0, 75 millioner ord inkluderande vuxna deltagare Utbildningsprocess, 416 longitudinella intervjuer, 2 millioner ord Talspråkskorpora med icke-svenska vuxna o Kinesiska ( ord) o Bulgariska ( ord) o Arabiska o Engelska ( ord) + BNC o Finska o Italienska (3 000 ord) o Norska ( ord) o Spanska Wizard-of-Oz och Bionisk korpus Interkulturell kommunikationskorpus Det är kärnkorpusen (GSLC) vi kommer att fokusera på i denna artikel. I tabell 2 nedan presenterar vi några data om denna korpus. Som nämnts ovan är korpusen baserad på sociala verksamheter snarare än på t.ex. dialekter eller kategoriseringar av talare som socialklass eller kön. Emellertid kan omgrupperingar eller urval från korpusen göras på basis av sådana kriterier. De begränsningar som finns för våra möjligheter att skapa subkorpora är beroende av att vi inte alltid har den information som skulle behövas om individuella talare.
3 Tabell 2. GSLC Göteborgskorpusen för talspråk Typ av social verksamhet Antal inspelningar Genomsnittligt antal talare Antal sektioner* Ordförekomster (inklusive pauser och kommentarer) Hörbara ordförekomster Duration** Auktion 2 6, :14:11 Bussförare/ 1 33, :13:33 passagerare Konsultation 16 3, :44:25 Rättegång 6 5, :58:33 Middag 5 8, :49:54 Diskussion 34 5, :19:24 Fabrik 5 7, :19:47 Formellt möte 13 9, :45:54 Hotell 9 19, :47:50 Informellt samtal 22 4, :48:41 Informationsservice 32 2, :13:40 Intervju 58 2, :34:27 Föreläsning 2 3, :38:00 Marknad 4 24, :18:37 Högmässa 2 3, :10:45 Återbreättande av 7 2, :42:00 artikel Rollspel 2 2, :39:16 Affär 49 7, :40:46 Uppgiftscentrerad 26 2, :05:20 dialog Terapi 2 7, :04:07 Mässa 16 2, :12:46 Resebyrå 40 2, :53:57 Totalt 353 4, :15:53 * En sektion är en längre fas av en verksamhet med ett distinktivt underordnat syfte. Bussförar- /passagerarinspelningarna har t.ex. 30 sektioner där varje sektion innehåller tal med en ny passagerare. ** För vissa inspelningar saknas uppgift om duration. Vi uppskattar att siffran ovan understiger den faktiska durationen med ungefär 30 timmar. 3. Lagring Omkring 50% av de 1,3 millioner ordförekomsterna är lagrade på audioband och resten finns på videoband (Umatic, VHS eller BetaCAM). För att kunna bevara inspelningarna, håller vi på att digitalisera dem genom att kopiera dem till digitala band. Ett mini-dv-band rymmer 60 minuter eller ett DVCam-band 180 minuter. Detta format kräver en snabb dator. Vid Mpeg-kompression har vi försökt att använda en konstant datahastighet på omkring 200 Kb per sekund. Detta ger en bra kvalitet och formatet kan användas på de flesta PC/Mac-maskiner. 4. Beskrivning av korpusens transkriptionsstandard Transkriptionsstandarden (GTS + MSO) vi har använt kan kanske lättast förklaras genom ett exempel.
4 Exempel 1. Transkription enligt GTS + MSO 1. Small talk $D: säger du de{t} ä{r} de{t} ä{r} de{t} så besvärlit då $P: ja ja $D: m // ha / de{t} kan ju bli så se{r} du $P: < jaha <ingressive> $D: du ta{r} den på morronen $P: nej inte på MORRONEN kan ja{g} ju tar allti en promenad på förmiddan [1 å0 ]1 då vill ja{g} inte ha [2 den ]2 medicinen å0 sen nä ja{g} kommer hem möjligtvis $D: [1 {j}a ]1 $D: [2 nä ]2 Exemplet visar följande egenskaper hos transkriptionsstandarden: (i) (ii) (iii) (iv) (v) (vi) (vii) Sektionsgränser markeras med paragraftecken ( ) och delar upp en verksamhet i subaktiviteter. En läkar-patient-konsultation kan t.ex. ha följande subaktiviteter: (i) hälsning och introduktion, (ii) anledning till besöket, (iii) undersökning, (iv) diagnos, (v) förslag till behandling Ord och mellanrum mellan orden Dollartecken ($) följt av stor bodstav, följd av kolon (:) används för att indikera ny talare och ett nytt yttrande. Dubbla snedstreck (//) används för att indikera pauser. Snedstreck /, // eller /// används för att indikera pauser av olika längd. Stora bokstäver används för att indikera kontrastiv betoning. Ordindex används för att indikera vilket skriftspråksord som motsvarar den talspråksform som anges i transkriptionen. (å0) motsvarar skriftspråkets och. I de fall då talspråksvarianterna kan ses som förkortade former av skriftspråk, använder vi krullparenteser ({ }) för att visa vad den standardortografiska formen skulle vara, t.ex. de{t}. Överlapp indikeras med hakparenteser ([ ]) med index, vilket tillåter disambiguering om flera talare överlappar samtidigt. (viii) Kommentarer kan skrivas in genom att använda vinkelparenteser (< >) för att markera räckvidden på kommentaren i transkriptionen och (@< >) för att skriva in den aktuella kommentaren. Kommentarer kan t.ex. gälla händelser som är viktiga för interaktionen eller sådana fenomen som röstkvalitet och gester. 5. Verktyg som har utvecklats Under den tid som korpusen har insamlats och transkriberats har många verktyg för att arbeta med korpusen utvecklats. Följande är fortfarande aktuella.
5 5.1. TransTool TransTool (Nivre m.fl. 1998) är ett datorverktyg för att transkribera talspråk i enlighet med transkriptionsstandarden (Nivre 1999a, b). Det hjälper den användare att transkribera korrekt och gör det lättare att hålla reda på index för överlapp och kommentarer (se. Nivre et al 1998). 5.2 Korpus-Browsern Korpusbrowsern är ett verktyg som gör det möjligt att via internet söka på ord, ordkombinationer och fraser (som reguljära uttryck) i Göteborgskorpusen för talspråk. Resultaten kan presenteras som konkordanser eller listor av uttryck med så mycket kontext man vill ha och med direkta länkar till transkriptionen. 5.3 TRACTOR TRACTOR är ett kodningsverktyg som gör det möjligt att skapa nya kodningsscheman och att koda transkriptioner. De segment i transkriptionen som kodas kan vara kontinuerliga eller diskontinuerliga och det är även möjligt att koda relationer. Ett kodningsschema kan representeras som ett träd med strängar på alla noder och löv och ett kodningsvärde är en stig genom trädet. Modellen liknar filoch mappstrukturen på en datorhårddisk. Denna struktur gör det lättare att analysera kodningarna i ett prologsystem, men det är inte möjligt att ordna koderna eller att koda en kodning, eftersom en kod alltid består enbart av två diskontinuerliga intervall och ett kodat värde (Larsson 1997). 5.4 Visualisering av koder med FrameMaker Vi har också skapat en verktygslåda som gör det möjligt att visualisera kodningsscheman och kodade värden med färg, fetstil, kursiv stil etc. direkt i transkriptionerna som ett FrameMaker-dokument. Olika delar av transkriptionen kan också markeras (eller uteslutas!) för att få en överskådlig bild utan de detaljer man kanske inte för tillfället är intresserad av (Grönqvist 1999). 5.5 TraSA Om man har en korpus som är transkriberad enligt Göteborgsstandarden för transkription kan man genom att använda TraSA (Grönqvist 2000b) relativt enkelt erhålla ett 30-tal statistiska mått för olika egenskaper, verksamheter, sektioner eller talare. Man kan t.ex. räkna antal ordförekomster, ordtyper, yttranden eller mer komplexa mått som ordrikedom. 5.6 SyncTool SyncTool (Nivre m.fl. 1998) är en prototyp för MultiTool nedan, som möjliggör synkronisering av transkriptioner med digitaliserade audio- och videoinspelningar. Den är också avsedd att vara ett vyverktyg som tillåter användaren att se transkriptionen och att spela upp det relaterade inspelade materialet, utan att behöva manuellt lokalisera de aktuella passagen i inspelningen.
6 5.7 Arbete på ett synkroniseringsverktyg MultiTool Många av de ovan beskrivna verktygen skulle vara mer användbara om man kunde utnyttja de olika funktionerna simultant i ett verktyg. MultiTool är ett försök att bygga ett sådant verktyg för transkription och kodning av talspråk, liksom för browsing, sökning och räkning. Systemet kan hantera ett godtyckligt antal talare, överlappande tal, hierarkiska kodningsscheman, diskontinuerliga kodningsintervall, relationer och synkronisering mellan kodningar och mediafiler (Grönqvist 2000a). Den grundläggande idén är att samla all information i ett internt tillstånd som är en lågnivå-representation av alla typer av annotering (kodning), inklusive transkription. Tillståndet innehåller de abstrakta objekten kodning och synkroniseringar. Detta är de typer av grundläggande information datorprogrammet behöver. För användare som utnyttjar audio- och videoinspelningarna i korpusen är transkriptionerna enbart en kodning av inspelningarna. En viktig detalj är att alla vyer (t.ex partitur eller andra vyer av transkriptionen, vyer av kodningar och akustisk analys, liksom även videofiler) som är kopplade till samma tidpunkt kan synkroniseras för att visa samma sekvens från olika perspektiv närhelst en användare utnyttjar en av dem. Det interna tillståndet innehåller all information, så det är möjligt att ha flera olika vyer på samma sekvens i en dialog. Förändringar av något i en vy kommer omedelbart att förändra det inre tillståndet och som en konsekvens härav de andra vyerna. MultiTool är skrivet i JAVA + JMF, vilket gör programmet förhållandevis plattformsoberoende och eftersom interpretatorerna snabbt blir mer effektiva, kommer troligen prestanda att bli tillräckligt bra på alla viktiga plattformar inom den närmaste framtiden. En ny egenskap vi håller på att lägga till är import- och exportformat för våra lokala transkriptionsformat, TRACTOR-filer och troligen också för CAtranskriptioner (CA = Conversation Analysis). Vår ambition är att de nya versionerna av MultiTool i framtiden för många användare kommer att ersätta de olika verktygen vi har beskrivit ovan. Emellertid kommer TraSA och Korpusbrowsern fortfarande att behövas när man arbetar på stora delar av korpusen samtidigt. Med adekvata import/exportfunktioner kommer olika användare att kunna använda sina egna transkriptions- och kodningsformat i MultiTool. På så sätt hoppas vi att MultiTool kommer att utgöra en god basnivå för analys av mutlimodala talspråkskorpora: transkription, annotering/kodning, konversion, söklning, räkning, browsing och visualisering. För användare med andra intressen finns dock bättre verktyg, som t.ex. Waves för fonetiker och MediaTagger för enklare kodningar av audio/videofiler. 6. Typer av kvantitativ analys På grundval av den information som ges av transkriptioner enligt Göteborgsstandarden har vi definierat en uppsättning egenskaper som kan härledas automatiskt ur transkriptionerna. Några av dessa egenskaper är följande (se Allwood och Hagman 1994, Allwood 1996): (i) Volym: Volym omfattar mått som antal ord, ordlängd, pauser, betoning, yttranden och turer relativt talare, verksamhet och subaktivitet.
7 (ii) (iii) (iv) (v) (vi) (vii) Kvoter: Ifrån volymmåtten kan sedan olika kvoter räknas fram. T.ex.: MLU = ord / yttrande % pauser = 100 x pauser / (ord + pauser) % betoning = 100 x betonade ord / ord % överlapp = 100 x överlappade ord / ord hastighet = ord / duration Alternativt kan pauser, betoning och överlapp beräknas per yttrande. Alla dessa kvoter kan sedan relateras till talare, verksamhet eller subaktivitet (sektion). Speciella deskriptorer: Ett exempel på en speciell deskriptor är ordrikedom, som kan mätas genom ordförekomst / ordtyp. Guiraud, Über, Herdan eller teoretisk vokabulär, cf. Van Hout och Rietveld (1993). Andra deskriptorer som vi har konstruerat är stereotypiskhet, som räknar ut hur ofta ord och fraser upprepas i en verksamhet, verbal dominans och verbal jämlikhet, livlighet och försiktighet samt överlapp i olika yttrandepositioner. Lemma: Vi har också implementerat en enkel stam -algoritm som gör det möjligt för oss att gruppera regelbundet böjda former med sin ordstam. Ordklasser: Orden i korpusen kan tilldelas ordklasser genom att använda en sannolikhetsbaserad statistisk (Viterbi-trigram) ordklasstaggare som har anpassats till talspråk. Genom att använda denna har ordklasstaggning gjorts för hela GSLC (ungefär 1,3 millioner transkriberade ord). Korrektheten är ungefär 97% (cf. Nivre och Grönqvist 2001). Ord som taggats för ordklass kan sedan tilldelas talare, verksamhet och subaktivitet. Kollokationer: Alla talare, verksamheter och subaktiviteter kan beskrivas med avseende på vilka kollokationer som förekommer. Dessa kan sorteras efter frekvens, efter förekomst som fullständiga yttranden eller efter mutual information (Manning och Schütze 1999). Frekvenslistor: Frekvenslistor kan göra för ord, lemman, ordklasser, kollokationer och yttrandetyper. (viii) Sekvenser av ordklasser: Yttranden av olika längd kan beskrivas med avseende på vilka ordklassekvenser de innehåller. Detta tillåter en första analys av grammatiska skillnader mellan talare, verksamheter och subaktiviteter. (ix) Likheter: Likheter mellan verksamheter kan fångas genom att analysera i hur stor utsträckning ord och kollokationer delas mellan verksamheter. Validitets- och reliabilitetskontroll görs manuellt av alla automatiska mått.
8 7. Typer av kvalitativ analys 7.1 Översikt För att öka reliabiliteten i kodning, har kvalitativ analys i Göteborg ofta resulterat i utvecklandet av kodningsscheman, dvs. scheman för annotation ovanpå transkriptioner. De kodningsscheman som utvecklats i Göteborg kan jämföras med andra scheman och då kan vi se att några av dessa ligger ovanpå transkription, t.ex. DAMSL (Core and Allen 1997) and DRI, medan andra är integrerade med transkriptionsstandarden, t.ex. uppmärkningsramen i MATE (Dybkjaer m.fl. 1998). En rättvis jämförelse mellan de viktigaste, för att inte säga alla scheman ligger utanför ramarna för denna redogörelse. De kodningsscheman som presenteras nedan reflekterar således de intresseområden Göteborgs-gruppen har fokuserat på. Den underliggande transkriptionsstandarden begränsar på ett naturligt sätt finkornigheten för alla nya kodningsscheman, men de två kodningsverktyg som utvecklats i Göteborg, MultiTool och TRACTOR, är avsedda att vara så oberoende av alla individuella kodningsscheman och transkriptionsstandarder som möjligt. Följande lista ger en översikt av kodningsscheman från Göteborg (cf. Allwood 2001). Kodning relaterad till: 1. Social verksamhet och kommunikativa akter 1.1 Social verksamhet 1.2 Kommunikativa akter 1.3 Expressiva och evokativa funktioner 1.4 Förpliktelser (åtaganden) 2. Kodning relaterad till kommunikationsreglering 2.1 Återkoppling (feedback) 2.2 Tur- och sekvensreglering 2.3 Egen kommunikationsreglering 3. Grammatisk kodning 3.1 Ordklasser (automatisk, probabilistisk) 3.2 Maximala grammatiska enheter 4. Semantisk kodning Kontroll av reliabilitet är planerad att inkluderas i utvecklingen av alla kodningsscheman. Hittills har sådan kontroll gjorts av kodning för återkoppling och egen kommunikationsreglering (med hjälp av Cohens kappa). 7.2 Bidrag, yttranden och turer I enlighet med Grice (1975), Allwood, Nivre och Ahlsén (1990) och Allwood (2000), antas de grundläggande enheterna i dialog vara gestuella eller vokala bidrag från deltagarna. Termen bidrag används istället för yttrande, när vi vill inkludera inte bara muntlig vokal input till kommunikationen utan också gester eller skriftlig input. Verbala bidrag kan bestå av enstaka morfem eller vara flera satser långa. Termen tur används för rätten att bidra snarare än för det bidrag som produceras genom
9 användande av denna rätt. Man kan göra ett bidrag utan att ha turen och man kan ha turen utan att använda den för ett aktivt bidrag. Ett exempel på detta ges nedan, där B:s första bidrag innebär givande av positiv återkoppling utan att ha turen (hakparenteser indikerar överlapp) och B:s andra bidrag innebär att han/hon under sin tur är tyst och inte gestikulerar. A: titta glass [vill] du ha en glass B1: [ja] B2: (tystnad och ingen handling) Bidrag, yttranden och turer kodas inte eftersom de kan fås direkt ur GTS, den Göteborgska transkriptionsstandarden. 7.3 Kodning relaterad till social verksamhet och kommunikativa akter Social verksamhet Varje transkription är länkad till en databaspost och ett huvud (header) som innehåller information om: (i) (ii) (iii) (iv) (v) Syfte(n), funktion(er) och procedurer i verksamheten Verksamhetens roller Artefakterna, dvs. objekt, möbler, instrument och media som utnyttjas i verksamheten Den sociala och fysiska omgivningen Data om deltagarna (anonymiserade), såsom ålder, kön, dialekt och etnicitet Dessutom anges de viktigaste subaktiviteterna för varje verksamhet Kommunikativa akter Varje bidrag kan kodas med hänsyn till vilka kommunikativa akter den innehåller simultant eller sekventiellt. De kommunikativa akterna finns på en lista som kan utvidgas. De flesta typer har idag definitioner och operationalisering. Några av de typer som används ofta är följande: Uppmaning, Påstående, Tvekan, Fråga, Svar, Specifikation, Konfirmation (Bekräftelse), Affirmation (Bekräftelse), Avslutande av interaktion, Avbrott, Slutsats och Erbjudande Expressiva och evokativa funktioner I enlighet med Allwood (1976, 1978, 2000) anses varje bidrag ha en expressiv och en evokativ funktion. Dessa funktioner explicitgör några av de funktioner som impliceras av kodningen av kommunikativa akter. Den expressiva funktionen låter sändaren uttrycka trosuppfattningar och andra kognitiva attityder och känslor. Vad som uttrycks består av en kombination av reaktioner på föregående bidrag och nya initiativ. Den evokativa funktionen är den reaktion sändaren avser att framkalla hos lyssnaren. På så sätt är den evokativa funktionen hos ett påstående normalt att framkalla samma uppfattning som uttryckts i påståendet hos lyssnaren. Den
10 evokativa funktionen hos en fråga är att framkalla ett svar, medan den evokativa funktionen hos en uppmaning är att framkalla en önskad handling Förpliktelser (åtaganden) Om dialog och kommunikation skall fungera på ett kooperativt sätt, oavsett om detta sker som medel för en annan verksamhet eller ej, nödvändiggörs vissa förpliktelser och åtaganden för både talare (sändare) och lyssnare (mottagare). Med avseende på både expressiva och evokativa funktioner, bör sändaren ta hänsyn till mottagarens perceptuella, kognitiva och beteendemässiga förmåga och bör inte vilseleda, skada eller onödigtvis inskränka mottagarens frihet. Mottagaren bör tillmötesgå med en värdering av huruvida hon/han kan höra, förstå och utföra det som ges av sändarens evokativa avsikter och signalera detta till sändaren. Sändarens och mottagarens förpliktelser och åtaganden kan summeras på följande sätt (se också Allwood 1994): Sändaren (åtaganden): 1. Uppriktighet, 2. Motivation, 3. Hänsyn (se Allwood 1976). Mottagaren (förpliktelser): 1. Värdering, 2. Rapport, 3. Handling. 7.4 Kodning relaterad till kommunikationsreglering Inledning Termen kommunikationsreglering syftar på de medel som talare kan använda för att reglera interaktionen eller sin egen kommunikation. Det finns tre kodningsscheman som är relaterade till kommunikationsreglering (se Allwood m.fl. 1999): 1) Kodning av återkoppling, 2) Kodning av tur- och sekvensreglering och 3)Kodning av egen kommunikationsreglering Kodningsschema för återkoppling En återkopplingsenhet kan beskrivas som en maximal kontinuerlig utsträckning av ett yttrande (förekommande självständigt eller som del av ett längre yttrande), vars primära funktion är att ge och/eller framkalla återkoppling rörande kontakt, perception, förståelse och acceptans av evokativ funktion (Allwood 1993). Alla återkopplingsenheter kodas med avseende på Struktur, Position/Status, och Funktion. Att koda struktur betyder att koda grammatisk kategori (satsdel, fras eller mening) och även strukturella operationer. Strukturella operationer indelas i fonologiska, morfologiska och kontextuella operationer, vilka var och en har olika värden Kodning av tur- och sekvensreglering Tur- och sekvensreglering omfattar följande fenomen: (A) Överlapp och avbrott: Överlapp kodas i transkriptionerna och kan extraheras automatiskt. Avbrott är en kod för de överlapp som syftar till att eller lyckas byta ämne eller ta turen från en annan talare. (B) Avsedd mottagare: Denna typ av kodning har 4 självförklarande värden: (i) en viss deltagare (ii) en viss grupp av deltagare
11 (iii) alla deltagare (iv) ingen annan deltagare (att tala till sig själv) (C) Markerande av inledande och avslutande av subaktiviteter och/eller interaktionen som helhet Kodningsschema för egen kommunikations-reglering (EKR) EKR betyder Egen kommunikations-reglering och står för processer som talare använder för att reglera sina egna bidrag i kommunikativ interaktion. Att koda EKRfunktion innebär att klassificera om EKR-enheten är: Val-relaterad hjälper talaren att vinna tid för processer som berör fortlöpande val av innehåll och typer av strukturella uttryck, eller: Ändrings-relaterad hjälper n att ändra innehåll, struktur eller uttryck som redan producerats. EKR-enheter kodas också med avseende på det EKR-relaterade uttryckets struktur. Denna struktur kan indelas i grundläggande EKR-drag, grundläggande EKRoperationer och komplexa EKR-operationer. Pauser, enkla EKR-uttryck som tvekljud etc. och explicita EKR-fraser räknas som grundlläggande EKR-drag. Grundläggande EKR-operationer är: förlängning av kontinuanter, själv-avbrott och självupprepning. Kategorin komplexa EKR-operationer står för olika sätt att modifiera den språkliga strukturen. EKR-kodningsschemat beskrivs i Allwood m.fl. (1997). 7.5 Grammatisk kodning Det finns också möjligheter att koda grammatisk struktur. En av dessa är den ovannämnda automatiska ordklasstaggningen. En annan är kodning av maximala grammatiska enheter ett kodningsschema som finns beskrivet i Allwood (2001). När man kodat maximala grammatiska enheterd bör man i första hand försöka hitta så stora enheter som möjligt, den största enheten är härvidlag fullständiga satser. Satser kan subklassificeras genom att använda schemat satser. I talspråk finns det många yttranden som inte är satser, så i andra hand bör man försöka hitta fullständiga fraser. Dessa bör kodas med schemat fraser. Om det inte är möjligt att finna vare sig fullständiga satser eller fullständiga fraser, kodas enskilda ord med schemat ordklasser. Vart och ett av de tre nämnda schemana innehåller flera underkategorier. 8. Slutsatser och framtida arbete I denna uppsats har vi beskrivit en del av det arbete som gjorts vid institutionen för lingvistik vid Göteborgs universitet för att samla, transkribera och lagra talspråksmaterial. Vi har också beskrivit några av de verktyg som har utvecklats för att underlägga arbetet med att analysera data, både automatiskt och manuellt. Slutligen har vi beskrivit några av de resultat vi hittills erhållit. Framtida arbete kommer att inkludera en inkrementell utvidgning av korpusen både för att få data från nya social verksamheter och för att utjämna storleken på inspelat och transkriberat material från olika verksamhetstyper. Vi kommer också att göra flera ansträngningar att göra korpusen mera multimodal genom att göra de audio- och videoinspelningar som transkriptionerna bygger på mera tillgängliga. Arbete på verktyg för att analysera korpusen kommer att fortsätta. Det mest omedelbara målet är att komplettera
12 MultiTool, vilket förhoppningsvis kommer at ge oss bättre möjligheter att arbeta med multimodala data. Parallellt med detta kommer arbete på kvalitativ och kvantitativ analys att fortsätta. Ett ambitiöst mål är att arbeta mot en grammatisk beskrivning av talspråk och mot en systematisk beskrivning (även om detta kanske inte skall vara en grammatik) av multimodal ansikte-mot-ansikte-kommunikation. 9. Bibliografi Allwood, J. (1976) "Linguistic Communication as Action and Cooperation". Gothenburg Monographs in Linguistics 2. Göteborgs universitet, institutionen för lingvistik, 257 sid. Allwood, J. (1978) "On the Analysis of Communicative Action". I The Structure of Action, M. Brenner, red., Basil Blackwell, Oxford, sid Allwood, J. (1993) "Feedback in Second Language Acquisition", I Adult Language Acquisition. Cross Linguistic Perspectives, Vol. II. C. Perdue, red., Cambridge: Cambridge University Press, Cambridge, sid Allwood, J. (1994) "Obligations and Options in Dialogue", Think, Vol 3, May, ITK, Tilburg University, Allwood, J., red, (1996 and later editions) "Talspråksfrekvenser, Ny och utvidgad upplaga". Gothenburg Papers in Theoretical Linguistics S21. Göteborgs universitet, institutionen för lingvistik, 418 sid. Allwood, J. (1998) "Some Frequency based Differences between Spoken and Written Swedish". I Timo Haukioja, red., Proceedings of the 16th Scandinavian Conference of Linguistics, Turku University, Department of Linguistics, sid Allwood, J. (2000) "An Activity Based Approach to Pragmatics". I Abduction, Belief and Context in Dialogue; Studies in Computational Pragmatics, H. Bunt, & B. Black, red., John Benjamins, Amsterdam, sid Allwood, J., red., (2001) "Dialog Coding Function and Grammar: Göteborg Coding Schemas". Gothenburg Papers in Theoretical Linguistics GPTL 85. Göteborgs universitet, institutionen för lingvistik, 67 sid. Allwood J. och Hagman, J. (1994) "Some Simple Measures of Spoken Interaction". I F. Gregersen, & J. Allwood, red., Spoken Language, Proceedings of the XIV Conference of Scandinavian Linguistics, sid Allwood, J., Ahlsén, E., Nivre, J. och Larsson, S. (2001) "Own communication management". I Allwood, J., red., (2001) Dialog Coding Function and Grammar: Göteborg Coding Schemas. Gothenburg Papers in Theoretical Linguistics GPTL 85. Göteborgs universitet, institutionen för lingvistik, sid Allwood, J., Nivre, J. och Ahlsén, E. (1990) "Speech Management: On the Non- Written Life of Speech". Nordic Journal of Linguistics, 13, Blomberg, M., Carlson, R., Elenius, K., Granström, B., Gustafson, J, Hunnicutt, S., Lindell, R. och Neovius, L (1993) "An experimental dialogue system: WAXHOLM", Proceedings of EUROSPEECH 93, sid Core, M. G. och Allen, J. F. (1997) "Coding Dialogs with the DAMSL Annotation Scheme". I Working Notes of AAAI Fall Symposium on Communicative Action in Humans and Machines, Boston, MA, November Dybkjær, L., Bernsen, N.O., Dybkjær, H., McKelvie, D. och Mengel, A. (1998) "The MATE Markup Framework". MATE Deliverable D1.2, November 1998, 15 sid.
13 Gregersen, F. (1991) "The Copenhagen Study in Urban Sociolinguistics", 1+2; Reitzel, Copenhagen. Grice, H.P. (1975). "Logic and conversation". I Syntax and Semantics Vol. 3: Speech Acts, P. Cole and J. L. Morgan, red., Seminar Press, New York, sid Grönqvist, L. (1999) "Kodningsvisualisering med Framemaker". Göteborgs universitet, institutionen för lingvistik, 8 sid. Grönqvist, L (2000a) "The MultiTool User's Manual. A tool for browsing and synchronizing transcribed dialogues and corresponding video recordings". Göteborgs universitet, institutionen för lingvistik, 6 sid. Grönqvist, L. (2000b) "The TraSA v0.8 Users Manual. A user friendly graphical tool for automatic transcription statistics". Göteborgs universitet, institutionen för lingvistik, 8 sid. Heeman, P. A. och Allen, J. F. (1994) "The TRAINS 93 Dialogues". TRAINS Technical Note Henrichsen, P.J. (1997) "Talesprog med Ansigtsløftning", IAAS, Univ. of Copenhagen, Instrumentalis 10/97, 66 sid. Holmes, J., Vine, B. och Johnson, G. (1998) "Guide to the Wellington Corpus of Spoken New Zealand English". Victoria University of Wellington, Wellington. Hout, R. v. och Rietveld, T. (1993) "Statistical Techniques for the Study of Language and Language Behaviour". Berlin & New York: Mouton de Gruyter, 400 sid. Isard, A. och Carletta, J. (1995) "Transaction and action coding in the Map Task Corpus". Research Paper HCRC/RP-65, 27 sid. Larsson, S. (1997) "TRACTOR v1.0b1 användarmanual". Göteborgs universitet, institutionen för lingvistik, 10 sid. Manning, C. D. och Schütze, H. (1999) "Foundations of Statistical Natural Language Processing", The MIT Press, Boston, Mass., 620 sid. Nivre, J. (1999a) "Transcription Standard. Version 6.2". Göteborgs universitet, institutionen för lingvistik, 38 sid. Nivre, J. (1999b) "Modifierad StandardOrtografi (MSO) Version 6", Göteborgs universitet, institutionen för lingvistik, 9 sid. Nivre, J., Tullgren, K., Allwood, J., Ahlsén, E., Holm, J., Grönqvist, L., Lopez- Kästen, D. och Sofkova, S. (1998) "Towards multimodal spoken language corpora: TransTool and SyncTool". Proceedings of ACL-COLING 1998, June Nivre, J. och Grönqvist, L. (2001) "Tagging a corpus of Spoken Swedish". Utkommer i International Journal of Corpus Linguistics. Svartvik, J. (red.) (1990), "The London Corpus of Spoken English: Description and Research". Lund Studies in English 82. Lund University Press, 350 sid.
NyS. NyS og artiklens forfattere
NyS Titel: Forfatter: Göteborgskorpusen för talspråk Jens Allwood, Leif Grönqvist, Elisabeth Ahlsén og Magnus Gunnarsson Kilde: Udgivet af: URL: NyS Nydanske Sprogstudier 30. Korpuslingvistik, 2002, s.
Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.
Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009. Listorna i det här dokumentet kommer från Göteborgs Talspråkskorpus
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,
OWN COMMUNICATION MANAGEMENT. Kodningsmanual v1.0. Jens Allwood, Elisabeth Ahlsen, Joakim Nivre, Staan Larsson. October 10, 1997
OWN COMMUNICATION MANAGEMENT Kodningsmanual v1.0 Jens Allwood, Elisabeth Ahlsen, Joakim Nivre, Staan Larsson October 10, 1997 1 Inledning Syftet med detta dokument ar att formulera principer for kodning
Den nordiska språkgemenskapen Några möjliga pragmatikinriktade studier. Jens Allwood Kollegium SSKKII Göteborgs universitet
Den nordiska språkgemenskapen Några möjliga pragmatikinriktade studier Jens Allwood Kollegium SSKKII Göteborgs universitet Innehåll 1. Varför intressant? 1. Vad är pragmatik? 3. Fyra pragmatiska områden
MODIFIERAD STANDARDORTOGRAFI (MSO6)
MODIFIERAD STANDARDORTOGRAFI (MSO6) Version 6 Januari 1999 Institutionen för lingvistik Göteborgs universitet Joakim Nivre 1 1 Allmänna principer MSO6 är en modifierad standardortografi för svenska avsedd
Föreläsning 6: Analys och tolkning från insamling till insikt
Föreläsning 6: Analys och tolkning från insamling till insikt FSR: 1, 5, 6, 7 Rogers et al. Kapitel 8 Översikt Kvalitativ och kvantitativ analys Enkel kvantitativ analys Enkel kvalitativ analys Presentera
Kursinformation och schema Lingvistik 729G08 (6 hp)
LINKÖPINGS UNIVERSITET Institutionen för kultur och kommunikation Kognitionsvetenskapliga kandidatprogrammet V1 Kursinformation och schema Lingvistik 729G08 (6 hp) HT 2016 Lärare och examinatorer: Mathias
Föreläsning 5: Analys och tolkning från insamling till insikt. Rogers et al. Kapitel 8
Föreläsning 5: Analys och tolkning från insamling till insikt Rogers et al. Kapitel 8 Översikt Kvalitativ och kvantitativ analys Enkel kvantitativ analys Enkel kvalitativ analys Presentera resultat: noggrann
Jämförelse av interaktion i tre olika typer av butiksmiljö
Jämförelse av interaktion i tre olika typer av butiksmiljö Abstrakt Göteborgskorpusen för talspråk (Gothenburg Spoken Language Corpus) (Allwood 1999) består av samtal inspelade i en mängd olika sammanhang
Litteraturlista ALLMÄN SPRÅKVETENSKAP och FONETIK. Period 1:
Litteraturlista ALLMÄN SPRÅKVETENSKAP och FONETIK Period 1: 090119-080325 Språket, individen och samhället 7,5 hp Dahl, Ö. Språkets enhet och mångfald. 2007. 2 uppl. Lund: Studentlitteratur. Steinberg,
Introduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Kursinformation och schema för Lingvistik 6 hp 729G08
LINKÖPINGS UNIVERSITET Institutionen för kultur och kommunikation Kognitionsvetenskapliga programmet 2012-10-29 Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2012 Lärare: Mathias Broth (281851)
Presentation av bok om svenskt och danskt talspråk skillnader och likheter utifrån korpusdata Projekt SweDanes
Presentation av bok om svenskt och danskt talspråk skillnader och likheter utifrån korpusdata Projekt SweDanes Jens Allwood, Peter Juel Henrichsen, Elisabeth Ahlsén, Magnus Gunnarsson, Leif Grönqvist,
Pragmatisk och narrativ utveckling
Pragmatisk och narrativ utveckling Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Pragmatik! Pragma! handling! hur vi använder språket! hur vi handlar genom språket! Pragmatik!
Litteraturlista HT09 ALLMÄN SPRÅKVETENSKAP och FONETIK GRUNDKURS. Period
Litteraturlista HT09 ALLMÄN SPRÅKVETENSKAP och FONETIK GRUNDKURS Period 1 090901-091103 Fonetik, fonologi och grafonomi 7,5 hp Engstrand, Olle. 2004. Fonetikens grunder. Lund: Studentlitteratur. Fromkin,
FTEA21:3 Spr akfilosofi F orel asning I Martin J onsson
FTEA21:3 Språkfilosofi Föreläsning I Martin Jönsson Att lära Varför Frege varken tror att ett ords mening är dess referens eller något mentalt. Freges egen teori om mening Tre semantiska principer Kompositionalitetsprincipen,
Virtuell språkundervisning Distans- och hybridkurser
I. Hur presterade studenterna på Skype? Virtuell språkundervisning Distans- och hybridkurser Personliga erfarenheter och reflek
Litteracitet på flera språk. Professor Monica Axelsson Institutionen för Språkdidaktik, Stockholms universitet monica.axelsson@isd.su.
Litteracitet på flera språk Professor Monica Axelsson Institutionen för Språkdidaktik, Stockholms universitet monica.axelsson@isd.su.se Brian Street 1984, 1993 New Literacy Studies (tidigt 80 tal) New
The National Institute of Child Health and Human Development (NICHD) Protocol: Intervjuguide
The National Institute of Child Health and Human Development (NICHD) Protocol: Intervjuguide This Swedish version is based on the English version available on the NICHD Protocol website (www.nichdprotocol.com).
Litteraturlista ht10 ALLMÄN SPRÅKVETENSKAP och FONETIK. GRUNDKURS Period Period 1
Litteraturlista ht10 ALLMÄN SPRÅKVETENSKAP och FONETIK GRUNDKURS 100901-101103 101104-110118 Språket, individen och samhället 7,5 hp Sundgren, Eva. 2007. Sociolingvistik. Liber. Steinberg, D, H. Nagata
Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.
Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla
Moderna språk. Ämnets syfte
Moderna språk MOD Moderna språk Moderna språk är ett ämne som kan innefatta en stor mängd språk. Dessa kan sinsemellan vara mycket olika vad gäller allt från skriftsystem och uttal till utbredning och
VAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK
VAD LÄR MAN SIG NÄR MAN TILLÄGNAR SIG ETT ANDRASPRÅK? ANDERS AGEBJÖRN DOKTORAND I SVENSKA SOM ANDRASPRÅK INSTITUTET FÖR SVENSKA SOM ANDRASPRÅK C2 Bild: Wikipedia C1 B2 B1 A2 Bild: Wikipedia A1 inläraren
Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART
Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast)
Undervisningen i ämnet moderna språk ska ge eleverna förutsättningar att utveckla följande:
MODERNA SPRÅK Moderna språk är ett ämne som kan innefatta en stor mängd språk. Dessa kan sinsemellan vara mycket olika vad gäller allt från skriftsystem och uttal till utbredning och användning inom skiftande
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Anmälan till EY1B13 Kontrastiv engelska för lärare (Contrastive English for Teachers) 7,5 hp vårterminen 2011.
Institutionen för Språk och litteraturer Anmälan till EY1B13 Kontrastiv engelska för lärare (Contrastive English for Teachers) 7,5 hp vårterminen 2011. Personnummer Efternamn Förnamn Adress Postnummer
Abelin, Å. (1999) Studies in Sound Symbolism Gothenburg Monographs in Linguistics 17. Göteborg, 279 sid.
Publikationer a) monografi Abelin, Å. (1999) Studies in Sound Symbolism Gothenburg Monographs in Linguistics 17. Göteborg, 279 sid. b) antologier bidrag Abelin, Å. (forthcoming) Proceedings of ProsIco.
Föreläsningens upplägg. Språket, individen och samhället HT07. 1. Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)
Föreläsningens upplägg Språket, individen och samhället HT07 Döva och språk Skriftsystem och läsning 1. Döva och språk 2. Skriftsystem och läsning Stina Ericsson Internationell manifestation för teckenspråket
NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden
NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006 Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden Laboration 3 börjar med en Nuance-tutorial som först och främst går ut på att lära sig lite hur Nuance
Förslag den 25 september Engelska
Engelska Det engelska språket omger oss i vardagen och används inom skilda områden som kultur, politik, utbildning och ekonomi. Kunskaper i engelska ökar individens möjligheter att ingå i olika sociala
Kursplan ENGELSKA. Ämnets syfte. Mål. Innehåll. Insikt med utsikt
Kursplan ENGELSKA Ämnets syfte Undervisningen i ämnet engelska ska syfta till att deltagarna utvecklar språk- och omvärldskunskaper så att de kan, vill och vågar använda engelska i olika situationer och
Artikelskrivandets konst, 7.5 hp
Institutionen för pedagogik, didaktik och utbildningsstudier HT 2014 KURSPLAN Artikelskrivandets konst, 7.5 hp Huvudområde: Pedagogik Utbildningsnivå: Forskarutbildning Betygsskala: För denna kurs ges
KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng
1(6) KURSPLAN Engelska, 31-60 hp, 30 högskolepoäng English, 31-60 credits, 30 credits Kurskod: LENB17 Fastställd av: Utbildningsledare 2013-11-01 Gäller fr.o.m.: Hösten 2015 Version: 8 Diarienummer: HLK
NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden
NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006 Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden Laboration 3 börjar med en Nuance-tutorial som först och främst går ut på att lära sig lite hur Nuance
Kärlekens språk En analys
(publ. i Ottar - boktidningen om sexualitet samlevnad samhälle Nr 3/1988) Kärlekens språk En analys AV JENS ALLWOOD 1 "Det är, åtminstone i de bästa faserna, frågan om en så total och öppen kommunikation
STOCKHOLMS UNIVERSITET Sociologiska institutionen
STOCKHOLMS UNIVERSITET Sociologiska institutionen Anvisningar till momentet Ekonomisk sociologi (6 p.), Sociologi I och Sociologi II, VT-14 Kursansvarig lärare Tiziana Sardiello Rum B944 Tel: 163164 E-mail:
Bilaga 3: Kvalitativ granskningsmall
Bilaga 3: Kvalitativ granskningsmall Protokoll för kvalitetsbedömning av studier med kvalitativ metod Modifierad version av Willman, Stoltz & Bahtsevani (2011) Beskrivning av studien Tydlig avgränsning/problemformulering?
Har/hade-bortfall i svenskan Hur finit är ett naket supinum?
Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Maia Andréasson, Susanna Karlsson, Erik Magnusson och Sofia Tingsell Att de finita formerna av verbet ha, dvs. har och hade, kan utelämnas när
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Språket, individen och samhället VT08
Språket, individen och samhället VT08 Barns och vuxnas andraspråksinlärning Tvåspråkighet, kognition, m.m. Ellen Breitholtz 1. Barns och vuxnas andraspråksinlärning Vem är bäst? Vem är bäst på att lära
ÄEND01, Engelska 1, 30 högskolepoäng English 1, 30 credits Grundnivå / First Cycle
Humanistiska och teologiska fakulteterna ÄEND01, Engelska 1, 30 högskolepoäng English 1, 30 credits Grundnivå / First Cycle Fastställande Kursplanen är fastställd av Prodekanen med ansvar för grundutbildning
Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2011
Institutionen för kultur och kommunikation Linköpings universitet Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2011 Kursansvarig lärare: Richard Hirsch (281856) Richard.Hirsch@liu.se Vecka
Nya analys(- och insamlings)metoder i talforskning och talteknologisk forskning. Jens Edlund KTH Tal, Musik och Hörsel
Nya analys(- och insamlings)metoder i talforskning och talteknologisk forskning Jens Edlund KTH Tal, Musik och Hörsel Om mig Arbetar som forskare på KTH Tal, Musik och Hörsel Lingvistik, fonetik, datorlingvistik
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Metod och material. Etnografisk ansats. Fältarbete: 3 klasser, 2 skolor, 42 lektioner
Metod och material Etnografisk ansats Fältarbete: 3 klasser, 2 skolor, 42 lektioner Videoinspelningar med två kameror (62 h x 2), deltagande observationer, fältanteckningar, semistrukturerade intervjuer
Utbildningsplaner för kandidat-, magister och masterprogram. 1. Identifikation. Avancerad nivå
1. Identifikation Programmets namn Omfattning Nivå Programkod Ev. koder på inriktningar Beslutsuppgifter Ändringsuppgifter Masterprogram i kognitionsvetenskap 120 hp Avancerad nivå HAKOG Fastställd av
Utbildningsplan för masterprogrammet Språk och språkvetenskap (2015)
Utbildningsplan för masterprogrammet Språk och språkvetenskap (2015) 1. Identifikation Programmets namn Programmets engelska namn Huvudområde Inriktningar Nivå Omfattning i Programkod Beslutsuppgifter
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Kursplan för kurs på grundnivå
Kursplan för kurs på grundnivå Svenska som andraspråk med didaktisk inriktning I Swedish as a Second Language with an Educational Perspective I 30.0 Högskolepoäng 30.0 ECTS credits Kurskod: CT1500 Gäller
SVENSKA SOM ANDRASPRÅK
SVENSKA SOM ANDRASPRÅK Ämnet svenska som andraspråk ger elever med annat modersmål än svenska möjlighet att utveckla sin kommunikativa språkförmåga. Ett rikt språk är en förutsättning för att inhämta ny
LITK10 Teckenspråk i teori och praktik I, 30 hp
LITK10 Teckenspråk i teori och praktik I, 30 hp Samläses med LIT400 Teckenspråk som nybörjarspråk I, 30 hp (dk 1 till 5) LITN03 Språkvetenskaplig introduktion till svenskt teckenspråk, 5 hp (dk 1) LIT403
Exjobbskritik Muntlig opponering på ett exjobb. Stina Ericsson
Datalingvistisk metod och fördjupning HT05 1 Exjobbskritik Muntlig opponering på ett exjobb Stina Ericsson Datalingvistisk metod och fördjupning HT05 2 Översikt 1. Att läsa ett exjobb kritiskt 2. Opponeringen
Kommunikativ effektivitet (West Birmingham Speech & Language Therapy Service)
Skalan West Birmingham Speech & Language Therapy Service ingår som obligatorisk bedömning av kommunikativ förmåga i aktivitet. Skall göras före start av åtgärder och vid uppföljning efter 1 år och efter
In: Jörgenson, Platzack & Svensson (eds) Språkbruk, grammatik och språkförändring. Dept of Nordic Languages, University of Lund.
In: Jörgenson, Platzack & Svensson (eds) 1994. Språkbruk, grammatik och språkförändring. Dept of Nordic Languages, University of Lund. OM DIALOGREGLERING 1. Syfte Jens Allwood Institutionen för lingvistik
Tankar om språkundervisning
in Lingua Nr 1, 1983.. 1 Tankar om språkundervisning Jens Allwood, Inst. för lingvistik, Göteborg universitet Om man funderar över undervisning inom något visst område, är det naturligt att ta sin utgångspunkt
Kognitionsvetenskap C, HT-04 Mental Rotation
Umeå Universitet 041025 Kognitionsvetenskap C, HT-04 Mental Rotation Grupp 3: Christina Grahn, dit01cgn@cs.umu.se Dan Kindeborg, di01dkg@cs.umu.se David Linder, c01dlr@cs.umu.se Frida Bergman, dit01fbn@cs.umu.se
MÅL OCH BETYGSKRITERIER I SVENSKA
MÅL OCH BETYGSKRITERIER I SVENSKA MÅL ATT UPPNÅ I ÅR 7 Delta i samtal samt lyssna på andra Redovisa ett arbete muntligt utifrån stödord om något man sett, läst, hört eller upplevt Kunna läsa och tillgodogöra
Chris von Borgstede
2010-11-02 Chris von Borgstede Psykologiska institutionen Göteborgs universitet Vänligen stäng av mobilen 1 Läsanvisning: Eagly & Kulesa: Attitudes, attitude structure, and resistance to change Biel, Larsson
KRITERIER FÖR REELL KOMPETENS I HUVUDOMRÅDE ARABISKA, JAPANSKA, KINESISKA OCH RYSKA
INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER KRITERIER FÖR REELL KOMPETENS I HUVUDOMRÅDE ARABISKA, JAPANSKA, KINESISKA OCH RYSKA Nedanstående påståenden är hämtade ur mallen för Gemensam europeisk referensram
LLEN10, Engelska för lärare i åk 4-6, 30,0 högskolepoäng English for teachers in years 4-6, 30.0 higher education credits
UTBILDNINGSVETENSKAPLIGA FAKULTETSNÄMNDEN LLEN10, Engelska för lärare i åk 4-6, 30,0 högskolepoäng English for teachers in years 4-6, 30.0 higher education credits Grundnivå/First Cycle 1. Fastställande
Miniseminarium om grounding och feedback
Miniseminarium om grounding och feedback Jens Edlund Mattias Heldner Botond Pakucs Gabriel Skantze med flera 1 Bakgrund Utgångspunkt: Common ground Collaboration Grounding Kollaborativt byggande av common
Föreläsning 3 Användare, uppgift och omgivning. Kapitel 3-4 i Stone et al.
Föreläsning 3 Användare, uppgift och omgivning Kapitel 3-4 i Stone et al. Från föregående föreläsning Kravinsamling med användare i fokus genom Observationer i verkliga situationer Konstruera uppgifter
Tala, skriva och samtala
Tal och skrift Presentationer, instruktioner, meddelanden, berättelser och beskrivningar Engelska åk 4-6 - Centralt innehåll Språkliga strategier Förstå och göra sig förstådd, delta och bidra till samtal
Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2009
Institutionen för kultur och kommunikation Linköpings universitet Kursinformation och schema för Lingvistik 6 hp 729G08 Ht 2009 Kursansvarig lärare: Richard Hirsch (281856) Richard.Hirsch@liu.se Vecka
INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER
INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER FR1111 Franska: Grundkurs, 30 högskolepoäng French: Introductory Level, 30 higher education credits Fastställande Kursplanen är fastställd av Institutionen för
INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER
INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER FR1111 Franska: Grundkurs, 30 högskolepoäng French: Introductory Level, 30 credits Fastställande Kursplanen är fastställd av Institutionen för språk och litteraturer
Tekniken bakom språket
Tekniken bakom språket Red. Rickard Domeij Småskrift utarbetad av SPRÅKRÅDET 2008 NORSTEDTS AKADEMISKA FÖRLAG INNEHÅLL Språkteknologi för språken i Sverige 13 Rickard Donieij Tekniken bakom språket 13
L0009B. Moment. Introduktion till geografiska databaser: G:\L0009B\Allmänt\IntroGeoDB.pdf (F)
L0009B Moment FL 1: Kursintroduktion. Kursinformation: G:\L0009B\Allmänt\KursInformationL0009B.pdf (F) Kursplan: Se https://portal.student.ltu.se/stuka/kurs.php?kurs=l0009b&lang=swe (F) Allt som markerats
Inledande exempel. Levinson och informationsstruktur. Vad är informationsstruktur? Informationsstruktur och pragmatik
Pragmatik VT06 Informationsstruktur Informativitet och koherens i dialog och diskurs Inledande exempel 1. Vad gör du? Jag tittar ut genom fönstret 2. Tittar du in eller ut genom fönstret? Jag tittar ut
Gränssnitt för FakeGranska. Lars Mattsson
Gränssnitt för FakeGranska av Lars Mattsson (larsmatt@kth.se) Innehållsförteckning 1 Introduktion...3 2 Genomförande:...3 3 Användning...5 4 Kända buggar:...6 5 Källförteckning...6 2 1 Introduktion Taken
Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp
Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp astställda av institutionsstyrelsen 2012-05-09. Gäller fr.o.m. ht 12. elkurs 1: et talade språket, 7,5 hp örväntade studieresultat
Svenska som andraspråk
Ämnet svenska som andraspråk ger elever med annat modersmål än svenska möjlighet att utveckla sin kommunikativa språkförmåga. Ett rikt språk är en förutsättning för att inhämta ny kunskap, klara vidare
L6EN20, Engelska 2 för lärare åk 4-6, 15,0 högskolepoäng English 2 for Teachers, 4th-6th grade, 15.0 higher education credits
UTBILDNINGSVETENSKAPLIGA FAKULTETSNÄMNDEN L6EN20, Engelska 2 för lärare åk 4-6, 15,0 högskolepoäng English 2 for Teachers, 4th-6th grade, 15.0 higher education credits Grundnivå/First Cycle 1. Fastställande
Risk- och sårbarhetsanalys Erfarenheter från tio års forskning (2004 2014)
Risk- och sårbarhetsanalys Erfarenheter från tio års forskning (2004 2014) Henrik Tehler Lunds universitet Avdelningen för riskhantering och samhällssäkerhet LUCRAM (Lund University Centre for Risk Assessment
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
THE SALUT PROGRAMME A CHILD HEALTH INTERVENTION PROGRAMME IN SWEDEN. ISSOP 2014 Nordic School of Public Health. Gothenburg SWEDEN UMEÅ UNIVERSITY
THE SALUT PROGRAMME A CHILD HEALTH INTERVENTION PROGRAMME IN SWEDEN UMEÅ UNIVERSITY VÄSTERBOTTEN COUNTY COUNCIL Epidemiology and Global Health Strategic Development Office Public Health Unit ANNELI IVARSSON
NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING, DET ANDRA INHEMSKA SPRÅKET OCH FRÄMMANDE SPRÅK
De första grunderna i språket, DET ANDRA INHEMSKA SPRÅKET OCH FRÄMMANDE SPRÅK A1.1 Eleven klarar sporadiskt av, med stöd av sin samtalspartner, några ofta återkommande och rutinmässiga kommunikationssituationer.
Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011
Kort om Coxheads Academic Word List Emma Sköldberg, maj 2011 Två viktiga artiklar Coxhead, A. 2000: A New Academic Word List (TESOL Quarterly 34:2, 2000, 213-238). Coxhead, A. 2002: The Academic Word List:
Analys av kvalitativ data Kvalitativ innehållsanalys som ett exempel. Introduktion Bakgrund Syfte Metod Resultat Diskussion Slutsats
KVALITATIV ANALYS Analys av kvalitativ data Kvalitativ innehållsanalys som ett exempel Övning i att analysera Therese Wirback, adjunkt Introduktion Bakgrund Syfte Metod Resultat Diskussion Slutsats Fånga
BARNS SPRÅKUTVECKLING
BARNS SPRÅKUTVECKLING BARNS SPRÅKUTVECKLING Hur lär sig barn sitt språk? Vad skiljer barns språkutveckling från vuxnas språkinlärning? Hur kan vi forska om barns språkutveckling? Vad säger språkutvecklingen
Bemötande i vården. Upplägg. Introduktion. Bemötandeärenden till patientnämndens kansli. Intervjuer med patienter som upplevt bristande bemötande
Bemötande i vården Eva Jangland Sjuksköterska, klinisk adjunkt Kirurgen, Akademiska sjukhuset Doktorand Institutionen för kirurgiska vetenskaper Uppsala Universitet Upplägg Bemötandeärenden till patientnämndens
Satssemantik. Semantik: Föreläsning 4 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet
Satssemantik Semantik: Föreläsning 4 Lingvistik: 729G08 HT 2012 IKK, Linköpings universitet 1 Dagens föreläsning Saeed 2009, kap.5-6 (Flera av exemplen här är anpassade från Saeed) Betydelse inom satser
3.6 Moderna språk. Centralt innehåll
3.6 Moderna språk Språk är människans främsta redskap för att tänka, kommunicera och lära. Att ha kunskaper i flera språk kan ge nya perspektiv på omvärlden, ökade möjligheter till kontakter och större
NIVÅSKALA FÖR SPRÅKKUNSKAP OCH SPRÅKUTVECKLING,
, Det andra inhemska språket och främmande språk, Grunderna för läroplanen för den grundläggande utbildningen 2014 Kunskapsnivå A1.1 Eleven klarar sporadiskt av, med stöd av sin samtalspartner, några ofta
ALLMÄN BESKRIVNING AV LÄROÄMNET ENGELSKA I ÅRSKURSERNA 4-6
ALLMÄN BESKRIVNING AV LÄROÄMNET ENGELSKA I ÅRSKURSERNA 4-6 Läroämnets uppdrag Språk är en förutsättning för lärande och tänkande. Språket är närvarande i all verksamhet i skolan och alla lärare är språklärare.
Att läsa utan att förstå - läsförståelseproblem i tidig skolålder. Åsa Elwér
Att läsa utan att förstå - läsförståelseproblem i tidig skolålder Åsa Elwér Talat språk Har en tydlig funktion: Intonation, betoning, gester Personligt Uttrycks i en delad situation Skiljer sig från skrivet
Teckenspråkslingvistik I, 15 hp LIT140
Teckenspråkslingvistik I, 15 hp LIT140 Litteratur Beslut Denna litteraturlista är fastställd av styrelsen vid Institutionen för lingvistik 2019-06-11. Språkvetenskaplig översiktskurs, 4 hp LIT140, dk 1
Forskarutbildningen i Beteendevetenskapliga
Umeå universitet Institutionen för tillämpad utbildningsvetenskap KURSPLAN Forskarutbildningen i Beteendevetenskapliga mätningar Baskurs: 37,5 hp Moment 1: Introduktion till beteendevetenskapliga mätningar,
Fastställande. Allmänna uppgifter. Kursens mål
Humanistiska och teologiska fakulteterna LLYU70, Svenska som andraspråk för lärare i svenska för invandrare, 30 högskolepoäng Swedish as a Second Language for Teachers of Newly Arrived Immigrants, 30 credits
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
BOKSTAVSBAGERIET. Junibackens pedagogiska program för förskolan kring bokstavskunskap och fonologisk medvetenhet
BOKSTAVSBAGERIET Junibackens pedagogiska program för förskolan kring bokstavskunskap och fonologisk medvetenhet INNEHÅLL Varmt välkomna till oss på Junibacken!... 3 Förskolebarn och bokstäver... 4 Läsa
Minnet - begrepp och principer
Minnet - begrepp och principer Ebbinghaus (1885)» nonsensstavelser» retention»test Två begreppsteorin för minnet» aktivitet»styrka bestämmer tillgängligheten hos ett minnesspår vid en viss tidpunkt bestämmer
Språkets struktur och funktion, 7,5 hp
Språkets struktur och funktion, 7,5 hp Ellen Breitholtz, ellen@ling.gu.se, Cajsa Ottesjö, cajsao@ling.gu.se ht 2010 Schema, planering Torsdag 4/11: Introduktion, historisk översikt Att läsa: Handout Tisdag
Föreläsning 2: Datainsamling - Observation, enkät, intervju. Att läsa: Kapitel 2 och 3 i Stone et al.: User Interface design and evaluation
Föreläsning 2: Datainsamling - Observation, enkät, intervju Att läsa: Kapitel 2 och 3 i Stone et al.: User Interface design and evaluation Stjärnmodellen Analys Utvärdering Implementation Prototyper Krav
b450 genom munnen 76 b4502 Funktioner för att nysa Ny kod funktioner relaterade till slem slem, ospecificerade
1 Avdelningen för statistik och jämförelser Enheten för klassifikationer och terminologi Nya, ändrade och borttagna koder samt ändrade er i Internationell klassifikation av funktionstillstånd, funktionshinder