Kort och gott Svenskt basordförråd. Katarina Mühlenbock, DART

Relevanta dokument
Ordtavlor och Talspråksfrekvenser från GSLC, sammanställda med tanke på användning i talande samtalsjälpmedel. Arbetsmaterial, Bitte Rydeman 2009.

Från aspekt till övergripande en nätbaserad lista över svenskt akademiskt ordförråd

Ordklasser och satsdelar

Hemtentamen HT13 Inlämning senast Lärare: Tora Hedin

Svensk grammatik Ordklasser!

Träningshäfte ordklasser (Venus)

ORDKLASSERNA I SVENSKA SPRÅKET

Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Ordklasser. Substantiv är benämningar på människor, djur, växter och föremål. Du kan sätta en, ett eller flera framför substantiv.

Det talade språket i ett longitudinellt perspektiv

SUBSTANTIV = namn på saker, personer, känslor

grammatik Ordklasser, nominalfraser, substantiv

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:

ORDKLASSERNA I. Ett sätt att sortera våra ord

Lingvistiskt uppmärkt text

2. Substantiv kan man sätta en, ett, flera eller all, allt, alla framför.

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual

Morfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.

CSVE20 vt-18: Språkkunskap A 11SV20 vt-17: Språkkunskap A. Tillfälle 4) 11SV20 vt-17 (LASEAht16)

Faktorer av betydelse för en flerspråkig utveckling. Sociala faktorer. Språkliga faktorer. Pedagogiska faktorer

Dåtid:'' Perfekt'' Beskriver'att' något'har'skett.' Bildas'med' hjälpverbet' har.'

Svenska med didaktisk inriktning mot arbete i grundskolans årskurs 4-6, I

Ordförråd och Ordbildning

ANDREAS ISSA SVENSKA SPRÅKET

Ordbok arabiska - svenska. Denna ordboks webbadress är:

Prövning i grundläggande Engelska

Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk

Träningshäfte ordklasser facit

Facit för diagnostiska provet i grammatik

Varför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?

Delkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015

MASTER. Mining and selecting texts for easy reading. Katarina Mühlenbock

Kursplan i svenska. Mål att sträva mot för år F-5

Har adjektivets a och e former någon reell betydelse i dagens svenska? Om den så kallade sexusböjningen. Theres Brännmark Grammatikdagen 17 mars 2017

Facit Mango Grammatik Ordklasser Fortsättning

Lycka till med pluggandet! Tro på dig själv! VI HAR FÖRHÖRET TORSDAG DEN 7/4-16.

Huvudordklasser. ursinnig, god, glad äta, dricka, cykla. Övriga ordklasser. fort, borta, ute

Övningstillfälle 1, Kognitionsvetenskapliga programmet. Ordklasser och fraser. Facit. 2. lyftes VERB 28. överseende PARTICIP

Svenskans struktur, 7,5 hp Tentamensexempel 1

Tema Antiken år 6 Svenska

Kommentarer till bedömningsmatris för Tala Kurs B

Karp. Övningar Språkbankens höstworkshop oktober 2016

Semantik VT Introduktion. Dagens föreläsning. Morfem-taxonomi forts. Morfem-taxonomi. Lexikal semantik: studerar ords betydelse

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Grammatikprov åk 8 ORDKLASSER

Pre-editering och maskinöversättning. Convertus AB

Nederländska I A 15 högskolepoäng. Välkommen till Nederländska I A, 15 högskolepoäng

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Att hantera två eller flera språk

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Grammatik för språkteknologer

CLT CLT CLT CLT. SVALex: Till att börja med... Vem behöver ordlistor? Alternativ till SVALex. en andraspråksordlista graderad enligt CEFR-nivåer

Förord. Elevfacit och Test för kopiering utges till varje del av Grammatikövningar för Sfi, del 1 2.

Svensk minigrammatik

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Precodia. Manual. Precodia 1.0. Elevdata AB. Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten. (

Språkteknologi. Språkteknologi

ANDREAS REJBRAND Svenska Vanliga och allvarliga språkfel

Morfologi, språktyper och skriftsystem. Allmän Grammatik och Fonetik HT09 Dag 2

Bonusmaterial Språkskrinet Bläckfisk

Betygskriterier NS1066 Svenska för studenter med utländsk förutbildning, 30 hp

glad simma luft koka barnslig pojke moln lycka jord överenskommelse Pelle femte varför arg ropa

Språk, datorer och textbehandling

Svenska språket 1, delkurs 2 Språkets byggstenar 714G47 Svenska språket Svenska språkets byggstenar 714G57

Lingvistiska grundbegrepp

Grammatisk teori II Attributvärdesgrammatik

Arbetsplan i Thailändska

Korpusuppbyggnad Från textsamling till korpus

Statistisk grammatikgranskning

Lexikon: ordbildning och lexikalisering

LLEN10, Engelska för lärare i åk 4-6, 30,0 högskolepoäng English for teachers in years 4-6, 30.0 higher education credits

Repetition ordklasser och satsdelar Bas och Fortsättning (s. 8-95)

Svenska GRAMMATIK

Ordbok arabiska - svenska

Korp. Övningar Språkbankens höstworkshop oktober 2016

Sofie Johansson Kokkinakis

SOL110. Somaliska språket i ett kontrastivt perspektiv. Somaliskans grammatik i jämförelse med svenskans grammatik.

Introduktion till språkteknologi. Datorstöd för språkgranskning

ENGELSKA. Årskurs Mål att uppnå Eleven skall:

Grammatik för språkteknologer

Studiebrev 12. Háskóli Íslands Svenska lektoratet Höstterminen. Grammatik I (2,5 p) H [ects: 5] Lärare: Maria Riska mar@hi.

Nederländska I 30 högskolepoäng Termin 1 (15 högskolepoäng) Välkommen till Nederländska I, 30 högskolepoäng

Kort presentation av Korp, Sveriges nationalkorpus

Svenska förkortningar Utskrivbar övning från Glosor.eu

Fragment, ellipser och informationsberikade konstituenter

Syntax Fras, sats, mening

Småprat Small talk (stressed vowels are underlined)

Ett informationshäfte. Namn:

Lingvistiskt uppmärkt text

Denna bok är skyddad av upphovsrättslagen. Kopiering, utöver rätt att kopiera enligt BONUS-avtal, är förbjuden

Lektionsplanering. Grammatik vad är det? Språkets nivåer; vad är inte grammatik; ordbetydelse; morfologi. Öppen lektion. Bolander: kap.

Bröderna fara väl vilse ibland (epistel nr 35)

Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

TDDD02 Föreläsning 7 HT-2013

GOTHENBURG PAPERS IN THEORETICAL LINGUISTICS

Satslära introduktion

Korpussökning och korpusmått 1(44)

7 Bordsspel. Förberedelser för ordklasspel (7A) och satsdelsspel (7B)

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Transkript:

Kort och gott Svenskt basordförråd Katarina Mühlenbock, DART

Vad är ett ord? Vi kan göra pauser då vi uttalar ett ord Ett ord kan oftast bytas ut mot ett annat med liknande funktion och betydelse Kan (oftast) stå som ensamt yttrande I svensk skrift markeras gränsen genom ett tomrum

Ordbildning i olika språk Flekterande där orden böjs för att uttrycka grammatiska fenomen (alla indoeuropeiska): ex. katt er na jama r -de Agglutinerande där enskilda ord ändrar form för att kunna användas i olika grammatiska sammanhang, ex. finska: talossani ( i mitt hus )

Lite terminologi Korpus = en text eller samling texter, insamlade för ett visst ändamål Lemman = grundord - Verb: infinitivformen (hitta) - Substantiv: 1 pers sing (stol) - Adjektiv: positiv singular (liten) Lexem = betydelseenhet i det semantiska systemet (ex. krona ) krona substantiv ~n kronor 1 en huvudprydnad för kungliga personer 2 Kronan statsmakten 3 översta del av ngt: trädets krona 4 myntenheten i bl.a. Sverige: reformerna är finansierade krona för krona (SAOL)

För avgränsa ett ordförråd måste orden kategoriseras Efter ordklass Efter användning (talspråk/skriftspråk) Efter age-of-acquisition i vilken ordning uppträder vanligen orden i ett barns ordförråd? Efter domän (medicinskt, slang, låneord) Efter betydelse (semantisk kategori)

Kategorisering efter ordklasser Böjliga (öppna) ordklasser: Verb, substantiv, adjektiv, pronomen och räkneord Oböjliga (slutna) ordklasser: Prepositioner, konjunktioner, subjunktioner, interjektioner och adverb

Hur stort är ett normalt ordförråd? En treåring kan mellan 1 000 och 3 000 ord När man börjar skolan kan man i snitt 7 000 ord - kan skilja mycket mellan de språksvaga som kan ca 5 000 ord och språkstarka som kan upp till 20 000 ord För att kunna läsa en artikel i en dagstidning eller en för en 15-16 åring avpassad bok behöver vi kunna 50-70 000 ord

Basordförråd På 1930-talet extraherade Ogden 850 basord för engelska De Mauro gjorde på 1980-talet en indelning av 8 000 ord som kan vara fundamentala för vardaglig kommunikation: - Vardagliga ord som vid testning har visat sig vara begripliga för grundskoleelever - En delmängd av ovanstående som är högfrekventa - En uppsättning ord som inte förekommer särskilt ofta i vare sig skrift eller tal, men som är starkt knutna till vardagliga situationer och föremål, ex. tandborste

Hur skapar man ett basordförråd? Tittar på hur språket används i olika uttrycksformer - Skrift - Tal Räknar frekvenser av olika slag - Ordförekomster - Lemmaförekomster

Ordförrådets bredd och djup Ett ordförråds bredd är hur många ord man kan - hur många ord man kan ge en definition till eller matcha till en bild. Ett ordförråds djup hänger samman med hur bra man kan orden i sitt ordförråd. - Kan man använda orden i flera olika kontexter? - Kan man definiera orden i detalj? - Vet man hur orden relaterar till andra ord? - Kan man förstå orden utan kontext?

De 100 vanligaste orden i svenska språket i och att det som en på är av för med till den har de inte om ett han men var jag sig från vi så kan man när år säger hon under också efter eller nu sin där vid mot ska skulle kommer ut får finns vara hade alla andra mycket än här då sedan över bara in blir upp även vad få två vill ha många hur mer går sverige kronor detta nya procent skall hans utan sina något svenska allt första fick måste mellan blev bli dag någon några sitt stora varit dem bland kl bra tre

Ordlängd i tal och skrift Talspråk Skriftspråk 1 2 3 4 5-6 7-10 11-1 2 3 4 5-6 7-10 11- Från Talspråksfrekvenser. Frekvenser för ord och kollokationer i svenskt tal- och skriftspråk. Gothenburg Papers in Theoretical Linguistics, April 1999. Red. J. Allwood

Exempel från korpusmaterial LäSBarT är en korpus med 1 114 305 löpord Består av - Lättläst skönlitteratur för vuxna - Barnlitteratur - Lättläst nyhetstext - Lättläst samhällsinformation ~ 43 000 ordförekomster (tokens) ~ 20 000 lemman (grundformer)

Ordfrekvenser i LäSBarT Barnbokstext (138 000 ord) Regeringskansliets årsbok (5 000 ord) 8 SIDOR (156 000 ord)

Ordfrekvenser i LäSBarT, 2-bokstavsord en 13 721 du 8 668 de 7 096 vi 5 647 om 5 206 av 5 146 sa 3 927 nu 3 336 ut 2 854 ha 2 169 in 1 900 ju 1 315 ta 1 301 se 1 205 ni 868 ja 847 ge 593 ur 564 ny 430 bo 220 er 217 jo 198 va 122 be 113 la 77 oj 60 ro 45 el 42 tv 41 fy 33 le 29 te 28 yr 21 is 15 aj 14 kr 13 ko 11 by 11 hm 9 oh 8 mm 7 kg 6 sy 5 kl 5 go 4 di 4 al 4 nr 3 it 3 mc 2 km 2 hy 2 cd 2 an 2 ah 2 tu 1 my 1 mu 1 il 1 hu 1 ek 1 ej 1 dy 1 bi 1

Ordfrekvenser i LäSBarT, 3-bokstavsord och 29 041 att 25 702 det 24 188 jag 15 265 han 13 456 har 11 076 som 10 704 med 10 162 hon 8 938 var 8 887 ska 7 311 men 6 587 kan 6 349 sig 5 236 ett 5 186 den 4 297 vad 3 027 hur 2 934 mig 2 673 man 2 582 mot 2 430 upp 2 104 bli 1 853 bra 1 728 kom 1 700 dem 1 460 sin 1 457 mer 1 355 ser 1 343 vet 1 283 vid 1 187 dig 1 164 dom 1 101 ner 1 032 oss 966 tog 900 min 875 tar 747 nya 744 nej 721 nog 657 dag 648 hem 607 tre 585 del 518 vem 510 sen 497 tid 473 hos 467 mej 465 tag 445 hus 436 mat 393 bor 379 ger 348 dej 342 ens 323 sej 312 dog 307 din 301 dit 285 tio 267 bil 261 liv 260

SweVoc Sammanslagning av SBVP (SUC-corpus), Kelly-ordlistan (läroboksord), ICF (ord för kroppsfunktioner, ord ur individ- och samhällsperspektiv) 8 000 lemman uppdelade i: - Basvokabulär (2 201) - Vardagliga föremål och händelser (1 019) - Högfrekventa ord i skriven text (1 518) - Läromedelsord (288) - Supplementära ord (3 442)

Huvudverb: betecknar en aktion Hjälpverb används som formord: Verb - Temporala: ha, ska - Passivbildande: bli, vara - Modala: bör, måste, kunna, vilja, låta Lös och fast sammansättning Ex. tillsätta grädde / sätta till grädde - En fast sammansättning har ofta en mer abstrakt betydelse, ex. avbryta/bryta av, uppgå/gå upp

Verbens betydelsefält - Fysiska fältet Befintlighet (bo, ligga, stå) Rörelse (flytta, lägga) Produktion (baka, bygga) Konsumtion (dricka, äta) Fysisk hantering (måla, skära) - Psykiska och sociala fältet Varseblivning (höra, se) Kommunikation (be, skriva) Tänkande och minne (förstå, tro) Avsikt (försöka, planera) Önskan (hoppas, ångra) Förmåga (kunna, orka) Socialt handlande o relationer (lyda, gifta sig) - Logiska fältet Orsak, verkan (bero på) Likhet (jämföra) Beteckning (betyda) Existens (finnas, försvinna) Kvantitet (minska, väga) Innehav (få, ge) Del/helhet (bestå av)

Högfrekventa Verb i SweVoc och talat språk Jämförelse av verbfrekvenser i skrivet och talat språk de fyra i topp är identiska 67 % av samtliga finns både i tal och skrift i talat språk fler verb som tillhör det psykiska och sociala fältet

Referenser De Mauro, T. 1980. Guida all uso delle parole. Roma: Editori Riuniti. Forsbom, E. 2006: A Swedish Base Vocabulary Pool. Proc. of SLTC. Dept. of Linguistics and Philology. Uppsala University. Heimann Mühlenbock, K. 2013. I see what you mean. Assessing readability for specific targets group. Avhandling, inst. för svenska språket, Göteborgs universitet. Heimann Mühlenbock, K. & Johansson Kokkinakis, S. 2012. SweVoc A Swedish vocabulary resource for CALL. Proc of SLTC Workshop on NLP for CALL. Lund: Linköping University Electronic Press. Johansson Kokkinakis, S. & Volodina, E. 2011. Corpus-based approaches for the creation of a frequency based vocabulary list in the EU project Kelly. elex Conference. Slovenia. Ogden, C.K. 1930. Basic English: A general introduction with rules and grammar. London: Paul Treber & Co. Ltd. WHO 2008. International Classification of functioning, disability and health (ICF).