Svenskans digitala resurser. Elzbieta Strzelecka elzbieta.strzelecka@miun.se



Relevanta dokument
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp

Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp

Kort presentation av Korp, Sveriges nationalkorpus

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

Datorbaserade verktyg i humanistisk forskning

Språk, datorer och textbehandling

Språk, datorer och textbehandling

Hur det är att vara arbetslös i fina Sverige.

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

Språk, datorer och textbehandling

Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)

Korp. Övningar Språkbankens höstworkshop oktober 2016

Lässtrategier för att förstå och tolka texter från olika medier samt för att urskilja texters budskap,

Språkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren

Musik bland dagens ungdomar

Språkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?

Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?

Lärarmaterial. svarta damen. Vad handlar boken om? Mål ur Lgr11. Boksamtal. Författare: Torsten Bengtsson

Selma Lagerlöf Ett liv

Mer aktuell eller aktuellare? En korpusbaserad undersökning av svenskans adjektivkomparation de senaste årtiondena

1 december B Kära dagbok!

Erik på fest Lärarmaterial

Lässtrategier för att förstå och tolka texter samt för att anpassa läsningen efter textens form och innehåll. (SV åk 1 3)

Hur skriver du!? Anna-Karin Hedlund Riksgymnasiet för döva och hörselskadade Virginska gymnasiet.

Kan förstå när en kamrat långsamt berättar om sig själv och sin familj.

Svenska 3 ANSWER KEY MÅL Fraser. 1. a) trevligt 1. b) detsamma 3. när 4. intressant 5. tycker. 2 - Ordföljd

en cigarett en flaska ett rum ett äpple en kurs en kompis en turist en buss en gurka ett brev

Terminsplanering för årskurs 7-9:

Innehåll. [dölj]

Vuxenstuderande, enkätresultat Kommunal vuxenutbildning

Berättelsen om Avicii Tim Bergling Ett liv

Österlengymnasiet

Diskussionsfrågor <3mig.nu. - Om Internet, trakasserier och livet IRL

Sofie Johansson Kokkinakis

Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster

Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. (SV åk 4 6)

Lässtrategier för att förstå och tolka texter samt för att anpassa läsningen efter textens form och innehåll. (SV åk 1 3)

Jesus älskar alla barn! En berättelse om Guds stora kärlek till alla barn

Arbetsplan - turkiska.

Den fabulösa Kurts dagbok ( _ ) 一 一 一 一 一 O-_- 一 一

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

Lokal arbetsplan i engelska. Lokal planering i engelska år 2

Korpusmått, korpusbalans och korpusrepresentativitet

Det finns flera böcker om Lea. Du kan läsa dem i vilken ordning som helst! De böcker som kommit ut hittills heter Lea, Lea på läger och Lea, vilse!

Din väg till svenskan

Musik bland dagens ungdomar

Lingvistik I Delmoment: Datorlingvistik

I års 1914 hade börjat Astrid skolan i Vimmerby. Anmälan till första klass hölls den 7 augusti och det har gjort sin pastor.

Sammanfattning det allra, allra viktigaste

Skapa bilder med digitala och hantverksmässiga tekniker och verktyg samt med olika material.

Lyckas i dina akademiska studier

Lärarmaterial. Böckerna om Sara och Anna. Vilka handlar böckerna om? Vad tas upp i böckerna? Vem passar böckerna för? Vad handlar boken om?

Fakta om hundar som jobbar

Korpusuppbyggnad Från textsamling till korpus

Ansvarig lärare: Jörgen Larsson Mariann Bourghardt Telefonnummer:

Engelska. Mål som eleverna skall ha uppnått i slutet av det fjärde skolåret. Mål som eleverna skall ha uppnått i slutet av det femte skolåret

Hur böjs Astrid Lindgrens hjältar i (i) Empirisk språkforskning i ett nötskal

Hur jag personligen blev rånad med Google Adwords

ÄENA23, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Kommuntexters tillgänglighet för personer med svenska som andraspråk

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

EN TJUV UTANFÖR DÖRREN Lärarmaterial

Lättläst lätt att läsa eller lätt att skriva? Camilla Forsberg

Lärarmaterial. Vad handlar boken om? Mål och förmågor som tränas: Eleverna tränar på följande förmågor: Författare: Thomas Halling

ÄSAD11, Svenska som andraspråk 1, 30 högskolepoäng Swedish as a Second Language 1, 30 credits Grundnivå / First Cycle

Hur kär får man bli? Läsförståelse. Elevmaterial KATARINA VON BREDOW SIDAN 1. Namn: Kapitel 1

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

Läsnyckel. I fiendens skugga. Författare: Sue Purkiss Översättning: Sara Hemmel. Innan du läser

Lgr 11 - Centralt innehåll och förmågor som tränas:

Hjälp min planet Coco håller på att dö ut. Korvgubbarna har startat krig Kom så fort du kan från Tekla

Kursplan i svenska Skriva. Förskoleklass Skriva sitt namn Spåra och rita mönster Träna skrivriktning Träna pennfattning

Tekniken bakom språket

Namn: Sofie Thagesson Klass: OP2a

Lärarmaterial TJ UGAN. Vad handlar boken om? Lgr 11 - Centralt innehåll och förmågor som tränas: Eleverna tränar följande förmågor:

Veronica s. Dikt bok 2

Lässtrategier för att avkoda och förstå olika texter. Sökläsning och läsning mellan raderna. (SV åk 7 9)

Hej snygging Hej. Skicka en bild ;) Vaddå för bild? :) Naket!! Nä känner inte dig.

Utbildningsbeskrivningar på lu.se nutid och framtid LOUISE LARSSON & MATILDA ROIJER, EXTERNA RELATIONER

Värmdö gymnasium. Skolan erbjuder

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Svenska Läsa

Lidköping, Sockerbruket

Språk, datorer och textbehandling

Välkommen tillbaka till den sista träffen!

ASTRID LINDGRENS NÄS STUDIEMATERIAL FÖR MELLANSTADIET. Skapat av Åsa Loven, BARNinitiativet

ÄLTA SKOLAS LOKALA KURSPLAN

Allmändidaktik och lärande 5 högskolepoäng

Ideationella grammatiska metaforer i nationella prov

Tillsammans med Birger, Maria, Helena och Annika fick jag en god kopp kaffe.

Olika sätt att bearbeta egna och gemensamma texter till innehåll och form. Hur man ger och tar emot respons på texter. (SV åk 4 6)

Introduktion till språkteknologi. Datorstöd för språkgranskning

Boken beskriver hur det känns att vilja vara tillsammans med någon. Den handlar om de drömmar och förväntningar som finns i ett förhållande.

Framställning av berättande och informativa bilder, till exempel serier och illustrationer till text. (BL åk 4 6)

Marie Helleday Ekwurtzel Illustrerad av Lena Furberg

Att använda svenska 2

Lexikon: ordbildning och lexikalisering

Minifakta om traktorer

Täby Enskilda Gymnasium

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Transkript:

Svenskans digitala resurser Elzbieta Strzelecka elzbieta.strzelecka@miun.se 1

Utbildning och underhållning språkkurser, interaktiva övningar, diagnostiska prov, kvantitativa mått, radio- och teveprogram, spel, lexikon m.m. Forskning Språkbanken, Litteraturbanken, parallella korpusar, sökmetoder 2

Språkprov: Jens Lapidus Snabba Cash, hatet, drivet, jakten 2006, s. 45-46, (ca 700) Ingen i den öfvre delen av Stockholm visste följande om Johan Westlund, alias JW, bratsens bratigaste brat. Han var en vanlig medborgare, en förlorare, en tragisk svensson. Han var en bluff, en fejk, som spelade ett högt dubbelspel levde lyxliv med boysen två till tre kvällar i veckan medan han fick råsnåla resten av tiden för att få notan att gå ihop. JW låtsades vara ultrabrat. Egentligen var han jordens jävla fattiglapp. Han åt pasta med ketchup fem gånger i veckan, gick aldrig på bio, tjuvåkte på SL, snodde toapapper på universitetets toaletter, snattade mat på ICA och Burlingtonstrumpor på NK [ ] 101 ord 3

Utbildning Många kurser på nätet av varierande kvalitet. Populärast kurser för nybörjare (googla och sök på youtube) Kom loss på svenska (Stockholms universitet) Svenska institutets webbkurs http://www.digitalasparet.se/ Portaler, t.ex. Kreativ pedagogik Länkskafferiet (Myndigheten för skolutveckling) Lexin - inte bara en ordbok 4

5

6

SAFIR http://www.digitalasparet.se/safir/m04/a1/o01.htm 7

Utbildningsradion Urplay Sveriges radio poddradio SVTplay 8

Udda program LIX (beräknar LIX, läsbarhetsindex, variationsindex OVIX, anger frekvenser, meningslängd m. m.) Ordmoln wordle (visar de mest frekventa innehållsorden) Polingo (placerar den inklistrade texter längst två skalor mellan polerna byråkratisk lättläst och låg och hög variation) Automatisk bedömning av texter (sätter betyget på den inklistrade texten, baserat på nationella prov på gymnasienivå) Konkordansprogram 9

LIX och OVIX LIX - läsbarhetsindex - medeltalet ord per mening och andelen långa ord (ord med fler än 6 bokstäver) uttryckt i procent. < 30 Mycket lättläst, barnböcker 30 40 Lättläst, skönlitteratur, populärtidningar 40 50 Medelsvår, normal tidningstext 50 60 Svår, normalt värde för officiella texter > 60 Mycket svår, byråkratsvenska 10

OVIX Ordvariationsindex Referensvärden för texter skrivna av elever med svenska som förstaspråk Årskurs 4 50 Årskurs 6 55 Årskurs 9 60 Gymnasium 67 Det är knappast realistiskt att en lärare räknar OVIX på sina elevers texter. (Josephson, Melin & Oliv, Elevtext 1990, s. 43) 11

LIX http://www.lix.se/index.php 12

Ordmoln (wordle) jens Lapidus Snabba Cash, hatet, drivet, jakten (778 ord) 13

14

15

Hög variation Byråkratisk Lätt svenska Låg variation 16

17

18

19

Automated Essay Scoring Bedömning av texter 20

Automated Essay Scoring Lapidus, ca 800 ord 21

Jens Lapidus Snabba Cash, hatet, drivet, jakten LIX : 31, OVIX: 73 Polingo: Lättläst med hög variation Godkänd i svenska? Text på 260 ord (1351 tecken): G, ca 800 VG, 1200 ord MVG Manipulerad text på 260 ord med morfologiska fel (kongruens-, genus-, tempusfel, felaktiga böjningsformer) G Manipulerad text med syntaktiska fel (felplacerat satsadverbial, ett tiotal ändringar) - IG Godkänd i polska? 22

Jasnopis 23

Lapidus, svensk text 24

Polsk tidningstext 25

Konkordansprogram Konkordans - en lista över ord som uppträder i en text med deras kontext. Antconc Webcorp programs 26

Korpusar En samling språkliga data som kan användas vid språkforskning, vanligen en stor samling texter eller transkriptioner av talat språk. Korpusar: innehåller autentiska texter (naturligt språkbruk) är stora är digitala dvs. kan läsas av dator innehåller metadata (källhänvisning, författare, tid). 27

Lite historia 1961 Brown Corpus, en balanserad, ordklasstaggad engelskspråkig korpus med 1 miljon 1970 första svenska korpusen Press 65 1975 Språkbanken ( Logoteket ) 28

29

Lite historia 1984 datorlingivstikprogrammet 2006 Litteraturbanken en del av Språkbanken 2013 korpussökningsverktyget Korp 2015 ca 10 miljarder ord sökbara i Språkbanken 30

Lite historia Brown Corpus, en balanserad, ordklasstaggad engelskspråkig korpus med 1 miljon ord från 1961 BNC, British National Corpus, en balanserad, ordklasstaggad brittisk korpus med över 100 miljoner ord, sammansatt på 1990-talet 31

Lite historia SUC, Stockholm-Umeå Corpus, en balanserad, ordklasstaggad svensk korpus med 1 miljon ord sammansatt på 1990-talet Parole, en automatiskt ordklasstaggad svensk korpus med nära 20 miljoner ord, 1990-talet. Korp, 197 korpusar (från fornsvenska till bloggar), 10 miljarder ord (10 G), 2000-talet 32

Konkordanser Konkordans - en lista över ord som uppträder i en text med deras kontext. Språkbankens gamla gränssnitt: 33

34

Korpusar synkrona slutna (finita) enspråkiga viktade (balanserade) där man medvetet valt blandning av olika genrer annoterade (= taggade), morfologiskt eller syntaktiskt diakrona öppna, växande (monitorkorpusar) flerspråkiga (parallellkorpusar) ej viktade ej annoterade 35

Språkbanken Litteraturbanken Meningar Litteraturbanken Texter 36

Jämförelse Litteraturbanken Språkbanken hela texter Epub etexter problem: upphovsrättigheter textfragment omkastade meningar ev. lite större kontext, men sällan mer än tiotal meningar 37

Litteraturbanken 38

Litteraturbanken 39

Litteraturbanken Sökning på ordet vanlig i Svensk prosafiktion 1800-1900 40

Koltrast 41

Koltrast Sökning på ordet vanlig i Svensk prosafiktion 1800-1900 42

Koltrast Sökning på ordet vanlig i Svensk prosafiktion 1800-1900 43

Användarhandledning 44

45

Några korpusar Korpusar som finns i Språkbanken Specialkorpusar: Andraspråksinlärares texter där olika typer av fel är taggade. Parallellkorpusar med samma texter på olika språk Akademisk ordlista 46

47

Sökning på ordet vanlig 48

Sökning på adjektivet vanlig 49

Sökning på frasen vanlig som 50

Adjektivet vanlig och adverbet vanligt 51

Ett par begrepp konkordans - en lista över ord som uppträder i en text med deras kontext KWIC key word in context, konkordans type token (typord förekomst/graf-/löpord) metadata - uppgifter om texternas ursprung, ålder m.m. annotering - information om ordets ordklasstillhörighet, syntaktiska och semantiska egenskaper 52

Polsk-svensk parallell korpus Storlek: 53 098 meningar, 773 648 löpord (tokens) Stieg Larsson Män som hatar kvinnor Astrid Lindgren Lillebror och Karlsson på taket Astrid Lindgren Pippi Långstrump Selma Lagerlöf Nils Holgerssons underbara resa genom Sverige Anne Frank - Anne Franks dagbok J.R.R. Tolkien - Bilbo en hobbits äventyr Lewis Carrol - Alice i Underlandet A.A. Milne - Nalle Puh 53

54

Parallell korpus polsk-svensk sökning på ordet vanlig 55

56

Parallell korpus polsk-svensk sökning på adjektiv + som 57

Korpen flyger inte alltid 58

Ut i den digitala språkrymden! Och lek! 59

Jens Lapidus Snabba Cash, 2006, 45-46, 778 ord Ingen i den öfvre delen av Stockholm visste följande om Johan Westlund, alias JW, bratsens bratigaste brat. Han var en vanlig medborgare, en förlorare, en tragisk svensson. Han var en bluff, en fejk, som spelade ett högt dubbelspel levde lyxliv med boysen två till tre kvällar i veckan medan han fick råsnåla resten av tiden för att få notan att gå ihop. JW låtsades vara ultrabrat. Egentligen var han jordens jävla fattiglapp. Han åt pasta med ketchup fem gånger i veckan, gick aldrig på bio, tjuvåkte på SL, snodde toapapper på universitetets toaletter, snattade mat på ICA och Burlingtonstrumpor på NK, klippte sitt eget hår, köpte sina märkeskläder second hand och smög in gratis på S.A.T.S. när tjejen i kassan var ouppmärksam. Han bodde inneboende hos en fru Reuterskiöld just det visste i och för sig Putte, Fredrik, Nippe och de andra grabbarna. Inneboendet var det enda i hans riktiga situation som han inte kunnat dölja. Det accepterades på något sätt. JW blev expert på sparstrategier. Han använde bara linser de dagar han var tvungen och lät enmånadslinserna sitta i långt längre än maxtid, tills ögonen kliade sönder. Han tog alltid med egen plastpåse när han handlade, blandade sin egen müsli att ha till frukost, köpte mat av märket Euroshopper, hällde upp billighetsvodka från Tyskland i Absolutflaskor mirakulöst nog märkte de aldrig något. JW levde råttliv när ingen såg på. Big time. Inkomstsidan funkade nätt och jämnt. Han fick pengar av staten: studiebidrag, studielån och bostadsbidrag. Men sånt räckte inte långt med hans vanor. Räddningen kom från hans extrajobb: svarttaxi. Resultaträkningen var svår att balansera. Han blåste lätt tvåtusen kronor på en kväll med boysen. Drog med tur in samma summa på en schysst kväll med taxin. Hans styrkor som chaufför: han var ung, svensk och såg trevlig ut. Alla vågade ta en tur med JW. Spelets svårighet var att bli en av dem på riktigt. Han läste Fredrik & Charlotte, lärde sig jargongen, etiketten, reglerna och de oskrivna koderna. Lyssnade av snacket, det nasala röstläget, jobbade bort sin egen norrländska dialekt. Han lärde sig använda ordet tjåsigt på rätt sätt, förstod vilka kläder man gillade, vilka skidorter i alperna som gällde, vilka sommarorter i Sverige som dög. De var inte svåra att räkna upp. Torekav, Falsterbo, Smådalarö, etcetera. Han visste att det gällde att alltid spendera med klass. Köp en Rolexklocka, köp ett par Tod's-skor, köp en Pradakavaj, köp en Guccifolder i krokodilläder för föreläsningsanteckningar. Han såg fram emot nästa steg, att köpa en BMW cabriolet för att kunna uppfylla det sista av de tre bona: backslick, bränna, BMW. JW gjorde bra ifrån sig, det funkade. High society tog in honom. Han räknades. Han ansågs festlig, snygg och generös. Men han visste att de ändå märkte något. Det saknades något i hans historia, de kände inte till hans föräldrar, hade inte hört talas om skolan där han gått. Och lögnerna var svåra att hålla ihop. Ibland undrade de om han verkligen varit på sportlovsresa i St Moritz? Inga av dem som var där då mindes honom. Hade han verkligen bott i Paris, ganska nära Maraiskvarteren? Hans franska var ju inte super. De kände att något inte stämde, men visste inte vad. JW kände till sina svårigheter, att kamouflera sig, passa in och verka äkta i grunden. Att accepteras. Och varför? Han visste inte svaret själv. Inte för att han inte reflekterade han förstod att det var bekräftelsejakt, en metod för att känna sig speciell. Men han fattade inte varför han valt just detta sätt, som var lättaste vägen till förnedring. Skulle han 60 bli avslöjad kunde han lika gärna lämna stan. Ibland tänkte han att det kanske var just därför som han körde på, för att självdestruktivt