Svenskans digitala resurser Elzbieta Strzelecka elzbieta.strzelecka@miun.se 1
Utbildning och underhållning språkkurser, interaktiva övningar, diagnostiska prov, kvantitativa mått, radio- och teveprogram, spel, lexikon m.m. Forskning Språkbanken, Litteraturbanken, parallella korpusar, sökmetoder 2
Språkprov: Jens Lapidus Snabba Cash, hatet, drivet, jakten 2006, s. 45-46, (ca 700) Ingen i den öfvre delen av Stockholm visste följande om Johan Westlund, alias JW, bratsens bratigaste brat. Han var en vanlig medborgare, en förlorare, en tragisk svensson. Han var en bluff, en fejk, som spelade ett högt dubbelspel levde lyxliv med boysen två till tre kvällar i veckan medan han fick råsnåla resten av tiden för att få notan att gå ihop. JW låtsades vara ultrabrat. Egentligen var han jordens jävla fattiglapp. Han åt pasta med ketchup fem gånger i veckan, gick aldrig på bio, tjuvåkte på SL, snodde toapapper på universitetets toaletter, snattade mat på ICA och Burlingtonstrumpor på NK [ ] 101 ord 3
Utbildning Många kurser på nätet av varierande kvalitet. Populärast kurser för nybörjare (googla och sök på youtube) Kom loss på svenska (Stockholms universitet) Svenska institutets webbkurs http://www.digitalasparet.se/ Portaler, t.ex. Kreativ pedagogik Länkskafferiet (Myndigheten för skolutveckling) Lexin - inte bara en ordbok 4
5
6
SAFIR http://www.digitalasparet.se/safir/m04/a1/o01.htm 7
Utbildningsradion Urplay Sveriges radio poddradio SVTplay 8
Udda program LIX (beräknar LIX, läsbarhetsindex, variationsindex OVIX, anger frekvenser, meningslängd m. m.) Ordmoln wordle (visar de mest frekventa innehållsorden) Polingo (placerar den inklistrade texter längst två skalor mellan polerna byråkratisk lättläst och låg och hög variation) Automatisk bedömning av texter (sätter betyget på den inklistrade texten, baserat på nationella prov på gymnasienivå) Konkordansprogram 9
LIX och OVIX LIX - läsbarhetsindex - medeltalet ord per mening och andelen långa ord (ord med fler än 6 bokstäver) uttryckt i procent. < 30 Mycket lättläst, barnböcker 30 40 Lättläst, skönlitteratur, populärtidningar 40 50 Medelsvår, normal tidningstext 50 60 Svår, normalt värde för officiella texter > 60 Mycket svår, byråkratsvenska 10
OVIX Ordvariationsindex Referensvärden för texter skrivna av elever med svenska som förstaspråk Årskurs 4 50 Årskurs 6 55 Årskurs 9 60 Gymnasium 67 Det är knappast realistiskt att en lärare räknar OVIX på sina elevers texter. (Josephson, Melin & Oliv, Elevtext 1990, s. 43) 11
LIX http://www.lix.se/index.php 12
Ordmoln (wordle) jens Lapidus Snabba Cash, hatet, drivet, jakten (778 ord) 13
14
15
Hög variation Byråkratisk Lätt svenska Låg variation 16
17
18
19
Automated Essay Scoring Bedömning av texter 20
Automated Essay Scoring Lapidus, ca 800 ord 21
Jens Lapidus Snabba Cash, hatet, drivet, jakten LIX : 31, OVIX: 73 Polingo: Lättläst med hög variation Godkänd i svenska? Text på 260 ord (1351 tecken): G, ca 800 VG, 1200 ord MVG Manipulerad text på 260 ord med morfologiska fel (kongruens-, genus-, tempusfel, felaktiga böjningsformer) G Manipulerad text med syntaktiska fel (felplacerat satsadverbial, ett tiotal ändringar) - IG Godkänd i polska? 22
Jasnopis 23
Lapidus, svensk text 24
Polsk tidningstext 25
Konkordansprogram Konkordans - en lista över ord som uppträder i en text med deras kontext. Antconc Webcorp programs 26
Korpusar En samling språkliga data som kan användas vid språkforskning, vanligen en stor samling texter eller transkriptioner av talat språk. Korpusar: innehåller autentiska texter (naturligt språkbruk) är stora är digitala dvs. kan läsas av dator innehåller metadata (källhänvisning, författare, tid). 27
Lite historia 1961 Brown Corpus, en balanserad, ordklasstaggad engelskspråkig korpus med 1 miljon 1970 första svenska korpusen Press 65 1975 Språkbanken ( Logoteket ) 28
29
Lite historia 1984 datorlingivstikprogrammet 2006 Litteraturbanken en del av Språkbanken 2013 korpussökningsverktyget Korp 2015 ca 10 miljarder ord sökbara i Språkbanken 30
Lite historia Brown Corpus, en balanserad, ordklasstaggad engelskspråkig korpus med 1 miljon ord från 1961 BNC, British National Corpus, en balanserad, ordklasstaggad brittisk korpus med över 100 miljoner ord, sammansatt på 1990-talet 31
Lite historia SUC, Stockholm-Umeå Corpus, en balanserad, ordklasstaggad svensk korpus med 1 miljon ord sammansatt på 1990-talet Parole, en automatiskt ordklasstaggad svensk korpus med nära 20 miljoner ord, 1990-talet. Korp, 197 korpusar (från fornsvenska till bloggar), 10 miljarder ord (10 G), 2000-talet 32
Konkordanser Konkordans - en lista över ord som uppträder i en text med deras kontext. Språkbankens gamla gränssnitt: 33
34
Korpusar synkrona slutna (finita) enspråkiga viktade (balanserade) där man medvetet valt blandning av olika genrer annoterade (= taggade), morfologiskt eller syntaktiskt diakrona öppna, växande (monitorkorpusar) flerspråkiga (parallellkorpusar) ej viktade ej annoterade 35
Språkbanken Litteraturbanken Meningar Litteraturbanken Texter 36
Jämförelse Litteraturbanken Språkbanken hela texter Epub etexter problem: upphovsrättigheter textfragment omkastade meningar ev. lite större kontext, men sällan mer än tiotal meningar 37
Litteraturbanken 38
Litteraturbanken 39
Litteraturbanken Sökning på ordet vanlig i Svensk prosafiktion 1800-1900 40
Koltrast 41
Koltrast Sökning på ordet vanlig i Svensk prosafiktion 1800-1900 42
Koltrast Sökning på ordet vanlig i Svensk prosafiktion 1800-1900 43
Användarhandledning 44
45
Några korpusar Korpusar som finns i Språkbanken Specialkorpusar: Andraspråksinlärares texter där olika typer av fel är taggade. Parallellkorpusar med samma texter på olika språk Akademisk ordlista 46
47
Sökning på ordet vanlig 48
Sökning på adjektivet vanlig 49
Sökning på frasen vanlig som 50
Adjektivet vanlig och adverbet vanligt 51
Ett par begrepp konkordans - en lista över ord som uppträder i en text med deras kontext KWIC key word in context, konkordans type token (typord förekomst/graf-/löpord) metadata - uppgifter om texternas ursprung, ålder m.m. annotering - information om ordets ordklasstillhörighet, syntaktiska och semantiska egenskaper 52
Polsk-svensk parallell korpus Storlek: 53 098 meningar, 773 648 löpord (tokens) Stieg Larsson Män som hatar kvinnor Astrid Lindgren Lillebror och Karlsson på taket Astrid Lindgren Pippi Långstrump Selma Lagerlöf Nils Holgerssons underbara resa genom Sverige Anne Frank - Anne Franks dagbok J.R.R. Tolkien - Bilbo en hobbits äventyr Lewis Carrol - Alice i Underlandet A.A. Milne - Nalle Puh 53
54
Parallell korpus polsk-svensk sökning på ordet vanlig 55
56
Parallell korpus polsk-svensk sökning på adjektiv + som 57
Korpen flyger inte alltid 58
Ut i den digitala språkrymden! Och lek! 59
Jens Lapidus Snabba Cash, 2006, 45-46, 778 ord Ingen i den öfvre delen av Stockholm visste följande om Johan Westlund, alias JW, bratsens bratigaste brat. Han var en vanlig medborgare, en förlorare, en tragisk svensson. Han var en bluff, en fejk, som spelade ett högt dubbelspel levde lyxliv med boysen två till tre kvällar i veckan medan han fick råsnåla resten av tiden för att få notan att gå ihop. JW låtsades vara ultrabrat. Egentligen var han jordens jävla fattiglapp. Han åt pasta med ketchup fem gånger i veckan, gick aldrig på bio, tjuvåkte på SL, snodde toapapper på universitetets toaletter, snattade mat på ICA och Burlingtonstrumpor på NK, klippte sitt eget hår, köpte sina märkeskläder second hand och smög in gratis på S.A.T.S. när tjejen i kassan var ouppmärksam. Han bodde inneboende hos en fru Reuterskiöld just det visste i och för sig Putte, Fredrik, Nippe och de andra grabbarna. Inneboendet var det enda i hans riktiga situation som han inte kunnat dölja. Det accepterades på något sätt. JW blev expert på sparstrategier. Han använde bara linser de dagar han var tvungen och lät enmånadslinserna sitta i långt längre än maxtid, tills ögonen kliade sönder. Han tog alltid med egen plastpåse när han handlade, blandade sin egen müsli att ha till frukost, köpte mat av märket Euroshopper, hällde upp billighetsvodka från Tyskland i Absolutflaskor mirakulöst nog märkte de aldrig något. JW levde råttliv när ingen såg på. Big time. Inkomstsidan funkade nätt och jämnt. Han fick pengar av staten: studiebidrag, studielån och bostadsbidrag. Men sånt räckte inte långt med hans vanor. Räddningen kom från hans extrajobb: svarttaxi. Resultaträkningen var svår att balansera. Han blåste lätt tvåtusen kronor på en kväll med boysen. Drog med tur in samma summa på en schysst kväll med taxin. Hans styrkor som chaufför: han var ung, svensk och såg trevlig ut. Alla vågade ta en tur med JW. Spelets svårighet var att bli en av dem på riktigt. Han läste Fredrik & Charlotte, lärde sig jargongen, etiketten, reglerna och de oskrivna koderna. Lyssnade av snacket, det nasala röstläget, jobbade bort sin egen norrländska dialekt. Han lärde sig använda ordet tjåsigt på rätt sätt, förstod vilka kläder man gillade, vilka skidorter i alperna som gällde, vilka sommarorter i Sverige som dög. De var inte svåra att räkna upp. Torekav, Falsterbo, Smådalarö, etcetera. Han visste att det gällde att alltid spendera med klass. Köp en Rolexklocka, köp ett par Tod's-skor, köp en Pradakavaj, köp en Guccifolder i krokodilläder för föreläsningsanteckningar. Han såg fram emot nästa steg, att köpa en BMW cabriolet för att kunna uppfylla det sista av de tre bona: backslick, bränna, BMW. JW gjorde bra ifrån sig, det funkade. High society tog in honom. Han räknades. Han ansågs festlig, snygg och generös. Men han visste att de ändå märkte något. Det saknades något i hans historia, de kände inte till hans föräldrar, hade inte hört talas om skolan där han gått. Och lögnerna var svåra att hålla ihop. Ibland undrade de om han verkligen varit på sportlovsresa i St Moritz? Inga av dem som var där då mindes honom. Hade han verkligen bott i Paris, ganska nära Maraiskvarteren? Hans franska var ju inte super. De kände att något inte stämde, men visste inte vad. JW kände till sina svårigheter, att kamouflera sig, passa in och verka äkta i grunden. Att accepteras. Och varför? Han visste inte svaret själv. Inte för att han inte reflekterade han förstod att det var bekräftelsejakt, en metod för att känna sig speciell. Men han fattade inte varför han valt just detta sätt, som var lättaste vägen till förnedring. Skulle han 60 bli avslöjad kunde han lika gärna lämna stan. Ibland tänkte han att det kanske var just därför som han körde på, för att självdestruktivt