Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering
|
|
- Tobias Lindström
- för 7 år sedan
- Visningar:
Transkript
1 Språkteknologi (SV2122) Föreläsning 2: Korpusar och deras annotering Richard Johansson 24 januari 2014
2 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning
3 vad är korpusar och korpuslingvistik? korpusar är samlingar med autentiska texter, utvalda, datoriserade, och annoterade (lingvistiskt analyserade), med ett syfte i åtanke, (SAOL sg. en korpus, pl. korpusar; engelska sg. corpus, pl. corpora)
4 (stora) textsamlingar... text = skriftspråk, (transkriberat) talspråk... typiskt miljoner ord: SUC (Stockholm Umeå Corpus): 1 miljon ord [publicerat skriftspråk] Språkbankens moderna korpustexter >1 miljard ord, mest skriftspråk BNC (British National Corpus) och andra nationella korpusar 100 miljoner ord [skrift/talspråk]
5 ... utvalda... korpussammanställning är som opinionsundersökningar: man tar ett representativt och tillräckligt stort stickprov/urval ur en väldenierad population för att kunna ställa frågor och få svar som ger (statistiskt) signikant information om populationen
6 ... och annoterade... metadata på olika nivåer tid författare (och information om författaren) kategori... strukturmärkning morfologisk analys och disambiguering / ordklass-taggning syntaxanalys (trädbanker) länkning (av parallellkorpusar) länkning (av modaliteter) språkfel dialogakter...
7 ... med ett syfte i åtanke korpusar skapas alltid med ett syfte i åtanke, fast syftet kan vara vitt och vagt korpusarna kan ofta vara användbara för andra syften också tänkbara syften: språkvetenskapligt: empirisk lingvistisk forskning (belägg, frekvens) kulturvårdande: bevarande och tillgängliggörande av äldre texter, döda eller döende språk språkteknologiskt
8 ... användning av korpusar i språkteknologin utvärdering: jämförelse av ett automatiskt verktyg med facit (gold standard) vår ordklassmärkare hittar rätt ordklass för 97% av orden i vår testkorpus utveckling: språkteknologiska verktyg är ofta uppbyggda genom att ett program observerar språk och lär sig av det sannolikheten att hälsa är ett substantiv är 85% sannolikheten att ett verb följs av ett substantiv är 60%
9 typer av korpusar modalitet: skrivet, talat, tal, tecknat, multimodal språktyp, genre, etc. språk: ett, två, många; relation mellan språken (parallell, jämförbar) storlek typ av annotering: ingen, morfologisk, syntaktisk,...
10 några korpusar, exempel: typisk blandad SUC (allmänsvenskt skriftspråk): 500 texter om c:a 2000 ord 9 huvudgenrer, med undergenrer: K imaginative prose KK general ction KL science ction and mystery KN light reading KR humour Brown corpus (Francis & Ku era, 1964)
11 några korpusar, exempel: begränsad mängd Skriven nsk romani (Borin et al): c:a ord en betydande del av den totala skrivna produktionen på nsk romani
12 några korpusar, exempel: parallella Europarl: Europaparlamentsprotokoll Protokollen översätts till alla medlemsspråk 20 språk, 1050 miljoner ord/språk Alla språk länkade meningsvis till engelska EN: Technical requirements for inland waterway vessels (vote) ET: Siseveelaevade tehnilised nõuded (hääletus) SV: Tekniska föreskrifter för fartyg i inlandssjöfart (omröstning) Föregångaren: Hansard (engelskafranska) Bibeln (eller delar av den) på 100 språk:
13 några korpusar, exempel: jämförbar Wikipedia ( ) länkad artikelartikel (287 språk) texterna likartade men inte översatta innehåller också användbar halvstrukturerad information Sverige, ociellt Konungariket Sverige (info), är ett nordiskt land på Skandinaviska halvön i Nordeuropa. Sverige har landgräns i väst med Norge (svensk-norska gränsen) och i nordost med Finland, samt en fast förbindelse över havet med Danmark via Öresundsbron i sydväst. Med en area på km 2 är Sverige det storleksmässigt femte största landet i Europa och har en befolkning på 9,5 miljoner människor. Sverige har en låg befolkningstäthet med 21 invånare per km 2 men med en betydligt högre täthet i södra halvan av landet.... La Svèsia ( km 2 ; ) la xe un Stado del nord de l'eoropa inte la Penisola Scandinava. La so cavedal la xe Stocolma che La gà abitanti. Altre cità importante le xe Göteborg, Uppsala, Malmö e Lund. La conna co la Norveja a nord-ovest e co la Finlandia a est; la xe coligada co la Danimarca traverso del Ponte del Øresund. La xe bagnà dal Mar Baltego. La ga na densità demografega pitosto bassa e despensada iregolarmente. El so teritorio el xe sior de legne, fero e aqua. I Svedesi i gode de un bon livel de vita...
14 några korpusar, exempel: talat barnspråk CHILDES ( *NOR: did you wash your hands Jinny? *JIN: yeah. *NOR: you did already? *JIN: already. *NOR: you forgot the candy off from around your mouth huh? <n is wiping J's face> *JIN: yeah. *NOR: <laughs> okay <% N goes back to sit down>. *JIN: do I look dirty?
15 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning
16 konkordanser konkordans: de olika sammanhangen för ett ord, för t.ex. lexikogra, översikt över olika betydelser undervisning och självstudier Språkbankens sökverktyg Korp är ett konkordansverktyg
17 korpusar i Språkbanken modern dagstidningstext modern romantext populärvetenskap sociala medier (bloggar, twitter) 1800-talslitteratur (Litteraturbanken) medeltida text (fornsvenska) färöisk textkorpus (dagstidningstext) parallella korpusar (skönlitteratur) inlärarkorpusar... och en hel rad andra
18 fördelning Bloggar: 392M Tidningar: 304M Twitter: 250M Wikipedia: 122M Web: 115M Finlandssvenskt: 66M Vetenskapligt: 46M Riksdag och EU-parlament: 38M Romaner: 22M... Totalt: 1402M
19 om annotering för att göra intressantare analyser behöver vi mer information än bara texten i sig annoteringsmodell: hur beskriver vi vad som nns i korpusen? vilka enheter nns? texter, meningar, ord,...? hur är enheterna relaterade? vilka attribut har respektive enhet? textens författare, publiceringsdatum,...? ordets böjningsform,...?
20 annotering i Språkbankens korpusar vilka enheter nns? korpusar, dokument, meningar, ord hur hänger enheterna ihop? en korpus består av dokument ett dokument består av meningar en mening består av ord ett ord består av fritext ett ord kan vara länkat till ett annat ord genom dependensrelation vilken information nns om enheterna? ett dokument har textattribut (korpusberoende) ett ord har ordattribut
21 ordattribut ordet i sig grundform ordklass, t.ex. verb formbeskrivning (msd), t.ex. verb presens aktiv förled och efterled i sammansättning...
22 varifrån kommer annoteringen? korpusar och dokument är givna (eller manuellt indelade) texterna är antingen elektroniska i ursprungsformen (t.ex. GP) eller digitaliserade (ibland med OCR) i de esta fall automatiskt indelade i ord och meningar i de esta fall automatiskt lingvistiskt analyserade
23 enkla sökningar i Korp sökning på enskilt ord sökning på grundform välj korpusar att söka i tips: om det går väldigt långsamt, välj ett mindre antal korpusar resultatikar: KWIC, statistik, ordbild
24 statistik sammanställning och rangordning exportera
25 ordbild visar vanliga syntaktiska sammanhang adjektiv: vanliga substantiv substantiv: vanliga adjektiv, prepositioner och verb verb: vanliga substantiv och adverbial
26 utökade sökningar i Korp sök på ordattribut kombination av villkor: och, eller sökning på en kombination samma resultatikar: KWIC, statistik, ordbild
27 exempel verb som följs av Göteborg? vanligaste substantiv i partiprogrammen inför valet 2002?
28 trenddiagram: exempel på en neologism välj visa trenddiagram under statistikiken
29 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning
30 annoteringsmodell för att göra intressantare analyser behöver vi mer information än bara texten i sig annoteringsmodell: hur beskriver vi vad som nns i korpusen? med en formaliserad vokabulär och struktur vilka enheter nns? texter, meningar, ord,...? hur är enheterna relaterade? vilka attribut har respektive enhet? textens författare, publiceringsdatum,...? ordets böjningsform,...? bygger kanske på någon lingvistisk teori, men konkretiserat
31 att standardisera sin lingvistiska vokabulär deniera i förväg vilka kategorier som ska beskrivas exempel: ordklass: verb, substantiv, preposition,... fraser: verbfras, nominalfras,... i många fall kan det vara möjligt att använda kategorier som redan är denierade i en standard som ISOcat då kan man slippa återuppnna hjulet, och det blir lättare att återanvända i andra sammanhang
32 exempel: syntaktiska relationer i Talbanken/MAMBA
33 annoteringsmanual / specikationer när vi har vår modell är det dags att skriva ned den i en praktisk manual manualens kvalitet påverkar resultatets kvalitet kan behöva xas efter hand några lämpliga saker att ta med annoteringsprojektets syfte en denition av de begrepp som modellen innehåller... och praktiska förklaringar av hur de ska användas en lagom mängd exempel beskriv svåra fall, gråzoner beskrivning av praktiska frågor t.ex. arbetsgång och verktyg
34 exempel: Karins manual
35 exempel: MAMBA
36 exempel på annotering i text: namnannotering KARLSTADSRESAN. I. Vad man än kan ha emot Thea Sundler, så får man erkänna, att hon bättre än någon annan förstod sig på att handskas med Karl-Artur Ekenstedt. Om man till exempel tänker på Charlotte Löwensköld, så hade hon också velat förmå honom att resa till Karlstad och försona sig med sin mor. Men för att beveka honom härtill hade hon påmint honom om allt det, som modern hade varit för honom, och till sist hade hon verkligen försökt skrämma honom med att han inte skulle kunna predika så bra som hittilldags, om han visade sig otacksam emot sin mor. Platsnamn: KARLSTAD, Karlstad Personnamn: Thea Sundler, Karl-Artur Ekenstedt, Charlotte Löwensköld
37 exempel på ett verktyg för uppmärkning: Callisto
38 ett web-baserat verktyg: Brat (här namn)
39 dependenssyntax med Brat (Turku Dependency Treebank)
40 Språkbankens pågående annoteringsprojekt med Synpathy
41 om annoterarna motsäger varandra problem med den lingvistiska modellen? oprecis annoteringsmanual? har vi beskrivit vanliga svåra fall? har annoterarna fått ordentliga instruktioner och blivit tränade? är uppgiften svår i sig?
42 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning
43 lågnivåkodning (serialisering) när vi har en annoteringsmodell måste vi bestämma hur annoteringen ska lagras: vi behöver ett format återanvändbarhet är att föredra om möjligt så att vårt arbete kan utnyttjas av andra läsbarhet för maskiner är nödvändigt: formatet måste vara entydigt mänsklig läsbarhet är inte en nackdel men inte en hög prioritet med ett bra verktyg behöver vi aldrig se formatet
44 exempel på format, sent 1970-tal
45 exempel på primitiva lågnivåkodningar för kategori: med lnamn eller kataloger Excel-ark hemmagjorda textformat Penn Treebank: struktur markeras med parenteser SBARQ SQ VP WHADVP SBJ *T* PRP ADVP NP NP Why would intelligent beings kidnap seven Soviet mailmen *T*?
46 kodning av struktur med XML XML (extensible markup language) är en standard för att beskriva strukturerade data XML består av fritext blandad med strukturmärkning start- och slutmärken används för att visa inneslutning man kan använda attribut <document author="selma Lagerlöf" title="anna Svärd"> <chapter title="karlstadsresan"> <paragraph> <sentence> <word pos="conj">men</word> <word pos="name">thea</word> <word pos="name">sundler</word> <word pos="verb">bar</word>... </sentence>... </paragraph>... </chapter> </document>
47 exempel på kodning av namn med XML (alternativ 1) ett alternativ: namn märks upp direkt i texten (inline) <DOCUMENT> Om man till exempel tänker på <PERSON>Charlotte Löwensköld</PERSON>, så hade hon också velat förmå honom att resa till <LOCATION>Karlstad</LOCATION> och försona sig med sin mor. </DOCUMENT>
48 exempel på kodning av namn med XML (alternativ 3) stand-o: själva texten hålls separat och oförändrad den lingvistiska informationen sitter vid sidan av (kanske i en annan l), och refererar till texten <DOCUMENT> <TEXT> Om man till exempel tänker på Charlotte Löwensköld, så hade hon också velat förmå honom att resa till Karlstad och försona sig med sin mor. </TEXT> <NAMES> <PERSON start="31" end="51"/> <LOCATION start="140" end="148"/> </NAMES> </DOCUMENT>
49 översikt inledning Språkbankens korpusar och sökverktyget Korp annotering av korpusar lformat för annoteringar nästa föreläsning
50 nästa föreläsning en mycket översiktlig inledning till datorprogrammering vi kommer att använda programspråket Python och språkteknologiverktyget NLTK detta är också temat för första datorövningen på onsdag i samma sal!
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Läs merKorpuslingvistik (SV2119) Föreläsning 3: Annotering
Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du
Läs merCorpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Läs merKorpuslingvistik (SV2119) Föreläsning 1
Korpuslingvistik (SV2119) Föreläsning 1 Richard Johansson richard.johansson@svenska.gu.se 6 september 2013 vad är korpusar och korpuslingvistik? korpus: en samling av datoriserad text korpuslingvistik:
Läs merKorp. https://spraakbanken.gu.se/korplabb/ Övningar Språkbankens höstworkshop oktober 2016
Korp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/korplabb/ sb-korp@svenska.gu.se 17 oktober 2016 ÖVERSIKT Korp är Språkbankens korpusverktyg och en väsentlig del av vår korpusinfrastruktur.
Läs merVad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Läs merSpråkbanken: lite historia. Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur. Språkbanken vad, för vem, till vad?
Språkbanken: lite historia Språkbanken och Korp: Mot en språkteknologibaserad forskningsinfrastruktur Lars Borin Språkbanken/svenska språket, Göteborgs universitet Giellatekno, UiT 19/2 2014 1970: första
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merKort presentation av Korp, Sveriges nationalkorpus
Kort presentation av Korp, Sveriges nationalkorpus Göteborgs universitet 19 januari 2017 vid Avdelningen för nordiska språk, L Orientale-universitetet i Neapel Fil.dr. i slaviska språk. Undervisat i slovenska,
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merKorpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Läs mer1.1: allmänt om korpuslingvistik. Lars Borin. Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet korpuslingvistiska metoder och verktyg i andraspråksforskning forskarutbildningskurs HT
Läs mervad är korpuslingvistik? (stora) textsamlingar, 1 (stora) textsamlingar, och annoterade... sammanställda... så, korpuslingvistik innebär:
1.1: allmänt om korpuslingvistik Lars Borin Språkdata/Språkbanken Inst. för svenska språket Göteborgs universitet vad är korpuslingvistik? korpusar är (stora) textsamlingar, sammanställda och annoterade
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) VG kräver > 80% rätt, G > 60% rätt Labbrapporter 2 sidor, fokusera på koncisa svar på uppgifterna. Labbsalar 9-1064 9-1070 Allmänna
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Läs merSpråk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid
Läs merSpråk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Läs merKorpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
Läs merMed Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi
Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1 2010 bakgrund och förutsättningar
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merbakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi återanvändning av befintliga resurser SALDO
bakgrund och förutsättningar Med Zipf mot framtiden En integrerad lexikonresurs för svensk språkteknologi Lars Borin Språkbanken Inst. för svenska språket Göteborgs universitet Schæffergårdssymposiet 30/1
Läs merElementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET?
ÄMNESMODELLERING AV TEXT MED ICKE-NEGATIV MATRISFAKTORISERING ELLER VAD DISKUTERAR DE I HIMMELRIKET? JOHAN FRID, HUMANISTLABORATORIET Lunds Matematiska Sällskap, Lund 7 November 2017 Humanistlaboratoriet
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
Läs merGU-ISS Korp 6 - Användarmanual
GU-ISS-2017-02 Korp 6 - Användarmanual Martin Hammarstedt, Lars Borin, Markus Forsberg, Johan Roxendal, Anne Schumacher, Maria Öhrman Forskningsrapporter från institutionen för svenska språket, Göteborgs
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merAtt bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se
Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Att bygga en korpus 1(42) Förra gången Mer om ordfrekvenser, nyckelord, kollokationer
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merProjekt i språkteknologi Projektförslag Johanna Karlsson joka1954
Projekt i språkteknologi Projektförslag Johanna Karlsson 870411-7129 joka1954 1. Inledning Opus är en växande parallell korpus med data från många olika språk (Tiedemann, 2009). Data som finns i OPUS i
Läs merKarp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
Läs merDatorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Läs merSofie Johansson Kokkinakis
CLT Institutet för ISA - Svenska som Andraspråk IKT i lärarutbildningen Anknytning mellan IKT i forskning och undervisning Datorbaserad textanalys och ordförrådsbedömning. Sofie Johansson Kokkinakis sofie@svenska.gu.se
Läs merSvensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
Läs merKorpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga
Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga data Används traditionellt om alla verk av en viss typ,
Läs mer729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merInledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE
Språteknologi på SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE digital kompetens kring ordböcker, språkkontroller, korpusar och söktjänster! Följer teknikens påverkan på språk och språkanvändning! Bevakar språkteknisk
Läs merSpråkteknologi (SV2122) Föreläsning 3: Programmering i Python
Språkteknologi (SV2122) Föreläsning 3: Programmering i Python Richard Johansson richard.johansson@svenska.gu.se 29 januari 2014 översikt inledning första stegen grundläggande begrepp större byggstenar
Läs merSvenskans digitala resurser. Elzbieta Strzelecka elzbieta.strzelecka@miun.se
Svenskans digitala resurser Elzbieta Strzelecka elzbieta.strzelecka@miun.se 1 Utbildning och underhållning språkkurser, interaktiva övningar, diagnostiska prov, kvantitativa mått, radio- och teveprogram,
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs merKODNING AV MAXIMALA GRAMMATISKA ENHETER Manual
KODNING AV MAXIMALA GRAMMATISKA ENHETER Manual Jens Allwood Maria Björnberg Alexandra Weilenmann Version 1, januari 1999 1. Principer för kodning av maximala grammatiska enheter När man kodar maximala
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merKursintroduktion. Marco Kuhlmann Institutionen för datavetenskap. 729G49 Språk och datorer (2019)
729G49 Språk och datorer (2019) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Detta verk är licensierat under en Creative Commons Erkännande 4.0 Internationell Licens. Filosofi Psykologi
Läs merIntroduktion till språkteknologi Föreläsning 2: Korpuslingvistik
Introduktion till språkteknologi Föreläsning 2: Korpuslingvistik Eva Pettersson eva.pettersson@lingfil.uu.se 2016-11-09 Förra gången Kursmål och kursintroduktion Språkteknologiska tillämpningar OCR - Dialogsystem
Läs merInformationssökning. Joakim Nivre. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data
Strukturerade Joakim Nivre Ostrukturerade 1 / 33 Strukturerade Vi har tillgång till en enorm mängd informationskällor: böcker, baser, webben, tidningar,... För att hitta relevant information, behöver vi
Läs merSpråkbanken en (inter)nationell forskningsinfrastruktur
Språkbanken en (inter)nationell forskningsinfrastruktur 1 Språkbanken en (inter)nationell forskningsinfrastruktur Språkbanken som forskningsenhet Språkbanken inrättades 1975
Läs merKursplan i svenska 2006-09-25. Skriva. Förskoleklass Skriva sitt namn Spåra och rita mönster Träna skrivriktning Träna pennfattning
Kursplan i svenska 2006-09-25 Skriva Skriva sitt namn Spåra och rita mönster Träna skrivriktning Träna pennfattning Skolår 1 Arbeta med bokstäver Rim och ramsor Skriva dagbok Skriva enkla sagor Känna till
Läs merThis is England. 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied?
This is England 1. Describe your first impression of Shaun! What kind of person is he? Why is he lonely and bullied? 2. Is Combo s speech credible, do you understand why Shaun wants to stay with Combo?
Läs merGrim. Några förslag på hur du kan använda Grim. Version 0.8
Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,
Läs merMeningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
Läs merMediafostran och användandet av nya kommunikativa redskap påbörjas redan på nybörjarstadiet.
BILAGA: REVIDERAD LÄROPLAN I LÄROÄMNET MODERSMÅL OCH LITTERATUR Språket är av avgörande betydelse för all form av inlärning. Språkinlärningen är en fortlöpande process, och därför är modersmålsinlärningen
Läs mer729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2016) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Läs merSovra i materialet. Vad är viktigt? Vad kan tas bort? Korta ner långa texter.
Sid 1 (6) Skriva för webb Att skriva för webben handlar om att skriva kort och enkelt för att fånga läsaren. Relevant innehåll Fundera över vad läsaren vill veta. Skriv för målgruppen. Sovra i materialet.
Läs merNedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.
Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla
Läs merMål som eleverna skall ha uppnått i slutet av det femte skolåret.
ENGELSKA ÅR 1 6 Mål som eleverna skall ha uppnått i slutet av det femte skolåret. Eleven skall: förstå tydligt och enkelt tal och själv kunna delta i enkla samtal kunna läsa och förstå enkla berättelser
Läs merÄLTA SKOLAS LOKALA KURSPLAN
1(6) Förskoleklass mål för förskoleklass Exempel på genomförande Strävansmål mot år 2 få fonologisk medvetenhet känna lust att lära genom att LÄSA få möjlighet till att LYSSNA, TALA och BERÄTTA utveckla
Läs merKorpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Läs merMaskinöversättning 2008
Maskinöversättning 2008 F4 Översättningsstrategier, forts + Återanvändning av översättning LABEL byta SOURCE =byta.vb.1 TARGET =change.vb.1 TRANSFER LABEL byta-filter SOURCE
Läs merEn dansk version av detta dokument kan laddas ned här: http://itu.dk/ people/hagerman/retningslinjer.pdf (pdf, 500 kb)
Denna guide är till för folk som gör hemsidor med Öresundsregionen som målgrupp. Vilket språk är bäst att använda sig av - danska, svenska eller eventuellt bägge? - eller kanske engelska? Hur riktar man
Läs merTema Antiken år 6 Svenska
TEMA ANTIKEN ÅR 6 Uppgift: Designa mönster med inspiration av antikens krukor och vaser. Mål: Utveckla sitt kunnande för att främja lust och vilja att på ett personligt sätt framställa bilder med hjälp
Läs merKorpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Läs merINNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3
Ordboken 1 Innehållsförteckning INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 MINIMERA OCH STÄNG... 3 SÖKFÄLT... 4 SÖKRESULTAT... 4 Resultat... 4 Ordklassfärger...
Läs merNordiska språk. Cecilia Jonsson Smedshagsskolan 15-03-18
Nordiska språk Cecilia Jonsson Smedshagsskolan 15-03-18 http://cwasteson.blogspot.se/2011/01/spraktrad-i-farg.html Historia Urnordiskan Det äldsta nordiska språk forskarna känner till. Urnordiska, eller
Läs merGU-ISS Korpblickar. om möjliga ingångar med sökverktyget Korp för studier av orden tänka och tanke i korpusar.
GU-ISS-2014-02 Korpblickar om möjliga ingångar med sökverktyget Korp för studier av orden tänka och tanke i korpusar Inga-Lill Grahn Forskningsrapporter från institutionen för svenska språket, Göteborgs
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merSkrivstrategier. En framgångsrik språkinlärare: Tror på sin förmåga att lära sig. Är motiverad. Är medveten om varför hon/han vill lära sig
1 Skrivstrategier En framgångsrik språkinlärare: Tror på sin förmåga att lära sig Är motiverad Är medveten om varför hon/han vill lära sig Är inte rädd för att göra misstag Tar risker Är bra på att gissa
Läs merEn jämförelse av ilex och Elan
Tommy Lyxell En jämförelse av ilex och Elan Några tankar om teknikval inför korpusarbete i teckenspråk Nordiskt korpusseminarium för teckenspråk, Stockholms universitet den 7 nov 2008. Jag kommer från
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merETAP: Etablering och annotering av parallellkorpus för igenkänning av översättningsekvivalenter
ASLA-information 24:1. 1998. 33 40. Lars Borin Uppsala universitet Institutionen för lingvistik Box 527 751 20 Uppsala Lars.Borin@ling.uu.se ETAP: Etablering och annotering av parallellkorpus för igenkänning
Läs merPrövning i Engelska 5, ENGENG05, 100 poäng
Prövning i Engelska 5, ENGENG05, 100 poäng Här följer information om prövning, skriftlig och muntlig del, kursplan samt länkar till Skolverkets sida med exempel från tidigare nationella prov. 1. Skriftlig
Läs merORDKLASSERNA I. Ett sätt att sortera våra ord
ORDKLASSERNA I Ett sätt att sortera våra ord Vilka ordklasser finns det? Hur många kan ni komma på? 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Hur sorterar man orden? Morfologiskt Syntaktiskt Semantiskt SUBSTANTIV
Läs merKvantitativ samhällsanalys med språkteknologiska metoder.
Kvantitativ samhällsanalys med språkteknologiska metoder Hillevi Hägglöf hillevi.hagglof@gmail.com Myndigheten för samhällsskydd och beredskap (MSB) Bakgrund Alla rapporter, utredningar, utvärderingar
Läs merDatum: Date: Provkodr: KTR1 Exam code:
Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. Då jag föddes i juli 1918 hade mor (1) spanska sjukan, jag var i dåligt skick och (2) nöddöptes på sjukhuset. En dag fick familjen
Läs merSpråkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser
Språkteknologi (SV2122) Föreläsning 7: Morfologi och ordklasser Richard Johansson richard.johansson@svenska.gu.se 19 februari 2014 praktiska detaljer: tenta vilket datum föredrar ni när det gäller tentan?
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merKorpuslingvistik (SV2119) Föreläsning 4: Statistiska metoder
Korpuslingvistik (SV2119) Föreläsning 4: Statistiska metoder Richard Johansson richard.johansson@svenska.gu.se 18 oktober 2013 dagens föreläsning: att räkna ord metodologiska förmaningar lite statistik:
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merPersiska. Albin Finne. Mark Peldius. 2002-10-10 2D1418 Språkteknologi
Persiska Albin Finne 2002-10-10 Sammanfattning Den här uppsatsen beskriver det persiska språket. Språkets historia, morfologi, syntax och ordförråd behandlas. Tonvikten läggs på morfologi och syntax. Avslutningsvis
Läs merDatum: Date: Provkodr: KTR1 Exam code:
Del 1. Ordklasser (5p) Ange ordklass för de understrukna orden i texten. En dag upptäcker min treåriga dotter (1) att det finns kärnor i äpplen. En snabb (2) genomgång av hur och varför visar (3) sig bli
Läs merSpråkbankens externa kommunikation. Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren
Språkbankens externa kommunikation Linn Crawford, Martina Danielsson, Maria Gustafsson Niså, Mathias Hvit, Sara Ivarsson & Amelie Landgren Vad är Språkbanken? Vad gör Språkbanken? Vad är Språkbanken? Vad
Läs merOrdbok arabiska - svenska
1 Ordbok arabiska - svenska Denna ordboks webbadress är: http://www.swedishmekteb.se/arabiska/index.html 2 Chapter 1 Inledning 1.1 Om ordboken Sedan hösten 2009 pågår Swedish Mektebs studiecirkel i arabiska
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merInlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Läs merStatistisk grammatikgranskning
Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert
Läs merX som en gnu. GÖTEBORGS UNIVERSITET Institutionen för svenska språket. [adjektiv/verb] + [som] + [en] + [gnu] Linn Trieb
GÖTEBORGS UNIVERSITET Institutionen för svenska språket X som en gnu [adjektiv/verb] + [som] + [en] + [gnu] - en konstruktionsgrammatisk undersökning av X Linn Trieb Specialarbete, 7,5 hp Svenska språket,
Läs merMorfologiska kriterier. Svenska adjektiv har två slags böjningar: kongruensböjning och komparationsböjning.
UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. ADJEKTIV Semantiska kriterier. o betecknar egenskaper eller tillstånd hos saker, personer eller företeelser., t.ex. (en) röd näsa,
Läs merI CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.
CINAHL Vad innehåller CINAHL? I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med. Fritextsökning Fritextsökning innebär att du söker i alla
Läs mergrammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Läs merArbetsplan i Thailändska
Arbetsplan i Thailändska Mål att sträva mot: Grundläggande färdigheter i att lära sig läsa, prata och skriva Thailändska. Är stolt att vara Thai, är inte självisk, inte utnyttja andra människor. Konstruktiva
Läs merDelkurs grammatik (5 hp, 7,5 hp) - studiehandledning vt 2015
Linköpings universitet Institutionen för kultur och kommunikation Avdelningen för svenska och litteraturvetenskap STUDIEHANDLEDNING 2014-12- 15 714G01 Svenska språket 1, grundkurs 91SV11 Svenska (1-30hp)
Läs merInfluensarapport för vecka 11, 2015 Denna rapport publicerades den 19 mars 2015 och redovisar influensaläget vecka 11 (9/3-15/3).
rapport för 11, 2015 Denna rapport publicerades den 19 mars 2015 och redovisar influensaläget 11 (9/3-15/3). Innehållsförteckning Sammanfattning... 2 Vad visar övervakningssystemen?... 2 Lägesbeskrivning...
Läs merHemtentamen HT13 Inlämning senast Lärare: Tora Hedin
Hemtentamen HT13 Inlämning senast 131108 Lärare: Tora Hedin Arbetet skall vara skrivet på dator och skickas in i elektronisk form till mig senast torsdagen den 8 november 2013. Dokumentets format ska vara
Läs merMANUAL BISNODE NORDIC BUSINESS MONITOR
MANUAL BISNODE NORDIC BUSINESS MONITOR 1 November 2016 2016-11-01 1.0 Innehållsförteckning Innehållsförteckning... 1 Inledning... 2 In- och utloggning... 3 Personliga inställningar i Bisnode Kredit...
Läs merCristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Läs mer