Att bygga en korpus. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi
|
|
- Peter Åberg
- för 9 år sedan
- Visningar:
Transkript
1 Att bygga en korpus Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi Att bygga en korpus 1(42)
2 Förra gången Mer om ordfrekvenser, nyckelord, kollokationer och konkordanser Korpusbalans Korpusrepresentativitet Korpusen som standardreferens Att bygga en korpus 2(42)
3 Ämnen idag Att bygga en korpus Principer för korpusannotering Förbereda texter för annotering Lingvistisk annotering: morfologisk och syntaktisk Att bygga en korpus 3(42)
4 Att bygga en korpus Om man inte hittar en korpus som passar för den tilltänkta undersökningen, måste man själv bygga en korpus. Hur bygger man en korpus? Hur skulle du gå till väga för att samla material och vilka problem ser du för varje steg? Att bygga en korpus 4(42)
5 Att bygga din egen korpus A colleague of mine, Matti Rahkonen at the University of Jyväskylä, once claimed that he could subsume his experiences of large-scale corpus work in two words: Never more!... I can wholeheartedly agree with Rahkonens description of the corpus-building process, but I am not quite so dejected. Rather, I could join in an old Louis Prima favourite that has given me consolation and encouragement: Next time... (Källgren, 1996) Att bygga en korpus 5(42)
6 Att bygga din egen korpus Var klar över och formulera din frågeställning! Bestäm dig för typ av material som du behöver. Kolla ifall någon (del)korpus finns som du kan använda. Om inte, hitta källor där du kan hitta material. Bestäm korpusens storlek. Att bygga en korpus 6(42)
7 Hur stor korpus? Size is not all-important. (Leech, 1991) En liten korpus räcker kanske för din frågeställning. Det beror på frekvens och fördelning av de lingvistiska särdrag som du är intresserad av. Korpusar för lexikala studier är mycket större eftersom vi är intresserade av frekvenser för ordens distribution medan korpusar för grammatiska studier är mindre. Korpusar som behöver mycket (manuell) validering är ofta små (semantisk, pragmatisk). Den optimala storleken på en korpus styrs av själva frågeställningen och praktiska ting. Att bygga en korpus 7(42)
8 Att bygga din egen korpus Bestäm korpusens storlek. problem: att hitta tillgänglig data som passar helst data digitalt - ofta den mest begränsade faktorn OCR-scanning: tidskrävande, fel Copyright: svårt att få rättigheter från förlag, tidskrävande, frustrerande och mycket arbete, olika regler i olika länder Att bygga en korpus 8(42)
9 Att bygga din egen korpus Beakta balans och representativitet balans genom att inkludera många olika sorters data representativitet genom att beakta din frågeställning Dokumentera kriterier för korpusdesignen Gör dokumentationen tillgänglig för korpusanvändare Data: Digitalt att föredra, Internet - viktig källa webbsidor använder normalt Hypertext Mark-up Language (HTML): förvandla webbsidor till textfiler genom att rensa bort HTML-taggarna, eller konvertera HTML-taggar till ett annat format (XML) Att bygga en korpus 9(42)
10 Urval av korpusdata En korpus är ett stickprov (sample) tagen ur en mycket större population. Ett stickprov är representativt om det vi kan hitta i stickprovet gäller också för hela populationen. Stickprovet behöver återge populationens egenskaper. Textkategorier är samplade proportionellt för att uppnå representativitet och balans. Att bygga en korpus 10(42)
11 Metoder för korpussampling Bestäm kategorier som ska ingå: böcker, tidningar, tidskrifter... (samplingsram) Bestäm vad som ska ingå i kategorierna (samplingsenhet) Definiera populationen: demografisk fördelning, ålder, kön, samhällsklass, mottagare, genre Att bygga en korpus 11(42)
12 Samplingsmetoder Obundet slumpmässigt urval (sampling): alla texter väljs slumpmässig. Stratifierad slumpmässig sampling: dela upp texterna i relativt homogena grupper (strata) och sampla varje grupp slumpmässigt. Korpusen storlek: hela texter/hela dokument - användbart för lingvistik men problematiskt p.g.a. upphovsrätt utdrag ur text (början, mitten, eller slutet) Att bygga en korpus 12(42)
13 Representativitet, balans och sampling En korpus anses vara representativ om det vi kan hitta på basis av korpusen också gäller för den språkvariant som den avses representera. Representativitet uppnås genom balans, d.v.s. täcka många olika frekvent förekommande och viktiga texttyper som samplas proportionellt ur en tänkt population. OBS! Det finns inget objektivt sätt att balansera en korpus eller mäta en korpus representativitet. Kontrollera alltid om korpusen passar för din frågeställning. Att bygga en korpus 13(42)
14 Att bygga din egen korpus Korpusuppmärkning, Corpus mark-up: kontextuell (genre, källa) och textuell (stycke och mening) information Teckenkodning, Character encoding: viktigt för flerspråkig data med olika skriftsystem - Unicode Korpusannotering, Corpus annotation: ordklasstaggning (PoS tagging), parsning (parsing), semantisk annotering Att bygga en korpus 14(42)
15 Annotering metadata, extra textuell info (rubrik, kapitel, författare, år) strukturell annotatering (stycke, mening, ord) lingvistisk annotering ordklass (part of speech), morfologi genom part-of-speech tagging lemma syntaktisk analys genom parsning - parsad korpus, trädbank (treebank) semantisk, pragmatisk information länkning på menings- och möjligen på ordnivå (parallella korpusar) Att bygga en korpus 15(42)
16 Principer för annotering (Leetch 1993) En annoterad korpus ska kunna återställas till sin oannoterade form. Annoteringen ska gå att extrahera från texten för att sparas separat. Annotationsschemat ska vara dokumenterat tillgängligt för slutanvändaren. Det ska klargöras hur och av vem annotationen gjordes. Slutanvändaren ska informeras om att annoteringen inte är God s truth utan endast ett användbart verktyg. Annoteringsscheman ska baseras på accepterade och teori-neutrala principer. Inget annoteringsschema är en standard på förhand. Standarder ska växa fram. Att bygga en korpus 16(42)
17 Uppmärkning Förberedelse av en rå korpus: samlad och samplad text: digitaliserad eller OCR skannad eller inskriven talat material transkriberad från inspelningar Märk upp korpusen så den innehåller info om själva texten Filnamn är inte tillräcklig eftersom den inkluderar enbart mycket lite extratextuell info (t.ex. texttyp, talare) och ingen textuell info (stycke/meningsgränser, turtagningar) Att bygga en korpus 17(42)
18 ...ett enhetligt format Det enhetliga formatet kan vara ett dokument strukturerat enligt ett uppmärkningsspråk. SGML (standard generalized markup language) HTML (hypertext markup language) XML (extensible markup language) Givet ett uppmärkningsspråk kan man också definiera riktlinjer för hur en viss typ av text skall hanteras i uppmärkningsspråket. Att bygga en korpus 18(42)
19 Mark-up schemes COCOA (Word COunt and COncordance on Atlas): tidigast en uppsättning attribut och dess värden <N LET TO HUSBAND> N (title) <A BEAMONT ELIZABETH> A (author) <X FEMALE> X (gender) <H HIGH> H (social status) ett litet antal särdrag märks upp (författare, rubriker och datum) Att bygga en korpus 19(42)
20 XML Ett xml-dokument består av två delar: Header. Här finns all metainformation. Body. Här finns den egentliga textinformationen. Informationen struktureras med taggar i form av vinkelparenteser, t.ex. <p>och </p>. Att bygga en korpus 20(42)
21 Header (början)... <?xml version= 1.0 encoding= utf-8?> <!DOCTYPE dialoguedoc SYSTEM dialoguemoddoc2.dtd > <?xml-stylesheet type=text/xsl href=dialoguewebrender.xsl?> <dialoguedoc id= 5bSONJA > <dialogueheader> <filename> 5bSONJA </filename> <identifier> SE5 DRAMA </identifier> <title> Sonja </title> <author> Herbert Grevenius </author> <subperiod> Period: 5, </subperiod> <speechpubdate> Första framförande </speechpubdate> <contemporaneity sourcedate= CONTEMP > Info om källa.</contemporaneity> <texttype typecode=drama > Play Drama </texttype> <periodcategory periodcode=se5 > SE5 </periodcategory> Att bygga en korpus 21(42)
22 ...och resten av headern <textbibliography> <attribution type= AUTHOR > Författarnamn. </attribution> <frontmatter> <performance> <p>information om föreställningen</p> <castlist> <castitem> <role id= 1 >Rollnamn</role> </castitem> </castlist> </performance> <set>information om uppsättningen.</set> </frontmatter> </textbibliography> </dialogueheader> Att bygga en korpus 22(42)
23 ...och resten av filen <dialoguetext> <nonspeech> Scenanvisning </nonspeech> <sp><speaker><font>maj</font></speaker> <dialogue>här är jag!</dialogue></sp> </dialoguetext> </dialoguedoc> Att bygga en korpus 23(42)
24 ...ett enhetligt format Mest inflytelserika uppmärkningsstandarden: TEI: Text Encoding Initiative TEI (text encoding initiative) har detaljerade riktlinjer för hur information av olika slag skall kodas: varje text består av 2 delar: head and body (texten själv) Speciella scheman för olika material; prosa, lyrik, dramatik, tal. Att bygga en korpus 24(42)
25 Headers corpus header info om projektet (project management, assistenter), projektbeskrivning, annotation, tagguppsättning (tagset) med exempel, genre file header file description <filedesc>: fullständig bibliografi för filen encoding description <encodingdesc>: källan som texten kommer ifrån text profile <profiledesc>: språk, deltagare revision history <revisiondesc>: ändringar som har gjorts i filen Att bygga en korpus 25(42)
26 TEI header example <titlestmt> <title level=a>smygrustning av raketvapen</title> <title level=j>dagens Nyheter</title> <author>mats Lundegard</author> </titlestmt> Att bygga en korpus 26(42)
27 TEI file example <p> <s id=aa01a-009> <w n=91>hur<ana><ps>ha<b>hur</w> <w n=92>är<ana><ps>vb<m>prs AKT<b>vara</w> <w n=93>det<ana><ps>pn<m>neu SIN DEF SUB/OBJ<b>det</w> <w n=94>då<ana><ps>ab<b>då</w> <w n=95>i<ana><ps>pp<b>i</w> <name type=place> <w n=96>mellanöstern<ana><ps>pm<m>nom<b>mellanöstern</w> </name> <d n=97>?<ana><ps>mad<b>?</d> </s> </p> Att bygga en korpus 27(42)
28 CES har tagits fram specifikt för att märka upp korpusar förenklad version av TEI; inkluderar en delmängd av TEI-taggar som behövs för korpusuppmärkning mark-up dokumentuppmärkning: beskrivning av bibliografi, encoding strukturell uppmärkning: strukturella enheter av texten (volym, kapitel), stycke, fotnot, rubrik, huvud, tabell, figur strukturer inom ett stycke: meningar, citat, ord, förkortningar, namn, datum, termer Att bygga en korpus 28(42)
29 Annotationsformat: XCES <s id= s7.29 > <w id= w >Islam</w> <w id= w >är</w> <w id= w >ingen</w> <w id= w >ny</w> <w id= w >företeelse</w> <w id= w >på</w> <w id= w >europeisk</w> <w id= w >mark</w> <w id= w >.</w> </s> Att bygga en korpus 29(42)
30 Förbereda text för annotering Tokenisering (1) (tokenization) segmentera den löpande texten i token och skilja skiljetecken från orden mellanslag markerar ordgräns, men inte tillräcklig: Boka resan!, sade hon. Betrakta skiljetecken som ordgräns: Boka resan!, sade hon. Att bygga en korpus 30(42)
31 Tokenisering Skiljetecken förekommer inom ord Exempel: förkortningar (t.ex.), webbadresser (google.com), sifferuttryck: datum ( , 19/ ), tal (25,6, ,10, or ,10 vs. 100,110.10) Clitics med apostrof: we re - we are, book s Flerordsuttryck (White house, New York, etc) - Named Entity Recognition (NER) Att bygga en korpus 31(42)
32 Meningssegmentering (Sentence/utterance segmentation) segmentera texten i meningar/yttranden på basis av vissa skiljetecken vissa skiljetecken (punkt, frågetecken, utropstecken) markerar ofta meningsgräns men inte alltid problem: Punkt är ambiguös: markerar meningsgräns men också används i förkortningar eller båda: förkortning (Mr.) eller båda (This sentence ends with etc.). hur segmentera t.ex. listor, citat i mening Meningssegmentering och tokenisering hanteras ofta samtidigt. Att bygga en korpus 32(42)
33 Morfosyntaktiskt annoterade korpora Denna typ av korpora innehåller annotering av ordklass och morfologisk analys för varje ord i materialet. Detta är den allra vanligaste typen av annotering. Annoteringen görs automatiskt med gott resultat (ca 97% korrekt). Språkteknologin har försett oss med goda verktyg att göra detta arbete. För analys av enkla lingvistiska drag (t.ex. undersökning av aktiva/passiva verb) är morfosyntaktisk annotering helt tillräcklig. Att bygga en korpus 33(42)
34 Ordklasstaggning, Part-of-Speech (PoS) tagging Mål: att annotera orden med dess unika ordklass såg: verb eller substantiv, kontexten styr PoS: substantiv, verb, adjektiv, pronomen, preposition, adverb, konjunktion, particip, artikel Tagguppsättning (Tagset): en tagg representerar ordklassinformation med eller utan morfologiska särdrag 87 taggar i Brown corpus (Francis, 1979) 45 taggar i Penn Treebank (Marcus et al., 1993) Att bygga en korpus 34(42)
35 Tagguppsättning beror på korpus och språktyp kriterier: morfologiska, syntaktiska och semantiska tagguppsättning för engelska: taggar tagguppsättning för svenska: SUC taggar for språk med komplex morfologi är tagguppsättningen mycket större Att bygga en korpus 35(42)
36 Tagguppsättning Taggar kan se olika ut olika standarder som används för olika språk t.ex. parole - suc Att bygga en korpus 36(42)
37 Tagset size Comparisons in the morphologically tagged MULTEXT-East corpora (Hajic, 2000) Language Tagset size English 139 Czech 970 Estonian 476 Hungarian 401 Romanian 486 Slovene 1033 Att bygga en korpus 37(42)
38 Kom ihåg! Beskriv korpusen/data ordentligt! Basera dina påståenden på data! Undvik orimliga generaliseringar! Att bygga en korpus 38(42)
39 Muntliga presentationer Presentationen ska vara 10 minuter och ca 5 minuter för frågor och diskussion. Alla i gruppen ska presentera och vara aktiva under seminariet. Dela gärna in presentationen i 2-3 tydliga delar som ni fördelar rättvist er emellan. Öva hemma själv på din del och minst en gång i hela gruppen innan så ni kan ta tiden. Berätta det viktiga, tala tydligt. Plast-OH/1 ppt/1 pdf på pinne. Anpassa vem som talar efter hur ni vill presentera. Att bygga en korpus 39(42)
40 Grupper Helst inga byten, men om det är nödvändigt måste det göras mellan två bestämda grupper: What can a corpus tell us about creativity: Emelie, Elsie-Marie, Sigrid Using corpora in translation: Jonni, Josefin, Marcos What are parallel and comparable corpora and how can we use them? Elsa och Maria How can corpora be used to explore the language of poetry and drama? Helle, Julia, Matilda How to use corpus linguistics in forensic linguistics: Andreas, Benita, Sandra Att bygga en korpus 40(42)
41 Mittkursvärdering Endast 4 av 15 som fyllde i! Nöjda med föreläsningarna, enkelt, tydligt och bra med omfattande bilder. Nöjda med labbarna: någon kommenterade på någon otydlig instruktion Boken: alla nöjda Examination: Nöjda och verkar passa de flesta. Många tycker att det är bra med varierande examinationsform. Administration: Nöjda. Att bygga en korpus 41(42)
42 Nästa gång Trädbanker och parallella korpusar Frågor och/eller chiffer? Att bygga en korpus 42(42)
Korpusannotering. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusannotering 1(31)
Korpusannotering Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusannotering 1(31) Förra gången Att bygga en korpus sampling uppmärkning annotering
Grundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Korpusuppbyggnad Från textsamling till korpus
Korpusuppbyggnad Från textsamling till korpus Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusuppbyggnad Från textsamling till korpus 1(53)
Korpussökning och korpusmått 1(44)
Korpussökning och korpusmått Beáta B. Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpussökning och korpusmått 1(44) Förra gången Korpustyper Korpusdistributörer
Uppmärkningsspråk. TDP007 Konstruktion av datorspråk Föreläsning 3. Peter Dalenius Institutionen för datavetenskap
Uppmärkningsspråk TDP007 Konstruktion av datorspråk Föreläsning 3 Peter Dalenius Institutionen för datavetenskap 2017-01-26 2 Vad handlar det andra seminariet om? Strukturerad text Uppgifter Hämta information
Uppmärkningsspråk. TDP007 Konstruktion av datorspråk Föreläsning 3. Peter Dalenius Institutionen för datavetenskap
Uppmärkningsspråk TDP007 Konstruktion av datorspråk Föreläsning 3 Peter Dalenius Institutionen för datavetenskap 2015-01-29 Vad handlar det andra seminaret om? Strukturerad text Uppgifter Hämta information
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Språk, datorer och textbehandling
Språk, datorer och textbehandling Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng, grundnivå, huvudområde: språkteknologi Syfte: Kursen skall förmedla
Korpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet
Vad är en korpus och vad kan man använda den till? Lars Borin Språkdata, Inst. för svenska språket Göteborgs universitet SALETEK-möte Jokkmokk, 13 14 juni 2004 vad är en korpus? korpusar är (stora) textsamlingar
Meningssegmentering i SUC och Talbanken
Meningssegmentering i SUC och Talbanken Mattias Edlund och Gvargis Demir Institutionen för lingvistik och filologi Uppsala Universitet Box 635 SE-751 26 Uppsala SWEDEN {matted,gevargis}@stp.lingfil.uu.se
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Korpusmått, korpusbalans och korpusrepresentativitet
Korpusmått, korpusbalans och korpusrepresentativitet Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusmått, korpusbalans och korpusrepresentativitet
Grundläggande textanalys, VT2013
Grundläggande textanalys, VT2013 evelina.andersson@lingfil.uu.se Rum 9-2035 http://stp.ling.uu.se/~evelina/uv/uv13/gta/ (Tack till Sofia Gustafson-Capkovâ för material.) Idag - Preprocessing - Tokeniserings-
Fil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Elementära verktyg för korpusbearbetning
Elementära verktyg för korpusbearbetning Föreläsning 1: Introduktion till korpuslingvistik eva.pettersson@lingfil.uu.se 1 Kursplan - Syfte 5 poäng. Ämne: Språkteknologi. Nivå: A Syfte: Kursen behandlar
WEBBUTVECKLING Kursplanering
Kursplanering v 35-37: Struktur, mappar, google-skills, planering, html-grunder, bra/dåliga exempel, webbläsare, editorer v 38-43: HTML - länkar, färger, text, listor, bilder. v 44: Höstlov v 45: Repetition,
Korpusar. Beáta Megyesi. Uppsala universitet Institutionen för lingvistik och filologi Korpusar 1(41)
Korpusar Beáta Megyesi Uppsala universitet Institutionen för lingvistik och filologi beata.megyesi@lingfil.uu.se Korpusar 1(41) Förra gången Kursinformation Empiriska studier av språk Kvantitativa vs.
Hantera informationspaket i system för bevarande
Kompetensutveckling har erbjudits deltagare inom projektet Elektroniskt bevarande i form av en kurs i XML. Kursen har genomförts av Riksarkivet och haft en praktisk inriktning. Ett 10-tal personer deltog
Nätet. Uppgiften. Nivå
Nivå 1 Nätet All Code Clubs must be registered. Registered clubs appear on the map at codeclubworld.org - if your club is not on the map then visit jumpto.cc/ccwreg to register your club. Uppgiften Har
Tekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Chapter 1 : Who do you think you are?
Arbetslag: Gamma Klass: 9A Veckor: 34-39 År: 2019 Chapter 1 : Who do you think you are?. Syfte Förstå och tolka innehållet i talad engelska och i olika slags texter. Formulera sig och kommunicera i tal
Konstruktion av datorspråk
Konstruktion av datorspråk Fö3: Uppmärkningsspråk Peter Dalenius petda@ida.liu.se Institutionen för datavetenskap Linköpings universitet 2009-01-29 Översikt Uppmärkningsspråk Struktur och specifikation
Korpuslingvistik (SV2119) Föreläsning 3: Annotering
Korpuslingvistik (SV2119) Föreläsning 3: Annotering Richard Johansson richard.johansson@svenska.gu.se 4 oktober 2013 1. introduktion kort info föreläsning 7 ändring föreläsning 7 dagens föreläsning du
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp
Corpus methods in linguistics and NLP: Introduktion till sökverktyget Korp UNIVERSITY OF Richard Johansson November 11, 2015 dagens presentation sökverktyget Korp Språkbankens korpusar: vilka nns och hur
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(18) Kursöversikt Kursnamn:
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp
Korpuslingvistik (SV2119) Föreläsning 2: Språkbankens korpusar och sökverktyget Korp Richard Johansson richard.johansson@svenska.gu.se 20 september 2013 1. introduktion dagens föreläsning Språkbankens
Information technology Open Document Format for Office Applications (OpenDocument) v1.0 (ISO/IEC 26300:2006, IDT) SWEDISH STANDARDS INSTITUTE
SVENSK STANDARD SS-ISO/IEC 26300:2008 Fastställd/Approved: 2008-06-17 Publicerad/Published: 2008-08-04 Utgåva/Edition: 1 Språk/Language: engelska/english ICS: 35.240.30 Information technology Open Document
Writing with context. Att skriva med sammanhang
Writing with context Att skriva med sammanhang What makes a piece of writing easy and interesting to read? Discuss in pairs and write down one word (in English or Swedish) to express your opinion http://korta.nu/sust(answer
Lingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2016) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Från form till betydelse pragmatik semantik analys generering syntax morfologi Skolans
Datorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till korpuslingvistik Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
Grammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten
Kort om Coxheads Academic Word List. Emma Sköldberg, maj 2011
Kort om Coxheads Academic Word List Emma Sköldberg, maj 2011 Två viktiga artiklar Coxhead, A. 2000: A New Academic Word List (TESOL Quarterly 34:2, 2000, 213-238). Coxhead, A. 2002: The Academic Word List:
http://marvel.com/games/play/31/create_your_own_superhero http://www.heromachine.com/
Name: Year 9 w. 4-7 The leading comic book publisher, Marvel Comics, is starting a new comic, which it hopes will become as popular as its classics Spiderman, Superman and The Incredible Hulk. Your job
Read Texterna består av enkla dialoger mellan två personer A och B. Pedagogen bör presentera texten så att uttalet finns med under bearbetningen.
! Materialet vill ge en gemensam bas av användbara fraser för dialoger i klassrummet. skapa dialoger mellan elever på engelska. skapa tydliga roller för två personer, och. presentera meningsfulla fraser
729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Kursintroduktion 2015-04-08 Lars Ahrenberg 1 Plan Kursens innehåll och organisation Text, språk och datorer Textformat och textrepresentationer Korpuslingvistik
Språk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044,7-0019 Labb 1: KORP vid
Retrieve a set of frequently asked questions about digital loans and their answers
GetFAQ Webservice name: GetFAQ Adress: https://www.elib.se/webservices/getfaq.asmx WSDL: https://www.elib.se/webservices/getfaq.asmx?wsdl Webservice Methods: Name: GetFAQ Description: Retrieve a set of
Webbplats analys cite4me.org
Webbplats analys cite4me.org Genereras på Maj 03 2019 15:50 PM Ställningen är 36/100 SEO Innehåll Titel Reference Maker and Citation Machine - Generator: Amazing Tool for Effortless Referencing Längd :
Prövning i grundläggande Engelska
allmän mall Malmö stad Komvux Malmö Södervärn Prövning i grundläggande Engelska A. Skriftligt prov 1 Läsförståelse, ordkunskap ca 80 minuter 2 Hörförståelse ca 45 minuter 3 Uppsatsskrivning ca 80 minuter
Datorbaserade verktyg i humanistisk forskning
Datorbaserade verktyg i humanistisk forskning Introduktion till nätresurser Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se Föreläsningsöversikt
En bortsprungen katt
Nivå 1 All Code Clubs must be registered. Registered clubs appear on the map at codeclubworld.org - if your club is not on the map then visit jumpto.cc/ccwreg to register your club. En bortsprungen katt
Authentication Context QC Statement. Stefan Santesson, 3xA Security AB stefan@aaa-sec.com
Authentication Context QC Statement Stefan Santesson, 3xA Security AB stefan@aaa-sec.com The use case and problem User identities and user authentication is managed through SAML assertions. Some applications
Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.
Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla
LADDA UPP OCH PUBLICERA FILER I JOOMLA MAGDALENA BUSK. Pdf, PowerPoint, Word, Flash. Det är väldigt enkelt att ladda upp olika typer av filer till
LADDA UPP OCH PUBLICERA FILER I JOOMLA 2009-10-16 Version 1.1 Pdf, PowerPoint, Word, Flash Det är väldigt enkelt att ladda upp olika typer av filer till Joomla och sedan publicera dem på webbplatsen. MAGDALENA
Webbplats analys google.com
Webbplats analys google.com Genereras på Januari 14 2019 10:26 AM Ställningen är 37/100 SEO Innehåll Titel Google Längd : 6 Idealisk, din titel bör innehålla mellan 10 och 70 tecken (mellanslag räknas
Grammatik för språkteknologer
Grammatik för språkteknologer Fraser http://stp.lingfil.uu.se/~matsd/uv/uv12/gfs/ Språkteknologiska grammatikkomponenter Tokenisering urskilja graford. Ordklasstaggning och annan taggning tilldela dem
F02 En första sida. Dagens agenda
F02 En första sida Dagens agenda doctype taggar, element, attribut, värden teckenkodning HTML/XHTML Indentering Block/inline-element Struktur Se demo #2
Korpuslingvistik vt 2007
Korpuslingvistik vt 2007 Metoder för annotering II och utvärdering Beata B. Megyesi bea@stp.lingfil.uu.se 1 Annotation: Morfo-syntaktisk analys teckenkodning meningssegmentering tokenisering morfologisk
Kort om World Wide Web (webben)
KAPITEL 1 Grunder I det här kapitlet ska jag gå igenom allmänt om vad Internet är och vad som krävs för att skapa en hemsida. Plus lite annat smått och gott som är bra att känna till innan vi kör igång.
Tekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Hur kan vi använda korpusmaterial och teckenspråkslexikon i språkutbildningen?
Exempel på texttranskription i Excel 3b...TIDNING SOM HETA A-L-L-E-R-S (a:r-dur) VÄNTA HAFT FÖRST FRÅGA POSS-c MAMMA FUNGERA HUR PEK-c VARIT PEK-c LITEN FRÅGA FUNGERA BRA MED FÖRÄLDRAR DÖVA MAMMA DÖV PEK-c
Ansvarig lärare: Annika Fällman LAG NORD. annika.fallman@edu.upplandsvasby.se
ENGELSKA ÅK 7 ÄMNESOMRÅDE: FOOD och/eller SO/NO KOPPLING Ansvarig lärare: Annika Fällman LAG NORD annika.fallman@edu.upplandsvasby.se Kommunikationens innehåll Lyssna och läsa reception Förstå talad engelska
12 Webb och kurshemsidor
12 Webb och kurshemsidor Många lärare använder sig av kurswebbsidor eller egna personliga webbsidor som ett ställe att samla information och dokumentation kring sitt arbete. Om du ska skapa en webbsida,
Modellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
ITK:P2 F1. Hemsidor med HTML HTML. FTP, HTTP, HTML, XML och XHTML
ITK:P2 F1 FTP, HTTP, HTML, XML och XHTML DSV Peter Mozelius 1 Hemsidor med HTML Hur många av er har provat på att bygga en egen hemsida med HTML eller XHTML? För hand eller med hjälpverktyg? Har ni lagt
Introduktion till programmering
Introduktion till programmering Föreläsning 5 Programmering av webbsidor. Webbens grundbegrepp HTML HTML (HyperText Markup Language) är det språk som används för att skriva webbsidor. HyperText: text med
extensible Markup Language
Datavetenskap Opponenter: Björn Olsson Andreas Svensson Respondenter: Sanaa Al-abuhalje Afrah Al-abuhalje XML extensible Markup Language Oppositionsrapport, C-nivå 2007:06 1 Sammanfattat omdöme av examensarbetet
Webbens grundbegrepp. Introduktion till programmering. Ytterligare exempel. Exempel på webbsida. Föreläsning 5
Introduktion till programmering Föreläsning 5 Programmering av webbsidor. Webbens grundbegrepp HTML HTML (HyperText Markup Language) är det språk som används för att skriva webbsidor. HyperText: text med
Heldag om FGS FGS:er och deras tekniska regelverk. Karin Bredenberg, FGS funktionen. Standarder. FGS:er och deras tekniska regelverk 1
FGS:er och deras tekniska regelverk Karin Bredenberg, FGS funktionen Standarder 2 FGS:er och deras tekniska regelverk 1 Standarder Det finns många standarder och ingen bild med alla på Det finns inte heller
Språkteknologi. Språkteknologi
Språkteknologi Denna kurs handlar om naturliga språk (svenska, engelska, japanska, arabiska ), och hur vi kan få datorer att utföra användbara och intressanta uppgifter med naturliga språk. Språkteknologi
onsdag den 21 november 2012 PRONOMEN
PRONOMEN DEMONSTRATIVA PRONOMEN Är ord som pekar ut eller visar på någon eller något. Ex. Vill du ha den här bilen? Nej, jag vill ha den där. Finns 4 demonstrativa pronomen på engelska. DEMONSTRATIVA PRONOMEN
Jag är inte dum Arbetsmaterial för läsaren Författare: Josefin Schygge
Jag är inte dum Arbetsmaterial för läsaren Författare: Josefin Schygge Ord Arbeta med ord A) 1. Gör fyra listor med orden från ordlistan som du hittar i slutet. En för verb, en för substantiv, en för adjektiv,
Uppmärkningsspråk. TDP007 Konstruktion av datorspråk Föreläsning 4. Peter Dalenius Institutionen för datavetenskap
Uppmärkningsspråk TDP007 Konstruktion av datorspråk Föreläsning 4 Peter Dalenius Institutionen för datavetenskap 2015-02-03 Från förra gången XML-dokument specificeras med t.ex. en DTD Två olika sätt att
Språkliga strategier för att minnas och lära, till exempel tankekartor och stödord. Mål:
Grammatikprov svenska Nu är det dags att kolla av vad eleverna lärt sig under vårens grammatik arbete. Efter påsklovet tar vi paus från veckans-ord och pluggar grammatik. För att det inte ska bli för mycket
UTBILDNING & ARBETE Uppsatsskrivandets ABC
UTBILDNING & ARBETE Uppsatsskrivandets ABC Borgarskolan Polhemsskolan Vasaskolan 1 Innehåll Abstract... 1 Analys... 1 Argument... 1 Bilagor... 1 Citat... 1 Enkät... 1 Fotnot... 1 Frågeställning... 1 Innehållsförteckning...
Hammarbyskolan Reviderad februari 2009 Lokal kursplan i svenska/svenska som andra språk
Lokal kursplan i svenska/svenska som andra språk Skriva alfabetets bokstavsformer t.ex. genom att forma eller att skriva bokstaven skriva sitt eget namn forma varje bokstav samt skriva samman bokstäver
FrontPage Express. Ämne: Datorkunskap (Internet) Handledare: Thomas Granhäll
FrontPage Express I programpaketet Internet Explorer 4.0 och 5.0 ingår också FrontPage Express som installeras vid en fullständig installation. Det är ett program som man kan använda för att skapa egna
Laboration med Internet och HTML
Laboration med Internet och HTML Denna laboration går ut på att du skall kunna skapa enkla hemsidor i HTML. Vi kommer inte att ta upp edstorer för hemsidor som t.ex. DreamWeaver eller FrontPage. Dessa
Svensk nationell datatjänst, SND BAS Online
Pass 3: Metadata Vad är metadata? I den här presentationen kommer jag ge en introduktion till metadata och forskningsdata på ett principiellt plan. Vi kommer bland annat titta lite närmare på vad metadata
grammatik Ordklasser, nominalfraser, substantiv
Svenska språkets struktur: grammatik Ordklasser, nominalfraser, substantiv Helen Winzell (rum 4315, Key-huset) 013-28 69 28 helen.winzell@liu.se Varför grammatik? Språkets struktur med meningsbyggnad,
Roller. Student. Institutionen för informationsteknologi www.it.uu.se
Examensarbete på kandidatnivå Roller Handledare Exjobbssamordnare Student Ämnesgranskare Examinator http://www.it.uu.se/edu/exjobb Checklista (början) Ta reda på alla regler och krav kring exjobb Gå gärna
Språkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Anvisningar till rapporter i psykologi på B-nivå
Anvisningar till rapporter i psykologi på B-nivå En rapport i psykologi är det enklaste formatet för att rapportera en vetenskaplig undersökning inom psykologins forskningsfält. Något som kännetecknar
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2017) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Språk och datorer Korpuslingvistik och
Join the Quest 3. Fortsätt glänsa i engelska. Be a Star Reader!
Join the Quest 3 Fortsätt glänsa i engelska. Be a Star Reader! PROVLEKTION: A Book Review, Charlie and the Chocolate Factor by Roald Dahl Följande provlektioner är ett utdrag ur Join the Quest åk 3 Textbook
En snabb titt på XML LEKTION 6
LEKTION 6 En snabb titt på XML Bokstaven x i Ajax står för XML, ett mycket användbart beskrivningsspråk som gör det möjligt för Ajax-tillämpningar att hantera komplex strukturerad information. I den här
Språk, datorer och textbehandling
Fyra labbar, de två sista med inlämning och betygsättning (U, G, VG) Detaljer kring examinationen ges på kurssidan Datasalar för labb: 9-1064, 9-1070 Allmänna datasalar: 9-0044, 7-0019 Labb 1: KORP vid
Kursplan i svenska som andra språk på Alsalamskolan enligt kursplan 2011
Kursplan i svenska som andra språk på Alsalamskolan enligt kursplan 2011 Målen för år 1 Eleven skall kunna: alla bokstäver alla bokstavsljud läsa korta frekventa ordbilder utan att ljuda ljuda korta ord
DP7 Kompletterande information
Magnus G 2013-12-19 1.1 2(9) INNEHÅLLSFÖRTECKNING 1. DOKUMENTINFORMATION...4 1.1 SYFTE...4 1.2 MÅLGRUPP...4 2. ALLMÄNT...4 2.1 ALLMÄNT...4 2.1.1 Validering...4 2.1.2 Tomma element bör inte vara med...4
Föreläsning 3: Formalia: Hur skall uppsatsen se ut
Självst lvständigt statistiskt arbete, ht2011 (Jan Wretman/Gösta Hägglund/Gebrenegus H Ghilagaber) Föreläsning 3: Formalia: Hur skall uppsatsen se ut 1 Uppsatsens olika delar Uppsatsen skall innehålla
Strukturering med XML och DTD
Föreläsning i webbdesign Strukturering med XML och DTD Rune Körnefors Medieteknik 1 2012 Rune Körnefors rune.kornefors@lnu.se PresentaCon SCl Layout OrganisaCon/struktur InformaConsobjekt Länkar Innehåll/data
Pass 4: Metadatastandarder
Pass 4: Metadatastandarder Exempel på metadatastandarder Nu är det dags att ta upp några exempel på metadatastandarder. Jag ska börja med att titta lite snabbt på ett urval av metadatastandarder som vi
Inlämningsuppgift: Pronomenidentifierare
1 (7) Inlämningsuppgift: Pronomenidentifierare 2D1418 Språkteknologi landes@bredband.net johnne@kth.se 1 2 (7) 1 Uppgiften... 3 2 Algoritmen i korthet... 3 3 Representation av data... 3 4 Indikatorer...
Webbplats analys skillmd.com
Webbplats analys skillmd.com Genereras på Juli 22 2019 18:04 PM Ställningen är 58/100 SEO Innehåll Titel Medical Learning Community SKILLMD Längd : 36 Perfekt, din titel innehåller mellan 10 och 70 tecken.
XML. Extensible Markup Language
XML Extensible Markup Language XML - 1969 Generalized Markup Language (GML) 1979-85 Standard Generalized Markup Language (SGML) 1990 HyperText Markup Language (HTML) 1996-98 Extensible Markup Language
Optimering av webbsidor
1ME323 Webbteknik 3 Lektion 7 Optimering av webbsidor Rune Körnefors Medieteknik 1 2019 Rune Körnefors rune.kornefors@lnu.se Agenda Optimering SEO (Search Engine Optimization) Sökmotor: index, sökrobot
Småprat Small talk (stressed vowels are underlined)
Småprat Small talk (stressed vowels are underlined) Vad heter du? Varifrån kommer du? Vad har du för modersmål (1 st language)? Vad studerar du? Var bor du? Hur gammal är du? Cyklar du till universitetet?
Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016
Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett
ATT GÖRA WEBBSIDOR. Frivillig labb
Numerisk analys och datalogi KTH 100 44 Stockholm Kerstin Frenckner, tel 790 7143, e-post kfrenck@nada.kth.se 2D1339 Programkonstruktion Hösten 2001 Datorintroduktion Frivillig labb ATT GÖRA WEBBSIDOR
Uppsatsskrivandets ABC
UTBILDNING GÄVLE GYMNASIEBIBLIOTEKARIERNA Uppsatsskrivandets ABC Borgarskolan Polhemsskolan Vasaskolan 1 Innehåll Abstract... 1 Analys... 1 Argument... 1 Bilagor... 1 Bilder... 1 Citat... 2 Enkät... 2
Isolda Purchase - EDI
Isolda Purchase - EDI Document v 1.0 1 Table of Contents Table of Contents... 2 1 Introduction... 3 1.1 What is EDI?... 4 1.2 Sending and receiving documents... 4 1.3 File format... 4 1.3.1 XML (language
Gymnasiearbete Datum. Uppsatsens rubrik. Ev. underrubrik. Ditt namn, klass Handledarens namn
Gymnasiearbete Datum Uppsatsens rubrik Ev. underrubrik Ditt namn, klass Handledarens namn Sammanfattning En uppsats har en kort, inledande sammanfattning av hela arbetet. Den kommer inledningsvis men skrivs
Roller. Student. Institutionen för informationsteknologi www.it.uu.se
Examensarbete på kandidatnivå Roller Handledare Exjobbssamordnare Student Ämnesgranskare Examinator Checklista (början) Ta reda på alla regler och krav kring exjobb Gå på någon annans slutpresentation!
» RSS - Bygg din egen RSS!
1 of 5 29.4.2006 18:46» RSS - Bygg din egen RSS! Sett en orange liten skylt med vita bokstäver som antingen sagt XML eller RSS nyligen utan att direkt koppla varför den finns där? Du är antagligen inte
Workplan Food. Spring term 2016 Year 7. Name:
Workplan Food Spring term 2016 Year 7 Name: During the time we work with this workplan you will also be getting some tests in English. You cannot practice for these tests. Compulsory o Read My Canadian
Användarmanual för Hemsida
Användarmanual för Hemsida Sida 1 av 44 Inledning Detta dokument är en användarmanual för redigerbara hemsidor utvecklade av. Du kan själv, i ett wordliknande gränssnitt, enkelt uppdatera din egen hemsida
Titel Mall för Examensarbeten (Arial 28/30 point size, bold)
Titel Mall för Examensarbeten (Arial 28/30 point size, bold) SUBTITLE - Arial 16 / 19 pt FÖRFATTARE FÖRNAMN OCH EFTERNAMN - Arial 16 / 19 pt KTH ROYAL INSTITUTE OF TECHNOLOGY ELEKTROTEKNIK OCH DATAVETENSKAP
GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT
GYMNASIEARBETET - ATT SKRIVA VETENSKAPLIGT Ditt gymnasiearbete ska bygga kring den frågeställning du kommit fram till i slutet av vårterminen i årskurs 2 och du ska i ditt arbete besvara din frågeställning