Kollikon frasidentifikation och -extrahering INNEHÅLLSFÖRTECKNING

Storlek: px
Starta visningen från sidan:

Download "Kollikon frasidentifikation och -extrahering INNEHÅLLSFÖRTECKNING"

Transkript

1 INNEHÅLLSFÖRTECKNING KAPITEL 1 INLEDNING INTRODUKTION SYFTE UPPSATSENS UTFORMNING 6 KAPITEL 2 BAKGRUND HISTORIK Principer inom korpuslingvistik KORPUSTYPOLOGI Typiska drag ORDKOMBINATIONER Lexikala fraser Lexikala fraser i lexikon Andra användningsområden för lexikala fraser VERKTYG OCH STATISTISKA METODER RELATERAT ARBETE Test på likhet och olikhet Xtract Domänspecifika kollokationer WordSmith CobuildDirect 16 KAPITEL 3 METOD VAL AV METOD Språkliga uttryck och statistiska metoder Svensk standardkorpus VAL AV VERKTYG Objektorientering Java Klient/Server Servlet XML UTVÄRDERING/TESTNING 24 KAPITEL 4 IMPLEMENTATIONSDOKUMENTATION ANVÄNDNING AV SYSTEMET ÖVERSIKT AV SYSTEMET KOPPLINGAR I SYSTEMET UTVECKLINGSDOKUMENTATION 33 KAPITEL 5 RESULTAT & ANALYS JÄMFÖRA DE STATISTISKA METODERNA MINDRE JÄMFÖRELSE MED LEXIN JÄMFÖRELSE MED OLIKA KONTEXT KOLLIKON JÄMFÖRT MED LEXIN LITE SIFFROR 41 KAPITEL 6 AVSLUTNING 43

2 6.1 SLUTSATSER FORTSATT ARBETE 44 REFERENSLISTA 45 APPENDIX I APPENDIX II I IX INNEHÅLLSFÖRTECKNING FIGURER, TABELLER OCH BILDER FIGUR 1, 2, SINCLAIR (1999:23) 11 FIGUR 3, 4, SINCLAIR (1999:27) 12 FIGUR 5, KORSTABELL 14 FIGUR 6, XML-TRÄDET I KOLLIKON 20 FIGUR 7, SERVLET SOM BYGGER EN WEBBSIDA MED TEXTEN HELLO WORLD (HUNTER, 1998:20) 23 FIGUR 8, EXEMPEL PÅ XML FRÅN KOLLIKON 24 FIGUR 9, XML-TRÄDET I KOLLIKON 32 FIGUR 10, DEL AV XSL-MALLEN I KOLLIKON 33 FIGUR 11, TILLÄGG I XSL-MALLEN 33 TABELL 1, ANTAL TESTOBJEKT FÖR DET FJÄRDE UTVÄRDERINGSMOMENTET 25 TABELL 2, SÖKNING PÅ VÄCKA MED LLR 35 TABELL 3, SÖKNING PÅ VÄCKA MED X2 36 TABELL 4, SÖKNING PÅ VÄCKA MED MI 37 TABELL 5, LISTA 1, KONTEXT 2:2 40 TABELL 6, LISTA 2, KONTEXT 6:6 40 BILD 1, FRÅN KOLLIKON, STARTSIDA 27 BILD 2, DELAR AV RESULTAT VID EN SÖKNING PÅ ORDET BEGÅ MED DEFAULT-INSTÄLLNINGAR 29 BILD 3, ÖVERSIKT AV SYSTEMET 30

3 KAPITEL 1 Inledning 1.1 Introduktion En svensk översättare i Bryssel vänder sig till en korpustjänst och söker på stark ökning och kraftig ökning i en enspråkig svensk korpus. Varför gör han eller hon det? Samma tjänst erbjuder parallella korpusar men de används så gott som aldrig av översättare. Det är den enspråkiga korpusen som är populärast. Översättaren sitter i en främmande miljö där svenska inte är arbetsspråk och därför blir det svårare med nyanser i fraseologin. Översättaren letar efter en översättning med ökning i men är osäker på vilket förstärkande adjektiv som ska användas. Eftersom ökning är känt, skulle det vara bra med ett system som kan förstå vilka ord som passar ihop med ett bestämt utgångsord. Detta gäller inte bara för översättare utan skulle även kunna vara bra i lexikografiskt arbete. Korpusar blir allt större och den alfabetiseringsprincip som ligger bakom traditionella konkordanser blir svårhanterlig när resultatet från en sökning består av tusentals rader. Denna uppsats vill illustrera hur problemet kan komma närmare en lösning. Genom tillämpningen av ett modernt synsätt på korpusar, nämligen objektorienterat, presenteras en lösning som kan utgöra kärnan i ett större system där korpusen är det överordnande objektet. 1.2 Syfte Uppgiften är att underlätta analysen av stora korpusar när det gäller fraseologi. Implementationen integrerar metoder och tekniker från korpuslingvistik och objektorientering. Arbetet har genomförts hos Lexilogik AB, ett kunskapsföretag som utvecklar mjukvara inom språkteknologi med specialisering på tillämpningar inom modern elektronisk lexikografi. Mer konkret är uppgiften att göra ett avancerat konkordansverktyg för svenska baserat på statistiska metoder istället för alfabetiska principer. Slutresultatet skall identifiera och extrahera flerordsenheter och lämpar sig för sökandet av konstruktioner, språkbeskrivningar, betydelsenyanser och liknande. Kollikon, applikationens namn, ska kunna användas fristående på Internet eller kopplas samman med andra moduler såsom Lexilogiks Onoma, ett lexikografiskt arbetsverktyg för att skapa och bearbeta lexikaliska databaser. 1 1 En demonstration av Kollikon (Kollokationer i kontext), finns på under Demonstrations.

4 1.3 Uppsatsens utformning I bakgrunden behandlas korpuslingvistik, dels utifrån lingvistens och dels utifrån datalogens synvinkel. Här beskrivs fraser, korpusar och tidigare arbete inom samma område. I metodkapitlet beskrivs valet av metod för de språkliga uttrycken och vilka statistiska mått som används. Vidare följer ett avsnitt om de valda verktygen och slutligen hur utvärderingen av systemet har gått till. I implementationsdelen visas hur systemet används och hur resultatet synliggörs. Detta följs av en översiktlig systembeskrivning och sedan en djupare beskrivning av kopplingarna mellan systemets olika delar. Denna del avslutas med förslag till vidareutveckling. I resultatkapitlet genomförs fyra tester på Kollikon för att analysera det språkliga resultatet. Det första testet visar på likheter och olikheter mellan de olika statistiska metoderna. I det andra och fjärde testet analyseras resultatet genom en jämförelse med språkexempel tagna från Lexin (1993). I det tredje testet jämförs resultatet om sökningarna utförs med olika kontext. Uppsatsen avslutas med slutsatser och förslag till fortsatt arbete.

5 KAPITEL 2 Bakgrund 2.1 Historik Om man ska beskriva korpuslingvistik på ett enkelt sätt kan man säga att det är studiet av språk baserat på exempel från verklig språkanvändning (McEnery & Wilson, 1996:1-2). Kan man säga att korpuslingvistik är en gren av lingvistik? Svaret är både ja och nej enligt McEnery & Wilson. De anser att korpuslingvistik inte är en gren av lingvistiken såsom semantik eller syntax där man beskriver/förklarar en aspekt av språkanvändning, utan snarare en metod att applicera på undersökningar inom de lingvistiska områdena. Man kan skilja på korpusbaserad semantik till skillnad från icke korpusbaserad semantik, och korpusbaserad syntax till skillnad från icke korpusbaserad syntax osv. Materialbaserade språkstudier har funnits i sekler men begreppet korpuslingvistik brukar implicera datorstödda undersökningar. Redan på 1930-talet höll J R Firth på med empirisk språkforskning. Han ansåg bland annat att språkforskning skall grundas på texter (Firth 1957). Han menade att ett ord inte kunde analyseras om det inte förekom i ett större sammanhang, en text. The use of the word meaning is subject to the general rule that each word when used in a new context is a new word. (Firth, 1957:190) Chomsky gav ut ett antal publikationer under 1950-talet och framåt där han menade att inriktningen inom lingvistik borde grunda sig på rationalism 2 istället för empirism vilket sammanfattas av McEnery & Wilson (1996:4-10) med utgångspunkt från två av Chomskys publikationer utgivna 1957 och Rationalistiska teorier baseras på intuition. Det kan t ex vara en infödd talare av ett språk som reflekterar över språket och grundar sina språkteorier på dessa reflektioner. Ett empiriskt tillvägagångssätt grundar sig på observationer av språkförekomster i verkligheten, normalt genom att använda en korpus (mer om korpusar, se 2.2). Enligt Chomsky fanns det ingen möjlighet att en korpus skulle kunna vara ett användbart redskap för en lingvist, eftersom språket är infinit och inte kan beskrivas med ett finit verktyg, en korpus som enbart innehåller en delmängd av språket. Han ansåg att en lingvist måste försöka modellera språkets competence hellre än performance. 3 Competence är människans undermedvetna och interna kunskap om språk, och performance det externa användandet av språk som påverkas av 2 Rationalism: kunskapsteorietisk ståndpunkt som hävdar att (en stor del av) vår kunskap inte har sin grund i erfarenheter utan är delvis medfödd, Svensk ordbok, 1994) 3 Jag har avstått från att översätta competence och performance.

6 utomstående händelser och inte beror på vår interna kunskap (competence) av språket. (Exempelvis att man är påverkad av alkohol när man talar). Detta gjorde att arbetet inom korpuslingivistk på många håll avstannade på talet men det var ändå på den här tiden Kucera och Francis skapade den första maskinläsbara korpusen, Brownkorpus på 1 miljon ord, en mycket stor korpus på den tiden (Kennedy, 1998:23). Här kan även Sture Allén nämnas med Press65 och NFO (1970) Principer inom korpuslingvistik Korpuslingvisten studerar språket empiriskt och några exempel på grundläggande principer beskrivs av Stubbs (1993). Beskrivningen är inte uttömmande utan ger endast korta exempel på några av de principer han anser grundläggande inom korpuslingvistik; Språk bör studeras utifrån verkliga, bekräftade, autentiska belägg, inte utifrån intuition eller uppdiktade, isolerade meningar. Stubbs menar att uppdiktade satser inte kan avspegla typiska mönster i språket. Stubbs (1993:11) hänvisar till Sinclair när han förklarar att en av huvudorsakerna till att använda en korpus är att identifiera det centrala och typiska i ett språk. Då det gäller information om frekvens, distribution av olika forms and meaning och även interaktionen mellan lexis and syntax är intuition inte en pålitlig källa (Stubbs, 1993:11 och McEnery & Wilson, 1996:12). 4 Föremålet för studier måste vara hela texter och texter och texttyper måste studeras komparativt/proportionerligt i korpusar. Anledningen till detta är att få lingvistiska särdrag är distribuerade jämnt i en text (Stubbs, 1993:11). Både Halliday och Sinclair (1996 och enligt Stubbs, 1993:11) anser att hela texter ska användas. Detta ger konsekvenser för hur man bör konstruera en korpus. I många korpusar har urvalsmetoder använts där man plockar ut en delmängd av varje text. Texttyper bör studeras proportionerligt eftersom olika texttyper har varierande lexikala och grammatiska särdrag. Särdragen beror på vem texten är skriven för, vem läsaren är och om det är talat eller skrivet språk som analyseras. I lingvistik ingår studiet av meaning ; form and meaning är oskiljbara. Att meaning, ordens funktion och betydelse i texten och form, den grammatiska formen hör ihop anser bland annat Hunston och Francis (2000:1) med sin pattern grammar. 5 the interaction between the particular lexical items in it and the grammatical patterns that they form a part of. Sinclair (enligt Stubbs, 1993:13) säger att det inte finns någon distinktion mellan form and meaning. Meaning påverkar strukturen vilket gör att de inte går att skilja åt. 4 Jag har avstått från att översätta form & meaning och lexis & syntax. 5 Jag har valt att översätta pattern grammar med konstruktionsgrammatik inte att förväxla med den engelska Construction Grammar.

7 Det finns inga band mellan lexis and syntax, lexis and syntax är ömsesidigt beroende av varandra. Lexis and syntax kallas även lexis and grammar av vissa och begreppet används liksom form and meaning för att beskriva ett ords form och betydelse i sin kontext. Här handlar det om huruvida betydelsen ligger i själva ordet eller beror på grammatiska strukturer. Sinclair (1999:23-24) anser att lexis and syntax är ömsesidigt beroende av varandra och inte går att skilja åt. Francis (1991, enligt Stubbs, 1993:15) ger en systematisk demonstration av att alla ord har sin egen grammatik. Hon exemplifierar med ett antal nomen. Om lexis and syntax vore oberoende av varandra skulle orden kunna vara jämnt fördelade i de olika grammatiska positionerna (subjekt, objekt, indirekt objekt o s v). Hon finner dock att fördelningen av orden i samma syntaktiska struktur skiljer sig åt. 2.2 Korpustypologi Användandet av en korpus är centralt i korpuslingvistik. Till skillnad från Stubbs (1993) grundläggande principer vilka återspeglar åsikter de flesta inom korpuslingivistik verkar vara överens om, är det ett omstritt område hur en korpus ska se ut och fungera. De mest intressanta områdena inom korpustypologi är enligt Sinclair (1996): (a) Minimivillkoren för vad som kan anses vara en korpus. (b) Skillnaden mellan en korpus innehållande ett normalbruk av språket och en korpus innehållande specialiserat språkbruk. De klassificeringar Sinclair gör är inga regler utan snarare riktlinjer och beskrivningar. Under en lång tid ansågs kriterierna för Brownkorpus vara standard (se t ex Kennedy 1998:23). Detta innebar att en korpus skulle innehålla en miljon ord, delas in i genrer med lika många ord från varje genre, innehålla 500 språkprov med 2000 ord i varje och källorna skulle vara skrivna och publicerade. Ett exempel är SUC (Stockholm-Umeå Corpus, 1997) som följer denna standard och består av sammanlagt 500 texter om ca ord vardera. De insamlade texterna är tryckta mellan 1990 och 1993, med någon enstaka text från Skillnaden nuförtiden är främst att kraften och lagringsmöjligheterna hos datorer har ökat, priserna på datorer har sjunkit, det finns bildläsare för att läsa in texter och e-post. Att bara använda sig av skrivna språkprov har förändrats, nu finns det även talkorpusar eller korpusar med både skrivna och talade språkprov. Att språkproven ska vara lika stora är kontroversiellt. Definitionen Sinclair (1996:4) använder för att beskriva en korpus är: A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language. Ordet pieces används istället för text eftersom om man ofta använder urvalstekniker där alla språkprov är lika långa, vilket betyder att de inte är texter utan fragment av texter Typiska drag En korpus har vissa kännetecken då det gäller kvantitet, kvalitet, enkelhet och dokumentation. När det gäller kvantitet ska en korpus innehålla många ord. Vitsen med en korpus är att samla in så

8 mycket data som möjligt. Storleken på korpusar ökar hela tiden och det är svårt att ge en bestämd siffra för hur stor en korpus ska vara (Sinclair, 1996:6). För kvalitet gäller att materialet i en korpus ska vara autentiskt. Det ska komma från normal kommunikation mellan människor. Det kan vara svårt att dra gränsen för vad normal kommunikation är (Sinclair, 1996:7). Det finns även andra sorters korpusar där kvalitetskraven är annorlunda. Ett exempel är litterära korpusar. Dessa kan innehålla en författares verk, en genre, en tidsperiod, en grupp författare inom en genre, ett speciellt skrivsätt osv (Sinclair, 1996:7). Kravet på enkelhet innebär att en korpus ska bestå av vanlig text. Alla typer av markeringar ska tydligt kunna identifieras. Slutligen kravet för dokumentation angående texten (ursprung, genre, tid och liknande) gäller att den bör hållas avskiljt från själva texten. Texten bör endast innehålla en referens till källinformationen (Sinclair, 1996:8). 2.3 Ordkombinationer Hunston och Francis (2000:7) presenterar en översikt för de termer som använts för att definiera ordkombinationer av olika slag. Termerna har namn som lexical phrases (Nattinger och DeCarrico), phrasemes (Melcuk) och formuale (Peters). Mitt val är att kalla dem lexikala fraser efter Hunston och Francis lexical phrases Lexikala fraser Många försök har gjorts för att kategorisera lexikala fraser. Indelningen sker ofta efter hur fasta fraserna är. Melcuk, Nattinger & DeCarrio, Pawley & Syder delar enbart in vissa ord i olika fasta fraser (Hunston och Francis 2000:7-13). Sinclair (1999) däremot anser att alla ord förekommer i någon typ av lexikal fras eller mönster, vilket gör att ett enda enskilt ord inte kan ha betydelse (även Firth, se 2.1). Sinclair (1999:22) anser att det inte går att dra en gräns mellan fria och fasta fraser utan skriver om gradskillnader. Han kallar uttryck mellan de fasta och fria fraserna för variable expressions. Skillnaden mellan fria fraser och variable expressions är svåra att beskriva enligt Sinclair (1999:23), men han menar att de fria frasernas syntaktiska konventioner enbart bestäms av grammatisk struktur medan variable expressions styrs av syntagmatiska kriterier mellan orden (ordens kombinatoriska egenskaper). freecombinations FCs fixed expressions FEs

9 FCs<<<<<<<<<<<<<<variable expressions>>>>>>>>>>>>>> FEs Figur 1, 2, Sinclair (1999:23) Sinclairs indelning av lexikala fraser bygger på att ett eller flera ord sätts ihop beroende på syntagmatiska konventioner, både lexikala och grammatiska. De lexikala konventionerna bygger på förekomster av ord inom ett visst avstånd i en korpus och kan klassificeras i fem olika undergrupper (Sinclair, 1999:26). Konstanta element bildar en kärna idiom. Exempelvis i tid och otid. Dessa fraser kan ej förändras vilket gör att många verbfraser hamnar under andra frastyper. Kollokationer. Bygger på syntagmatiska kriterier där de specifika orden eller ordformerna inte nödvändigtvis måste finnas med i varje instans av objektet men tenderar att bilda kluster runt kärnan. Exempelvis bära vittnesbörd, få kicken. Kolligationer. Bygger på syntagmatiska kriterier där de specifika orden inte är lika viktiga som deras grammatiska klass. Exempel verb + reflexivt pronomen, tvätta sig. Semantiska konstruktioner. De syntagmatiska kriterierna är endast semantiska och både de specifika orden och ordklasserna kan variera. Exempelvis på toppen av sin karriär. Semantisk prosodi. Ger en indikation om talarens kommunikativa intention med en pragmatisk inriktning. Semantisk prosodi kan vara negativ eller positiv. Exempel på negativ prosodi, begå associeras oftast med självmord och brott. Denna modell där huvudobjekten i en text är de lexikala objekten är Sinclairs alternativ till distinktionen mellan syntax och semantik. Figur 3 visar att de lexikala objekten är de fundamentala i texten till skillnad från en sträng av ord. När man definierar de lexikala objekten blir de grammatiska relationerna en del av de lexikala objekten. Grammar Semantics

10 residusal grammar Lexical Items (no independent semantics) Figur 3, 4, Sinclair (1999:27) Denna distinktion leder fram till det Sinclair kallar 'lexicogrammar (1999:26) där alla ord i samma mönster har samma semantiska särdrag. En utveckling av denna teori kan man läsa om i Hunston och Francis (2000) som byggt en konstruktionsgrammatik där de beskriver mönstren som associeras med ett speciellt lexikalt objekt som kan observeras genom att undersöka en korpus Lexikala fraser i lexikon För en lexikograf är detta av stor vikt. Huvudfrågorna när det gäller lexikala fraser är: hur fasta de är, alltså hur stor grad av variation i valet av ord förekommer i frasen, och vilken relation de har till grammatiken och lexikonet i språket. Uttryck av alla slag ger lexikografen problem eftersom de inte passar in i den traditionella alfabetiska listan av huvudord som används i ett lexikon. Ska exempelvis till buds komma direkt efter till (en utökning till till) eller efter tillbaka (i bokstavsordning)? Vilka ord som ska vara uppslagsord är ett komplicerat problem och valet beror främst på vem användaren är och vilken typ av ordbok man skapar. Traditionellt anser man i allmänspråkliga ordböcker att ett uppslagsord är ett graford (ett ord är ett antal bokstäver som inleds och avslutas med blanksteg). I ordböcker speciellt avsedda för inlärning kan vissa fraser finnas med, exempelvis verbfraser som slå sig, lägger sig i (exempel från Lexin, 1993). I Lexin (1993), ett språklexikon för invandrare, finns även samhällsord till exempel daghem och kommunalval. Nästan alla lexikon har vissa sammansättningar, fasta ordkombinationer eller förkortningar bland uppslagsorden. I de allra flesta lexikon förekommer språkexempel för att exemplifiera en definition av ett ord. Språkexemplen ska visa hur ett ord används och kan vara idiom eller kollokationer. Idiom är de lexikala fraser som de flesta är överens om både vad det gäller definitionen och namnet. Ett idiom är satser och satsfragment vars betydelse inte är självklar utifrån kännedom om de enskilda orden (enligt Lexin 1993:852). Exempelvis ge mig ett handtag har två betydelser ett idiomatiskt hjälpa någon med något och ett vanligt ge någon ett dörrhandtag. Det går inte att applicera grammatiska regler på det idiomatiska uttrycket och fortfarande ha kvar betydelsen, ge mig två handtag. En annan sorts lexikala fraser är kollokationer. Generellt sett är en kollokation en grupp ord som frekvent förekommer i samma kontext (Oakes, 1998:149). Enligt Svensén (1987:6) kan det vara svårt att skilja idiom och kollokationer åt, vilket gör att de ofta behandlas på samma ställe utan urskiljning i en ordboksartikel. Han skiljer på grammatiska och semantiskt-lexikaliska kollokationer. De grammatiska kollokationerna menar han är en ofta återkommande

11 ordkombination bestående av ett dominerande ord (substantiv, adjektiv eller verb) + ett funktionsord (ofta en preposition) (Svensén, 1987:94). Denna typ av kollokation beskriver ett ords konstruktion och bör behandlas ihop med dessa i ordboksartikeln. De semantisk-lexikaliska kollokationerna består av ungefär likvärdiga ord. De lexikaliska kollokationerna bör presenteras som språkprov, medan de semantiska inte bör presenteras som språkprov eftersom det kan skapa förvirring för användaren. Användaren kan inte veta om språkprovet är lexikaliskt och komplementen är de enda tänkbara eller, semantiskt då komplementen är utbytbara Andra användningsområden för lexikala fraser Det finns andra områden där frasidentifikation är viktigt förutom lexikografi. Smadja (1992, enligt Oakes, 1998:159) exemplifierar några som han anser viktiga användningsområden. Informationsinhämtning. Lexikala uttryck kan användas för indexering. Precisionen i informationsinhämtningssystemen kan höjas eftersom en fras består av flera ord, vilket är till hjälp för att hitta dokument som innehåller ambiguösa eller domänspecifika ord, och där det sökta ordet kan hittas i den betydelse man är intresserad av. För automatisk språkgenerering. En lista med fraser gör genereringen enklare. Att generera språk utan att ha identifierat fraser är svårt eftersom fraser är domänberoende, idiomatiska och varierar i sin form. Flerspråkig lexikografi. Att översätta ord för ord ger inte alltid korrekt resultat. Flerspråkiga fraslistor skulle underlätta vid maskinöversättning. I textkategoriseringssystem. Andra områden är: För att identifiera tekniska termer (se Daille, 1996 och 2.5.3). Till översättning för att hjälpa en översättare som översatt en del av ordkombinationen och letar efter signifikanta ord att kombinera med. Språkutlärning. Många fel som görs av språkinläraren kan förklaras med lexikala fraser. Om en fras lärs ut istället för ett ord är det lättare för studenten att lära sig och förstå betydelsen. 2.4 Verktyg och statistiska metoder Det verktyg som oftast används för att hitta lexikala fraser i ett språk är en konkordans. Med ett konkordansprogram kan man söka på ett ord i en korpus eller på en ordklass. Resultatet är sedan alla förekomster av det sökta objektet tillsammans med sin kontext. Vidare kan programmet göra beräkningar på materialet, exempelvis ta fram frekvensinformation. Slutligen kan det sortera materialet på olika sätt, exempelvis alfabetiskt på före- eller efterkontexten (McEnery & Wilson, 1996:15) (se 4.1, bild 2). Problemområden för konkordanser är bland annat hur mycket kontext som ska visas på vardera sida av sökordet. Stora korpusar gör att körtiden kan bli lång vilket gör att effektiviteten hos programmen är viktig. Resultaten för högfrekventa ord blir stora och det är viktigt att vara medveten om hur de ska visas, beroende på vilket resultat man eftersträvar. Allt eftersom korpusar blir större framträder behovet av ett annat sorteringskriterium än enbart alfabetiskt. Anta att man skulle analysera ett ord, skull med en förekomst på 1603 gånger i en korpus. För att hitta ord som ofta förekommer tillsammans med skull kan man använda en statistisk metod för sortering. Resultatet kan sorteras efter de mest förekommande orden istället för i bokstavsordning. Detta leder till att de översta raderna troligtvis är mer intressanta än de i slutet.

12 Under rubriken relaterat arbete (2.5.1) finns några exempel på försök och färdiga verktyg. Verktygen är vidareutvecklingar på konkordanser och använder statistiska metoder för sökningar och beräkningar i korpusar. De statistiska metoder, såsom chi-square, mutual information och loglikelihood ratio ökar möjligheten att sortera materialet vilket gör det mer systematiskt att söka och analysera lexikala fraser. Mutual information I(x;y) är ett mått mellan två ord, eller andra par exempelvis ordklasser och jämför sannolikheten att observera ord x och y tillsammans (den förenade sannolikheten) med sannolikheten att observera x och y oberoende av varandra (slump). Ett högt mutual information värde innebär att orden är starkt associerade. Om orden inte är associerade eller bara förekommer tillsammans beroende på slump är mutual information värdet nära noll. Om orden tenderar att inte förekomma tillsammans (om de förekommer oftare utan varandra än med) blir mutual information värdet ett negativt tal. Formeln för mutual information är: I(x;y) = log 2 P(x,y) / P(x) P(y) Den förenade sannolikheten P(x,y) beräknas genom att räkna antalet gånger som x följs av y i korpusen. Sannolikheterna P(x) och P(y) beräknas genom att räkna antalet observationer av x och y i en korpus (Church & Gale et al 1991:121, Oakes 1998:63 och McEnery & Wilson 1996:71). Gemensamt för log likelihood ratio och chi-square är att båda två använder en korstabell (contingency table). En korstabell är en tabell där resultaten klassificeras med två kriterier. I en 2x2 korstabell etiketteras cellerna A till D. I cell A räknas antalet gånger två händelser inträffar tillsammans, exempelvis hur många gånger hård och kritik förekommer i samma sats. I cell B räknas antalet gånger den första händelsen inträffar och den andra inte, hur många gånger hård förekommer utan kritik. I cell C räknas antalet gånger den andra händelsen inträffar utan den första och i cell D hur många gånger ingen av händelserna inträffar. A C K(A B) K(~A B) K(A ~B) K(~A ~B) B D Figur 5, Korstabell Chi-square är en icke-parametrisk test vilket betyder att den kan behandla frekvenser och rangordnad data. Chi-square testar nominaldata, data som kan kategoriseras, exempelvis ordklasser där värdena/frekvenserna som tilldelas kategorierna är godtyckliga. Chi-square testar förhållandet mellan frekvenser och uppskattar om frekvenserna i en tabell skiljer sig signifikant från varandra (Oakes 1998:11,24-25). Daille (1996:58) definierar chi-square med formeln: x 2 = (ad bc) 2 (a + b) (a + c) (b + c) (b + d) där a är frekvensen för när både A och B förekommer, ruta A b är frekvensen för när A förekommer men inte B, ruta B c är frekvensen för när A inte förekommer men B förekommer, ruta C d är frekvensen för när varken A eller B förekommer, ruta D

13 i korstabellen ovan. Enligt Dunning (1994:71) ger statistiska tester som baseras på normal distribution ett felaktigt resultat om inte oerhört stora korpusar används eller orden man analyserar är högfrekventa. Dunning säger vidare att tester som baseras på en binominal eller multinominal distribution såsom log-likelihood ratio ger ett bättre resultat även på små texter och lågfrekventa ord. Daille (1996:58) definierar log-likelihood ratio (LLR) med formeln: LLR = där a log a + b log b + c log c + d log d - (a + b) log (a + b) (a + c) log (a + c) - (b + d) log (b + d) (c + d) log (c + d) + (a + b+ c + d) log (a + b + c +d) a är frekvensen för när både A och B förekommer, ruta A b är frekvensen för när A förekommer men inte B, ruta B c är frekvensen för när A inte förekommer men B förekommer, ruta C d är frekvensen för när varken A eller B förekommer, ruta D i korstabellen ovan. För mer ingående beskrivningar av respektive metod se för mutual information Oakes (1998:63), Church & Gale et al (1991), för chi-square se Oakes (1998:24) och för log-likelihood ratio se Dunning (1994). 2.5 Relaterat arbete Det finns åtskilliga som byggt, testat och utvärderat olika statistiska metoder på en mängd korpusar. Här ges ett urval av tester och system Test på likhet och olikhet Church & Gale et al (1991) anser att det finns tre saker att tänka på där mänskligt omdöme krävs då statistiska metoder används. Först måste en lämplig statistik väljas. Vidare bör korpusen prepareras, antingen ordklasstaggas eller parsas, och slutligen är det viktigt att välja en lämplig text (korpus). De har använt mutual information och t-score för att hitta likheter och olikheter mellan ord. 6 De exemplifierar med orden strong och powerful, två närsynonyma ord, och visar att med hjälp av mutual information kan man hitta likheter mellan orden, och med t-score kan man hitta olikheter mellan orden. De menar att ordböcker oftast är bra på att hitta likheter mellan ord, men att det vore intressant, speciellt i ordböcker för inlärning, att kunna visa på subtila skillnader mellan ord. Med hjälp av metoder såsom mutual information och t-score skulle arbetet med att hitta skillnader och likheter bli enklare. 6 T-score testar skillnader mellan två grupper i ett normalfördelat intervall av data, ett parametriskt test se Oakes, 1998:11.

14 2.5.2 Xtract Smadja (1991) har utvecklat systemet Xtract för att identifiera och ta fram kollokationer. Han delar in kollokationer efter hur flexibla de är. Ett exempel på en strikt nominalfras är en svensk tiger, en predikativ relation är en flexiblare relation exempelvis: bära vittnesbörd och frasmallar är idiomatiska fraser med ett eller flera tomrum exempelvis: generalindex sjönk/steg idag med <SIFFRA> procent. Att jämföra med Sinclair indelning av lexikala fraser där kollokationer är en av fem kategorier. Sinclair menar att kollokationer är fraser där orden bildar ett kluster kring kärnan, mest lik Smadjas predikativa relationer. Xtract är uppdelat i tre steg. I steg ett tas lexikalt relaterade ordpar fram med statistik. Smadja använder en egen metod som är uppdelad i flera steg och bygger på beräkningar på ordfrekvens och distans mellan det tänkbara kollokationsordet och sökordet. Ordparen måste förekomma i samma sats och på positioner +/- 5 ord. Steg två analyserar orden och ordklasstaggarna i satserna där ordparen förekommer, och väljer ut de ord som har en viss bestämd sannolikhet. Det sista steget tillför syntaktisk information till de i steg ett valda kollokationerna, och filtrerar bort olämpliga kollokationer. Filtreringsmekanismen kan exempelvis ta bort en kollokation om ordparet i första steget har ordklasserna nomen och verb, men relationen mellan dem varken är subjekt - verb eller objekt - verb. En utvärdering visar enligt Smadja en uppskattad precision på 80 % för att ta fram kollokationer Domänspecifika kollokationer Daille (1996) extraherar terminologi med hjälp av syntaktisk struktur och statistik, och använder mutual information och log-likelihood ratio (och även några andra statistiska metoder). Hennes tillvägagångssätt liknar Smadjas (1991) men består av två steg och utförs i omvänd ordning jämfört med hans system. Först används ett lingvistiskt filter för att välja ut kandidater från korpusen och därefter tillämpas någon av de statistiska metoderna för att hitta kollokationen. En fras är enligt Daille huvudsakligen ett flertal nominala ord med välkänd morfosyntaktisk struktur. Fraser klassificeras utifrån hur många huvudord de består av (adjektiv, adverb, nomen). Den vanligaste längden är 2. Ett antal regler för fraskonstruktion väljer ut de så kallade bastermerna. De lingvistiska filtret för att extrahera bastermer består av reguljära uttryck i en finit automat. Hon drar slutsatsen att log-likelihood ratio passar bäst för uppgiften och att statistiska metoder som bygger på associationskriterier (exempelvis mutual information) fungerar sämre med det lingvistiska filtret än utan WordSmith WordSmith utvecklades av Scott (1996, enligt Oakes, 1998:193) och utformades för lingvister och språklärare. Systemet använder chi-square för att identifiera nyckelord (nyckelord är ord vars frekvens är hög i förhållande till vissa normer och hjälper till vid genreidentifikation). WordSmith består av tre verktyg: WordList, Concord och Keywords. Concord skapar konkordanser och identifierar de vanligaste fraserna eller klustren kring sökordet, vilken interpunktion frasen har och vilken frekvens. Concord kan också skapa en grafisk karta med information om var sökordet finns i korpusen CobuildDirect CobuildDirect (enligt Oakes, 1998:194) använder mutual information och t-score för att identifiera signifikanta kollokationer. Resultatet är en lista med de 100 mest signifikanta kollokaterna. Det går

15 att söka på ordkombinationer med wildcards (+ = = för att få alla ordformer, * = för att få alla ord med det innehåll den sökta bokstavskombination har), även taggar, ord/tag.

16 Kollikon frasidentifikation och -extrahering

17 KAPITEL 3 Metod 3.1 Val av metod Målsättningen är att göra ett program för att underlätta identifiering och extrahering av lexikala fraser ur en korpus. Denna ska kunna vara en komponent i ett lexikografiskt verktyg. Diskussionen i bakgrunden leder fram till flera saker. Framförallt att det är problematiskt att kategorisera lexikala fraser, att det finns flera områden där det är viktigt att kategorisera och analysera fraser, och att statistiska metoder kan vara ett sätt att förenkla processen. En korpus är det grundläggande objektet Språkliga uttryck och statistiska metoder När en stor korpus används måste man hitta sätt att sortera data på som inte bara är alfabetiskt. Anledningen till detta är att stora korpusar ger stora resultat. Om resultatet är för stort kan det vara lika svårtolkat som en obearbetad korpus. Genom att sortera konkordanser med hjälp av statistiska metoder kan man visa lexikala fraser högre upp i en sorteringsordning än det vore möjligt utan statistik. Att analysera sökningen från en korpus med en statistisk metod innebär att alla ord inom ett visst intervall av ett sökt ord analyseras och får ett statistiskt värde. Detta värde är måttet på hur signifikant ordet är i förhållande till sökordet. För varje konkordansrad summeras värdena för alla signifikanta ord. Detta värde är sedan det värde som raden sorteras efter. 1 <Concordance> 2 <Heading>Concordance of hand</heading> 3 <SignificantWords> 4 <Heading>Most significant words</heading> 5 <WordGroup> 6 <Word StatisticalValue=" ">första</Word> 7 <Word StatisticalValue=" ">i</Word> 8 <Word StatisticalValue=" ">om</Word> 9 </WordGroup> 10 </SignificantWords> 11 <ConcLines> 12 <Heading>There are 7340 concordance lines, sorted by statistics</heading> 13 <ConcLine StatisticalValue=" "> <LeftContext> <ContextWord Significant="true">om</ContextWord> <ContextWord Significant="false">energibeskattningen</ContextWord> <ContextWord Significant="true">i</ContextWord> <ContextWord Significant="true">första</ContextWord> </LeftContext> <SearchItem>hand</SearchItem> <RightContext> <ContextWord Significant="true">,</ContextWord>

18 <ContextWord Significant="false">men</ContextWord> <ContextWord Significant="false">också</ContextWord> <ContextWord Significant="true">om</ContextWord> </RightContext> </ConcLine> </ConcLines> <PhraseCands> <PhraseCand> <Phrase PhraseFreq="46">på egen hand</phrase> </PhraseCand> </PhraseCands> </Concordance> Figur 6, XML-trädet i Kollikon Figuren är ett XML-träd, (XML är det format som används för kommunikation mellan servern och klienten, se vidare och 4.3). I figuren kan man se att det mest signifikanta ordet för hand är första och det statistiska värdet för första finns i elementet <Word StatisticalValue = >. Efter första är det mest signifikanta ordet i med värdet Det tredje mest signifikanta ordet är om med värdet Vidare i figur 7 kan man se konkordansraden om energibeskattningen i första hand, men också om och radens sammanlagda statistiska värde i <ConcLine StatisticalValue = >. Detta värde är summan av värdena för om, i, första, hand,,(komma), om, och det värde som raden sorteras efter. De flesta av systemen som beskrivs i bakgrunden försöker hitta lexikala fraser. De lexikala fraserna kallas kollokationer i Xtract, Concord, WordSmith och CobuildDirect och domänspecifika kollokationer i Dailles system. Systemen behandlar problemet på ett ganska likvärdigt sätt genom att använda en korpus och olika statistiska metoder och ibland någon typ av lingvistiskt filter för att hitta engelska fraser. Mitt tillvägagångssätt skiljer sig inte på dessa punkter. Kollikon utgår från en korpus och använder statistiska metoder för att hitta svenska lexikala fraser. Det är viktigt att poängtera att korpusen och de statistiska metoderna endast är en hjälp för den mänskliga användaren. Denna applikation ska inte kunna utföra arbetet automatiskt utan kräver att användaren själv gör relevanta sökningar och analyser av resultaten. Applikationen är främst tänkt att vara användbar för en lexikograf vilket återspeglas av testerna i utvärderingen (se 5.1). Under testerna är utgångspunkten Sinclairs teori om att alla ord förekommer i någon typ av lexikal fras och hans indelning av de lexikala fraserna. Han kategoriserar de lexikala fraser i fem grupper: idiom, kollokationer, kolligationer, semantiska konstruktioner och semantisk prosodi (se 2.3.1). De tre statistiska metoderna i Kollikon är log-likelihood ratio, mutual information och chi-square i min implementation. Ingen av dessa är ny utan har använts med framgång för liknande uppgifter vilket är anledningen till valet av dem (se 2.5). De tre metoderna fungerar på olika sätt och ger därför olika resultat. I resultatdelen diskuteras vilka resultat de olika metoderna ger. Det grundläggande för alla de tre metoderna är att ord som förekommer tillsammans med sökordet och vars förekomst inte kan bero på slump, får ett statistiskt värde. Både chi-square och mutual information har problem med lågfrekventa ord. De båda metoderna visar på associationer mellan två ord. Om ett ord har lågfrekvens (under 10 förekomster enligt

19 Church & Mercer, 1994:19) och endast förekommer tillsammans med sökordet blir ordet signifikant Svensk standardkorpus Svensk standardkorpus, SSK, den korpus systemet använder, kommer som tidigare nämnts från Lexilogik. När det gäller kvalitet är det viktigt att SSK är modern. Alla texter är insamlade från 1998 och framåt och består i maj 2000 av tokens (ordformer) och förekomster. När det gäller kvantitet är kriteriet att SSK ska vara en stor korpus som hela tiden fortsätter att växa. 3.2 Val av verktyg Kravet från Lexilogik var att systemet skulle vara objektorienterad för att enkelt kunna anpassas och vidareutvecklas. Det andra kravet var att systemet skulle skrivas i Java eftersom Java är det programmeringsspråk Onoma och flera andra av Lexilogiks produkter är utvecklade i. Ett ytterligare krav var att det skulle vara nätverksbaserat, en klient/server applikation. Kollikon skulle kunna användas som en fristående modul på Internet. Valet blev en servlet. Eftersom Kollikon skulle kunna vara en av byggstenarna i ett lexikografiskt verktyg skulle det vara möjligt att enkelt bygga ut Kollikon för att integrera och använda resultaten i Onoma. XML är formatet för att kommunicera data mellan servern och klienterna, där klienten kan vara en webbläsare men lika gärna ännu en byggsten i ett system Objektorientering Enligt det objektorienterade synsättet uppfattar man ett datorprogram som en slags modell av den verklighet programmet skall samverka med. De enskilda enheterna i ett program, de sk objekten, är då modeller av verkliga eller tänkta ting i programmets omgivning och ett datorprograms uppgift är att manipulera objekten. (Skansholm, 1998:39). De centrala begreppen inom objektorientering är objekt och klasser. Ett objekt är en modell av ett verkligt eller tänkt föremål och har två slags attribut, variabler och metoder. En klass är en slags mall eller ritning där de variabler och metoder som är gemensamma för alla objekt av en speciell typ definieras. Ett objekt som tillhör en klass utgör en instans av klassen. Kollikon integrerar metoder från korpuslingvistik och objektorienterade system. I Kollikon är huvudobjektet korpusen. På korpusen appliceras metoden att skapa en konkordans. Klassen konkordans har sedan variabler såsom sökord, vänsterkontext och högerkontext och metoder för att ta fram konkordansrader, signifikanta ord och fraskandidater. Konkordansraderna, de signifikanta orden och fraserna är i sin tur egna objekt Java Java är ett objektorienterat programmeringsspråk och blev allmänt tillgängligt Enligt Skansholm (1998) har Java flera intressanta egenskaper. Java bygger på objektorienterade principer för att konstruera program. Ett Javaprogram består av ett antal objekt som beskrivs av klasser. Java kan användas på Internet genom att webbsidor innehåller applets eller genom klient/server teknik med hjälp av servlets (se 3.2.4). Java är plattformsoberoende, vilket innebär att det kan köras på olika typer av datorsystem, utan att programmet behöver ändras.

20 Java innehåller verktyg för att generera grafiska användargränssnitt så att man kan göra grafiska program med fönster, menyer, knappar osv. Kollikon använder inte Javas gränssnitt utan körs med hjälp en servlet på en webbläsare. Med Java kan man skriva parallella program, vilket betyder att ett Javaprogram kan beskriva flera pågående aktiviteter samtidigt Klient/Server När klient/server-teknik används har man en dator, den så kallade servern som tillhandahåller en tjänst. Ett vanligt exempel på klient/server-system är databaser. På en centralt belägen dator finns aktuell information samlad. Klienter kan koppla upp sig mot databasen för att göra förfrågningar. I mitt fall finns korpusen lagrad på en server och klienten kan koppla upp sig och göra sökningar i korpusen. Kollikon körs på en Apacheserver med JServ. JServ är en servlet motor som skapats för att användas med en Apacheserver (för mer information se Korpusen finns lagrad på servern och klienten gör sökningar i korpusen från en webbsida där klientens förfrågan besvaras med hjälp av en servlet Servlet En servlet är en webbkomponent där data genereras dynamiskt. Servlets är små, plattformsoberoende javaklasser som laddas och körs av en server. Servlets integrerar med webklienter via en request/respons -paradigm baserat på Hypertext Transfer Protocol (HTTP) (Hunter, 1998:1-2). En servlet används bland annat för att skapa dynamiska webbsidor, vilket är fördelaktigt om webbsidorna baseras på en förfrågan från användaren, exempelvis sökmotorer, konkordansprogram. Common Gateway Interface, CGI, var en av de första praktiska teknikerna för att skapa data dynamiskt. Med CGI skickar en webserver en förfrågan till ett externt program. Utdata från detta program skickas sedan till klienten som en statisk fil (Hunter, 1998:2). En servlet har flera fördelar gentemot ett CGI-program. Med CGI startar en process för varje förfrågan, vilket gör att detta måste ske varje gång en fråga ställs vilket är tidsödande. En servlet tar emot flera förfrågningar och behandlar dem samtidigt. Detta gör att startprocessen endast sker en gång och sedan kan processen pågå i bakgrunden efter att en förfrågan har slutförts. Följden blir att nästa förfrågan kan ske utan någon fördröjning för att starta processen. Detta gör även att användaren kan kommunicera interaktivt, vilket inte är smidigt med CGI. En servlet har tillgång till historiken i ett arbetspass. Det är möjligt att lagra vad som redan har gjorts och ta hänsyn till detta i vad som görs sedan. Efter en förfrågan gjorts avbryts inte kopplingen mellan servern och klienten och fler överföringar kan ske (Hunter, 1998:6). Med CGI, däremot, utförs en rutin och sedan är allt bortglömt. CGI får börja om från början varje gång. Både java och servlets är designade för att vara portabla. Servlets stöds av alla plattformar där java stöds och fungerar med alla större webbservers. Servlets är en del av javaspråket men inte en del av Java API (Application Programming Interface) kärnan. Sun har utvecklat ett antal klasser med grundläggande serlvetstöd. Servlet API består av paketen javax.servlet och javax.servlet.http (Hunter: 1998:7).

Grammatik för språkteknologer

Grammatik för språkteknologer Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 Lärandemål Efter avslutad kurs skall studenten

Läs mer

Internets historia Tillämpningar

Internets historia Tillämpningar 1 Internets historia Redan i slutet på 1960-talet utvecklade amerikanska försvaret, det program som ligger till grund för Internet. Syftet var att skapa ett decentraliserat kommunikationssystem som skulle

Läs mer

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON

Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Automatisk extraktion av idiom ur text ANDREAS PETTERSSON Examensarbete Stockholm, Sverige 2012 Automatisk extraktion av idiom ur text ANDREAS PETTERSSON 2D1021, Examensarbete i datalogi om 30 högskolepoäng

Läs mer

F8 Webbteknologier 1. Dynamiska webbsidor

F8 Webbteknologier 1. Dynamiska webbsidor Dynamiska webbsidor F8 Webbteknologier 1 EDA095 Roger Henriksson Datavetenskap Lunds universitet HTML är statisk. En sida får sitt utseende bestämt när en webbdesigner skapar den. Ofta vill man ha mera

Läs mer

Guide för Innehållsleverantörer

Guide för Innehållsleverantörer Library of Labs Content Provider s Guide Guide för Innehållsleverantörer Inom LiLa ramverket är innehållsleverantörer ansvariga för att skapa experiment som "LiLa Learning Objects", att ladda upp dessa

Läs mer

Pragmatisk och narrativ utveckling

Pragmatisk och narrativ utveckling Pragmatisk och narrativ utveckling Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Pragmatik! Pragma! handling! hur vi använder språket! hur vi handlar genom språket! Pragmatik!

Läs mer

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, 1971. Internet började med ARPANET

Olika slags datornätverk. Föreläsning 5 Internet ARPANET, 1971. Internet började med ARPANET Olika slags datornätverk Förberedelse inför laboration 4. Historik Protokoll, / Adressering, namnservrar WWW, HTML Föreläsning 5 Internet LAN Local Area Network student.lth.se (ganska stort LAN) MAN Metropolitan

Läs mer

12 Webb och kurshemsidor

12 Webb och kurshemsidor 12 Webb och kurshemsidor Många lärare använder sig av kurswebbsidor eller egna personliga webbsidor som ett ställe att samla information och dokumentation kring sitt arbete. Om du ska skapa en webbsida,

Läs mer

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Grim. Några förslag på hur du kan använda Grim. Version 0.8 Grim Några förslag på hur du kan använda Grim Ingrid Skeppstedt Nationellt centrum för sfi och svenska som andraspråk Lärarhögskolan Stockholm Ola Knutsson IPlab Skolan för datavetenskap och kommunikation,

Läs mer

Utveckling av ett grafiskt användargränssnitt

Utveckling av ett grafiskt användargränssnitt Datavetenskap Opponenter: Daniel Melani och Therese Axelsson Respondenter: Christoffer Karlsson och Jonas Östlund Utveckling av ett grafiskt användargränssnitt Oppositionsrapport, C-nivå 2010-06-08 1 Sammanfattat

Läs mer

FrontPage Express. Ämne: Datorkunskap (Internet) Handledare: Thomas Granhäll

FrontPage Express. Ämne: Datorkunskap (Internet) Handledare: Thomas Granhäll FrontPage Express I programpaketet Internet Explorer 4.0 och 5.0 ingår också FrontPage Express som installeras vid en fullständig installation. Det är ett program som man kan använda för att skapa egna

Läs mer

Christer Scheja TAC AB

Christer Scheja TAC AB Byggnadsautomation för ingenjörer Byggnadsautomation för ingenjörer VVS-tekniska föreningen, Nordbygg 2004 Christer Scheja TAC AB resentation, No 1 Internet/Intranet Ihopkopplade datornät ingen ägare Internet

Läs mer

Manual HSB Webb brf 2004 03 23

Manual HSB Webb brf 2004 03 23 TERMINOLOGI I Polopoly används ett antal grundläggande begrepp för publicering och hantering av information, eller innehåll som det också benämns. Nedan följer en kort genomgång av denna grundläggande

Läs mer

Webbens grundbegrepp. Introduktion till programmering. Ytterligare exempel. Exempel på webbsida. Föreläsning 5

Webbens grundbegrepp. Introduktion till programmering. Ytterligare exempel. Exempel på webbsida. Föreläsning 5 Introduktion till programmering Föreläsning 5 Programmering av webbsidor. Webbens grundbegrepp HTML HTML (HyperText Markup Language) är det språk som används för att skriva webbsidor. HyperText: text med

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Inledande programmering med C# (1DV402) Introduktion till C#

Inledande programmering med C# (1DV402) Introduktion till C# Introduktion till C# Upphovsrätt för detta verk Detta verk är framtaget i anslutning till kursen Inledande programmering med C# vid Linnéuniversitetet. Du får använda detta verk så här: Allt innehåll i

Läs mer

INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3

INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 Ordboken 1 Innehållsförteckning INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 MINIMERA OCH STÄNG... 3 SÖKFÄLT... 4 SÖKRESULTAT... 4 Resultat... 4 Ordklassfärger...

Läs mer

Insamlingsverktyg - teknisk beskrivning av metadataformuläret

Insamlingsverktyg - teknisk beskrivning av metadataformuläret Digitala leveranser Insamlingsverktyg - teknisk beskrivning av metadataformuläret Innehåll: Allmänt Layout och uppbyggnad Hur man använder programmet Starta Fylla i metadata Skapa metadatafiler och leverera

Läs mer

NYHETER I KARNOV. Senast uppdaterad: 2012-03-16

NYHETER I KARNOV. Senast uppdaterad: 2012-03-16 NYHETER I KARNOV Senast uppdaterad: 2012-03-16 INNEHÅLL 1. Sök Sök i allt på alla sidor... 3 Rättsområde Nytt filter i sökresultatet... 4 Kombinera flera filter i sökresultatet... 5 Nya sökoperatorer...

Läs mer

ALEPH ver. 16 Introduktion

ALEPH ver. 16 Introduktion Fujitsu, Westmansgatan 47, 582 16 Linköping INNEHÅLLSFÖRTECKNING 1. SKRIVBORDET... 1 2. FLYTTA RUNT M.M.... 2 3. LOGGA IN... 3 4. VAL AV DATABAS... 4 5. STORLEK PÅ RUTORNA... 5 6. NAVIGATIONSRUTA NAVIGATIONSTRÄD...

Läs mer

Användarhandledning Rapportgenerator Version: 1.1

Användarhandledning Rapportgenerator Version: 1.1 Användarhandledning Rapportgenerator Version: 1.1 Umefast AB 2008 www.umefast.se Innehåll 1. Rapportgenerator... 2 1.1. Syfte och avgränsningar... 2 1.2. Wizards... 2 1.3. Förutsättningar för arbete med

Läs mer

Kort om World Wide Web (webben)

Kort om World Wide Web (webben) KAPITEL 1 Grunder I det här kapitlet ska jag gå igenom allmänt om vad Internet är och vad som krävs för att skapa en hemsida. Plus lite annat smått och gott som är bra att känna till innan vi kör igång.

Läs mer

TENTAMEN: Design och konstruktion av grafiska gränssnitt DAT215/TIG091

TENTAMEN: Design och konstruktion av grafiska gränssnitt DAT215/TIG091 TENTAMEN: Design och konstruktion av grafiska gränssnitt DAT215/TIG091 DAG: 5 mars, 2012 TID: 8.30 12.30 SAL: Hörsalsvägen Ansvarig: Olof Torgersson, tel. 772 54 06. Institutionen för tillämpad informationsteknologi.

Läs mer

1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående

1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående MATEMATISKA INSTITUTIONEN STOCKHOLMS UNIVERSITET Christian Gottlieb Gymnasieskolans matematik med akademiska ögon Induktion Dag 1 1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta

Läs mer

Teoretisk lingvistik och datalingvistik. Robin Cooper

Teoretisk lingvistik och datalingvistik. Robin Cooper Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Objektorienterad analys och design

Objektorienterad analys och design Objektorienterad analys och design Objektorienterad analys och design 1 Dagens föreläsning Första delen, innan rasten: Motivation och bakgrund Analys Funktioner Andra delen, efter rasten: Objektorienterade

Läs mer

Programmering B med Visual C++ 2008

Programmering B med Visual C++ 2008 Programmering B med Visual C++ 2008 Innehållsförteckning 1 Repetition och lite nytt...5 I detta kapitel... 5 Programexekvering... 5 Loop... 5 Källkod... 6 Verktyg... 6 Säkerhetskopiera... 6 Öppna, kompilera,

Läs mer

Fältnamn /Rubrik Fältnamn /Rubrik Fältnamn /Rubrik Fältnamn /Rubrik Data Data Data Data Data Data Data Data

Fältnamn /Rubrik Fältnamn /Rubrik Fältnamn /Rubrik Fältnamn /Rubrik Data Data Data Data Data Data Data Data Datahantering i Excel Grundbegrepp I alla typer av databaser finns alltid en tabell där informationen i databasen fysiskt finns lagrad. Tabellen har samma enkla uppbyggnad som en tabell i ordbehandlingsprogrammet

Läs mer

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

PROGRAMMERING. Ämnets syfte. Kurser i ämnet PROGRAMMERING Ämnet programmering behandlar programmeringens roll i informationstekniska sammanhang som datorsimulering, animerad grafik, praktisk datoriserad problemlösning och användaranpassad konfiguration

Läs mer

CAD. Ämnets syfte. Kurser i ämnet

CAD. Ämnets syfte. Kurser i ämnet CAD Ämnet cad (computer aided design) behandlar hur man använder olika programvaror för att konstruera och designa verkliga och virtuella objekt. I ämnet är geometri grunden för att, via skiss och ritteknik,

Läs mer

Fraser, huvuden och bestämningar

Fraser, huvuden och bestämningar UPPSALA UNIVERSITET Grammatik för språkteknologer Institutionen för lingvistik och filologi Föreläsningsanteckningar Mats Dahllöf November 2015 Fraser, huvuden och bestämningar Översikt i stolpform. Terminologin

Läs mer

Grundläggande syntaktiska funktioner och roller

Grundläggande syntaktiska funktioner och roller UPPSALA UNIVERSITET Inst. för lingvistik Niklas Edenmyr Grammatik, 5p. SYNTAKTISKA FUNKTIONER/SATSDELAR Grundläggande syntaktiska funktioner och roller o Exemplen nedan kan få illustrera två grundläggande

Läs mer

Lexikon: ordbildning och lexikalisering

Lexikon: ordbildning och lexikalisering Svenskan i tvärspråkligt perspektiv Lexikon: ordbildning och lexikalisering Solveig Malmsten Vår inre språkförmåga Lexikon Ordförråd : Uttryck i grundform + deras betydelse Enkla ord, t.ex. blå, märke

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

Prova på-laboration i PHP Johan Sjöholm johsj@ida.liu.se Institutionen för datavetenskap, Linköpings universitet 2009-08-09

Prova på-laboration i PHP Johan Sjöholm johsj@ida.liu.se Institutionen för datavetenskap, Linköpings universitet 2009-08-09 Prova på-laboration i PHP Johan Sjöholm johsj@ida.liu.se Institutionen för datavetenskap, Linköpings universitet 2009-08-09 1. Introduktion till webbprogrammering Webbprogrammering består av ett antal

Läs mer

SVENSKA SOM ANDRASPRÅK

SVENSKA SOM ANDRASPRÅK SVENSKA SOM ANDRASPRÅK Ämnet svenska som andraspråk ger elever med annat modersmål än svenska möjlighet att utveckla sin kommunikativa språkförmåga. Ett rikt språk är en förutsättning för att inhämta ny

Läs mer

Användarhandledning Version 1.2

Användarhandledning Version 1.2 Användarhandledning Version 1.2 Innehåll Bakgrund... 2 Börja programmera i Xtat... 3 Allmänna tips... 3 Grunderna... 3 Kommentarer i språket... 4 Variabler... 4 Matematik... 5 Arrayer... 5 på skärmen...

Läs mer

Excel-guide. Introduktion

Excel-guide. Introduktion Excel-guide Introduktion I denna laboration kommer ni få använda några grundfunktioner i Microsoft Excel. Laborationen utgår ifrån Excel 2010, men om ni vill använda ett annat program för att lösa uppgifterna

Läs mer

Användarmanual för Content tool version 7.5

Användarmanual för Content tool version 7.5 Användarmanual för Content tool version 7.5 TM WEB Express AB Manual Content tool 7.5 Sid 2 INNEHÅLLSFÖRTECKNING 1 OM PUBLICERINGSVERKTYGET... 3 1.1 ALLMÄNT... 3 2 ÖVERSIKT... 3 3 ALLMÄNT OM WEBBSIDAN

Läs mer

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1.

Logisk semantik I. 1 Lite om satslogik. 1.1 Konjunktioner i grammatisk bemärkelse. 1.2 Sant och falskt. 1.3 Satssymboler. 1. UPPSALA UNIVERSITET Datorlingvistisk grammatik I Institutionen för lingvistik och filologi Oktober 2007 Mats Dahllöf http://stp.ling.uu.se/ matsd/uv/uv07/dg1/ Logisk semantik I 1 Lite om satslogik 1.1

Läs mer

Utveckling av simulator för ärendehanteringssystem

Utveckling av simulator för ärendehanteringssystem Datavetenskap Opponent(er): Emil Danielsson & Patrik Lundberg Respondent(er): Niclas Hanold & Samiar Saldjoghi Utveckling av simulator för ärendehanteringssystem Oppositionsrapport, C/D-nivå 2005:xx 1

Läs mer

6 Svenska som andraspråk

6 Svenska som andraspråk 6 Svenska som andraspråk Syftet med utbildningen i ämnet svenska som andraspråk är att eleverna skall uppnå en funktionell behärskning av det svenska språket som är i nivå med den som elever med svenska

Läs mer

ALEPH ver. 16 Sökning

ALEPH ver. 16 Sökning Fujitsu, Westmansgatan 47, 582 16 Linköping INNEHÅLLSFÖRTECKNING 1. INLEDNING... 1 2. SÖK... 1 2.1 Avancerad sökning... 2 2.2 CCL flera databaser... 2 2.3 Flera fält... 3 2.4 Regler för sökning... 4 2.5

Läs mer

Introduktion till språkteknologi

Introduktion till språkteknologi Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.

Läs mer

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan. Workshop Portaler och länkbibliotek Resurserna på Internet är om inte oändliga så åtminstone väldigt många. Att välja blir då ett bekymmer i sig. Portaler och länkbibliotek specialiserar sig på att samla

Läs mer

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide FOR BETTER UNDERSTANDING Kom igång med WordFinder Snabbguide Installationsanvisning 1 Sätt i programskivan i datorn. Installationsprogrammet startar automatiskt. En gemensam startbild för WordFinder Professional,

Läs mer

Handbok kundwebb för kunder Innehållsförteckning

Handbok kundwebb för kunder Innehållsförteckning Handbok kundwebb för kunder Innehållsförteckning Handbok kundwebb för kunder... 1 Översikt... 2 Logga in... 2 Ditt ärende... 3 Hur använder du kundwebben... 3 informationsfältet... 4 Arbetsfältet... 4

Läs mer

Axalon Process Navigator SP Användarhandledning

Axalon Process Navigator SP Användarhandledning Axalon Process Navigator SP Användarhandledning Axalon Process Navigator SP 2013, senast reviderad: den 11 juni 2014 Innehåll Innehåll... 2 Om denna användarhandledning... 3 Syfte... 3 Vem är denna handledning

Läs mer

Objekt-orienterad utveckling. Objektorienterad analys och design. Objekt-orienterad programutveckling. Objekt-orienterad analys och design: Litteratur

Objekt-orienterad utveckling. Objektorienterad analys och design. Objekt-orienterad programutveckling. Objekt-orienterad analys och design: Litteratur Objekt-orienterad utveckling Saker man vill uppnå: Objektorienterad analys och design Sven-Olof Nyström Uppsala Universitet 16 mars 2005 en systematisk metod för att gå från problembeskrivning till färdigt

Läs mer

En snabb titt på XML LEKTION 6

En snabb titt på XML LEKTION 6 LEKTION 6 En snabb titt på XML Bokstaven x i Ajax står för XML, ett mycket användbart beskrivningsspråk som gör det möjligt för Ajax-tillämpningar att hantera komplex strukturerad information. I den här

Läs mer

Word-guide Introduktion

Word-guide Introduktion Word-guide Introduktion På det kognitionsvetenskapliga programmet kommer du läsa kurser inom flera olika vetenskapsområden och för varje vetenskapsområde finns ett speciellt sätt att utforma rapporter.

Läs mer

IT-körkort för språklärare. Modul 9: Rätta skrivuppgifter

IT-körkort för språklärare. Modul 9: Rätta skrivuppgifter IT-körkort för språklärare Modul 9: Rätta skrivuppgifter Innehåll I. Rätta uppgifter i Word... 3 Markera fel med färger snabbt och enkelt... 3 Använd Words rättningsverktyg skriv kommentarer... 4 Gör ändringar

Läs mer

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål.

Skäl för revideringarna är att kursplanerna tydligare ska spegla kursernas innehåll och mål. Ulla Veres viceprefekt för utbildning på grund- och avancerad nivå Prefekten 2013-10-28 FÖRSLAG till beslut Fastställande och revideringar av kursplaner Lingvistik Ärendet med förslag till beslut Prefekten

Läs mer

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003

Taltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används

Läs mer

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000

TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Lars Ahrenberg, sid 1(5) TENTAMEN TDDA94 LINGVISTIK, 3 poäng tisdag 19 december 2000 Inga hjälpmedel är tillåtna. Maximal poäng är 36. 18 poäng ger säkert godkänt. Del A. Besvara alla frågor i denna del.

Läs mer

Skärmbilden i Netscape Navigator

Skärmbilden i Netscape Navigator Extratexter till kapitel Internet Skärmbilden i Netscape Navigator Netscape är uppbyggt på liknande sätt som i de flesta program. Under menyraden, tillsammans med verktygsfältet finns ett adressfält. I

Läs mer

Individuellt PM3 Metod del I

Individuellt PM3 Metod del I Individuellt PM3 Metod del I Företagsekonomiska Institutionen Stefan Loå A. Utifrån kurslitteraturen diskutera de två grundläggande ontologiska synsätten och deras kopplingar till epistemologi och metod.

Läs mer

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se

FOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se FOR BETTER UNDERSTANDING Snabbguide www.wordfinder.se Tekniska förutsättningar WordFinder 10 Professional för Mac kräver följande: Processor: Intel Mac OS X 10.5 eller senare. Installation Installation

Läs mer

Introduktion till frågespråket SQL (v0.91)

Introduktion till frågespråket SQL (v0.91) DD1370: Databaser och Informationssystem Hösten 2014 Petter Ögren Introduktion till frågespråket SQL (v0.91) 13:e November Disclaimer: Dessa anteckningar har producerats under viss tidspress, och kan därför

Läs mer

Webbteknik. Innehåll. Historisk återblick Teknisk beskrivning Märkspråk Standardisering Trender. En kort introduktion

Webbteknik. Innehåll. Historisk återblick Teknisk beskrivning Märkspråk Standardisering Trender. En kort introduktion Webbteknik En kort introduktion Innehåll Historisk återblick Teknisk beskrivning Märkspråk Standardisering Trender 1 Historisk återblick 89 CERN Tim Berners Lee Ett plattformsoberoende sätt att sprida

Läs mer

Version Namn Datum Beskrivning 1.0 ANEN 2013-06-04

Version Namn Datum Beskrivning 1.0 ANEN 2013-06-04 Version Namn Datum Beskrivning 1.0 ANEN 2013-06-04 Inledning Detta dokument beskriver de nyheter som tillkommit i Vitec Portal 3.47. Förutom dessa nyheter har även ett antal tillägg och justeringar gjorts.

Läs mer

Utvecklingen av ett tidregistrerings- och faktureringssystem

Utvecklingen av ett tidregistrerings- och faktureringssystem Datavetenskap Opponenter: Anders Heimer & Jonas Seffel Respondenter: Daniel Jansson & Mikael Jansson Utvecklingen av ett tidregistrerings- och faktureringssystem Oppositionsrapport, C-nivå 2006:10 1 Sammanfattat

Läs mer

725G61 - Laboration 7 Implementation av ett API. Johan Falkenjack

725G61 - Laboration 7 Implementation av ett API. Johan Falkenjack 725G61 - Laboration 7 Implementation av ett API Johan Falkenjack December 13, 2013 1 Inledning Hittills i kursen har vi tittat på grundläggande programmering och grundläggande objektorientering. I den

Läs mer

APA för nybörjare. Innan du börjar. Översikt

APA för nybörjare. Innan du börjar. Översikt APA för nybörjare Den här texten är tänkt som en snabb introduktion hur du kan använda publiceringssystemet APA (Advanced Publication Application) för att redigera webbplatser. Texten kräver inga förkunskaper

Läs mer

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens 2 2010-10-03 Erik Claesson 880816-1692 Beräkning med ord -hur en dator hanterar perception 2010-10-03 Erik Claesson 880816-1692 Innehåll Inledning... 3 Syfte... 3 Kan datorer hantera perception?... 4 Naturligt språk... 4 Fuzzy Granulation...

Läs mer

(Man brukar säga att) Java är... Denna föreläsning. Kompilering av Java. Historik: Java. enkelt. baserat på C/C++ Allmänt om Java

(Man brukar säga att) Java är... Denna föreläsning. Kompilering av Java. Historik: Java. enkelt. baserat på C/C++ Allmänt om Java (Man brukar säga att) Java är... Denna föreläsning Allmänt om Java Javas datatyper, arrayer, referenssemantik Klasser Strängar enkelt baserat på C/C++ objekt-orienterat från början dynamiskt utbyggbart

Läs mer

Kort om klasser och objekt En introduktion till GUI-programmering i Java

Kort om klasser och objekt En introduktion till GUI-programmering i Java Kort om klasser och objekt En introduktion till GUI-programmering i Java Klasser En klass är en mall för hur man ska beskriva på något. Antag att vi har en klass, Bil. Den klassen innehåller en lista på

Läs mer

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning

ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig

Läs mer

Språkpsykologi/psykolingvistik

Språkpsykologi/psykolingvistik Kognitiv psykologi HT09 Språk Ingrid Björk Språkpsykologi/psykolingvistik Fokuserar på individers språkanvändning Språkprocessning Lagring och åtkomst, minnet Förståelse Språket och hjärnan Språk och tänkande

Läs mer

Dialogue Technologies April 2005

Dialogue Technologies April 2005 Dialogue Technologies April 2005 En typisk självbetjäningstjänst för web ser ut enligt följande En inledande text för att användaren skall förstå tjänsten En aktuell lista med de 10 vanligast frågorna

Läs mer

Har/hade-bortfall i svenskan Hur finit är ett naket supinum?

Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Har/hade-bortfall i svenskan Hur finit är ett naket supinum? Maia Andréasson, Susanna Karlsson, Erik Magnusson och Sofia Tingsell Att de finita formerna av verbet ha, dvs. har och hade, kan utelämnas när

Läs mer

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

Handicom. Symbol for Windows. Encyklopedi. Version 3.4 Handicom Symbol for Windows Encyklopedi Version 3.4 Handicom, Nederländerna/Frölunda Data AB 2009 Innehåll Installation och licenser...2 1. Inledning...4 1.1 Vad är Encyklopedi?...4 2. Encyklopedis huvudmeny...5

Läs mer

Ordförråd och Ordbildning

Ordförråd och Ordbildning Ordförråd och Ordbildning Barns tidiga språkutveckling Institutionen för lingvistik, Göteborgs universitet Språkstruktur! Fonologi - fonemens kombinationer till morfem! fonem - minsta betydelseskiljande

Läs mer

Arbetsmaterial HTML pass 1 - Grunder

Arbetsmaterial HTML pass 1 - Grunder Arbetsmaterial HTML pass 1 - Grunder Det vi idag kallar Internet växte fram ur ett amerikanskt nätverk kallat ARPAnet som skapades i slutet av 60 talet. Ett topphemligt verktyg för att koppla ihop stordatorer

Läs mer

Introduktion till språkteknologi. Datorstöd för språkgranskning

Introduktion till språkteknologi. Datorstöd för språkgranskning Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter

Läs mer

Datorlingvistisk grammatik

Datorlingvistisk grammatik Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,

Läs mer

ADITRO LÖSNINGAR FÖR EN ENKLARE JOBBVARDAG SUMMIT 2014 PER JOHANSSON & JOEL KÖHL ADITRO L FRÅN WINDOWS TILL WEB

ADITRO LÖSNINGAR FÖR EN ENKLARE JOBBVARDAG SUMMIT 2014 PER JOHANSSON & JOEL KÖHL ADITRO L FRÅN WINDOWS TILL WEB ADITRO LÖSNINGAR FÖR EN ENKLARE JOBBVARDAG SUMMIT 2014 PER JOHANSSON & JOEL KÖHL ADITRO L FRÅN WINDOWS TILL WEB 2014-10-10 COPYRIGHT ADITRO. ALL RIGHTS RESERVED. 1 Agenda» Inledning/Bakgrund» Vad krävs

Läs mer

Sätt att skriva ut binärträd

Sätt att skriva ut binärträd Tilpro Övning 3 På programmet idag: Genomgång av Hemtalet samt rättning Begreppet Stabil sortering Hur man kodar olika sorteringsvilkor Inkapsling av data Länkade listor Användning av stackar och köer

Läs mer

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016

Karp. https://spraakbanken.gu.se/karp Övningar Språkbankens höstworkshop oktober 2016 Karp Övningar Språkbankens höstworkshop 2016 https://spraakbanken.gu.se/karp sb-karp@svenska.gu.se 17 oktober 2016 ÖVERSIKT När du går in på https://spraakbanken.gu.se/karp kan du välja att söka i ett

Läs mer

Introduktion. Byggstenar TDBA63 2005-11-22

Introduktion. Byggstenar TDBA63 2005-11-22 Introduktion UML står för Unified Modeling Language. Det är tänkt att fungera som hjälpmedel vid modellering av alla tänkbara typer av utvecklingsarbeten, inte bara inom dataomdrådet. Det största värdet

Läs mer

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer

Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer Automatisk identifiering av semantisk förändring med hjälp av distributionella faktorer Karin Cavallin karin.cavallin@gu.se Institutionen för filosofi, lingvistik och vetenskapsteori Göteborgs universitet

Läs mer

EDAA20 Programmering och databaser. Mål komprimerat se kursplanen för detaljer. Checklista. Föreläsning 1-2 Innehåll. Programmering.

EDAA20 Programmering och databaser. Mål komprimerat se kursplanen för detaljer. Checklista. Föreläsning 1-2 Innehåll. Programmering. EDAA20 Programmering och databaser Mål komprimerat se kursplanen för detaljer Läsperiod 1 7.5 hp anna.aelsson@cs.lth.se http://cs.lth.se/edaa20 Mer information finns på kursens webbsida samt på det utdelade

Läs mer

Laborationer i kursmomentet Datoranvändning E1. Laboration nr 5: Mer om FrameMaker

Laborationer i kursmomentet Datoranvändning E1. Laboration nr 5: Mer om FrameMaker Sid 1 Laborationer i kursmomentet Datoranvändning E1 http://www.etek.chalmers.se/~hallgren/eda/ : Mer om FrameMaker 1996, 1997 Magnus Bondesson 1998 och 99-09-22 Thomas Hallgren 1 Introduktion I Laboration

Läs mer

Facit för diagnostiska provet i grammatik

Facit för diagnostiska provet i grammatik Facit för diagnostiska provet i grammatik Textutdrag: De tio vanligaste namnen på honhundar i Sverige är också vanliga kvinnonamn. Mest sällsynt är Bella med 1065 bärare, men åtskilliga av landets 11 954

Läs mer

Introduktion till integrering av Schenkers e-tjänster. Version 2.0

Introduktion till integrering av Schenkers e-tjänster. Version 2.0 Introduktion till integrering av Schenkers e- Version 2.0 Datum: 2008-06-18 Sida 2 av 8 Revisionshistorik Lägg senaste ändringen först! Datum Version Revision 2008-06-18 2.0 Stora delar av introduktionen

Läs mer

Hantera informationspaket i system för bevarande

Hantera informationspaket i system för bevarande Kompetensutveckling har erbjudits deltagare inom projektet Elektroniskt bevarande i form av en kurs i XML. Kursen har genomförts av Riksarkivet och haft en praktisk inriktning. Ett 10-tal personer deltog

Läs mer

Föreläsning 2. Operativsystem och programmering

Föreläsning 2. Operativsystem och programmering Föreläsning 2 Operativsystem och programmering Behov av operativsystem En dator så som beskriven i förra föreläsningen är nästan oanvändbar. Processorn kan bara ges enkla instruktioner såsom hämta data

Läs mer

Krav: * Filen MpUpdate.exe får inte köras när du startar denna uppdatering.

Krav: * Filen MpUpdate.exe får inte köras när du startar denna uppdatering. Uppdatera Mobilus Professional till version 2.0.1 Krav: * Filen MpUpdate.exe får inte köras när du startar denna uppdatering. * Filen MP.exe (Mobilus programmet) får inte användas* under tiden uppdateringen

Läs mer

En introduktion till. en webb baserad tjänst för enkäter av olika slag. version 4.4

En introduktion till. en webb baserad tjänst för enkäter av olika slag. version 4.4 En introduktion till en webb baserad tjänst för enkäter av olika slag version 4.4 Sida 1/26 - INNEHÅLL - 1 Allmänt...3 2 Allmänt om tjänsten...3 2.1 Strukturen...3 2.2 Vad behövs för att köra i gång?...3

Läs mer

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Histogram, pivottabeller och tabell med beskrivande statistik i Excel Histogram, pivottabeller och tabell med beskrivande statistik i Excel 1 Histogram är bra för att dem på ett visuellt sätt ger oss mycket information. Att göra ett histogram i Excel är dock rätt så bökigt.

Läs mer

1 AVANCERAT FILTER enter Filtrera på

1 AVANCERAT FILTER enter Filtrera på 1 AVANCERAT FILTER Här kan man plocka fram urval och göra egna filter för att från sitt eget kundregister plocka fram kunder utifrån kriterier som man själv bestämmer. Man kan spara sitt filter för användning

Läs mer

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi.

Bevis för ett modulärt perspektiv: (tidiga studier av) afasi. UPPSALA UNIVERSITET Institutionen för lingvistik och filologi SPRIND, HT 2006, Tillfälle 6 SPRÅKPSYKOLOGI SPRÅKPSYKOLOGISKA GRUNDBEGREPP (kap 1 + 2) I språkpsykologin finner man begrepp från - språkvetenskap

Läs mer

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till?

1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till? 1. (3p) Inom MDI-området framhåller man att människor lär sig via metaforer. Hur menar man att detta går till? Att lära sig via metaforer innebär att man drar nytta av kunskap som användaren redan har,

Läs mer

SKOLFS. beslutade den -- maj 2015.

SKOLFS. beslutade den -- maj 2015. SKOLFS Föreskrifter om ändring i Skolverkets föreskrifter (SKOLFS 2010:247) om ämnesplan för ämnet programmering i gymnasieskolan och inom kommunal vuxenutbildning på gymnasial nivå; beslutade den -- maj

Läs mer

SKOLFS. beslutade den maj 2015.

SKOLFS. beslutade den maj 2015. Föreskrifter om ändring i Skolverkets föreskrifter (SKOLFS 2010:244) om ämnesplan för ämnet cad i gymnasieskolan och inom kommunal vuxenutbildning på gymnasial nivå; beslutade den maj 2015. Med stöd av

Läs mer

Introduktion till programmering. Programspråk och paradigmer

Introduktion till programmering. Programspråk och paradigmer Introduktion till programmering Programspråk och paradigmer Vad är ett programspråk? Aprogramming languageis a formal constructedlanguagedesigned to communicate instructions to a machine, particularly

Läs mer

Word- sense disambiguation

Word- sense disambiguation KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,

Läs mer