Lösningsförslag till tentamen i Språkteknologi 2D1418,
|
|
- Eva Bergman
- för 4 år sedan
- Visningar:
Transkript
1 Lösningsförslag till tentamen i Språkteknologi 2D1418, Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det 30^4 möjliga bokstavsfyrgram, vilket är ungefär stycken. Reservera en bit per fyrgram och låt denna bit vara 1 om fyrgrammet förekommer i svenska och 0 annars. Hela tabellen blir då 100 kbyte och uppslagning i den går mycket fort. Cirka 6 % av de möjliga bokstavsfyrgrammen förekommer i svenska. När Stava ska kontrollera om ett rättelseförslag är ett riktigt ord så slår programmet upp alla ordets bokstavsfyrgram i fyrgramstabellen och underkänner ordet om något av fyrgrammen inte finns i svenska. b) Gå igenom en stor korpus (till exempel hela SUC) och räkna hur många gånger varje bokstavsfyrgram förekommer. I den tredje ordningens markovmodellen har vi ett tillstånd för varje bokstavstrigram (som förekommer). Sannolikheten för en övergång från tillstånd abcd till tillstånd bcde är C(bcde)/C(bcd)=C(bcde)/(sum C(bcdx)) där x löper över alla 30 bokstäver och C() är korpusfrekvensen. Startsannolikhetsfördelningen ges av frekvenserna för bokstavstrigram som förekommer för i ord dividerat med antalet ord i korpusen. För varje ord får vi då en totalsannolikhet som är en produkt av startsannolikheten och övergångssannolikheterna. Vi behöver nu sätta en tröskel för vad ett ords totalsannolikhet ska vara för att det ska räknas som korrekt. Det blir en tröskel för varje ordlängd, och trösklarna ska sättas så att nästan inga riktiga ord hamnar under tröskeln. När man kontrollerar ett ord måste man alltså slå upp sannolikheterna, beräkna produkten, jämföra med rätt tröskel och underkänna ordet om produkten är mindre än tröskeln.
2 2. Syntax (2 poäng) Frasstrukturträd: S VP NP NP DT JJ NN VB DT NN Den gamla gumman åt en smörgås Dependensträd: Root main: åt subj: obj: den det: gumman attr: gamla en det: smörgås subj=subjekt obj=objekt det=determinerare attr=attribut
3 3. Maskininlärning (8 poäng) Samla in en korpus från de domäner som är intressanta, t.ex. nyhetstexter. För att få bra resultat vill vi ha supervised learning, d.v.s. vi vill ha ett annoterat träningsdata. Gå igenom texterna och märk upp kvinnor respektive män. Dela detta data i träningsdata (större delen, mer träningsdata ger bättre resultat), testdata och eventuellt optimeringsdata. Träna en maskininlärningsalgoritm, låt säga beslutsträd, på träningsdatat. Som särdrag matar vi in t.ex. ord i närheten, sista bokstaven i ordet självt och närmsta efterföljande pronomen. För att undvika att slumpmässiga snedfördelningar mellan kvinnor och män i träningsdatat lärs in (överinlärning) testar vi då och då vårt beslutsträd på optimeringsdatat. När ett djupare träd (tränat mer på träningsdatat) börjar ge sämre resultat på exemplen i optimeringsdatat avbryter vi träningen. För att få bra resultat utvidgar vi vårt beslutsträd med stora ordlistor på t.ex. kvinnonamn m.m. Slutligen testar vi hur bra resultatet blir på vårt testdata (som vi inte har använt tidigare), så vi får en uppfattning om hur bra systemet kommer fungera på nya texter. 4. Automatisk språkgranskning och datorstödd språkinlärning (5 poäng) De risker med automatisk språkgranskning som hör ihop med dragkampen mellan täckning och precision är främst missade fel och falska alarm. Om ett program har låg täckning innebär det att många fel kommer att missas, men programmet genererar få falska alarm. För att hitta fler fel måste man ofta sänka precisionen, vilket gör att fler falska alarm kommer att genereras. För skribenterna innebär det t.ex. att de fokuserar på de områden i texten där språkgranskningsprogrammet har pekat ut många fel, medan textavsnitt utan felmarkeringar, men med missade fel i, inte ägnas någon manuell granskningsenergi. En ovan skribent kan därmed få en känsla av att texten är färdiggranskad när alla felmarkeringar är borta i texten. Falska alarm å andra sidan gör många språkinlärare osäkra, och man följer kanske programmets råd trots att programmet är fel ute. Även vana skribenter kan tjatas ner av upprepade falska alarm, eller att man följer programmets råd av bara farten. Många falska alarm kan också medföra att bra alarm inte syns bland alla falska. 5. Maskinöversättning (3 poäng) En metod är s.k. transferbaserad maskinöversättning. I transferbaserade system arbetar man med språkpar, t.ex. svenska och engelska. Transfermetoder bygger på kunskap om språkliga skillnader mellan de språk som bildar språkparet. Tre huvudsteg är analys, transfer, och generering. Analys innebär grammatisk analys med ett eller flera parseträd som resultat. Transfersteget innebär att man transformerar om parseträd från källspråket till motsvarande parseträd i målspråket. När det väl finns ett parseträd för målspråket översätts och genereras orden. I många fall måste även lexikal transfer ske, ett exempel är att hantera transfer av sammansatta ord i svenska och särskrivna ord i engelska.
4 En uppenbar nackdel är man arbetar med just språkpar, vilket innebär stora kostnader när nya system för nya språkpar skall byggas. Det har man dock i vissa fall löst genom att alltid gå via engelska. Det vill säga man bygger ett transferbaserad system för språket X och engelska, och dessutom ett transfersystem för språket Y och engelska. När man sedan vill översätta mellan språken X och Y, översätter man först från språket X till engelska, och därefter mellan engelska till språket Y. Givetvis kan översättningen förvanskas på vägen. 6. Informationssökning (6 poäng) a) Värdet ska modellera hur viktig term i är för att beskriva innehållet i text j. b) Trunkering - att bestämma att bara ta med ett på förhand bestämt antal tecken av varje term Stemming - affixstrippning (ger "nästan grundform") Lemmatisering - att genom morfologisk analys ta fram ordets grundform Liknande ord kommer att betraktas som samma. Söker man på tvättbrädor får man även träff på tvättbräda. c) Att normalisera dokumentens vektorer, d.v.s. skala dem till enhetslängd. Det är inte värdet för varje enskild term som är viktig för textrepresentationen utan förhållandet mellan värdena. Två texter med samma proportioner mellan de ingående termerna antas väldigt lika till innehåll. 7. Klustring (6 poäng) a) Resultatet från en hierarkisk algoritm är ett kluster som i sin tur består av mindre kluster osv ända ned till enskilda dokument; en klusterhierarki. Partitionerande algoritmer delar en mängd texter i ett antal delar (kluster) som inte ingår i en hierarki, en platt uppdelning. b) Ett av följande * eller någon annan algoritm. * K-Means 1) Välj slumpmässigt ut k texter som utgångscentroider. 2) Bilda ett kluster för varje centroid bestående av alla texter som är mest lika dem. 3) Beräkna nya centroider för alla kluster. 4) Uppreppa 2 och 3 tills ett stoppkriterium nåtts. Exempel på kriterier: a) tills inga texter byter kluster b) 10 iterationer c) tills ett förutbestämt värde på klusterkvalite nåtts * Agglomerativ 1) Bilda ett kluster av varje text. 2) Slå samman de två kluster som är mest lika varandra. 3) Upprepa 2 tills ett stoppkriterium nåtts.
5 Exempel på kriterier: a) tills det bara finns 1 kluster b) tills det finns k kluster c) tills ett förutbestämt värde på klusterkvalité nåtts 8. Utvärdering (5 poäng) Hur bra eller dåligt ett resultat av en utvärdering är beror dels på vad man försöker mäta men också på vad det man försöker mäta svarar mot. Om människor kan utföra en uppgift med 78 % säkerhet verkar det orimligt att datorn med sina begränsade möjligheter skall kunna utföra den mycket bättre (snabbare kanske). Om människor då utför en uppgift med (i snitt) 78 % säkerhet och en annan med (åter i snitt) 99 %, så kan det vara så att ett maskinellt resultat på den förra på 76 % är bättre än ett maskinellt resultat på 92 % på den senare. Förutom att försöka uppskatta en möjlig övre nivå för förväntade resultat försöker man också oftast att uppskatta en förväntad lägsta nivå, s.k. baseline, som tas fram med någon naiv eller simplistisk metod. Denna svarar mot en slags lägsta acceptabla resultat. 9. Textsammanfattning och diskurs (5 poäng) Rethorical Structure Theory, eller RST, är en metod för diskursanalys som går ut på att man försöker identifiera centrala meningar i en diskurs (s.k. nukleärer eller kärnor) för att sedan koppla mindre centrala meningar (s.k. satelliter) till dem med olika relationer. Dessa relationer kan t.ex. vara av typen elaboration, kontrast, villkor eller resultat. Inom automatisk textextraktion skulle man t.ex. kunna använda RST för att välja ut främst kärnmeningar och även sådana satelliter som villkor eller resultat, men undvika att extrahera t.ex. elaborativa meningar. Inom automatisk textabstraktion skulle man å andra sidan kunna använda RST för att verifiera att man har lyckats generera en sammanhängande välbyggd text.
ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Grundläggande begrepp och metoder Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning
Läs merKlustring av svenska tidningsartiklar
Klustring av svenska tidningsartiklar Magnus Rosell rosell@nada.kth.se http://www.nada.kth.se/ rosell/ Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier
Läs merMaskinöversättning möjligheter och gränser
Maskinöversättning möjligheter och gränser Anna Sågvall Hein 2015-02-17 Tisdagsföreläsning USU 2015-02-17 Anna Sågvall Hein Översikt Vad är maskinöversättning? Kort tillbakablick Varför är det så svårt?
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 12 februari 2007 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merKursplaneöversättaren. Lina Stadell
Kursplaneöversättaren Lina Stadell lina.stadell@convertus.se 2017-11-13 Innehåll Allmänt Språkliga resurser Översättningsprocessen Översättningsproblem Stavningskontroll Allmänt Bygger på egenutvecklad
Läs merFöreläsning 5: Modellering av frasstruktur. 729G09 Språkvetenskaplig databehandling Lars Ahrenberg
Föreläsning 5: Modellering av frasstruktur 729G09 Språkvetenskaplig databehandling Lars Ahrenberg 2014-05-05 1 Översikt Introduktion generativ grammatik och annan syntaxforskning Att hitta mönster i satser
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merTekniken bakom språket
Tekniken bakom språket Red. Rickard Domeij Småskrift utarbetad av SPRÅKRÅDET 2008 NORSTEDTS AKADEMISKA FÖRLAG INNEHÅLL Språkteknologi för språken i Sverige 13 Rickard Donieij Tekniken bakom språket 13
Läs merTextsammanfattning. En uppsats i kursen Språkteknologi, 2D1418. höstterminen Carolin Jonsson. kursledare: Hercules Dalianis
Textsammanfattning En uppsats i kursen Språkteknologi, 2D1418 höstterminen 2001 av d98-cjo@d.kth.se kursledare: Hercules Dalianis Sammanfattning I denna uppsats beskrivs kortfattat vad automatisk, d v
Läs merModellering med kontextfri grammatik Kontextfri grammatik - definition En enkel kontextfri grammatik Klasser av formella språk
Modellering med kontextfri grammatik Kontextfri grammatik - definition Kontextfri grammatik (CFG) definition modellering av frasstruktur andra exempel Dependensgrammatik Trädbanker Varianter av kontextfri
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Lingvistik I, 9 februari 2006 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden:
Läs merAnna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/2001-08-24. Automatisk översättning och översättningshjälpmedel
Automatisk översättning och översättningshjälpmedel 1 / 4 Klassiska problem med maskinöversättning orealistiska förväntningar dåliga översättningar svårigheter att integrera maskinöversättning i arbetsflödet
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Språkteknologi och grammatiska begrepp http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi November 2011 Lite mer om språkteknologisk
Läs merLingvistik I Delmoment: Datorlingvistik
Lingvistik I Delmoment: Datorlingvistik evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Datorlingvistik/språkteknologi vad är det? Några språkteknologiska tillämpningsområden: Korpuslingvistik Talteknologi
Läs merInnehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?
Språkinlärning: mänsklig och datorstödd Ola Knutsson knutsson@csc.kth.se Språkteknologikursen KTH Innehåll Några olika typer av system för datorstödd språkinlärning Vad handlar språkinlärning om? Språkteknologins
Läs merOmvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter
Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,
Läs merBilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering
Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska
Läs merInnehåll. Grammatikkontroll i Granska. Problemställning. Datorstöd för skrivande. Vilka metoder finns? Granskas uppbyggnad
Grammatikkontroll i Granska Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning Granska Granskas regelspråk Att skriva regler i Granska Kort
Läs merTekniker för storskalig parsning: Grundbegrepp
Tekniker för storskalig parsning: Grundbegrepp Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning: Grundbegrepp 1(17)
Läs merKungliga Tekniska Högskolan 2006-03-26. Patrik Dallmann 821107-0274
Kungliga Tekniska Högskolan 2006-03-26 Patrik Dallmann 821107-0274 Patrik Dallmann dallmann@kth.se Inledning Syftet med detta arbete är att undersöka metoder för att upptäcka syftningsfel i vanlig text.
Läs merTentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Läs merInnehåll. Syntax. Kan allt delas upp i små delar? Varför är syntax fascinerande? Olika språksyn. Vad är syntax?
Syntax Språkteknologi DH2418 Ola Knutsson knutsson@csc.kth.se Grundläggande begrepp Två perspektiv på syntax Frasstrukturgrammatiker Innehåll Olika frastyper och regler för dessa Dependensgrammatik Olika
Läs merTentamen 2016-01-13. Marco Kuhlmann
TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga
Läs mer729G09 Språkvetenskaplig databehandling
729G09 Språkvetenskaplig databehandling Modellering av frasstruktur Lars Ahrenberg 2015-05-04 Plan Formell grammatik språkets oändlighet regler Frasstrukturgrammatik Kontextfri grammatik 2 Generativ grammatik
Läs merPre-editering och maskinöversättning. Convertus AB
Pre-editering och maskinöversättning Bakgrund Convertus roll i DigInclude är att utveckla och tillhandahålla översättningstjänster för översättning av användarorienterad myndighetsinformation Översättning
Läs merForskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Läs merCristina Eriksson oktober 2001
Maskinöversättning Cristina Eriksson 660719-4005 d98-cer@nada.kth.se 15 oktober 2001 1 Sammanfattning Att låta en maskin översätta från ett språk till ett annat är ett forskningsområde som man lägger ner
Läs merAutomatisk Sentimentklassificering av Twitter-inlägg
[TYPE THE COMPANY NAME] Automatisk Sentimentklassificering av Twitter-inlägg Språkteknologi DD2418 Binxin Su, Christian Davilém 1/8/2013 [Type the abstract of the document here. The abstract is typically
Läs merAutomatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon
Automatisk identifiering av konstruktionskandidater för ett svenskt konstruktikon Markus Forsberg Språkbanken Göteborgs universitet 2013-03-19 Föredraget Föredraget är baserat på en artikel inskickad igår
Läs merEn arbetsdag på kontoret kan innehålla. Så klarar man språkkontrollen DATORER RICKARD DOMEIJ
DATORER Så klarar man språkkontrollen RICKARD DOMEIJ Är datorns språkkontroll skribentens bästa vän? Eller kommer den mest med löjliga förslag? I april gav Svenska språknämnden ut Datorn granskar språket,
Läs merObesvarade frågor från F4
Obesvarade frågor från F4 Antal ord i sista upplaga av SAOL 90 000 el 120 000? Varför har barnförbjuden tagits bort och barnförbjuda införts? Formellt singularis, reellt pluralis Mången fotbollsspelare
Läs merObjektorienterad Programmering (TDDC77)
Objektorienterad Programmering (TDDC77) Föreläsning II: utmatning, variabler, typer Ahmed Rezine IDA, Linköpings Universitet Hösttermin 2016 Kompilera och köra programmet under terminal 2: I Skapa Hej.java
Läs merProgrammering i C++ En manual för kursen Datavetenskaplig introduktionskurs 5p
Programmering i C++ En manual för kursen Datavetenskaplig introduktionskurs 5p Skriven av Michael Andersson Introduktion Programmering I högnivåspråk fokuserar på själv problemet (algoritmen) istället
Läs merVindkraft och ML. - hur kan vindkraft dra nytta avml
Vindkraft och ML - hur kan vindkraft dra nytta avml AI och ML Intelligens: förmågan att utnyttja kunskap för att bättre lösa en klass av uppgifter Lärande: förmågan att förbättra sin förmåga att lösa uppgifterna
Läs merI Skapa Hej.java och skriv programmet. I Kompilera med javac Hej.java. I Rätta fel och repetera tills du lyckas kompilera ditt program
Kompilera och köra programmet Objektorienterad Programmering (TDDC77) Föreläsning II: utmatning, variabler, typer Ahmed Rezine IDA, Linköpings Universitet Hösttermin 2016 under terminal 2: I Skapa Hej.java
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs merInnehåll. Definition av språkgranskningsverktyg. Datorn som skrivverktyg. Ola Knutsson KTH CSC, SPRÅKGRANSKNINGSVERKTYG
Innehåll SPRÅKGRANSKNINGSVERKTYG F1:INTRODUKTION Ola Knutsson KTH CSC, knutsson@csc.kth.se Språkgranskningsverktyg Språk vs. skrivet språk Språkriktighet och grammatikalitet, vad är en bra text? Felanalysens
Läs merDAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Läs merKlassificering av homonymer Inlämningsuppgift språkteknologi
Klassificering av homonymer Inlämningsuppgift språkteknologi 2013-01-10 Kurskod: DD2418 Författare Gustav Ribom 910326-0593 Erik Aalto 861108-0212 Kontaktperson Johan Boye Abstract Ordet fil har flera
Läs merKategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring
Kategorisering och klustring Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Kluster är
Läs merLingvistiskt uppmärkt text
729G09 Språkvetenskaplig databehandling (2018) Lingvistiskt uppmärkt text Marco Kuhlmann Institutionen för datavetenskap Korpusdata: Ett konkret exempel 1 Genom genom ADP 2 case 2 skattereformen skattereform
Läs merMÖSG ht 2005 Maskinöversättningssystemet MATS
MÖSG ht 2005 Maskinöversättningssystemet MATS Per Weijnitz perweij@stp.ling.uu.se Om detta kursmoment främja förståelse av översättningsproblem MÖ-arbete regelbaserade MÖ-system godtyckligt valt system?
Läs merAssociationsanalys och klustring
Johan Boye, CSC, KTH DD1371 Beslutstödssystem, VT2013 Associationsanalys och klustring 57. (Från tentamen augusti 2010) Byggvaruhuset Bygger vill ha mer information om sina kunders köpbeteenden och vill
Läs merMarco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014
Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng
Läs merDatorlingvistik och språkteknologi
Datorlingvistik och språkteknologi Mats Dahllöf Institutionen för lingvistik och filologi Att bearbeta språk i datorer med känslighet för språket som språk: Språkvetenskapligt forskningsområde: datorlingvistik
Läs merInnehåll GRAMMATIKKONTROLL I GRANSKA. Datorstöd för skrivande. Problemställning. Ola Knutsson
GRAMMATIKKONTROLL I GRANSKA Ola Knutsson knutsson@csc.kth.se Innehåll Datorstöd för skrivande Olika metoder för grammatikkontroll Granska Granskas regelspråk Att skriva regler i Granska Inför laborationen
Läs merProgrammering, grundkurs, 8.0 hp HI1024, HI1900 etc., Tentamen TEN1. Måndagen den 10 januari 2011,
Programmering, grundkurs, 8.0 hp HI1024, HI1900 etc., Tentamen TEN1 Måndagen den 10 januari 2011, 8.15 12.15 Tentamen består av två delar, del A och del B. Del A innehåller 10 kryssfrågor på olika teman
Läs merInnehåll. Informationssökning språkteknologiska hjälpmedel
Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,
Läs merCD-ORD 9.0. Snabbhjälp
CD-ORD 9.0 Snabbhjälp CD-ORD Denna manual innehåller information för att komma igång med CD-ORD 9.0. I CD-ORDs verktygslist finner du en mer detaljerad manual för programmet. Hjälp i verktygslisten Snabbhjälp
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Översikt, denna gång (och nästa?) Kursformalia, lärandemål Språkteknologi och grammatik Grunder för grammatisk analys
Läs merFOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se
FOR BETTER UNDERSTANDING Snabbguide www.wordfinder.se Tekniska förutsättningar WordFinder 10 Professional för Mac kräver följande: Processor: Intel Mac OS X 10.5 eller senare. Installation Installation
Läs merVarför är morfologi viktigt? Morfologisk analys och generering. Vad är ett ord (idag vs. i dag) Kan man inte lägga alla ord i en lexikonfil?
Morfologisk analys och generering Språkteknologi för språkkonsulter Ola Knutsson 2009 Varför är morfologi viktigt? Ord är grunden i alla världens språk Alla språkteknologiska aktiviteter kräver kunskap
Läs merENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Läs merÖU2100, Översättarutbildning 1. Magisterutbildning, 60 högskolepoäng
Humanistiska fakultetsnämnden ÖU2100, Översättarutbildning 1 Magisterutbildning, 60 högskolepoäng Professional Translation 1, 60 higher education credits Avancerad nivå Second Cycle 1. Fastställande Kursplanen
Läs merMATEMATIKENS SPRÅK. Avsnitt 1
Avsnitt 1 MATEMATIKENS SPRÅK Varje vetenskap, liksom varje yrke, har sitt eget språk som ofta är en blandning av vardagliga ord och speciella termer. En instruktionshandbok för ett kylskåp eller för en
Läs merTDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Läs mer6. Ge korta beskrivningar av följande begrepp a) texteditor b) kompilator c) länkare d) interpretator e) korskompilator f) formatterare ( pretty-print
Datalogi I, grundkurs med Java 10p, 2D4112, 2002-2003 Exempel på tentafrågor på boken Lunell: Datalogi-begreppen och tekniken Obs! Andra frågor än dessa kan komma på tentan! 1. Konvertera talet 186 till
Läs merAnvänd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.
Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix. Tekniska förutsättningar För WordFinder från Mac App Store krävs följande: Processor: Intel Mac OS X 10.6.6 eller senare.
Läs merBLOCK 1. 1A. Att komma igång
BLOCK 1 1A. Att komma igång Blocket omfattar sidorna 8 23 i läseboken och sidorna 7 8 i grammatikboken samt hörövningar. 1. Vem är du? 2. Vilka fyra färdigheter är viktiga vid språkinlärning? 3. Hur många
Läs merAutomatisk generering av grammatikövningar utifrån grammatiskt analyserad text
Automatisk generering av grammatikövningar utifrån grammatiskt analyserad text Magisteruppsats i Språkteknologi, 30hp Institutionen för lingvistik och lologi Uppsala Universitet Camilla Liljhammar, camlilj@stp.lingl.uu.se
Läs merMaskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi
Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med
Läs merHI1024 Programmering, grundkurs TEN
HI1024 Programmering, grundkurs TEN2 2016-12-22 KTH STH Flemingsberg 8.15-13.00 Tillåtna hjälpmedel: Kursboken C PROGRAMMING A Modern Approach K. N. King helt utan anteckningar Alternativt C från början
Läs merInnehåll. Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi. Datorstöd för skrivande. Vilka metoder finns?
Datorstöd för skrivande och grammatikkontroll Ola Knutsson DH2418 Språkteknologi Innehåll Datorstöd för skrivande Olika metoder och system för grammatikgranskning. Granska Att skriva regler i Granska.
Läs merMaskinöversättning och språkgranskning. F6: Grammatikkontroll
Maskinöversättning och språkgranskning F6: Grammatikkontroll Grammatikkontroll av svenska För svenska finns huvudsakligen tre olika modeller Word Scarrie Granska Scarrie och Granska är forskningsprototyper.
Läs merSyntax S NP VP. AdjP. sleep. ideas. DH2418 Språkteknologi Johan Boye. Syntax
Syntax S NP VP AdjP NP JJ AdjP JJ NP N V sleep AdvP Adv Colorless green ideas furiously DH2418 Språkteknologi Johan Boye Syntax Frågor vi vill besvara: Vilka sekvenser av ord tillhör språket? Vilka relationer
Läs merENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning
ENGA01: Engelska grundkurs, 30 högskolepoäng Studiebeskrivning Kursen består av följande delkurser vilka beskrivs nedan: Litteratur, 6 högskolepoäng Grammatik och översättning, 9 högskolepoäng Skriftlig
Läs merKlustring av svenska tidningsartiklar Clustering of swedish newspaper articles (Datalogi)
Klustring av svenska tidningsartiklar Clustering of swedish newspaper articles (Datalogi) Magnus Rosell Handledare: Viggo Kann Examinator: Stefan Arnborg 8 mars 2002 Sammanfattning En klustringsalgoritm
Läs merOperativsystem ID2206 Tentamen TEN1 4.5 hp :00-18:00
Operativsystem ID2206 Tentamen TEN1 4.5 hp 2018-04-03 14:00-18:00 Instruktioner Du får, förutom skrivmateriel, endast ha med dig en egenhändigt handskriven A4 med anteckningar. Svaren skall lämnas på dessa
Läs merAnsvarig lärare: Jörgen Larsson Mariann Bourghardt Telefonnummer:
11F320 15 högskolepoäng Provmoment: Salstentamen svenska, nr 1 Ladokkod: Tentamen ges för: Grundläggande svenska och matematik i förskoleklass och årskurs 1-3 TentamensKod: Tentamensdatum: 8 mars 2012
Läs merCD-ORD 8 elevdata.se
Snabbhjälp i CD-ORD 8 elevdata.se SNABBHJÄLP för CD-ORD 8 Denna manual innehåller information för att komma igång med CD-ORD 8. I CD-ORDs verktygslist finner du en mer detaljerad manual för programmet.
Läs merSkrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord
Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord
Läs merMaskinöversättning. F Anna Sågvall Hein
Maskinöversättning F1 2008 Anna Sågvall Hein Vad menas med maskinöversättning? Maskinöversättning handlar om att få datorer att översätta från ett språk till ett annat. Det finns många olika metoder och
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merAutomatisk textsammanfattning
Språkteknologi 2001-10-14 Nada Kungliga Tekniska högskolan Automatisk textsammanfattning Per Karefelt (d98-pka) Marcus Hjelm (d98-mhj) Sammanfattning (manuell) Denna rapport belyser en del av de problem
Läs merUtbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits
Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande
Läs merI en matchning ligger varje hörn i högst en kant. I en stig ligger varje hörn i högst två kanter.
26.2-9 Antag att rätt lösning är att dela upp V i V 1 och V 2 (V 1 V 2 =, V 1 V 2 = V ). Antal kanter vi måste skära är då det minsta snittet mellan v 1 och v 2, där v 1 är ett godtyckligt hörn i V 1 och
Läs merNå dina mål. Fredrik Alm
Nå dina mål Fredrik Alm Fredrik Alm är skribent, coach, föreläsare och utbildare. Fredrik driver moveforward, ett företag med spetskompetens inom personlig och professionell utveckling för unga karriärkvinnor.
Läs merAnvända Convertus Kursplaneöversättaren
Utbildningsavdelningen INSTRUKTION 2015-10-09 Använda Convertus Kursplaneöversättaren Programmet Kursplaneöversättaren är ett hjälpmedel för att översätta kursplaner från svenska till engelska. Du måste
Läs merLingvistik 729G08 (6 hp) Mathias Broth Charlotta Plejert Therese Örnberg Berglund Mikael Svensson
Lingvistik 729G08 (6 hp) Mathias Broth Charlotta Plejert Therese Örnberg Berglund Mikael Svensson Vad är lingvistik? Språkvetenskap: det vetenskapliga studiet av språk och språkande En spännande kurs!
Läs merUtbildningsplan för översättarprogrammet, 120 högskolepoäng. Professional Translation Programme, 120 higher education credits
Humanistiska fakultetsnämnden Utbildningsplan för översättarprogrammet, 120 högskolepoäng Professional Translation Programme, 120 higher education credits Avancerad nivå/second Cycle 1. Beslut om fastställande
Läs merFöreläsning 2. Operativsystem och programmering
Föreläsning 2 Operativsystem och programmering Behov av operativsystem En dator så som beskriven i förra föreläsningen är nästan oanvändbar. Processorn kan bara ges enkla instruktioner såsom hämta data
Läs merInformationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)
Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)
Läs merUppföljning och diagnosticering av läs- och skrivfärdighet. ann.pihlgren@isd.su.se
Uppföljning och diagnosticering av läs- och skrivfärdighet ann.pihlgren@isd.su.se Frågor Allt Praktiska tips, metoder, varför de är bra Hur förklarar man att bokstäver låter och heter olika och hur de
Läs merInstallera Anaconda Python
Maskininlärning Installera Anaconda Python Nummergisslek Vi ska bygga ett litet program, RIDER, som ska gissa vilket nummer som du tänker på. Reglerna är att du tänker på ett heltal mellan 1 och 100. RIDER
Läs merKompilatorer och interpretatorer
1 of 6 Örebro universitet Institutionen för teknik Thomas Padron-McCarthy (Thomas.Padron-McCarthy@oru.se) Tentamen i Kompilatorer och interpretatorer för Dataingenjörsprogrammet m fl lördag 7 november
Läs merDagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering
Information retrieval & ordbetydelsedisambiguering Leif Grönqvist (leifg@ling.gu.se) Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi)
Läs merINNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3
Ordboken 1 Innehållsförteckning INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 MINIMERA OCH STÄNG... 3 SÖKFÄLT... 4 SÖKRESULTAT... 4 Resultat... 4 Ordklassfärger...
Läs merObjektorienterad Programmering (TDDC77)
Objektorienterad Programmering (TDDC77) Föreläsning II: utmatning, variabler, typer Ahmed Rezine IDA, Linköpings Universitet Hösttermin 2017 Outline Java Språket Utmatning av Sträng litteraler Variabler
Läs merSvenskans struktur, 7,5 hp Tentamensexempel 1
Svenskans struktur, 7,5 hp Tentamensexempel 1 På de följande sidorna återges ett exempel på en tentamen i Svenskans struktur. Tentan är uppdelad i tre delar. För att få godkänt på kursen måste man ha godkänt
Läs merPragmatik. Olika nivåer. Tumregler. Grice s samarbetsprinciper. Pragmatik och diskurs
Pragmatik och diskurs Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Pragmatik Studerar vilken mening yttranden har i situationer (Leech, 1983)
Läs merSpråkgranskningsverktyg, vt 2009
, vt 2009 Föreläsning 8 Scania Checker evapet@stp.lingfil.uu.se 1 Föreläsningsöversikt Kontrollerat språk Scania-svenska Scania Checker Demo 2 Kontrollerat språk Delmängd av naturligt språk Restriktioner
Läs merGrammatik för språkteknologer
Grammatik för språkteknologer Introduktion http://stp.lingfil.uu.se/~matsd/uv/uv11/gfst/ Mats Dahllöf Institutionen för lingvistik och filologi Oktober 2011 1 Lärandemål Efter avslutad kurs skall studenten
Läs merKorpuslingvistik. Metoder och tillämpningar inom språkteknologin - ht 07. Innehåll. Vad är en korpus? Vad är korpuslingvistik?
Metoder och tillämpningar inom språkteknologin - ht 07 Korpuslingvistik Innehåll Vad är en korpus? Vad är korpuslingvistik? Korpusurval och sammanställning Annotering Korpusexempel Parallellkorpusar Internet
Läs merFrasstrukturgrammatik
729G09 Språkvetenskaplig databehandling (2016) Frasstrukturgrammatik Marco Kuhlmann Institutionen för datavetenskap Korpusdata 1 Folkpensionen folkpension NOUN 2 dobj 2 får få VERB 0 root 3 man man PRON
Läs merTENTAMEN MOM1 GRUNDLÄGGANDE PROGRAMMERINGSTEKNIK OCH
UMEÅ UNIVERSITET Datavetenskap Marie Nordström 071207 TENTAMEN MOM1 GRUNDLÄGGANDE PROGRAMMERINGSTEKNIK OCH DATORSYSTEM/GRÄNSSNITT, 7.5HP. (5DV074/5DV075) Datum : 071207 Tid : 3 timmar Hjälpmedel : Allt.
Läs mer