Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering
|
|
- Anton Strömberg
- för 7 år sedan
- Visningar:
Transkript
1 Information retrieval & ordbetydelsedisambiguering Leif Grönqvist Växjö universitet (Matematiska och systemtekniska institutionen) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborgs universitet (Institutionen för lingvistik) Dagens lektion 1. Inledning a) Varför jag ska lära er datalingvistik b) Varför IR är viktigt för er 2. Ordbetydelsedisambiguering a) Supervised b) Unsupervised 3. Information retrieval a) Vektormodellen b) Termviktning c) Olika IR-problem 1 2 Min bakgrund : 4-årig teknisk (electrical engineering) : M.Sc. (official translation of Filosofie Magister ) in Computing Science, Göteborg University : 62 points in mechanics, electronics, etc : Work at the Linguistic department in Göteborg Various projects related to corpus linguistics Some teaching on statistical methods (Göteborg, Växjö and Uppsala), Corpus linguistics and computational linguistics in Göteborg, Sofia, Beijing and Santiago de Cuba 1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases : Work at the department of Informatics in Göteborg (the Internet Project) : PhD Student in Computer Science / Language Technology Mina forskningsintressen Statistiska metoder i språkteknologi Korpuslingvistik (Jens) Maskininlärning (Torbjörn) Dolda Markovmodeller Vektorrymdsmodeller för lagring av semantisk information Samförekomststatistik Latent Semantic Indexing (LSI) Användning av lingvistisk information vid träning 3 4 Varför IR & disambiguering Ni läser nu en översiktskurs Hittills har ni sett: Grammatik(?) Pragmatik Taggning/parsning Och lite annat smått och gott IR har ofta hamnat inom AI som dataloger pysslat med svårt att använda riktig parsning Men datalingvister har mycket att tillföra! Ett stort och viktigt problem nu för tiden Information Retrieval Handlar om att lösa flera olika problem: AltaVista-stilen: Ge mig en massa som innehåller orden rymdfärjor och färdkost, i slumpvis ordning Traditionell IR: Ta fram alla som handlar om rymdfärjor och färdkost Ge mig alla som liknar det här et Ordna efter relevans Fråga-svar-system: Vem vann franska öppna 1982? Varför var det krig i Ruanda? 5 6 1
2 IR, forts. Övriga system och uppgifter Ge mig 10 bra nyckelord för det här et Ta fram en förkortad version av den här texten Flerspråkiga varianter av ovanstående Skriv frågor på ett språk och få svar på ett annat Fråga på ett språk och få på flera språk Multimodala system Sök även i ljud- och bildfiler Visa mig alla mål från dagens matcher i spanska ligan Leta upp stället när Boromir dör i filmen Sagan om ringen Problem att lösa Lagra stora mängder data () Identifiera och extrahera sökbar information, dvs. förstå en Skapa index för snabb åtkomst Tolka frågor (naturligt språk / nyckelordslista) Parsning Hur avancerade frågor vill man klara? Vanligt med frågemallar Vanligaste uppgifterna är alltså: Information retrieval: hitta en som matchar frågan Information extraction: hitta relevanta delar av en Question/answering: ge ett direkt svar på frågan 7 8 IR Komplikationer Folk är dåliga på att välja bra sökord Det kräver stor erfarenhet och förståelse Ibland är det mycket svårt ändå Många skriver in endast 1-2 ord som fråga Dokumenten man söker i, samt även sökfrågorna, innehåller stavfel Många ord är ambiguösa Dokumenten som är relevanta för en sökfråga kan ha helt olika innehåll i olika domäner Datamängder är ofta ostrukturerade eller på flera olika format Ordbetydelsedisambiguering Låt oss följa kapitel 17 i boken Problem: ord kan ha olika betydelse i olika kontexter Om vi kan hitta vilken betydelse det handlar om så kan det hjälpa oss att: Välja rätt parsning bland en massa möjliga parsträd Hitta om rätt sorts chips på nätet 9 10 Vad vill vi göra? För ett givet ord, t.ex. dishes Och en given uppsättning betydelser: 1. maträtter 2. disk, dvs smutsiga tallrikar och bestick För varje förekomst av dishes vill vi avgöra om det är 1. eller 2. Till vår hjälp har vi: Kontexten Ordklasstaggning? Lexikon? Träningsdata? Supervised learning Ett sätt att bygga ett program som kan disambiguera betydelser är att: Handkoda en träningskorpus Identifiera egenskaperna som kan ge rätt betydelse, t.ex. angränsande ord eller deras ordklass Träna upp igenkännaren så att egenskaperna i träningsdata avgör betydelsen för nya förekomster Två sätt att bygga en disambiguerare: Statistiska modeller: Vilken betydelse är den sannolikaste givet samtliga egenskaper hos förekomstens kontext Beslutsträd: hitta starka indikationer på den ena eller andra betydelsen, t.ex. ordet washing står omedelbart till vänster om dishes. Den starkaste vinner!
3 Beslutsträd: exemplet bass Feature-vektorer Fisk eller musikterm fish inom kontextfönstret striped bass guitar inom fönstret bass player piano inom fönstret tenor inom fönstret sea bass play/vb bass river inom fönstret Alternativ till beslutsträd Titta på de vanligaste innehållsorden i fönstret runt förekomsterna Träningsdata berättar vilka kombinationer som svarar mot respektive betydelse Bootstrapping Trist att handkoda tusentals förekomster Hearst och senare Yarowsky föreslår metod att undvika handkodning: 1. Välj (i förväg) ut ett eller flera fröord som är starka indikationer för respektive betydelse, t.ex. fish (bass fisk ) play (bass musik ) 2. Starta med en mängd okodade förekomster 3. Titta i kontexterna efter fröorden och koda de förekomster där de förekommer 4. Lägg till nya fröord, eventuellt på specifika positioner, genom att titta på de kodade förekomsterna 5. Gå till steg 3 om inte alla förekomster är kodade Yarowskys metod Bygger på två faktum One sense per collocation (viktigast) One sense per discourse (optionell) Fungerar mycket bra! Vanligt att bara använda den första Den andra verkar konstig men stämmer ofta! Vore trevligt att hitta fröorden automatiskt! Yarowsky föreslår två sätt: Titta i en ordbok Försök att använda ord som sällan förekommer i samma fönster Unsupervised methods Ett angreppssätt är agglomerativ klustring: 1. Gör ett kluster av varje förekomst 2. Slå ihop de två mest lika klustren 3. Fortsätt vid punkt 2. om mer än ett kluster finns kvar Problem: Hur avgör vi vilka kluster som är lika? Hur vet vi vilka delträd som svarar mot betydelser? Evaluering Handkodad guldstandard är bäst men tråkigt och dyrt att ta fram Kan vara bra att ge olika poäng för helt fel eller nästan rätt om vissa betydelser liknar varandra Alternativ till handkodning: pseudo-ord Välj ut två ord som liknar varandra lagom mycket Ersätt dem båda med en gemensam sträng Låt systemet disambiguera dem igen Det finns tävlingar i disambiguering: SENSEVAL Utvärderingskorpusar sätts samman av SENSEVAL
4 Information retrieval Bag of words Se på som en påse med oordnade ord Simpel men kraftfull modell Dokumentsamlingar blir då en samling ordpåsar Vektormodellen Antag att ordpåsarna innehåller n stycken signifikanta ord o 1 o n Ett d kan nu beskrivas som en vektor med n dimensioner en per signifikant ord På platserna som svarar mot ord som inte finns i d finns nollor På övriga platser finns nummer som svarar mot antalet förekomster med någon smart viktning Att välja ut de n orden kan göras på många sätt Vektormodellen, forts. När vi nu har en n-dimensionell vektorer för varje kan vi på samma sätt skapa frågevektorer: Fyll i ett värde på platserna i vektorn som svarar mot orden vi vill söka efter Sökning efter relevanta görs genom att titta vilka vektorer som är lika frågevektorn Bästa likhetsmåttet: cosinus för vinkeln mellan vektorerna Dessutom lätt att beräkna Termviktning Kvaliteten på sökningen kan förbättras med hjälp av termviktning Hur kan vi veta vilka termer som är viktiga? Lexikon? Knappast domänspecifika ord saknas ofta i lexikon Termfrekvens? Räcker inte riktigt Distribution i en? Ja Idf: Inverterad frekvens Idé: En term som förekommer i nästan alla är inte så viktigt för innehåller De viktiga termerna har hög totalfrekvens men finns i få Vi kombinerar termfrekvensen (tf) med idf för att få fram vikten: w i,j = tf i,j * idf i för term i i j, idf i = log(n/n i ) N = totala antalet n i = antalet som term i förekommer i Att välja de n termerna Kan vara smart att utföra stemming först Termviktningen är ett sätt att välja hur viktig varje term är Stopp-lista: Vanliga innehållslätta (synkategorematiska) ord bör tas bort Bättre resultat Resursbesparande Fortfarande svårt att välja ut termerna Latent Semantic Indexing (LSI) Istället för att välja termer med omsorg kan vi välja allihop! Därefter utförs en smart matematisk projicering Ett sätt kallas Singular Value Decomposition (SVD) Bibehåller avstånd mellan vektorer på bästa möjliga sätt Man väljer hur många dimensioner man vill ha kvar Likhet i flera steg kan uppnås! Vi kan hitta relevanta även om termen vi sökt efter inte finns i et
5 Andra sätt att öka precisionen Query expansion: Expandera sökfrågan med termer från en tesaurus Domänspecifika ord saknas oftast i tesaurusar Domänspecifika tesaurusar kan skapas automatiskt med hjälp av samförekomstanalys Relevansfeedback: När träfflistan kommer kan användaren få plocka bort oönskade Dessa kan användas som negativa sökvektorer Obs! Det är mycket enkelt att addera vektorer med olika mycket vikt Utvärdering Recall: Andel av de relevanta en som vi hittade Precision: Andel relevanta bland de vi hittade F-score: Väg samman Recall och Precision Funna Relevanta F-score Kan viktas för att favorisera precision eller recall: F = Vid lika prioritet fås: 1 α (1 α) + precision recall pr F = 2 r + p Olika informationsbehov värderar recall och precision olika Problem med utvärderingen Vi vet sällan hur många relevanta det finns Relevans är inte binär Hur många skall vi ta fram när man söker? Hur kan vi väga in rankingen på ett bra sätt? Vi kan beräkna precision vid olika antal träffar: Precision vid 5: 1,0 Precision vid 20: 0,7 Precision vid 100: 0,3 Lite svårt att bedöma Tänk om det bara finns 30 relevanta? Andra intressanta IR-uppgifter Dokumentklassificering: eventuellt hierarkisk Dokumentklustring: hitta naturliga kluster Filtrering: ta bort spam t.ex. Textsegmentering: hitta innehållshomogena bitar av en text Textsummering: Skapa en sammanfattning av en text automatiskt Nyckelordsextraktion: ta fram relevanta nyckeord för ett 29 5
Klustring av svenska tidningsartiklar
Klustring av svenska tidningsartiklar Magnus Rosell rosell@nada.kth.se http://www.nada.kth.se/ rosell/ Klustring Kategorisering eller klassificering att föra texter till på förhand bestämda kategorier
Läs merOmvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter
Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar,
Läs merRandom Indexing för vektorbaserad semantisk analys
Random Indexing för vektorbaserad semantisk analys ScandSum 23 Vektorbaserad semantisk analys Ord (-betydelser) som vektorer i en mångdimensionell rymd y gitarr luta ScandSum 23 x tuba Vektorbaserad semantisk
Läs merKan datorn lära sig ordkunskap automatiskt?
Kan datorn lära sig ordkunskap automatiskt? Arbetsseminarium 23/11-2004 Leif Grönqvist GSLT, MSI@VxU & ling@gu Vad? Hur? Varför? min avhandling skall handla om att få fram användbara semantiska vektormodeller
Läs merInnehåll. Informationssökning språkteknologiska hjälpmedel
Informationssökning språkteknologiska hjälpmedel Hercules Dalianis NADA-KTH Email: hercules@kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Sökmotor Stemming,
Läs merInlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1
Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4
Läs merInformationssökning och -utvinning. Informationssökning och informationsutvinning. [IR & IE] Introduktion (1) [IR & IE] Introduktion (2)
Informationssökning och -utvinning Informationssökning och informationsutvinning Kristina Nilsson, kristina.nilsson@ling.su.se 2006-11-06: MOTIST, UU 1. Informationssökning (Information Retrieval, IR)
Läs merDokumentrekommendationssystem och intranät
Dokumentrekommendationssystem och intranät Anders Gabrielsson anders@stp.ling.uu.se Examensarbete 20p Språkteknologiprogrammet Institutionen för lingvistik Uppsala universitet Handledare: Lars Borin och
Läs merAutomatisk tesauruskonstruktion med latent semantisk indexering
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:40 ISSN 1404-0891 Automatisk tesauruskonstruktion med latent semantisk indexering
Läs merBilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering
Språkteknologiska stöd vid sökning och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Språkteknologiska
Läs merLösningsförslag till tentamen i Språkteknologi 2D1418,
Lösningsförslag till tentamen i Språkteknologi 2D1418, 2004-10-18 1. Stavningskontroll utan ordlista (10 poäng) a) Med 29 bokstäver i alfabetet och en specialbokstav för ordbörjan/ordslut så finns det
Läs merLinköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson
Linköpings Universitet Artificiell Intelligens II 729G11 HT 2011 QA- system Anders Janson 861128-6918 andja338@student.liu.se Sammanfattning Inom denna uppsats tar jag upp Question Answering system, som
Läs merMÖTESPLATS INFÖR FRAMTIDEN. Borås 8-9 oktober 2003
MÖTESPLATS INFÖR FRAMTIDEN Borås 8-9 oktober 2003 Monica Lassi, Institutionen biblioteks- och informationsvetenskap/bibliotekshögskolan, Högskolan i Borås Informationssökning i naturligt språk svenska
Läs merInformation Retrieval. Information Retrieval (IR)
Information Retrieval Johan Boye, KTH Information Retrieval (IR) Att hitta relevantinformation i en stor mängd texter (och/eller bilder, audio, video, programkod, biomedicinsk data, ) Användaren ger en
Läs merIntroduktion till språkteknologi
Introduktion till språkteknologi OH-serie 9: informationshantering http://stp.lingfil.uu.se/~matsd/uv/uv08/ist/ Informationshantering Hjälpa en användare att söka efter dokument eller information i dokumentsamlingar.
Läs mer729G17/729G66 Lexikal semantik och ordbetydelsebestämning. Olika ordbegrepp. Vad är ordbetydelse (1) Olika ordbegrepp
729G17/729G66 Lexikal semantik och ordbetydelsebestämning Olika ordbegrepp Ordbetydelser Vad är ett ord? Lemman, lexem och betydelser Semantiska relationer Semantiskt strukturerade lexikon Hitta relationer
Läs merFriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång
FriendlyReader Språkteknologi för sammanfattningar och ökad läsbarhet Mål:! Öka den digitala delaktigheten genom att underlätta för personer med lässvårigheter att tillgodogöra sig textuellt baserad information
Läs merTeoretisk lingvistik och datalingvistik. Robin Cooper
Teoretisk lingvistik och datalingvistik Robin Cooper Syftet med dagens föreläsning Sammanfattning av lingvistisk teori och datalingvistik/språkteknologi Diskussion av teorins roll i olika språkteknologiska
Läs merIntroduktion till språkteknologi. Datorstöd för språkgranskning
Introduktion till språkteknologi OH-serie 2: Datorstöd för språkgranskning oktober 2008 Mats Dahllöf (efter Sofia Gustafson-Capková) Institutionen för lingvistik och filologi UPPSALA UNIVERSITET Huvudpunkter
Läs merSpråkteknologi och Open Source
Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.
Läs merFil: /home/lah/undervisning/sprakteknologi/ohbilder/oh1_kv.odp. Tjänster
Taligenkänning 729G17/729G66 Språkteknologi 1 Vad är språkteknologi? Vad är språkteknologi? Kursens mål och uppläggning Att analysera textdata Korpusar och korpusarbete Textanalys med reguljära uttryck
Läs merKategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring
Kategorisering och klustring Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Kluster är
Läs merWord- sense disambiguation
KTH Word- sense disambiguation Inlämningsuppgift - DD2418 - sprakt12 Mattias Uskali & Emilia Hillert 1/8/2013 Sammanfattning Denna rapport kommer att undersöka två metoder för word- sense disambiguation,
Läs merBetydelse och betydelse
Betydelse och betydelse Ordbetydelsedisambiguering i praktiken Stian Rødven Eide stian@fripost.org Självständigt arbete i lingvistik, 15 hp Göteborgs universitet Institutionen för filosofi, lingvistik
Läs merFör universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/417 Allmän studieplan för licentiatexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 30 mars 2017.
Läs merWord sense disambiguation med Svenskt OrdNät
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2006:34 ISSN 1404-0891 Word sense disambiguation med Svenskt OrdNät JENS CHRISTIANSSON
Läs merProjektförslag. Datalingvistisk projektkurs VT mars 2007
Projektförslag Datalingvistisk projektkurs VT 2007 26 mars 2007 Möjliga projekt Utvärdering Att utvärdera ett befintligt program/system utifrån ett datalingvistiskt perspektiv. Exempel: Utvärdera hur ett
Läs merDAB760: Språk och logik
DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg
Läs merTDDD02 Föreläsning 7 HT-2013
TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning
Läs merSpråkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord
Språkteknologiska stöd Språkteknologiska stöd Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Stemming, trunkering, frågeexpansion Långa frågor och frassökning Stavningsstöd
Läs merTDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg
TDDD02 Föreläsning 4 HT-2013 Klassificering av ord och dokument Lars Ahrenberg Översikt Ø Avslutning om ngram-modeller Dokumentrepresentation Ø Klassificering med Naive Bayes ett typexempel generell metod
Läs merTDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas
Läs merKlustring av svenska texter P E T E R J O H A N S S O N
Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete Stockholm, Sverige 2006 Klustring av svenska texter P E T E R J O H A N S S O N Examensarbete i datalogi om 20 poäng vid Programmet
Läs merStatistisk mönsterigenkänning
Statistisk mönsterigenkänning Jonas Sandström Artificiell intelligens II Linköpings universitet HT 2011 Innehållsförteckning 1. Innehållsförteckning sid 2 2. Inledning sid 3 3. Statistisk mönsterigenkänning
Läs merHUMANISTISKA FAKULTETEN. Språkteknologi, masterprogram, högskolepoäng
Utbildningsplan Dnr G 2017/293 HUMANISTISKA FAKULTETEN Språkteknologi, masterprogram, 60-120 högskolepoäng Master in Language Technology (One year Programkod: H2MLT 1. Fastställande Utbildningsplanen är
Läs merTDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen
Läs merForskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA
Forskning och utveckling inom språkteknologi Uppgift 3: Projektförslag Parallelliserad dependensparsning i CUDA Evelina Andersson 18 maj 2011 1 Introduktion Att träna mycket för att bli duktig på ett språk
Läs merPassage Retrieval En studie av index
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:36 ISSN 1404-0891 Passage Retrieval En studie av index LARS BJÖRKLUND LINDA BÄCKMAN
Läs merTekniker för storskalig parsning
Tekniker för storskalig parsning Introduktion till projektet Joakim Nivre Uppsala Universitet Institutionen för lingvistik och filologi joakim.nivre@lingfil.uu.se Tekniker för storskalig parsning 1(17)
Läs merRocchio, Ide, Okapi och BIM En komparativ studie av fyra metoder för relevance feedback
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID INSTITUTIONEN BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2008:45 ISSN 1654-0247 Rocchio, Ide, Okapi och BIM En komparativ studie
Läs merhttp://www.sm.luth.se/~andreas/info/howtosearch/index.html
& ' ( ( ) * +, ', -. / ' 0! 1 " 2 # 3 / /! 1 $ 4, % 5 # 3, http://www.sm.luth.se/~andreas/info/howtosearch/index.html Andreas Tips och trix till sökningar i Cyberrymnden Här försöker jag att gå igenom
Läs merPartiell parsning Parsning som sökning
Språkteknologi: Parsning Parsning - definition Parsningsbegrepp Chartparsning Motivering Charten Earleys algoritm (top-down chartparsning) Partiell parsning (eng. chunking) med reguljära uttryck / automater
Läs merGrundläggande textanalys. Joakim Nivre
Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar
Läs merData mining. Data mining Skillnaden mellan observationella och experimentella data
Data mining Skillnaden mellan observationella och experimentella data Data mining Metoder för att automatisktupptäcka icke-trivial användbar information i stora datamängder 1 Data mining: (Mot-)exempel
Läs merFör universitetsgemensamma regler för forskarutbildning se Regler för utbildning på forskarnivå vid Göteborgs universitet Doktorandreglerna.
HUMANISTISKA FAKULTETEN Dnr: U 2016/663 Allmän studieplan för doktorsexamen i Datalingvistik Studieplanen är fastställd av Humanistiska fakultetsstyrelsen vid Göteborgs universitet den 17 november 2016.
Läs mer729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion
Läs merSvensk nationell datatjänst, SND BAS Online
Pass 4: Metadatastandarder Mer om metadatastandarder Välkommen till presentation 3 i pass 4. Den här presentationen handlar om några olika teman som har att göra med metadatastandarder. Jag kommer att
Läs merMaskininlärning med boostrapping. Maskininlärningslabb i Språkteknologi
Maskininlärning med boostrapping Maskininlärningslabb i Språkteknologi Abstrakt Vi undersöker, med hjälp av maskininlärningslabben från denna kurs, hur pass bra resultat bootstrapping ger i samband med
Läs merAutomatisk query expansion En komparativ studie av olika strategier för termklustring baserade på lokal analys
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:82 Automatisk query expansion En komparativ studie av olika strategier för termklustring
Läs merHur man kan tillämpa Data Science och AI i säkerhetsarbetet. Magnus Sahlgren
Hur man kan tillämpa Data Science och AI i säkerhetsarbetet Magnus Sahlgren FOI Totalförsvarets forskningsinstitut (ett av Europas ledande forskningsinstitut inom försvar och säkerhet) Mer än 900 forskare
Läs merSlutrapport för projektet VISAT. Johan Hagman Leif Grönqvist Sven David Bergström Jens Allwood. Projektledare: Projektfinansiär:
Slutrapport för projektet VISAT av Johan Hagman Leif Grönqvist Sven David Bergström Jens Allwood Projektledare: Projektfinansiär: Jens Allwood FRN ImmigrantInstitutet, Borås Inst f Lingvistik, SSKKII,
Läs mer729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med
Läs merLösningsförslag till övningsuppgifter, del V
Lösningsförslag till övningsuppgifter, del V Obs! Preliminär version! Ö.1. (a) Vi kan lösa uppgiften genom att helt enkelt räkna ut avståndet mellan vart och ett av de ( 7 ) = 1 paren. Först noterar vi
Läs merEn komparativ litteraturstudie av olika termkällor för query expansion
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2005:80 ISSN 1404-0891 En komparativ litteraturstudie av olika termkällor för query
Läs merAtt använda Weka för språkteknologiska problem
Att använda Weka för språkteknologiska problem Systemet WEKA (Waikato Environment for Knowledge Acquisition) är en verktygslåda med olika maskininlärningsalgoritmer, metoder för att behandla indata, möjligheter
Läs merAnhållan om ändrad ersättning för vissa HST
INSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI Institutionen för filosofi, lingvistik och vetenskapsteori Martin Jacobsson Viceprefekt för utbildning på grundnivå och avancerad nivå 031-786
Läs mer729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap
729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering
Läs merSö ka litteratur i ERIC
1 Sö ka litteratur i ERIC Det finns två ingångar om man vill söka i databasen ERIC: Via webben gratis version från the Education Resources Information Center: Denna version kan vara bra att känna till
Läs merTentamen Del A. Marco Kuhlmann
TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det
Läs merSLAVISKA MEDELTIDSSTUDIER Masterexamen 120 hp
SLAVISKA MEDELTIDSSTUDIER Masterexamen 120 hp ÅR 1 Fornkyrkoslaviska och slavisk språkhistoria 1 SL2101-15 hp 15 hp Fornkyrkoslaviska och slavisk språkhistoria 2 SL2102-15 hp Fornkyrkoslaviska och slavisk
Läs mer2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan 2004-10-17 SÖKMOTOROPTIMERING. Av Erik Lindgren 810110-8218 soft@kth.se
2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan 2004-10-17 SÖKMOTOROPTIMERING Av Erik Lindgren 810110-8218 soft@kth.se SAMMANFATTNING Föreliggande uppsats behandlar ämnet sökmotoroptimering.
Läs merORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap
ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd
Läs merFOR BETTER UNDERSTANDING. Snabbguide. www.wordfinder.se
FOR BETTER UNDERSTANDING Snabbguide www.wordfinder.se Tekniska förutsättningar WordFinder 10 Professional för Mac kräver följande: Processor: Intel Mac OS X 10.5 eller senare. Installation Installation
Läs merLösningar till utvalda uppgifter i kapitel 1
Lösningar till utvalda uppgifter i kapitel. Vi utnyttjar definitionen av skalärprodukt som ger att u v u v, där α är (minsta) vinkeln mellan u v. I vårt fall så får vi 7 =. Alltså är den sökta vinkeln
Läs merGoogles sidrankning - linjär algebra värt en förmögenhet
Googles sidrankning - linjär algebra värt en förmögenhet Outline 1 Sökmotorer 2 Grafteori Linjär algebra 3 Målet Utifrån användarens sökord lista de mest relevanta webbsidorna. Dessutom i en ordning som
Läs merInformationssökning. Jörg Tiedemann. Introduktion till språkteknologi. Informationssökning. Inledning. Strukturerade data. Ostrukturerade data
Strukturerade Ostrukturerade Jörg Tiedemann 1 / 44 Strukturerade Ostrukturerade Vad är det vi söker? 2 / 44 Strukturerade Ostrukturerade Vad är det vi söker? Vad är det för material vi söker i? 2 / 44
Läs merP Q = ( 2, 1, 1), P R = (0, 1, 0) och QR = (2, 2, 1). arean = 1 2 P Q P R
1 Matematiska Institutionen KTH Lösningar till några övningar på geometri och vektorer inför lappskrivning nummer 2 på kursen Linjär algebra II, SF1604, vt11. 1. En triangel har hörn i punkterna (1, 2,
Läs merSök artiklar i databaser för Vård- och hälsovetenskap
Sök artiklar i databaser för Vård- och hälsovetenskap Bibliografiska databaser eller referensdatabaser ger hänvisningar (referenser) till artiklar och/eller rapporter och böcker. Ibland innehåller referensen
Läs merRullningslisten. Klicka på rullningslistpilar (pil upp eller pil ner) 1 för att förflytta dig i önskad riktning, en liten bit i taget.
Rullningslisten Om informationen i fönstret inte ryms på skärmen skapas automatiskt en rullningslist i fönstrets högra kant. Med rullningslisterna kan du snabbt och enkelt flytta dig i fönstret 1 Klicka
Läs merFöreläsning 11 - Automater, textsökning, tillstånd
Föreläsning 11 - Automater, textsökning, tillstånd Automater Textsökning KMP-automat (Knuth-automat) Boyer-Moore Rabin-Karp Sökning på webben Automater En portkodsautomat med nio knappar kan se ut så här:
Läs merTDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap
TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta
Läs merVi har väl alla stått på en matta på golvet och sedan hastigt försökt förflytta
Niclas Larson Myra på villovägar Att modellera praktiska sammanhang i termer av matematik och att kunna använda olika representationer och se samband mellan dessa är grundläggande förmågor som behövs vid
Läs merAnvända Internet. med hjälp av Internet Explorer. Nybörjarguide
Använda Internet med hjälp av Internet Explorer Nybörjarguide Av Carl Ewnert 1 Innehåll: 1. Introduktion 3 2. Utseendet 4 3. Verktygsfältet 4 4. Börja Surfa. 5 5. Att söka på Internet 5 6. Spara en sida
Läs merRandom Indexing. - med större korpus. Olof Stange & Claes Toll Handledare: Johan Boye DD2418 - Språkteknologi
- med större korpus Olof Stange & Claes Toll - Språkteknologi Innehållsförteckning Inledning s. 3 Bakgrund s. 3 Metod s. 3-4 Problem s. 4 Resultat s. 4-5 Analys s. 6-8 Sammanfattning s. 8 Källförteckning
Läs merKTH, NADA, Vahid Mosavat. 1. Flervalsfrågor (5p)
KTH, NADA, Vahid Mosavat 2D1343, TENTAMEN I DATALOGI FÖR ELEKTRO Onsdagen den 31 mars 2004 kl 8-13 Maxpoäng: tenta+bonus = 50+7. Betygsgränser: 25 poäng ger trea, 35 ger fyra, 45 ger femma. Otydliga/svårlästa
Läs merVektorgeometri för gymnasister
Vektorgeometri för gymnasister Per-Anders Svensson http://w3.msi.vxu.se/users/pa/vektorgeometri/gymnasiet.html Institutionen för datavetenskap, fysik och matematik Linnéuniversitetet Vektorer i planet
Läs merINSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI
INSTITUTIONEN FÖR FILOSOFI, LINGVISTIK OCH VETENSKAPSTEORI AMP011 Grekiska för filosofer, 10 högskolepoäng Greek for Philosophers, 10 credits Fastställande Kursplanen är en skiss, höstterminen 2018. Utbildningsområde:
Läs merSo ka artiklar och annan litteratur
1 So ka artiklar och annan litteratur UB:s startsida är en bra startpunkt när du ska söka litteratur vare sig du letar efter böcker eller artiklar. Sökrutan är nästan det första du lägger märke till. Bakom
Läs mer1 Minkostnadsflödesproblem i nätverk
Krister Svanberg, april 2012 1 Minkostnadsflödesproblem i nätverk Ett nätverk består av en given mängd noder numrerade från 1 till m (där m är antalet noder) samt en given mängd riktade bågar mellan vissa
Läs merTill flera av ovanstående finns det dessutom varianter, vilka kommer att presenteras i de olika avsnitten.
LINGUS32 Handledning Anne Börjesson Introduktion Lingus32 är ett program som främst är avsett att användas för att göra multimedia-baserade språkövningar. Programmet är skrivet för PC. Det finns möjlighet
Läs merTDP Regler
Regler Student får lämna salen tidigast en timme efter tentans start. Vid toalettbesök eller rökpaus ska pauslista utanför salen fyllas i. All form av kontakt mellan studenter under tentans gång är strängt
Läs merMagnus Palm. Lättläst IT
Magnus Palm Lättläst IT Del 1 LÄRA KÄNNA DIN DATOR 1. Persondatorn... 6. Bekanta dig med Windows XP... 7 3. Filer... 10. Hitta i datorn... 1 5. Gör det enkelt att hitta i datorn... 16 6. Övningsuppgifter...
Läs merAtt hitta projekt. Björn Victor. måndag 19 mars 12
Att hitta projekt Björn Victor Övning: projektbeskrivning Till måndag: skriv en (1) sida som beskriver projektet på Distribuerade system med projekt Övning: inte obligatorisk, men nyttig! 1. vad var planen/avsikten/syftet/målet
Läs merSemantik och pragmatik
Semantik och pragmatik OH-serie 7.2 http://stp.lingfil.uu.se/~matsd/uv/uv12/semp/ Dagens punkter Om att undersöka språkbruket i politisk text, närmare bestämt riksdagsanföranden. Text från ett parti kontra
Läs merUppgift 1 ( Betyg 3 uppgift )
2006-12-08.kl.08-13 Uppgift 1 ( Betyg 3 uppgift ) Implementera följande funktion: fun(1) = 1 fun(n) = fun(n / 2), för jämna n fun(n) = n / (fun(n - 1) + fun(n + 1)), för udda n Exempel på korrekta resultat:
Läs merMedicinsk Informatik VT 2004
Informatik VT 2004 Introduktion till Informatik Informationsteknologi Information technology Datavetenskap Computer science Informatik Teknikgrad Systemvetenskap System analysis and design Informatics
Läs merSpråkteknologiprogrammet
Språkteknologiprogrammet Institutionen för lingvistik och filologi Uppsala universitet Beáta Bandmann Megyesi 1 Institutionen för lingvistik och filologi 3 grupper (1 januari 2004) 1. Klassiska språk 2.
Läs merAutomatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter
Automatisk taligenkänning som hjälpmedel för att bedöma muntliga språkfärdigheter Mikko Kurimo Institutionen för signalbehandling och akustik Aalto-universitetet Innehåll 1. Hur automatisk taligenkänning
Läs merGrundläggande Idéer Algoritmens komponenter Numerisk optimering Genetisk Programmering. Genetiska Algoritmer
Genetiska Algoritmer 1 Grundläggande Idéer 2 3 4 Exempel Parallell optimering inspirerad av biologisk evolution Parallell optimering inspirerad av biologisk evolution Population av hypoteser Urvalprocess
Läs merINNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3
Ordboken 1 Innehållsförteckning INNEHÅLLSFÖRTECKNING... 1 INLEDNING... 2 1. ORDBOKEN I VERKTYGSLISTEN... 3 2. ORDBOKEN... 3 MINIMERA OCH STÄNG... 3 SÖKFÄLT... 4 SÖKRESULTAT... 4 Resultat... 4 Ordklassfärger...
Läs merQuery expansion med semantiskt relaterade termer
MAGISTERUPPSATS I BIBLIOTEKS- OCH INFORMATIONSVETENSKAP VID BIBLIOTEKS- OCH INFORMATIONSVETENSKAP/BIBLIOTEKSHÖGSKOLAN 2004:84 Query expansion med semantiskt relaterade termer Sofia Höglund Sofia Höglund
Läs merDatorlingvistisk grammatik
Datorlingvistisk grammatik Kontextfri grammatik, m.m. http://stp.lingfil.uu.se/~matsd/uv/uv11/dg/ Mats Dahllöf Institutionen för lingvistik och filologi Februari 2011 Denna serie Formella grammatiker,
Läs mer729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna
Läs meröversikt 1. informationsförädling är, typ: 2. Squirrelprototypen 3. möjligheter för framtiden [5] ICALL/2
[5] ICALL/2 Datalingvistikprogrammet Datorstödd språkinlärning och språkteknologi 27/9 2005 översikt 1. informationsförädling är, typ: 2. Squirrelprototypen 3. möjligheter för framtiden 1 informationsförädling
Läs merLösningar Datastrukturer TDA
Lösningar Datastrukturer TDA416 2016 12 21 roblem 1. roblem 2. a) Falskt. Urvalssortering gör alltid samma mängd av jobb. b) Sant. Genom att ha en referens till sista och första elementet, kan man nå både
Läs merOBS! Vik och riv försiktigt! TRENDS IN INTERNATIONAL MATHEMATICS AND SCIENCE STUDY. Elevenkät. Årskurs 4. TIMSS 2015 Skolverket Stockholm
OBS! Vik och riv försiktigt! TRENDS IN INTERNATIONAL MATHEMATICS AND SCIENCE STUDY Elevenkät Årskurs 4 TIMSS 2015 Skolverket 106 20 Stockholm IEA, 2014 Instruktioner I det här häftet finns frågor om dig
Läs merTaltaggning. Rapport av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003
Taltaggning av Daniel Hasselrot 781105-0157, d98-dha@nada.kth.se 13 oktober 2003 Sammanfattning Denna rapport är skriven i kursen Språkteknologi och behandlar taggning av årtal i en text. Metoden som används
Läs merUppdaterad / EM. The Cochrane Library
The Cochrane Library Vad är The Cochrane Library? En samling databaser med syfte att samla och kvalitetsvärdera kliniska studier om effekterna av olika behandlingar. Cochrane består av två databaser Cochrane
Läs merCinahl Headings. Sökguide. Sökning med kontrollerade ämnesord
Cinahl Headings Sökguide Sökning med kontrollerade ämnesord Cinahl Headings - en ämnesordlista för vården Cinahl Headings är uppbyggd på samma sätt som MeSH - Medical Subject Headings Ca 70% av alla ämnesord
Läs mer3. Toppkvinnor på hög Låt lådan och de två kvinnornas famnar utgöra stackarna L, K1 respektive K2. Från början finns alla kort i L.
KTH, Nada, Erik Forslin 2D1343, LÖSNING TILL TENTAMEN I DATALOGI FÖR ELEKTRO Lördagen den 8 mars 2003 kl 14 19 Maxpoäng tenta+bonus = 50+7. Betygsgränser: 25 poäng ger trea, 35 ger fyra, 45 ger femma.
Läs mer