Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter



Relevanta dokument
Innehåll. Informationssökning språkteknologiska hjälpmedel

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Business Intelligence. Vad är r Business Intelligence? Andra termer. Övergripande faktorer. Specifika termer för BI är:

Bilverkstäder. Stemming. Tvetydigheter tas bort. Slå ihop till samma ord. Språkteknologiska stöd vid sökning och kategorisering

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Klustring av svenska tidningsartiklar

Lösningsförslag till tentamen i Språkteknologi 2D1418,

Dagens lektion. Mina forskningsintressen. Min bakgrund. Information Retrieval. Varför IR & disambiguering

Pragmatik. Olika nivåer. Tumregler. Grice s samarbetsprinciper. Pragmatik och diskurs

TDDD02 Föreläsning 7 HT-2013

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

WorldPenScan X med mobila enheter

PubMed (Medline) Fritextsökning

Cristina Eriksson oktober 2001

Translation Changes in Swedish EBSCOhost Interface

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Vägar till bättre översättningsprogram

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Maskinöversättning 2008

Fastställande. Allmänna uppgifter. Kursens mål

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Lathund för Lifos-systemet

Random Indexing för vektorbaserad semantisk analys

Att söka vetenskapliga artiklar inom vård och medicin -

Mekaniskt lexikon, patenterat av George Artsrouni på tidigt 1930 tal Perforerade pappersband och avläsningsnockar 1 ord per 3 sekunder

Webbplats analys google.com

(NEEDS ORIENTED) TOOLBOX FOR EUROPEANS

Mötesplats inför framtiden Borås april Catharina Rehn Karolinska institutets bibliotek

BCI. Mats Lundälv. Senior IKT-pedagog. f.d. DART (Sahlgrenska universitetssjukhuset) och SPSM BCI

Beräkning med ord. -hur en dator hanterar perception. Linköpings universitet Artificiell intelligens Erik Claesson

Kompetensutveckling om språkstörning för förskolans personal

Teoretisk lingvistik och datalingvistik. Robin Cooper

Automatisk textsammanfattning

SVENSK STANDARD SS-EN ISO

SLAVISKA MEDELTIDSSTUDIER Masterexamen 120 hp

3. Klicka på en knapp, tryck på ALT N, eller tryck på ENTER

Utvärdering SFI, ht -13

Introduktion till programmering. Programspråk och paradigmer

Kursplan. EN1088 Engelsk språkdidaktik. 7,5 högskolepoäng, Grundnivå 1. English Language Learning and Teaching

Sociala medieströmmar metoder för analys och samarbete via nya medieformat. Pelle Snickars, Umeå universitet & Lars Degerstedt, Södertörns högskola

Mobil tolkningsapp för ambulanspersonalen

Sök och SEO i den nya världen - Hur du kan arbeta effektivt med mobilt, socialt och klassiskt sök!

Mycket tillfredsställande Tillfredsställande. Ej tillfredsställande. Ej deltagit/ingen uppfattning. Tillfredsställande. Ej tillfredsställande

Inledning. Hur få hjälp? Språkkontroller. Grim. Språteknologi på Språkrådet SPRÅKTEKNOLOGI FÖR SPRÅKVÅRDARE

1. Compute the following matrix: (2 p) 2. Compute the determinant of the following matrix: (2 p)

Introduktion till biblioteket och informationssökning Språk och litteraturer

LINKÖPINGS UNIVERSITET 729G11, Artificiell Intelligens II, HT10 SMT. En fördjupning i statistiska maskinöversättningssystem

Träna engelsk grammatik C - Facit Läraranvisning Textview. Verksnummer: 40185

HAÖVR, Masterprogram i översättning, 120 högskolepoäng Master's Programme in Translation, 120 credits

Session: Historieundervisning i högskolan

Kristian Almgren Artificiell Intelligens Linköpings Universitet Talstyrning

SPRÅKTEKNOLOGIPROGRAMMET (STP)

Workplan Food. Spring term 2016 Year 7. Name:

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund Söka artiklar, kursen Människans livsvillkor, 22 januari 2013

A" söka vetenskapliga ar1klar inom vård och medicin -

Retrieve a set of frequently asked questions about digital loans and their answers

Språkteknologin i industrin

Sökning med prefix i BOOK-IT PUB

Fredrik Harstad. lärare i svenska, svenska som andraspråk och historia. ABF Vuxenutbildning sedan läroböcker, nationella prov, kursplaner

Ordinarie tenta i Psykiska funktioner och deras biologiska bas: Del 3 (kognition), Psykologprogrammet, Tl, den 13 maj 2016 (PS3100:0372)

Lexikon. versättning. Maskinövers. Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching, Lexikon

Tips o trix med fokus på Tid SAPSA HR-dagarna, Såstaholm Anna Wahlström o Anette Meijer, Zalaris

SVENSK STANDARD SS-EN ISO 9706

Ändringar i språkfiler i e-line 3.42A

ÄEND02, Engelska II, 15 högskolepoäng English II, 15 credits Grundnivå / First Cycle

Matematikens grundvalar och programmering av datorer

Fullgjorda kursutvärderingar: 15 Frågor: 27. Lärarens kommentar. Tack till alla er som deltog i kursutvärderingen!

Grammatik, det fixar väl datorn?

(-07) (-93) Högskoleexamen. Science X X X X. /Filosofie. Science * X. /Filosofie

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Examensrätt. Library and Information Science Filosofie Arts X X X X


(-07) (-93) Högskoleexamen. Biblioteks- och informationsvetenskap. Library and Information Science Filosofie Arts X X X X

Biblioteken, Futurum 2017

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

ÄFRD02, Franska 2 med utbildningsvetenskaplig inriktning, 30 högskolepoäng French for Secondary Education, Level 2, 30 credits Grundnivå / First Cycle

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

The Cochrane Library. Vad är The Cochrane Library? Allmänna databaser

Perspektiv på programmering, #13, Karlstad HISTORISKT OCH UNDERVISNING

Lathund för Gustavas ordböcker

(-07) (-93) Högskole- Arkeologi Archaeology Filosofie Arts X X X X Biblioteks- och

Språkstörning och dyslexi i skolan - teori, strategi och verktyg. Välkommen! Maria Tsangari Sofia Grunér Logopeder på Logopedbyrån Dynamica

Google Guide: Tips för sökoptimering

INSTITUTIONEN FÖR SPRÅK OCH LITTERATURER

Institutionen för individ och samhälle Kurskod SVA201

Språkteknologi inom amerikanska försvaret

Kursplaneöversättaren. Lina Stadell

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Föreläsning 2. Operativsystem och programmering

Sökanalys för intranät

Välkommen! Det börjar snart. Framtidens kund - en omvärldsspaning. TEK Verksamhet för framtiden Gullbranna 24 oktober2012

Linköpings Universitet Artificiell Intelligens II 729G11 HT QA- system. Anders Janson

Webbplats analys cite4me.org

SPRÅKTEKNOLOGIPROGRAMMET

ALLMÄNNA STUDIER. Kommunikationsfärdigheter I (1 sv) 9102 Kommunikationsfärdigheter II (1 sv) ALLMÄNNA STUDIER 1

TEACHING AND LECTURING

ÄSAD11, Svenska som andraspråk 1, 30 högskolepoäng Swedish as a Second Language 1, 30 credits Grundnivå / First Cycle

Kandidatprogrammet i språk, litteratur och medier

Assigning Ethical Weights to Clinical Signs Observed During Toxicity Testing

Transkript:

Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar, inga telefoner, datorer Nu snabb spridning webbtidningar, (web)bloggar Hercules Dalianis 1 Hercules Dalianis 2 Nyhetsarkiv och källork Omvärldsbevakaren vill veta allt först Tidsvinsten gör att man kan reagera Vet man först då kan man ta mått och steg Se nya mönster Allt är inte vetenskap utan även en konst. Källor ger ett flöde som passerar, Stort eller litet Många eller få källor Olika språk Arkiv Sträcker sig tillbaka i tiden 1 år, 10 år 1 000 år. Övrigt samma som ovan Hercules Dalianis 3 Hercules Dalianis 4 Hämta webbnyheter Format HTML Problem att hitta texten där. Ingen följer HTML-standard RSS lösningen? Robots.txt Javascript Intranät Modeller över texter Boolska modellen AND, OR, NOT, (NEAR) Termviktningsmodellen Frekvensbaserad Stoppord vanliga ord i alla texter, och, eller, på, i, under Hälften av alla ord Hercules Dalianis 5 Hercules Dalianis 6 1

Tekniker och Teori Termviktningsmodellen tf = termfrekvens i ett dokument IDF = Invers dokument frekvens över alla dokument IDF = N/di där N totalt antal dokument och di är antal dokument där termen förekommer. Högt IDF är hög signifikans Sökstöd Stemming / Ordböjning Aktie => aktie, aktie, aktier, aktierna, Trunkering -aktie* => aktie, aktie, aktier, aktierna,aktiebolaglagen Frågeexpansion, (termexplansion), synonymer Aktie => börs, aktie, obligationer.. Hercules Dalianis 7 Hercules Dalianis 8 Sökstöd d (forts) Stavningsstöd Akiter => aktie eller akter Särskrivning och hopskrivning Mobiltelefonbatteri => mobil, telefon, batteri Distans kurs => distanskurs KWIC textextrakt Kontext där sökordet förekommer i dokumentet syns i träfflistan Automatic text summarization is the method where a computer summarizes a text. An extract from a longer original text. A text is given to the computer and it returns a non-redundant shorter text This technique has it s roots in the 60 s. Hercules Dalianis 9 Hercules Dalianis 10 SweSum SweSum summarizes news text SweSum is available for 8 languages Swedish, Danish, Norwegian, English, Spanish, French, German and in Farsi (Iranian). http://swesum.nada.kth.se What is Automatic summarization good for? Search engine - extracts in hit lists Business Intelligence- survey news flow Translation - make the text shorter before translating the text Summarize news for SMS, WAP, 3G-format News paper setting and printing Speech synthesis - summarize text before synthesize. Text-To-Speech Hercules Dalianis 11 Hercules Dalianis 12 2

Namnigenkänning nning Personnamn: Erik Ericsson, Dr. Ericsson Platser: Stockholm, LA, Getaryd, Helsingborg,Valhallavägen Organisationer: SBAB, Ericsson AB, SJ, KTH, Statskontoret, Pressbyrån Tidpunkter: Torsdagen, 4 maj 2004, 20:00, eftermiddagen. Search and summarize with SiteSeeker Stemming för Swedish, Danish, English tax => taxes, taxation Spell checker taxaiton => taxation summarization, summarisation Snippets - text extracts (KWIC) Ranking based on HTML-structure Hercules Dalianis 13 Hercules Dalianis 14 Hercules Dalianis 15 Hercules Dalianis 16 Klustring Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Inrikes, Utrikes, Sport, Ekonomi Kluster är något som uppstår Klustring - Automatisk kategorisering Klustring vid sökning Hitta nya samband mellan dokument 100 000 nyhetstexter kan man gruppera dem på något sätt? Hercules Dalianis 17 Hercules Dalianis 18 3

Främmande språk Flerspråklig nyhetsbevakning, Lexikon för att översätta enstaka ord Maskinöversättning för att automatiskt översätta hela texter Hercules Dalianis 19 Hercules Dalianis 20 Språkanalys Maskinöversättning (MT) började på 1950- talet Svåraste området inom språkteknologi (Fri talaroberoende taligenkänning också mycket svårt) MT-systemen börjar nu bli användbara för att översätta enklare texter. Syntax - ordningen på symbolerna Semantik - betydelserna av symbolerna Pragmatik - riktiga användningen av språket Kan du öppna fönstret? Hercules Dalianis 21 Hercules Dalianis 22 Grammatik (Syntax) Tusentals regler för ett språk Nya konstruktioner uppkommer hela tiden Lexikon Hundratusentals ord Baslexikon på 30 000 ord Domänlexikon på lika mycket Domänberoende svårt att komma ifrån Nya ord tillkommer hela tiden Hercules Dalianis 23 Hercules Dalianis 24 4

Statistik Träna upp systemen på parallella korpora En mening på finska motsvarar en på svenska Hercules Dalianis 25 Hercules Dalianis 26 Evaluering Precision = antal funna relevanta nyheter/ totalt antal funna nyheter Täckning = antal relevanta nyheter/ totalt alla relevanta nyheter Tack för f r en trevlig kurs! Efter tentan vill jag att ni svarar på kursutvärderingen Hercules Dalianis 27 Hercules Dalianis 28 5