Sammanfattning av Business Intelligence-kursen Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se Omvärldsbevakning Påverkan från omvärlden Påverka omvärlden Tidigare långsam spridning papperstidningar, inga telefoner, datorer Nu snabb spridning webbtidningar, (web)bloggar Hercules Dalianis 1 Hercules Dalianis 2 Nyhetsarkiv och källork Omvärldsbevakaren vill veta allt först Tidsvinsten gör att man kan reagera Vet man först då kan man ta mått och steg Se nya mönster Allt är inte vetenskap utan även en konst. Källor ger ett flöde som passerar, Stort eller litet Många eller få källor Olika språk Arkiv Sträcker sig tillbaka i tiden 1 år, 10 år 1 000 år. Övrigt samma som ovan Hercules Dalianis 3 Hercules Dalianis 4 Hämta webbnyheter Format HTML Problem att hitta texten där. Ingen följer HTML-standard RSS lösningen? Robots.txt Javascript Intranät Modeller över texter Boolska modellen AND, OR, NOT, (NEAR) Termviktningsmodellen Frekvensbaserad Stoppord vanliga ord i alla texter, och, eller, på, i, under Hälften av alla ord Hercules Dalianis 5 Hercules Dalianis 6 1
Tekniker och Teori Termviktningsmodellen tf = termfrekvens i ett dokument IDF = Invers dokument frekvens över alla dokument IDF = N/di där N totalt antal dokument och di är antal dokument där termen förekommer. Högt IDF är hög signifikans Sökstöd Stemming / Ordböjning Aktie => aktie, aktie, aktier, aktierna, Trunkering -aktie* => aktie, aktie, aktier, aktierna,aktiebolaglagen Frågeexpansion, (termexplansion), synonymer Aktie => börs, aktie, obligationer.. Hercules Dalianis 7 Hercules Dalianis 8 Sökstöd d (forts) Stavningsstöd Akiter => aktie eller akter Särskrivning och hopskrivning Mobiltelefonbatteri => mobil, telefon, batteri Distans kurs => distanskurs KWIC textextrakt Kontext där sökordet förekommer i dokumentet syns i träfflistan Automatic text summarization is the method where a computer summarizes a text. An extract from a longer original text. A text is given to the computer and it returns a non-redundant shorter text This technique has it s roots in the 60 s. Hercules Dalianis 9 Hercules Dalianis 10 SweSum SweSum summarizes news text SweSum is available for 8 languages Swedish, Danish, Norwegian, English, Spanish, French, German and in Farsi (Iranian). http://swesum.nada.kth.se What is Automatic summarization good for? Search engine - extracts in hit lists Business Intelligence- survey news flow Translation - make the text shorter before translating the text Summarize news for SMS, WAP, 3G-format News paper setting and printing Speech synthesis - summarize text before synthesize. Text-To-Speech Hercules Dalianis 11 Hercules Dalianis 12 2
Namnigenkänning nning Personnamn: Erik Ericsson, Dr. Ericsson Platser: Stockholm, LA, Getaryd, Helsingborg,Valhallavägen Organisationer: SBAB, Ericsson AB, SJ, KTH, Statskontoret, Pressbyrån Tidpunkter: Torsdagen, 4 maj 2004, 20:00, eftermiddagen. Search and summarize with SiteSeeker Stemming för Swedish, Danish, English tax => taxes, taxation Spell checker taxaiton => taxation summarization, summarisation Snippets - text extracts (KWIC) Ranking based on HTML-structure Hercules Dalianis 13 Hercules Dalianis 14 Hercules Dalianis 15 Hercules Dalianis 16 Klustring Skillnaden mellan kategorisering och klustring? Kategori är förutbestämt av någon Inrikes, Utrikes, Sport, Ekonomi Kluster är något som uppstår Klustring - Automatisk kategorisering Klustring vid sökning Hitta nya samband mellan dokument 100 000 nyhetstexter kan man gruppera dem på något sätt? Hercules Dalianis 17 Hercules Dalianis 18 3
Främmande språk Flerspråklig nyhetsbevakning, Lexikon för att översätta enstaka ord Maskinöversättning för att automatiskt översätta hela texter Hercules Dalianis 19 Hercules Dalianis 20 Språkanalys Maskinöversättning (MT) började på 1950- talet Svåraste området inom språkteknologi (Fri talaroberoende taligenkänning också mycket svårt) MT-systemen börjar nu bli användbara för att översätta enklare texter. Syntax - ordningen på symbolerna Semantik - betydelserna av symbolerna Pragmatik - riktiga användningen av språket Kan du öppna fönstret? Hercules Dalianis 21 Hercules Dalianis 22 Grammatik (Syntax) Tusentals regler för ett språk Nya konstruktioner uppkommer hela tiden Lexikon Hundratusentals ord Baslexikon på 30 000 ord Domänlexikon på lika mycket Domänberoende svårt att komma ifrån Nya ord tillkommer hela tiden Hercules Dalianis 23 Hercules Dalianis 24 4
Statistik Träna upp systemen på parallella korpora En mening på finska motsvarar en på svenska Hercules Dalianis 25 Hercules Dalianis 26 Evaluering Precision = antal funna relevanta nyheter/ totalt antal funna nyheter Täckning = antal relevanta nyheter/ totalt alla relevanta nyheter Tack för f r en trevlig kurs! Efter tentan vill jag att ni svarar på kursutvärderingen Hercules Dalianis 27 Hercules Dalianis 28 5