Specifikation och tidsplan för examensarbete Anneli Lönn 19 maj 2003 1 Deltagare Anneli Lönn ska utföra projektet hos CognIT a.s i Oslo Robert Engels, handledare CognIT a.s Till Christopher Lech, handledare CognIT a.s Viggo Kann, handledare NADA, KTH Stefan Arnborg, examinator NADA, KTH 2 Problemdefinition Hur bär man sig åt för att extrahera användarspecifik information ur en textmassa som är mycket inhomogen till formen. 3 Bakgrund AmbieSense 1 är ett EU-finansierat forsknings- och utvecklingsprojekt med många aktörer inblandade. Projektet syftar till att utveckla ett system där man taggar omgivningen med små elektroniska tags som är ständigt uppkopplade mot informationsgivare, s.k. content providers. En content provider kan till exempel vara en nyhetsbyrå eller en restaurang. När en användare sedan passerar en tag med sin handhållna dator upprättas en tillfällig förbindelse med blåtandteknologi och information kan överföras. Skillnaden mellan denna och andra typer av uppkopplingar ligger i att i AmbieSense kommer information även att aktivt söka mottagaren. Användaren kommer hela tiden att placeras i olika sammanhang eller kontexter beroende på var användaren befinner sig och annan information om användaren systemet kan tänkas få. Vet till exempel systemet att användaren just har landat med ett flyg ska det kunna ge direktioner till var hämtning av bagage ska ske. Många möjligheter finns givetvis och många tjänster beror på vilka content providers som ställer information till förfogande för systemet. 1 AmbieSense (IST 2001-34244): http://www.ambiesense.com 1
4 Uppgift Uppgiften för det här examensarbetet är att undersöka och om möjligt förbereda en informationskälla till ovanstående system. Lonely Planet har en databas som är insamlad genom att resande loggar in på deras hemsida och tipsar om allehanda saker 2. Det finns förstås mängder med information att hämta där och Lonely Planet är just en av de content providers som är med och arbetar med AmbieSense. Problemet ligger i att ovan nämnda databas är mycket inhomogen och det allra mesta är inte av intresse för den resande användaren. CognIT har tidigare utvecklat komponenter som utför sökning och klassificering av intressanta dokument 3. Detta kommer förmodligen att användas för att få ner textmassan till en mer hanterlig storlek. Därefter ska texterna analyseras med lämplig teknik för att extrahera specifik information inom cirka tre domäner. Förslag på domäner är billigt boende, billig mat och saker att göra i London. Alla tre med en bakgrund att de riktar sig mot den typiske budgetresenären. Informationen ska sedan sammanfattas och presenteras överskådligt för att den ska kunna användas i vidare utvecklingsskeden. Litteratur som ska användas till inläsningsdelen finns listad under punkten Appendix. Nästan all information i databasen är på engelska så informationsextraheringen ska ske ur engelsk text. 2 The Lonely Planet Thorn Tree: http://thorntree.lonelyplanet.com 3 Robert Engels, Bernt Bremdal: Information Extraction, State-of-the-Art Report, 5th Deliverable of the OnToKnowledge Project (IST-1999-10132) http://www.ontoknowledge.org/downl/del5.pdf 2
5 Tidsplan Arbetet utgör 20 poäng i civilingenjörsexamen. Det motsvarar 20 arbetsveckor. Nedan följer en veckoplan för det fortsatta arbetet. Vecka Datum Kommentar v19 03-05-05 Specifikation, Tidsplan och Litteraturlista v20 03-05-12 Godkänna ovanstående v21 03-05-19 Inläsning/Implementation v22 03-05-26 Inläsning/Implementation v23 03-06-02 Metodkurs och Inläsning v24 03-06-09 Inläsning/Implementation v25 03-06-16 Rapportstruktur v26 03-06-23 Inläsning v27 03-06-30 Implementation v28 03-07-07 Implementation v29 03-07-14 Implementation v30 03-07-21 Implementation och Tester v31 03-07-28 Tester v32 03-08-04 Analys av resultat v33 03-08-11 Insamla projektspecifik data v34 03-08-18 Rapport v35 03-08-25 Rapport v36 03-09-01 Rapport v37 03-09-08 Förbereda presentation och opposition v38 03-09-15 Förb. och Rapport v39 03-09-22 Förb. och Rapport v40 03-09-29 Förb. och Rapport 6 Underskrifter Studenten Handledare, CognIT Handledare, NADA Examinator, NADA 3
7 Appendix Inläsningsdelen kommer att bestå av merparten av följande litteratur. Listan kan komma att ändras om nya, intressanta artiklar hittas och allteftersom konkreta, hittills oförutsedda informationsbehov uppstår. Ur Information Extraction SCIE-97 Springer-Verlag Berlin 1997 1. Grishman Ralph, Information Extraction: Techniques and Challenges 2. Boguraev B, Kennedy C, Technical Terminology for Domain Specification and Content Characterisation 3. Guarino N, Semantic Matching: Formal Ontological Distinctions for Information Organization, Extraction and Integration 4. Neri F, Saitta L, Machine Learning for Information Extraction Ur Information Extraction: towards scalable adaptable systems SCIE-99 Springer-Verlag Berlin 1999 1. Wilks Yorick, Catizone Roberta, Can we make Information Extraction More Adaptive? 2. Sowa John F. Relating Templates to Language and Logic 3. Vilain Marc, (The MITRE Corporation), Inferential Information Extraction 4. Basili Roberto, Di Nanni Massimo, Pazienza Maria Teresa, Engineering of IE-Systems: An Object-Oriented Approach Rapporter rekommenderade av uppdragsgivaren (CognIT), Fler artiklar kommer att inkluderas. 1. Pollich Juergen, Lech Till C, D2 - Reference Information Model (RIM), WP2 Modelling and design of AmbieSense Technology, The AmbieSense Consortium 2002 2. Engels Robert, Bremdal Bernt, ONTOKnowledge State-of-the-Art Report, CognIT a.s Stöd- och referenslitteratur. 1. Jurafsky Daniel, Martin James H, Speech and Language Processing, Prentice Hall Inc, 2000 2. Lischner Ray, Delphi in a nutshell, O Reilly & Associates, 2000 4
3. Dominich Sándor, Mathematical Foundations of Information Retrieval, Kluwer Academic Publishers, 2001 4. Milner Wendy L, Common Lisp A Tutorial, Prentice Hall Inc, 1988 5. Wood Derick, Yu Sheng, Automata Implementation, WIA 97 Springer- Verlag Berlin, 1998 5