Mötesplats inför framtiden Borås 23-25 april 2001. Catharina Rehn Karolinska institutets bibliotek



Relevanta dokument
Sök artiklar i databaser för Vård- och hälsovetenskap

Att söka vetenskapliga artiklar inom vård och medicin -

Söka artiklar i CSA-databaser Handledning

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

Sö ka artiklar öch annan litteratur

Sö ka artiklar öch annan litteratur

Business Intelligence. Vad är r Business Intelligence? Andra termer. Övergripande faktorer. Specifika termer för BI är:

Sök artiklar i PubMed

A" söka vetenskapliga ar1klar inom vård och medicin -

INFORMATIONSSÖKNING: SJUKSKÖTERSKEPROGRAMMET T1. Medicinska biblioteket

PubMed (Medline) Fritextsökning

Ämnesområden. Examensarbete inom datavetenskap (1DV41E) Martin Fredriksson

Optimering av webbsidor

Pass 2: Datahantering och datahanteringsplaner

En fråga som ibland dyker upp är den om illamående och kräkningar. Kan man med någon omvårdnadsintervention göra det lättare för patienten.

Slutrapport Vertikala Sökmotorer Uppdrag från.se:s Internetfond Våren 2008

Sö ka artiklar öch annan litteratur

Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel.

PubMed gratis Medline på Internet 1946-

Sökexempel Arbetsterapeuter T3

So ka artiklar och annan litteratur

A" söka vetenskapliga ar1klar inom vård och medicin -

Cinahl sökguide. Enkel sökning. Ämnesordsökning

UB:s sö ktjä nst - Söka artiklar och annan litteratur

Medicinsk Informatik VT 2005

E-biblioteket en tjänst från sjukhusbiblioteken

Sök artiklar i PubMed: handledning

Källkritisk metod stora lathunden

Medicinsk Informatik VT 2004

Socialtjänstbiblioteket

Elektronisk patientjournal

Sammanfattning av informationssökning VT19

En fråga som då och så uppkommer är Finns det några bevis för att akupunktur hjälper mot spänningshuvudvärk


Välkommen till informationssökning via webben. Tips om sökningar inför uppsatsskrivandet med klickbara länkar.

Källkritik. - om att kritiskt granska och värdera information. Ted Gunnarsson

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Artiklar via UB:s sö ktja nst

Utbildningsplan för magisterprogrammet i hälsoinformatik

Biblioteken, Futurum 2017

PubMed (Public Medline) - sökmanual

Nyttan av att slå upp e-resursers licensinfo (och bestånd)

GRATIS SEO, SÖK- OPTIMERING? JA, DETTA KAN DU GÖRA SJÄLV!

Kvinnor och män i statistiken 11

» RSS - Bygg din egen RSS!

Informationssökning - att söka och finna vetenskapliga artiklar! Linköpings Universitetsbibliotek

Referenshantering med Zotero 1

Umeå universitetsbibliotek Campus Örnsköldsvik Eva Hägglund HITTA VETENSKAPLIGA ARTIKLAR I KURSEN VETENSKAPLIG TEORI OCH METOD I

PageTurner är en tjänst för att skapa bläddringsbara Flash-dokument - ett inslag i den moderna webbvärlden som blivit alltmer populärt.

Mälardalens högskola

Grundläggande EndNote

Tänk kreativt! Informationssökning. Ha ett kritiskt förhållningssätt! regiongavleborg.se

Bevaka vetenskapliga tidskrifter med hjälp av RSS

Introduktion till språkteknologi

Användningsstatistik ur ett konsortieadministrativt perspektiv. Lisa Lovén, Stockholms universitetsbibliotek CRIStin Vårmøte 21 april 2015

Snabbguide till Cinahl

Sökanalys för intranät

Att hålla sig uppdaterad

Anvisningar till rapporter i psykologi på B-nivå

Web Services. Cognitude 1

Adobe Acrobat 7.0. Få jobbet gjort med kraftfulla intelligenta dokument

PubMed lathund Örebro universitetsbibliotek Medicinska biblioteket.

Geodataportalen - Metadata -Webbformulär för redigering av metadata

API:er/Mashup. Föreläsning 4 API:er och Mashups. Johan Leitet johan.leitet@lnu.se twitter.com/leitet facebook.com/leitet. Webbteknik II, 1DV449

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

Installationsanvisning för Su Officemallar 2011 För Mac Word och PowerPoint

SwePub som källa för bibliometriska analyser

Utbildningsplan för Programmet för Medicinsk Informatik 160 poäng

EndNote X8. Bygg ditt eget referensbibliotek. - där du samlar referenser från olika databaser på ett och samma ställe

Lathund för sökning i

Råd gällande vokabulärer för kommuners och landstings arbete med länkade öppna data

Information om examensarbetet för studenter och examinatorer

AXIELL ARENA Det digitala biblioteket

Läsa artiklar i artikeldatabaser med kompensatoriska hjälpmedel

Datamodeller och databaser, avancerad kurs

Bortom AND, OR och NOT. Fördjupning i fritextsökning


Originalprincipen

Öppna EndNote varje gång när du vill samla referenser till ditt bibliotek.

Marie Gustafsson. Böcker. Böcker. Tidningar och. Utskrifter

Affärsmodeller och samarbete på framtidens Internet

Web Crawlers. TDTS09, Datornät och internetprotokoll. Denis Golubovic Fredrik Salin Linköpings universitet Linköping

Hitta en artikel som använt samma teoretiker i samma sammanhang som du. Viktor Öman, bibliotekarie viktor.oman@mdh.se

Evidensbaserad informationssökning

SEO Sökmotoroptimering

- LATHUND MED Tips och exempel för dig som ska skriva en källförteckning

Sökning, källkritik och referenshantering EITA LINA AHLGREN & OLA HEDBÄCK

CBI-biblioteket. Presentation för CBI:s intressentförening Eva Lundgren

Manual HSB Webb brf

Hem Resurser. SpinFire Professional. Partnerlogin. Deutsch 简 体 中 文 English. Centro. ActifyInsight. 1 av :35

Att hitta projekt. Björn Victor. måndag 19 mars 12

Intressetrappan i sociala medier. En mall från That Social Media Guy

Guide för Innehållsleverantörer

Geodataportalen - Metadata - Dokumentation av tjänster

Utbildningsplan för masterprogrammet i folkhälsovetenskap

Från kaos till ordning

2D1418, Språkteknologi NADA, Kungliga Tekniska Högskolan SÖKMOTOROPTIMERING. Av Erik Lindgren

Installationsanvisning för Su Officemallar 2011 För Mac Word och PowerPoint

Transkript:

Mötesplats inför framtiden Borås 23-25 april 2001 Catharina Rehn Karolinska institutets bibliotek

Kan textutvinning ge rikare informationsåtervinning? Det produceras idag så mycket information att ingen längre kan strukturera den och mata in den i databaser så att den lätt kan återfinnas. Samtidigt blir det allt viktigare att det är lätt att hitta den information man behöver, för det går åt mycket tid, pengar och energi till att hålla sig ajour inom sitt ämnesområde. I en enda medicinsk databas, Medline, läggs det till ca 1000 artikelreferenser om dagen! Eftersom ingen kan läsa så mycket, snävar man in sig inom sitt eget område så mycket man kan, och riskerar då att bli allt för begränsad i sin kunskap. Medicinsk information finns i många olika former, och det som är absolut viktigast för en medicinsk forskare är tidskriftsartiklar. KIB prenumererar idag på ca 1400 tidskrifter i elektronisk form och ca 3000 i tryckt form, och det finns all anledning att tro att den elektroniska publiceringen kommer att öka. Det finns också ett mindre antal elektroniska böcker. Andra typer av texter som kan vara intressanta är tidningsartiklar, nyhetstelegram, patientinformation, patientberättelser, journaldata och mycket mer. Elektroniska texter finns dessutom i många olika format. PDF och HTML är två av de vanligaste, men också ordbehandlingsdokument, ren text, XML och e-brev för att nämna några. På Karolinska Institutets Bibliotek (KIB) pågår ett projekt som det senaste året har tittat på om textutvinning kan vara ett sätt att hjälpa forskare och studenter att få bättre möjligheter att hantera den gigantiska mängd material som finns i elektronisk form. Grundtanken i textutvinning är att man genom att analysera en mängd dokument med ostrukturerad text ska kunna få fram hur innehållet i vissa dokument förhåller sig till innehållet i andra dokument och kanske få fram nya samband, eller som det ibland kallas, "ny kunskap". Det har kommit en uppsjö av olika produkter som, mer eller mindre berättigat, säger sig syssla med textutvinning. Bland de vi har tittat på finns: Portal in a Box från Autonomy Semio Map & Semio Taxonomy från Semio Inc. icrossreader från Insight Virtual Adapt från Virtual Genetics IndexMaker från Dataware Intelligent Miner for Text från IBM Det kommer information om nya program hela tiden, men än så länge finns inte riktigt något som uppfyller våra behov. Hur fungerar ett textutvinningsprogram? Programmen är naturligtvis olika, men det går ändå att urskilja ett visst mönster. Jag brukar dela upp processen i fyra steg. 1. Insamling av dokument Det finns olika sätt för programmen att samla in de dokument som de ska hantera. Man brukar kunna anvisa programmet dokument i en särskild mapp eller på en viss skiva ange om det bara ska vara en viss typ av dokument som t.ex. e-brev eller pdf-dokument välja att samla in dokument via webben. Vissa av programmen tillhandahåller en egen sökmotor, i andra kan man ange vilken sida man ska utgå ifrån och sedan följer programmet länkarna ett angivet antal nivåer.

Det varierar vilka typer av dokument som olika program kan hantera. 2. Analys av dokumenten Analysen är den del som skiljer mest mellan de program vi har tittat på. Gemensamt är att alla program skapar ett index med en representation av dokumentet. Denna representation kan t.ex. vara en sammanfattning av dokumentet i vanlig text, en ordpåse d.v.s. ord som kan sägas representera innehållet i dokumentet, eller, analogt med detta, en begreppspåse med hela fraser eller begrepp. Det finns olika sätt att åstadkomma en sådan här dokumentrepresentation. Vanlig statistik Bayesiansk statistik Språkalgoritmer Neurala nätverk En kombination av en eller flera av ovanstående metoder. De olika metoderna har olika för- och nackdelar. Program som bygger på semantiska algoritmer blir naturligtvis språkberoende. Neurala nätverk är språkoberoende men de kräver mycket träning på en mycket stor mängd dokument innan de blir användbara. 3. Klustring/Kategorisering Dokumentrepresentationerna jämförs sedan med varandra och delas in i olika kategorier eller kluster. Klustring sker automatiskt av programmet enligt principen att ett dokument i ett kluster ska ha mer gemensamt med dokument inom samma kluster än med dokument i andra kluster. Kategorisering innebär att dokumenten delas in i kategorier som definierats av en människa. Programmen tar också fram förhållanden mellan olika kluster eller kategorier, och det är en av de viktigaste delarna av begreppet textutvinning, att kunna få fram hittills okända samband mellan olika dokument, sk hidden links. Det är dock långt ifrån alla program som är bra på just denna del av processen. 4. Visualisering Det sista steget i processen är visualiseringen av resultatet. Detta brukar göras antingen som en lång lista med dokument eller grafiskt. Sambanden mellan dokument går att tydliggöra bättre med den grafiska presentationen. Aktuella användningsområden Det finns en del tillämpningar av textutvinningsteknik och antalet ökar snabbt. Det går t.ex. redan att få hyfsade resultat inom omvärldsbevakning. Inom detta område verkar t.ex. Autonomy som har levererat tekniken till företaget Docere. De använder en textutvinningsvariant som kallas informationsextraktion. Det fungerar i princip så att man kan extrahera bestämda delar av nyhetstelegram som ju är relativt uniforma. Man kan t.ex. som svar på en sökning få en lista som innehåller information om vilket företag texten handlar om, när texten är skriven, var den är publicerad och en kort sammanfattning av innehållet som i princip är en ordpåse, eller som Autonomy kallar det, ett fingeravtryck. Autonomy har också levererat tekniken bakom Locus Medicus, en portal för yrkesverksamma inom hälso- och sjukvård. Man har där möjlighet att själv träna en agent att söka efter dokument som ligger inom ens intresseområde. Detta görs genom att man använder ett dokument eller en egenformulerad sökfråga som mall som programmet jämför träffar mot för att hitta gemensamma mönster. Autonomy har också levererat samma teknologi till Ericssons intranät. Autonomys produkt använder sig av neurala nätverk. Det är svårt att se hur bra det

egentligen fungerar eftersom det inte går att få någon testlicens på produkten och den är fruktansvärt dyr i inköp. Vi har provat den genom Locus Medicus och där innehåller tyvärr basen för lite material för att det ska ge acceptabla resultat. Det finns en sökmotor, NorthernLights, som använder sig av textutvinning för att ordna sina träffar. Förutom den vanliga träfflistan visas i ena kanten en rad med blå mappar. Dessa mappar motsvarar olika kluster av dokument som textutvinningsprogrammet har funnit hör ihop med varandra. Tack vare det kan man här söka på Text Mining och få upp mappar med rubrikerna Natural language processing Information retrieval Data mining Computer software industry Personal pages Programming algorithms Library & information science Dolls & action figures Genetic algorithms Web search engines & directories De flesta av ovanstående kluster känns mycket relevanta, och det finns ju faktiskt ett extra värde i att man blir nyfiken på vad i den mest oväntade kategorin, Dolls & action figures, som har med textutvinning att göra. I NorthernLights avancerade sökgränsnitt kan man också göra begränsningar för sina träffar som är möjliga tack vare textutvinning. Semio har än så länge använt sina produkter för att konstruera både interna och offentliga webbportaler med en struktur som liknar Yahoos. NorthernLights är ett bra exempel på hur textutvinning kan förbättra en sökmotor, men än så länge verkar det också vara det enda exemplet. Det finns exempel på att företag har använt textutvinningsprodukter för att hitta mönster i de e-brev som kommer in till företagets help desk. Genom att se att t.ex. en viss skrivarmodell ofta är kopplad till begreppet pappersstopp blir företaget medvetet om att pappersmatningsmekanismen i den skrivarmodellen måste förbättras. De ovanstående exemplen visar att textutvinningprodukter är mycket bra på att ge en översikt över en stor mängd data. Det går snabbt att sätta sig in i nya ämnesområden eftersom man får en uppfattning om de viktigaste begreppen och hur dessa är kopplade till varandra. Textutvinning som hjälp för forskning Det finns inget textutvinningsprogram som idag fungerar riktigt bra på forskningsmaterial, men eftersom textutvinning är ett sätt att hitta hittills okända samband skulle ett bra program vara av ovärdelig hjälp. Det finns några exempel på detta tack vare Don R. Swansons experiment med programmet Arrowsmith. År 1986 genomförde Swanson en studie där han med hjälp av Arrowsmith tittade på titlarna till artiklar i Medline. Han fick fram ett samband mellan artiklar som handlade om Raynauds sjukdom (en cirkulationsstörning) och artiklar som handlade om en viss typ av fiskoljor. Vid den tiden var inget sådant samband känt, men senare kliniska studier har visat att patienter med Raynauds sjukdom kan bli bättre om de får ett tillskott av just dessa fiskoljor. Han har senare publicerat en artikel om ett liknande experiment som fick fram ett samband mellan magnesium och migrän.

Arrowsmith behöver en hel del handpåläggning för att ge användbara resultat, men Swansons studier visar att det är möjligt att konstruera hypoteser för forskning med hjälp av textutvinningsprogram. Eftersom det är tillräckligt svårt att hinna läsa den information som kommer inom ens eget ämnesområde så missar man oftast värdefull information som har publicerats inom närliggande dicipliner. Om en forskare inom medicin görs uppmärksam på länkar till närbesläktat material inom t.ex. kemi, biologi och veterinärmedicin så ökar insikten om ämnet och dessutom motverkas risken att man uppfinner hjulet för andra gången. Vad borde man kunna begära av ett bra textutvinningsprogram? Jag har tidigare nämnt att det än så länge inte finns något textutvinningsprogram som riktigt lever upp till våra önskemål och förväntningar. Vilka egenskaper anser vi då krävs för att textutvinningsprogram ska vara användbara för forskningsbiblioteken? Min önskelista ser ut ungefär så här: 1. Språkoberoende 2. Kunna hantera stora datamängder 3. Skalbart 4. Kunna hantera copyright-frågor 5. Dubbletteliminerande 6. Användarvänliga dokumentrepresentationer 7. Gärna Natural Language Processing 8. Klara av såväl klustring som kategorisering 9. Minst ett grafiskt visualiseringsgränssnitt 10. Kunna inkludera och utnyttja redan befintliga thesauri och ordlistor 11. Hantering av så många elektroniska format som möjligt 12. En inbyggd webbkravlare av god kvalitet 13. Möjlighet att personalisera, men också att stänga av eventuell personalisering 14. Versioner för flera olika plattformar 15. Kunna dra nytta av metainformation i t.ex. RDF eller XML 16. Kunna integreras i befintliga lösningar Även om ovanstående önskemål bara delvis uppfylls av dagens program så är textutvinning utan tvivel ett område med stor potential och KIB arbetar idag med att få igång ett samarbete med en av de större leverantörerna på marknaden. Tanken är att vi kan bidra med vår expertis när det gäller vetenskaplig information och var den finns, samt en mångårig erfarenhet av hur våra användare söker och hur de skulle vilja kunna söka. Ett textutvinningsprogram som utvecklats i ett sådant samarbete skulle kunna bli mycket användbart för framtidens forskning. Catharina Rehn Karolinska Institutets Bibliotek

Länklista: Arrowsmith Autonomy Docere IBM: Intelligent Miner for Text Insight Karolinska Institutets bibliotek LocusMedicus NorthernLights Plumtree Semio Inc. Sunstone Virtual Genetics http:// kiwi.uchicago.edu/ http://www.autonomy.com http://www.docere.se/ http://www-4.ibm.com/software/data/iminer/fortext/ http://www.insight.com.ru/ http://www.kib.ki.se http://www.locusmedicus.se/ http://www.northernlights.com http://www.plumtree.com/ http://www.semio.com http://www.sunstone.se/ http://www.vglab.com Referenser: Swanson, DR (1986). Fish oil, Raynaud s Syndrome, and undiscovered public knowledge. Perpectives in Biology and Medicine, 30(1), 7-18 Swanson, DR (1988). Migaine and Magnesium: Eleven neglected connections. Perspectives in Biology and Medicine, 31(4), 526-557 Mer att läsa: Butler, D (2000). Souped-up search engines. Nature 405(6783):112-5 Niedermayer, D (1998) An introduction to Bayesian Networks and their contemporary applications, published: 981201, accessed: 001124, http://www.gpfn.sk.ca/~daryle/papers/bayesian_networks/bayes.html Swanson DR (1999). Implicit Text Linkages between Medline Records: Using Arrowsmith as an Aid to Scientific Discovery. Library Trends, 48(1), 48-59 Dessutom har webbplatsen http://www.about.com/ många intressanta artiklar om bl.a.text Mining, Data Mining och Artificial Intelligence Catharina Rehn, KIB 010115