Semantiska webben och web 3.0 Kl. 10.50 11.40 9-10.9 2010 Öppna biblioteket, FSBF:s årskonferens i Korsholm. Lars Iselid
Min frys
Min frys är spontant organiserad och saknar i de flesta fall innehållsbeskrivningar, dvs. metadata
Min matlåda
Qué es esto?
Indisk linsgryta med kyckling
2009-02-13
Ris, linser, aubergine, kyckling.
2 portioner
Lars Iselid
XML är hjärtat i begreppet semantiska webben är ett verktyg för att skapa XMLstandarder, exempelvis: RSS, MathML, XHTML etc. är utbyggbart fritt fram att skapa nya taggar
XML märkspråk för att skapa egna XML-tillämpningar Indisk linsgryta med kyckling. 2009-02-13. Ris, linser, aubergine, kyckling. 2 portioner. Lars Iselid.
MaML - Matlåda Markup Language <matlådor> <maträtt> <titel>indisk linsgryta med kyckling </titel> <datum>2009-02-19</datum> <ingrediens>ris</ingrediens> <ingrediens>linser</ingrediens> <ingrediens> aubergine</ingrediens> <ingrediens> kyckling</ingrediens> <portioner>2</portioner> <ägare>lars Iselid</ägare> </maträtt> <maträtt>. </maträtt> </matlådor>
XML-attribut <ingrediens typ= tillbehör >ris</ingrediens> <ingrediens typ= huvud >linser</ingrediens> <ingrediens typ= huvud >aubergine </ingrediens> <ingrediens typ= huvud >kyckling </ingrediens> <ingrediens typ= krydda >
eller nya element <ingredienser> <tillbehör>ris</tillbehör> <huvudingrediens>linser</huvudingrediens> <huvudingrediens> aubergine </huvudingrediens> <huvudingrediens> kyckling </huvudingrediens> </ingredienser> Finns inga regler kring när man ska använda element respektive attribut, men element är mer praktiskt, därför undvik attribut.
Exempel: ID som identifierare, inte en del av maträttdatan <maträtt id= 1324 >
Vilket datum? När maträtten skapades? När maträtten frystes in? Bäst-före-datum?
XML-attribut?? <datum typ= infrysning > <datum typ= tillagat > <datum typ= bäst-före >
eller som element!! <infrysning> <tillagat> <bäst-före>
Bättre märkning <matlådor> <maträtt id= 1 > <titel>indisk linsgryta med kyckling </titel> <infrysning>2009-02-19</infrysning> <ingredienser> <tillbehör>ris</tillbehör> <huvudingrediens>linser</huvudingrediens> <huvudingrediens> aubergine </huvudingrediens> <huvudingrediens> kyckling </huvudingrediens> </ingredienser> <portioner>2<portioner> <ägare>lars Iselid</ägare> </maträtt> <maträtt> </maträtt> </matlådor>
Semantiska webben (SW) maskinläsbar information vars mening är väl definierad med standarder. Tim Berners Lee, webbens fader Mening = semantik
Weaving the web by Tim Berners-Lee, 1999.
The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation, Berners-Lee, Hendler and Lassila, 2001 i Scientific American.
Tim Berners-Lee Artificiell intelligens, t.ex. Natural Language Processing (NLP), försöker träna maskiner att agera som människor. Istället vill SW utveckla språk (läs:märkspråk) som människor kan använda för att uttrycka information som i sin tur är maskinläsbara. Människor skapar själva mening, inte maskiner
Vad är web 3.0? Vem myntade begreppet? John Markoff i NY Times 12 november 2006?
NY Times 12 november 2006 Their goal is to add a layer of meaning on top of the existing Web that would make it less of a catalog and more of a guide Referred to as Web 3.0, the effort is in its infancy, and the very idea has given rise to skeptics who have called it an unobtainable vision John Markoff
Web 3.0 ingår i artikeln om semantic web i engelska Wikipedia
Vad är web 3.0? People keep asking what Web 3.0 is. I think maybe when you've got an overlay of scalable vector graphics on Web 2.0 /---/ and access to a semantic Web integrated across a huge space of data, you'll have access to an unbelievable data resource. Tim Berners-Lee, International Herald Tribune 24 maj 2006.
Web 3.0 ingår också som del i wikipedia-artikel om web 2.0 Definitions of Web 3.0 vary greatly.
Den svenska artikeln i Wikipedia är bara påbörjad
Stubbar i Wikipedia Stubbar är artiklar på Wikipedia som är för korta för att tillfredsställande behandla ämnet, men som ändå innehåller relevant information.
Define: web 3.0 in Google
Web 3.0 synonymt med semantiska webben?? But commercial interest in Web 3.0 or the semantic Web, for the idea of adding meaning is only now emerging. John Markoff
Varför web 2.0 före web 3.0? Crowdsourcing användargenererat innehåll Den mer interaktiva webben i många fall ostrukturerad data på webben. Detta trots taggning (okontrollerad vokabulär) och RSS-formatet.
Semantiska webben (som idé inte realitet) kontra nuvarande webben Problematik med nuvarande webben: Nuvarande webben: ordmatchning, inte mening Många träffar, rankingalgoritmer styr vad som hamnar först och anses mest relevant Mycket information döljer sig av tekniska och kommersiella skäl oåtkomliga databaser Mycket information på internet kan inte delas mellan olika applikationer
SW kan lösa denna problematik SW handlar inte i sig om att göra saker enklare att hitta(!), enligt Berners-Lee. Utan skapa bättre möjligheter för åtkomst av data och dela denna mellan applikationer. Ej AI utan maskinläsbar data.
Tim Berners-Lee på Ted.com
Varför tror ni att kirurgen och bibliotekarien John Shaw Billings började indexera tryckta medicinska artiklar 1879?
Han startade Index Medicus
som senare blev Medline och PubMed
Maskinläsbar PubMed-referens i XML-format
The Semantic Web Stack en bild av det hierarkiska förhållandet mellan språken, där varje lager utnyttjar och använder möjligheter i underliggande lager.
Lagren i stacken URI för att identifiera resursen XML för att skapa strukturerad webbdokument, men skapar ingen direkt mening till innehållet RDF syntax för att beskriva data RDF Schema för att beskriva egenskaper i ovan nämnda data Ontologier (OWL) för att beskriva relationer mellan data
RDF och RDF Schema (RDFS) RDF triplett Resurs egenskap värde Resurs: människa, produkt, bok etc. Egenskap: ålder, pris, författad av etc. Värde: 100 år, 200 kr, Bo EK etc. Subjekt, predikat, objekt Kalle är kusin med Lisa
Ontologi formell beskrivning av relationer mellan koncept inom en domän
OWL Web Ontology Language en av de viktigaste delarna i SW språk för att skapa ontologier Beskriver: Hierarkiskt förhållande Relaterat förhållande Tvilling-relation Kontrollerade termer
MeSH tesaurus
Geopolitical ontology från FAO
ABM - Bibliotek och andra minnesinstitutioner (bl.a. arkiv och museer) Beskrivningen av resurserna varierar mycket: Samlingarna och dess ämne, natur, typ Specifika organisatoriska förhållningssätt till att organisera information Nivån på beskrivningen som krävs för att åtkomst av resursen Strukturen på datan och innehållet av metadata Användarna och specifika lokala behov
ABM arkiv, bibliotek, muséer. Detta har tvingat fram olika standarder: Dewey, SAB, UDK, NLM swemarc, MARC21 Marc AMD, ISAD(G) - arkivvärlden
Varför inte MARC för webbresurser? Att skapa en katalogiserad MARC-post med alla dess fält och delfält tar både mycket tid och är resurskrävande. MARC-formatet ej passande för webbresurser. Bibliografiska format dåliga på att beskriva webbresurser datum för tillkomst, revideringar, ursprung, information om åtkomst och användning etc.
MARCXML MARC definierad i XML Precis som HTML finns definierad i XML i form av XHTML MARCXML isn't as much XML as it is MARC; it's really MARC with a bad hairdo. Alexander Johannesen, Datavetare, Oslo. MARCXML: beast of burden shelter.nu/blog/2008/09/marcxml-beast-of-burden.html
Dublin Core Metadata Initiative Ett tappert försök att skapa ordning på webben : Bibliotekarier, datavetare, museifolk Två nivåer: Simple Dublin Core 15 element Qualified Dublin Core 15 + ytterligare 3 element
Varför slog inte DC igenom? Dublin Core: An Obituary by Jeffrey Beall in Library Hi Tech News 21(8), 2004, 40-41. Brist på specifik beskrivning Creator men inte translator Icke-standardiserade dataelement Begränsade möjligheter till interoperabilitet
Istället MODS från Library of Congress http://www.loc.gov/standards/mods/
Tankarna bakom MODS Ett XML-baserat bibliografiskt beskrivningsschema utvecklat av Library of Congress. Ett försök att skapa ett enklare format än MARC och ett mer flexibelt och inte lika förenklat format som Dublin Core. Ett format som bättre än MARC kan beskriva digitala resurser. Enkelt att förstå även för icke-professionella katalogisatörer
ISO 2709 vs. XML MODS Taggar (ex. <title>) mer användarvänligt än MARC tresiffriga taggar (ex. 245). Taggar på engelska, sällan förkortningar t.ex. physicaldescription
MODS MODS MARC <title> 245 a <genre> 008 genre <publisher> 260 <titleinfo> <title>jag har ont:</title> <subtitle>i kropp som själ </subtitle> </titleinfo>
MODS MARC MODS 008, 256, 300, delar av 856. <physicaldescription> <physicaldescription> <form authority= marcform >Print </form> <extent> 1 score (12 p.) + 2 parts ; 31 cm. </extent> </physicaldescription>
RDA is here! Resource Description and Access kommer att ersätta AACR2. behov av ny standard anpassad även för digital resurser. riktlinjer och instruktioner som täcker beskrivning och tillgång till både digitala och analoga resurser.
RDA is here! Vem står bakom RDA? The Joint Steering Committee for Development of RDA RDA publiceras av: The American Library Association The Canadian Library Association CILIP: Chartered Institute of Library and Information Professionals
Library of Congress Fortfarande i testfas
RDAtoolkit.org
Det handlar i slutändan om att.. göra mina matlådor sökbara
och dina matlådor...
och de måste förstå varandra MaML
så att alla som vill enkelt och snabbt kan byta matlåda med varann när de kommer till jobbet!
Frågor?