Mer om XML & TEI Kurstillfälle 2 Monica Langerth Zetterman Innehållsdesign av digitala resurser Kurs i masterprogrammet för digitala medier Uppsala universitet, Institutionen för utbildning, kultur och medier 2009-11-25 Översikt XML konceptet - introduktion TEI historik TEI grundläggande struktur Klasser Attribut Kärnmoduler och tilläggsmoduler DTD 2 Grundläggande principer 1 Grundläggande principer 2 Elementen kan nästlas, det vill säga inneslutas i varandra, så att en hierarkisk struktur bildas som visas i figuren nedan <starttagg> </sluttagg> märkord (element) som är inneslutna i avskiljare som markerar elementets början (<) och slut (>) För att markera att märkningen slutar (är en sluttagg) används en specifik identifierare (/) 3 4 Hierarkisk dokumentmodell elementnod textnod syskon Termen element är en kombination av taggarna och det innehåll de innesluter och inte enbart starttaggen <namn> och sluttaggen </namn> barn 5 XML & flexibilitet XML tillåter oss att definiera vilka element som helst XML är kraftfullt: SGML/XML element är semantiska lättviktare. <p> = <para> Möjligheter till överföring och utbytbarhet t (beskrivande märkning, typ av dokument, standard för att representera tecken) XML för bra för att ignorera? Programutveckling Spridning av verktyg Semantiska webben 6 1
XML termer XML dokumentets struktur Ett XML dokument kan innehålla: <Element> (med eller utan attribut) Processinstruktioner <? xml version="1.0 Kommentarer <!-- kommentar--> Entitetsreferenser & Förbestämda sektioner (CDATA, IGNORE, INCLUDE) PROLOG ROT <?xml version="1.0" encoding="utf-8 standalone= no?> <?xml:stylesheet type="text/xsl" href="file:/c:/monilang/mu/xsl/dates.xsl"?> <!--stilmall indexerar och länkar datum element--> <DOCTYPE TEI.2 SYSTEM "file:/c:/monilang/mu/filtank/teixlite.dtd"> <TEI.2> <teiheader> <filedesc> /---/</filedesc> </teiheader> <text> <front>/---/</front> <body><div type= parent ><div type= child ><head><p> ABC </p></head></div><!--parent--></div><!--child--> </body></text> </TEI.2> 7 EPILOG <!-- eventuell slutkommentar eller processinstruktion--> 8 XML dokumentets beståndsdelar XML dokumentet byggs upp genom en sorts trädstruktur En rot <TEI.2> och många noder (grenar) En nod kan bestå av: ett delträd <text> <front> <body> ett element (med/utan attribut) <name> teckensträng <name>agnes</name> Varje element tillhör en typ (Generic Identifier) Attributnamnen för ett givet element är definierade i DTD:n <name type="person"> ibland definieras även attributvärden XML förlåter inget slarv Välformad är en XML fil om. ett rotelement som innesluter hela innehållet varje delträd är nästad på rätt sätt inom rotelementet namn är alltid versalkänsliga start- och sluttaggar obligatoriska (förutom i tomma element) attributvärden anges inom citationstecken 9 10 DTD Document type declaration: formell definition av element, attribut, entiteter, notationer. Ex. <!ELEMENT entry (name, address, phone) > Document type definition: beskrivning av användning och betydelse av den formella regeluppsättningen Används för validering av XML-filer Exempel i TEI Guidelines DTD exempel <!ELEMENT anthology (poem+)> <!ELEMENT poem (title?, (stanza+ couplet+ line+) ) > <!ELEMENT title (#PCDATA) > <!ELEMENT stanza (line+) > <!ELEMENT line (#PCDATA) > Exempel från A gentle Introduction to XML <http://www.tei-c.org/p4x/sg.html#sg14> 11 12 2
TEI tar form 1987 Poughkeepsie Principles Ett format för märkning av vetenskapligt innehåll, oberoende av hård- eller mjukvara, som gör det möjligt för material att användas, återanvändas, delas, utbytas och flyttas mellan olika plattformar och användare. 13 Text Encoding Initiative 1990 TEI P1 1992-94 P2 & P 1995 TEI Lite 1999 TEI P4 XML versionen 2002 1999 bildas TEI Consortium, 4 värdinstitutioner: Brown University (Scholarly Technology Group http://www.stg.brown.edu/) Oxford University (Research Technology Service http://www.oucs.ox.ac.uk/rts/) University of Bergen University of Virginia (Electronic Text Center http://etext.lib.virginia.edu/ & the Institute for Advanced Technology in the Humanities http://www.iath.virginia.edu/) TEI P5 2004 Läs mer om TEI:s bakgrund här: <http://www.tei-c.org/p4x/ab.html#abtei> 14 TEI:s målsättningar Bättre möjligheter för integration och utbytbarhet av vetenskapligt innehåll Stöd för alla typer av texter, för alla språk, från alla perioder Vägledning för noviser - vad? (best practice) Assistans för experter - hur? Slutsats: flexibilitet, modularitet, komplexitet. 15 TEI tillhandhåller: En uppsättning rekommendationer för märkning av text av såväl texter av mer allmän karaktär som specifika områden Rekommendationer som baseras på, men inte begränsas av vetenskapliga praktiker En stor samling element definitioner representerade och kombinerade i dokumenttyp deklarationen En vy av DTD:n är TEI Lite se <http://www.tei-c.org/lite/> 16 Övergång till scheman RelaxNG övergång från DTD till RelaxNG i TEI P5. http://www.tei-c.org/release/doc/tei-p5-doc/ja/html/use.html utvecklat av OASIS http://www.oasis-open.org/ W3C schema language se http://www.w3.org/xml/schema Hjälp med migrering: http://www.teic.org/guidelines/p5/migrate.xml ODD Klasser av element: Element klassificeras genom följande principer: att de delar attribut, att de förekommer på samma ställen i innehållsmodellen, eller båda delarna Superklass underklass ärver egenskaper 17 18 3
ODD forts Generell beskrivning av av elementet inklusive de exempel som finns i TEI Guidelines attributlista, datatyper, defaaultvärden etc Till vilken TEI modul elementet tillhör Vilka klasser som elementet bidrar till Elementets content model Pizza Gör ditt eget schema med följande ingredienser: En kärna En grund Valfria toppings Användaren måste göra minst ett val <http://www.tei-c.org/pizza.html> Applikation som grundar sig på ODDfilosofin 19 20 Kärn-element TEI:s moduler TEI-Header Element för allmänna & gemensamma textstrukturer Som tex stycken, noter, sid- och radbrytningar Typografiska element <hi> Namn, datum, numrering, förkortningar Noter, referenser, bibliografier Textredigering Vers och drama Se http://www.tei-c.org/p4x/co.html 21 22 TEI:s syn på strukturen text A text may be unitary or composite a unitary text contains front matter back matter a body in a composite text, the body is a group of texts (or nested groups) Källa: http://www.tei-c.org/talks/oucs/2004-02/one/teicontents.ppt TEI basic structure Källa: http://www.teic.org/talks/oucs/2004-02/one/teicontents.ppt teiheader teiheader front front div div teicorpus.2 tei.2 TEI.2 tei.2 text group body text div body back back 4
globala attribut Available on all elements in all modules... id for unique identification n for (non-unique) name or number rend for rendition (appearance) lang for language Can be extended in some modules corresp, synch, ana for specific association types next, prev for aggregating fragmented elements TEI P5 övergång till Roma Syfte att förenkla modifieringar Bättre dokumentation Scheman uttryckta i flera språk Se http://www.tei-c.org/release/doc/teip5-doc/ja/html/use.html Roma: Källa: http://www.tei-c.org/talks/oucs/2004-02/one/tei-contents.ppt 26 27 28 29 30 5
31 32 33 34 Andra DTD:er DocBook http://www.docbook.org/ DITA 1.1 http://docs.oasis-open.org/dita/v1.1/overview/overview.html (OASIS standard) OpenDocument (ODF) http://www.oasisopen.org/committees/tc_home.php?wg_abbrev=office /t h MathML http://www.w3.org/math/ Scalable Vector Grafic (SVG) http://www.w3.org/graphics/svg/ för tvådimensionell grafik GraphML http://graphml.graphdrawing.org/ TEI header & TEI märkning TEI Header: Bilder från Oxford University Computing Services Finns vid:<http://www.tei-c.org/talks/oucs/2004-02/two/header.pdf> Introduktion och översikt av märkning med TEI Bilder från Oxford University Computing Services Finns vid: <http://www.tei-c.org/talks/oucs/2004-02/one/tei-contents.ppt> 35 36 6