Initial revision
[TestXSLT.git] / libxml2 / doc / xmldtd.html
1 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/1999/REC-html401-19991224/loose.dtd">
2 <html>
3 <head>
4 <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">
5 <link rel="SHORTCUT ICON" href="/favicon.ico">
6 <style type="text/css"><!--
7 TD {font-family: Verdana,Arial,Helvetica}
8 BODY {font-family: Verdana,Arial,Helvetica; margin-top: 2em; margin-left: 0em; margin-right: 0em}
9 H1 {font-family: Verdana,Arial,Helvetica}
10 H2 {font-family: Verdana,Arial,Helvetica}
11 H3 {font-family: Verdana,Arial,Helvetica}
12 A:link, A:visited, A:active { text-decoration: underline }
13 --></style>
14 <title>Validation &amp; DTDs</title>
15 </head>
16 <body bgcolor="#8b7765" text="#000000" link="#000000" vlink="#000000">
17 <table border="0" width="100%" cellpadding="5" cellspacing="0" align="center"><tr>
18 <td width="180">
19 <a href="http://www.gnome.org/"><img src="gnome2.png" alt="Gnome2 Logo"></a><a href="http://www.w3.org/Status"><img src="w3c.png" alt="W3C Logo"></a><a href="http://www.redhat.com/"><img src="redhat.gif" alt="Red Hat Logo"></a><div align="left"><a href="http://xmlsoft.org/"><img src="Libxml2-Logo-180x168.gif" alt="Made with Libxml2 Logo"></a></div>
20 </td>
21 <td><table border="0" width="90%" cellpadding="2" cellspacing="0" align="center" bgcolor="#000000"><tr><td><table width="100%" border="0" cellspacing="1" cellpadding="3" bgcolor="#fffacd"><tr><td align="center">
22 <h1>The XML C library for Gnome</h1>
23 <h2>Validation &amp; DTDs</h2>
24 </td></tr></table></td></tr></table></td>
25 </tr></table>
26 <table border="0" cellpadding="4" cellspacing="0" width="100%" align="center"><tr><td bgcolor="#8b7765"><table border="0" cellspacing="0" cellpadding="2" width="100%"><tr>
27 <td valign="top" width="200" bgcolor="#8b7765"><table border="0" cellspacing="0" cellpadding="1" width="100%" bgcolor="#000000"><tr><td>
28 <table width="100%" border="0" cellspacing="1" cellpadding="3">
29 <tr><td colspan="1" bgcolor="#eecfa1" align="center"><center><b>Main Menu</b></center></td></tr>
30 <tr><td bgcolor="#fffacd">
31 <form action="search.php" enctype="application/x-www-form-urlencoded" method="GET">
32 <input name="query" type="TEXT" size="20" value=""><input name="submit" type="submit" value="Search ...">
33 </form>
34 <ul>
35 <li><a href="index.html">Home</a></li>
36 <li><a href="intro.html">Introduction</a></li>
37 <li><a href="FAQ.html">FAQ</a></li>
38 <li><a href="docs.html">Documentation</a></li>
39 <li><a href="bugs.html">Reporting bugs and getting help</a></li>
40 <li><a href="help.html">How to help</a></li>
41 <li><a href="downloads.html">Downloads</a></li>
42 <li><a href="news.html">News</a></li>
43 <li><a href="XMLinfo.html">XML</a></li>
44 <li><a href="XSLT.html">XSLT</a></li>
45 <li><a href="python.html">Python and bindings</a></li>
46 <li><a href="architecture.html">libxml architecture</a></li>
47 <li><a href="tree.html">The tree output</a></li>
48 <li><a href="interface.html">The SAX interface</a></li>
49 <li><a href="xmldtd.html">Validation &amp; DTDs</a></li>
50 <li><a href="xmlmem.html">Memory Management</a></li>
51 <li><a href="encoding.html">Encodings support</a></li>
52 <li><a href="xmlio.html">I/O Interfaces</a></li>
53 <li><a href="catalog.html">Catalog support</a></li>
54 <li><a href="library.html">The parser interfaces</a></li>
55 <li><a href="entities.html">Entities or no entities</a></li>
56 <li><a href="namespaces.html">Namespaces</a></li>
57 <li><a href="upgrade.html">Upgrading 1.x code</a></li>
58 <li><a href="threads.html">Thread safety</a></li>
59 <li><a href="DOM.html">DOM Principles</a></li>
60 <li><a href="example.html">A real example</a></li>
61 <li><a href="contribs.html">Contributions</a></li>
62 <li><a href="xmlreader.html">The Reader Interface</a></li>
63 <li><a href="tutorial/index.html">Tutorial</a></li>
64 <li><a href="guidelines.html">XML Guidelines</a></li>
65 <li>
66 <a href="xml.html">flat page</a>, <a href="site.xsl">stylesheet</a>
67 </li>
68 </ul>
69 </td></tr>
70 </table>
71 <table width="100%" border="0" cellspacing="1" cellpadding="3">
72 <tr><td colspan="1" bgcolor="#eecfa1" align="center"><center><b>Related links</b></center></td></tr>
73 <tr><td bgcolor="#fffacd"><ul>
74 <li><a href="http://mail.gnome.org/archives/xml/">Mail archive</a></li>
75 <li><a href="http://xmlsoft.org/XSLT/">XSLT libxslt</a></li>
76 <li><a href="http://phd.cs.unibo.it/gdome2/">DOM gdome2</a></li>
77 <li><a href="http://www.aleksey.com/xmlsec/">XML-DSig xmlsec</a></li>
78 <li><a href="ftp://xmlsoft.org/">FTP</a></li>
79 <li><a href="http://www.zlatkovic.com/projects/libxml/">Windows binaries</a></li>
80 <li><a href="http://garypennington.net/libxml2/">Solaris binaries</a></li>
81 <li><a href="http://www.zveno.com/open_source/libxml2xslt.html">MacOsX binaries</a></li>
82 <li><a href="http://sourceforge.net/projects/libxml2-pas/">Pascal bindings</a></li>
83 <li><a href="http://bugzilla.gnome.org/buglist.cgi?product=libxml&amp;product=libxml2">Bug Tracker</a></li>
84 </ul></td></tr>
85 </table>
86 <table width="100%" border="0" cellspacing="1" cellpadding="3">
87 <tr><td colspan="1" bgcolor="#eecfa1" align="center"><center><b>API Indexes</b></center></td></tr>
88 <tr><td bgcolor="#fffacd"><ul>
89 <li><a href="APIchunk0.html">Alphabetic</a></li>
90 <li><a href="APIconstructors.html">Constructors</a></li>
91 <li><a href="APIfunctions.html">Functions/Types</a></li>
92 <li><a href="APIfiles.html">Modules</a></li>
93 <li><a href="APIsymbols.html">Symbols</a></li>
94 </ul></td></tr>
95 </table>
96 </td></tr></table></td>
97 <td valign="top" bgcolor="#8b7765"><table border="0" cellspacing="0" cellpadding="1" width="100%"><tr><td><table border="0" cellspacing="0" cellpadding="1" width="100%" bgcolor="#000000"><tr><td><table border="0" cellpadding="3" cellspacing="1" width="100%"><tr><td bgcolor="#fffacd">
98 <p>Table of Content:</p>
99 <ol>
100 <li><a href="#General5">General overview</a></li>
101   <li><a href="#definition">The definition</a></li>
102   <li>
103 <a href="#Simple">Simple rules</a>
104     <ol>
105 <li><a href="#reference">How to reference a DTD from a document</a></li>
106       <li><a href="#Declaring">Declaring elements</a></li>
107       <li><a href="#Declaring1">Declaring attributes</a></li>
108     </ol>
109 </li>
110   <li><a href="#Some">Some examples</a></li>
111   <li><a href="#validate">How to validate</a></li>
112   <li><a href="#Other">Other resources</a></li>
113 </ol>
114 <h3><a name="General5">General overview</a></h3>
115 <p>Well what is validation and what is a DTD ?</p>
116 <p>DTD is the acronym for Document Type Definition. This is a description of
117 the content for a family of XML files. This is part of the XML 1.0
118 specification, and allows one to describe and verify that a given document
119 instance conforms to the set of rules detailing its structure and content.</p>
120 <p>Validation is the process of checking a document against a DTD (more
121 generally against a set of construction rules).</p>
122 <p>The validation process and building DTDs are the two most difficult parts
123 of the XML life cycle. Briefly a DTD defines all the possible elements to be
124 found within your document, what is the formal shape of your document tree
125 (by defining the allowed content of an element; either text, a regular
126 expression for the allowed list of children, or mixed content i.e. both text
127 and children). The DTD also defines the valid attributes for all elements and
128 the types of those attributes.</p>
129 <h3><a name="definition1">The definition</a></h3>
130 <p>The <a href="http://www.w3.org/TR/REC-xml">W3C XML Recommendation</a> (<a href="http://www.xml.com/axml/axml.html">Tim Bray's annotated version of
131 Rev1</a>):</p>
132 <ul>
133 <li><a href="http://www.w3.org/TR/REC-xml#elemdecls">Declaring
134   elements</a></li>
135   <li><a href="http://www.w3.org/TR/REC-xml#attdecls">Declaring
136   attributes</a></li>
137 </ul>
138 <p>(unfortunately) all this is inherited from the SGML world, the syntax is
139 ancient...</p>
140 <h3><a name="Simple1">Simple rules</a></h3>
141 <p>Writing DTDs can be done in many ways. The rules to build them if you need
142 something permanent or something which can evolve over time can be radically
143 different. Really complex DTDs like DocBook ones are flexible but quite
144 harder to design. I will just focus on DTDs for a formats with a fixed simple
145 structure. It is just a set of basic rules, and definitely not exhaustive nor
146 usable for complex DTD design.</p>
147 <h4>
148 <a name="reference1">How to reference a DTD from a document</a>:</h4>
149 <p>Assuming the top element of the document is <code>spec</code> and the dtd
150 is placed in the file <code>mydtd</code> in the subdirectory
151 <code>dtds</code> of the directory from where the document were loaded:</p>
152 <p><code>&lt;!DOCTYPE spec SYSTEM &quot;dtds/mydtd&quot;&gt;</code></p>
153 <p>Notes:</p>
154 <ul>
155 <li>The system string is actually an URI-Reference (as defined in <a href="http://www.ietf.org/rfc/rfc2396.txt">RFC 2396</a>) so you can use a
156     full URL string indicating the location of your DTD on the Web. This is a
157     really good thing to do if you want others to validate your document.</li>
158   <li>It is also possible to associate a <code>PUBLIC</code> identifier (a
159     magic string) so that the DTD is looked up in catalogs on the client side
160     without having to locate it on the web.</li>
161   <li>A DTD contains a set of element and attribute declarations, but they
162     don't define what the root of the document should be. This is explicitly
163     told to the parser/validator as the first element of the
164     <code>DOCTYPE</code> declaration.</li>
165 </ul>
166 <h4>
167 <a name="Declaring2">Declaring elements</a>:</h4>
168 <p>The following declares an element <code>spec</code>:</p>
169 <p><code>&lt;!ELEMENT spec (front, body, back?)&gt;</code></p>
170 <p>It also expresses that the spec element contains one <code>front</code>,
171 one <code>body</code> and one optional <code>back</code> children elements in
172 this order. The declaration of one element of the structure and its content
173 are done in a single declaration. Similarly the following declares
174 <code>div1</code> elements:</p>
175 <p><code>&lt;!ELEMENT div1 (head, (p | list | note)*, div2?)&gt;</code></p>
176 <p>which means div1 contains one <code>head</code> then a series of optional
177 <code>p</code>, <code>list</code>s and <code>note</code>s and then an
178 optional <code>div2</code>. And last but not least an element can contain
179 text:</p>
180 <p><code>&lt;!ELEMENT b (#PCDATA)&gt;</code></p>
181 <p>
182 <code>b</code> contains text or being of mixed content (text and elements
183 in no particular order):</p>
184 <p><code>&lt;!ELEMENT p (#PCDATA|a|ul|b|i|em)*&gt;</code></p>
185 <p>
186 <code>p </code>can contain text or <code>a</code>, <code>ul</code>,
187 <code>b</code>, <code>i </code>or <code>em</code> elements in no particular
188 order.</p>
189 <h4>
190 <a name="Declaring1">Declaring attributes</a>:</h4>
191 <p>Again the attributes declaration includes their content definition:</p>
192 <p><code>&lt;!ATTLIST termdef name CDATA #IMPLIED&gt;</code></p>
193 <p>means that the element <code>termdef</code> can have a <code>name</code>
194 attribute containing text (<code>CDATA</code>) and which is optional
195 (<code>#IMPLIED</code>). The attribute value can also be defined within a
196 set:</p>
197 <p><code>&lt;!ATTLIST list type (bullets|ordered|glossary)
198 &quot;ordered&quot;&gt;</code></p>
199 <p>means <code>list</code> element have a <code>type</code> attribute with 3
200 allowed values &quot;bullets&quot;, &quot;ordered&quot; or &quot;glossary&quot; and which default to
201 &quot;ordered&quot; if the attribute is not explicitly specified.</p>
202 <p>The content type of an attribute can be text (<code>CDATA</code>),
203 anchor/reference/references
204 (<code>ID</code>/<code>IDREF</code>/<code>IDREFS</code>), entity(ies)
205 (<code>ENTITY</code>/<code>ENTITIES</code>) or name(s)
206 (<code>NMTOKEN</code>/<code>NMTOKENS</code>). The following defines that a
207 <code>chapter</code> element can have an optional <code>id</code> attribute
208 of type <code>ID</code>, usable for reference from attribute of type
209 IDREF:</p>
210 <p><code>&lt;!ATTLIST chapter id ID #IMPLIED&gt;</code></p>
211 <p>The last value of an attribute definition can be <code>#REQUIRED
212 </code>meaning that the attribute has to be given, <code>#IMPLIED</code>
213 meaning that it is optional, or the default value (possibly prefixed by
214 <code>#FIXED</code> if it is the only allowed).</p>
215 <p>Notes:</p>
216 <ul>
217 <li>Usually the attributes pertaining to a given element are declared in a
218     single expression, but it is just a convention adopted by a lot of DTD
219     writers:
220     <pre>&lt;!ATTLIST termdef
221           id      ID      #REQUIRED
222           name    CDATA   #IMPLIED&gt;</pre>
223     <p>The previous construct defines both <code>id</code> and
224     <code>name</code> attributes for the element <code>termdef</code>.</p>
225   </li>
226 </ul>
227 <h3><a name="Some1">Some examples</a></h3>
228 <p>The directory <code>test/valid/dtds/</code> in the libxml distribution
229 contains some complex DTD examples. The example in the file
230 <code>test/valid/dia.xml</code> shows an XML file where the simple DTD is
231 directly included within the document.</p>
232 <h3><a name="validate1">How to validate</a></h3>
233 <p>The simplest way is to use the xmllint program included with libxml. The
234 <code>--valid</code> option turns-on validation of the files given as input.
235 For example the following validates a copy of the first revision of the XML
236 1.0 specification:</p>
237 <p><code>xmllint --valid --noout test/valid/REC-xml-19980210.xml</code></p>
238 <p>the -- noout is used to disable output of the resulting tree.</p>
239 <p>The <code>--dtdvalid dtd</code> allows validation of the document(s)
240 against a given DTD.</p>
241 <p>Libxml exports an API to handle DTDs and validation, check the <a href="http://xmlsoft.org/html/libxml-valid.html">associated
242 description</a>.</p>
243 <h3><a name="Other1">Other resources</a></h3>
244 <p>DTDs are as old as SGML. So there may be a number of examples on-line, I
245 will just list one for now, others pointers welcome:</p>
246 <ul>
247 <li><a href="http://www.xml101.com:8081/dtd/">XML-101 DTD</a></li>
248 </ul>
249 <p>I suggest looking at the examples found under test/valid/dtd and any of
250 the large number of books available on XML. The dia example in test/valid
251 should be both simple and complete enough to allow you to build your own.</p>
252 <p></p>
253 <p><a href="bugs.html">Daniel Veillard</a></p>
254 </td></tr></table></td></tr></table></td></tr></table></td>
255 </tr></table></td></tr></table>
256 </body>
257 </html>