El documento XML
- Introducción
- Elementos
- Marcas
- Atributos
- Sintaxis
- Comentarios
- Entidades
- Secciones CDATA
- Prologo y declaración del tipo de documento
Introducción
Cada documento XML tiene una estructura lógica y otra física. Físicamente el documento está compuesto por entidades, las cuales se agrupan de forma jerárquica, existiendo una sola entidad raíz. Lógicamente el documento se compone de declaraciones, elementos, comentarios, referencias a carácter e instrucciones de proceso.
Parte física <persona edad=24> <nombre>Victor</nombre> <apellido>Cuervo</apellido> <foto origen=’victor.jpg’ /> </persona>
Parte lógica <!ELEMENT persona (nombre,apellido+,foto)> <!ELEMENT nombre (#PCDATA)> <!ELEMENT apellido (#PCDATA)> <!ELEMENT foto (EMPTY)> <!ATTLIST persona edad CDATA #IMPLIED> <!ATTLIST foto origen CDATA #REQUIRED>
Como vemos, la estructura de la parte física esta definida por la parte lógica.
Elementos
El documento deberá de tener uno o varios elementos. Uno de esos elementos será el elemento raíz o elemento documento. Este elemento será único en el documento.
Documento bien formado
<personas>
<persona>
<nombre>Victor</nombre>
</persona>
<persona>
<nombre>Luis</nombre>
</persona>
</personas>
Documento erróneo <persona> <nombre>Victor</nombre> </persona> <persona> <nombre>Luis</nombre> </persona>
Vemos que el documento erróneo no tiene un elemento raíz. Ya que el elemento persona no es único. Los elementos pueden tener contenido o ser elementos vacios.
Marcas
Dentro del documento tendremos texto y elementos de marcación. Los elementos de marcación, a los cuales llamaremos etiquetas irán delimitados por los caracteres menor (<) y mayor (>).Tenemos dos tipos de elementos: aquellos que van delimitados por una etiqueta de inicio <etiquetaInicio> y otra de fin </etiquetaFin> y los que son elementos vacíos, que tiene una sola etiqueta <etiquetaUnica />.
Elementos correctos <nombre>Victor</nombre> <imagen origen="foto.jpg" />
Elementos erróneos <nombre>Victor<nombre> <imagen origen="foto.jpg">
Estas etiquetas permiten anidar los elementos del documento. De tal manera que quede una estructura de anidacion jerárquica.
Estructura correcta <persona> <nombre>Victor</nombre> <imagen origen="foto.jpg"/> </persona>
Estructura errónea <persona><nombre> Victor </persona></nombre>
Atributos
Los atributos especificarán características o propiedades de los elementos de un documento. Los valores de los atributos deberán de ir entre comillas, ya sean comillas simples o dobles.
Atributos correctos <imagen origen="foto.jpg" /> <imagen origen=’foto.jpg’ />
Atributos incorrectos <imagen origen=foto.jpg />
Sintaxis
El lenguaje XML es sensible a mayúsculas. Es decir, que las etiquetas <NOMBRE>, <nombre> y <nomBre> son diferentes.
Los elementos, entidades y atributos deben de empezar por una letra que puede ir seguida de letras, números, guiones, rayas, punto o dos puntos
Las letras XML (en cualquiera de sus combinaciones de mayúsculas y minúsculas) no puede utilizarse como nombre de elemento, atributo o entidad.
Comentarios
Para añadir un comentario dentro del documento XML deberemos de hacerlo de la siguiente forma:
<!-- comentario -->
Entidades
Las entidades deberán de ir entre "&" y ";". Las entidades definidas por XML son:
& & < < > > ' ' " "
Secciones CData
Las secciones Cdata aparecen por si queremos que un determinado texto sea reconocido como caracteres de texto y no como elementos de marcado, y evitar así, el tener que usar múltiples entidades.
Estas secciones se definen de la siguiente forma
<![CDATA[ contenido ]]>
Dentro de estas secciones no podremos, desgraciadamente, utilizar la cadena "]]>", ya que es la que marca el final de esta sección.
<?xml version="1.0"?> <INFORMACION> <![CDATA[ <HTML> <HEAD><TITLE> Mi pagina </TITLE></HEAD> <BODY> Texto de la pagina </BODY> </HTML> ]]> </INFORMACION>
Prologo y declaración del tipo de documento
Los documentos XML deben de comenzar con una declaración XML, en la que se especifica la versión de XML que se esta utilizando. Para ello añadiremos al principio del documento la siguiente línea:
<?xml version="1.0"?>
Por el momento se usará el número 1.0, ya que solamente está en uso la versión 1.0 del lenguaje. Pero en un futuro, este campo servirá a los analizadores a verificar la versión del documento y ver así si la soportan o no.
Además de la versión, podemos identificar el tipo de codificación de datos del documento: US-ASCII, UTF-8,…
Después de haber realizado la declaración del documento XML podemos indicarle sobre que DTD se valida. El DTD (Definición del Tipo de Documento) que, a grandes rasgos, podemos decir que define los elementos que el documento XML podrá tener, así como una serie de reglas a cumplir.