Алексей Валиков - Технология XSLT
SDDecl? S? '?>'
Продукция VersionInfo определяет синтаксис псевдоатрибута version:
[24] VersionInfo ::= S? 'version' Eq
("'" VersionNum "'"
| "" VersionNum "")
Значение версии документа может состоять из латинских букв и цифр, а также символов "_", ".", ":" и "-":
[26] VersionNum ::= ([a-zA-Z0-9_.:] | '-')+
Кодировка объявляется продукцией EncodingDecl, которая синтаксически похожа на VersionInfo:
[80] EncodingDecl ::= S? 'encoding' Eq
("'" EncName "'"
| '"' EncName '"')
Имя кодировки, EncName, может состоять только из латинских букв, цифр и символов ".", "_" и "-", причем первым символом названия кодировки всегда должна быть буква:
[81] EncName [A-Za-z] ([A-Za-z0-9.-] | '-')*
Используемое в документе название кодировки должно быть известно программному обеспечению, которое этот документ обрабатывает. В противном случае могут возникнуть ошибки и несоответствия. В спецификации рекомендуется использовать названия кодировок, одобренные IANA (Internet Assigned Numbers Authority — Комитет присвоенных кодов Интернет). Кириллице, которая используется в русском языке, в списках IANA присваивается около десятка кодировок. Самыми распространенными из них являются следующие:
□ Windows-1251;
□ KOI8-R;
□ Cp866;
□ ISO-8859-5.
Техническая рекомендация XML оговаривает, что. в тех случаях, когда имя использованной кодировки не является стандартным, оно должно указываться с префиксом "x-", например:
<?xml version="1.0" encoding="x-BK-CYR"?>
Псевдоатрибуту standalone соответствует EBNF-правило SDDecl:
[32] SDDecl ::= S 'standalone' Eq
(("'" ('yes' | 'no') "'")
| ( '"' ('yes' | 'no') '"' ) )
Расшифровывается это правило очень просто: псевдоатрибут standalone может иметь значение yes или no, заключенное в одинарные или двойные кавычки.
Секции СDATA
Секции CDATA выделяют части документа, внутри которых текст не должен восприниматься как разметка. CDATA означает буквально "character data" — символьные данные. Секции CDATA задаются следующим образом:
<![CDATA[содержимое]]>
Поскольку синтаксис разметки документов в XML имеет текстовую форму, часто бывает, что само содержимое документа может быть воспринято как разметка. В том случае, когда этого желательно избежать, самым простым выходом будет поместить такие данные внутрь секции CDATA.
ПримерСледующий текст в документе
<slogan>Покупайте наших слонов!</slogan>
будет воспринят как разметка. Для того чтобы избежать этого, достаточно написать
<![СDАТА[<slogan>Покупайте наших слонов!</slogan>]]>
Такая конструкция уже будет воспринята как символьные данные. Другим примером может быть использование символов "<" и "&":
<![CDATA[ if ( а < b && b < с ) {...} ]]>
Секции символьных данных задаются четырьмя довольно простыми правилами:
[18] CDSect ::= CDStart CData CDEnd
[19] CDStart ::= '<![CDATA['
[20] CData ::= Char* - (Char* ']]>' Char*))
[21] CDEnd ::= ']]>'
Содержимое секции символьных данных, отвечающее продукции CData, может состоять из любых символов, в том числе "<" и "&", которые не будут восприниматься как разметка. Единственное, чего секции CDATA не могут включать — это последовательность "]]>", которая завершает символьную секцию.
Комментарии (comments)
XML-документ может содержать комментарии, которые записываются следующим образом:
<!-- текст комментария -->
Текст комментария может состоять из любых символов, кроме двух минусов
подряд ("--"). Кроме этого, комментарий не должен заканчиваться символом "-" .
Пример комментария:
...
<!-- product title="Слон">
Покупайте наших слонов!
</product-->
...
Продукция комментария называется в XML Comment и имеет следующий вид:
[15] Comment ::= '<!--' ((Char - '-') | ('-' (Char- '-')))* '-->'
Выражение ((Char - '-') | ('-' (Char - '-')))* означает, что содержимое комментария не должно оканчиваться на знак "-" или содержать два таких знака последовательно.
Пространства имён
XML позволяет создавать наборы элементов с любыми синтаксически допустимыми именами и определять с их помощью логическую структуру документов практически произвольной сложности.
За время существования XML была создана разметка для большого числа задач. На таких Web-сайтах, как http://www.xml.org, http://www.schema.net и http://www.ebxml.org можно с большой вероятностью найти определения структуры документов для огромного количества предметных областей. Во многих случаях уже созданные схемы помогут сократить этап концептуального моделирования документов.
Часто случается, что различные логические схемы документов используют одни и те же имена элементов в различных смыслах. Это не является проблемой, если в документе используется только одна схема. Но представьте себе ситуацию, когда в одном и том же документе необходимо использовать элементы нескольких различных схем — будет попросту невозможно определить, какой элемент относится к какой схеме, и, вообще, какие схемы были использованы в документе. Для решения этих проблем в XML используются пространства имен (англ. namespaces).
Чтобы различать схемы документов, каждой из них ставится в соответствие уникальный идентификатор ресурса (URI). Две схемы будут считаться тождественными тогда и только тогда, когда их уникальные идентификаторы будут совпадать, поэтому нужно осторожно выбирать URI для создаваемой схемы документа. Очень часто в качестве URI используются URL различных Web-сайтов. Это совсем не означает, что по указанному адресу должно что-либо находиться, просто такой способ практически гарантирует уникальность — вряд ли кому придет в голову использовать адрес чужого сервера в качестве идентификатора своей схемы.
ПримерУникальный идентификатор языка XSLT, которому посвящена эта книга, имеет вид:
http://www.w3.org/1999/XSL/Transform
Для того чтобы определить, какой схеме принадлежит тот или иной элемент в документе, можно использовать механизм префиксов. Префиксы пространств имен задаются как атрибуты с именами, начинающимися последовательностью xmlns, и имеют следующий вид:
<префикс:элемент xmlns:префикс="URI">
...
</префикс:элемент>
ПримерВ XSLT чаще всего используется префикс xsl, который задается, как правило, следующим образом:
<xsl:stylesheet
xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
version="1.0">
...
</xsl:stylesheet>
При этом ничто не мешает использовать любой другой префикс. Например, следующий фрагмент документа будет совершенно идентичен предыдущему:
<www:stylesheet
xmlns:www="http://www.w3.org/1999/XSL/Transform"
version="1.0">
...
</www:stylesheet>
Префиксы, которые были определены в некотором элементе, могут быть использованы в его собственном имени, а также в именах всех элементов, которые включены в него.
Пример<!-- Здесь еще нельзя использовать префикс aaa -->
<aaa:element xmlns:aaa="http://www.aaa.com">
<!-- Здесь уже можно использовать префикс aaa -->
<ааа:anotherelement/>
...
</aaa:element>
<!-- А здесь снова нельзя -->
Принадлежность элементов той или иной схеме определяется не префиксами, а тем, какие уникальные идентификаторы поставлены этим префиксам в соответствие. То есть два элемента с разными префиксами, заданными одинаковыми идентификаторами, будут считаться принадлежащими одной схеме.
ПримерВ следующем фрагменте
<xslt:stylesheet
xmlns:xslt="http://www.w3.org/1999/XSL/Transform"
version="1.0">
<xsl:template xmlns:xsl="http://www.w3.org/1999/XSL/Transform"/>
...
</xslt:stylesheet>
элементы stylesheet и template имеют различные префиксы, но, несмотря на это, принадлежат одной и той же схеме.
В одном элементе можно определять несколько префиксов пространств имен. Как правило, при использовании множества префиксов, все они определяются в корневом элементе, а затем используются по всему документу.
Пример<aaa:element