深入解析XML中的字符实体与字符数据

这篇文章主要介绍了XML中的字符实体与字符数据,文中所说的CDATA片段即是指字符数据即不由解析器解析的文本块,需要的朋友可以参考下

深入解析XML中的字符实体与字符数据

字符实体

在我们了解字符实体之前,先了解一下什么是 XML 实体。

W3 联盟 对实体的定义:文档实体作为实体树的根元素和 XML 处理程序的起点。

这意味着实体就是 XML 中的占位符。它们可以声明在文档序言或者DTD中。实体有不同的类型,本章后面会讨论字符实体。

HTML 和 XML 都有一些符号被保留使用,它们不能在 XML 代码中用作内容。例如,< 和 > 符号被用作 XML 标签的开头和结尾。要显示这些特殊字符,就要使用字符实体。

有些特殊的字符或符号还不能直接使用键盘输入。可以使用字符实体来显示这些符号或特殊字符。

字符实体类型

有三种类型的字符实体:

预定义的字符实体。

编码字符实体。

命名字符实体。

预定义的字符实体

引入它们是为了避免使用某些有歧义的符号。例如,当我们把小于(<)或大于(>)符号当尖括号(<>)使用时就会产生歧义。字符实体从根本上来说就是用来界定 XML 标签的。下面是一个来自 XML 规范的预定义字符实体列表。它们可以用来表示某些字符而不带歧义。

和号: &

单引号: '

大于: >

小于: <

双引号: "

数字字符实体

数字引用被用来表示字符实体。数字引用可以是十进制或十六进制格式。由于有数以千记的数字引用,导致很难记住它们。数字引用通过使用字符在 Unicode 字符集中的编码数值来表示。

十进制数字引用基本语法:

&# decimal number ;

十六进制数字引用基本语法:

&#x Hexadecimal number ;

下面的表格列出了一些预定义字符实体和它们对应的数值:

实体名称 字符 十进制引用 十六进制引用
quot " &#34; &#x22;
amp & &#38; &#x26;
apos ' &#39; &#x27;
lt &#60; &#x3C;
gt > &#62; &#x3E;

命名字符实体

正如上面所说的,数值字符很难记住,最受欢迎的字符实体类型是命名字符实体。因为每个实体都用一个名称标识。

例如:

'Aacute' 表示带重音符的大写 A 字符。

'ugrave' 表示带沉音符的小写 u。

CDATA 片段

术语 CDATA 就是字符数据。CDATA 被定义为不由解析器解析的文本块,但它被公认为标记。

标记中预定义的实体比如 <,> 和 & 需要手动输入并且通常难以阅读。这种情况下就可以使用 CDATA 片段。通过使用 CDATA 片段,我们可以告诉解析器文档的特定部分不包含标记,应该被当做普通文本对待。

语法

下面是 CDATA 片段的语法:

<![CDATA[  
characters with markup  
]]>

上面的语法由三个部分组成:

CDATA 开始部分 - CDATA 以9个字符的分隔符<![CDATA[开头。

CDATA 结束部分 - CDATA 以 ]]> 分隔符结尾。

CData 部分 - 上面这两个标记之间的字符被解释为字符而不是标记。这个部分可以包含标记字符(<,> 和 &),但是它们会被 XML 处理程序忽略。

示例

下面的标记代码展示了 CDATA。其中写在 CDATA 片段中的字符都会被解析器忽略。

<script>  
<![CDATA[   
<message> Welcome to TutorialsPoint </message>  
]] >  
</script>

在上述的语法中,<message> 和 </message> 之间的所有内容都会被当做字符数据而不是标记。

CDATA 规则

XML CDATA 需要遵循以下规则:

XML 文档任何位置的 CDATA 都不能包含 "]]>" 字符。

CDATA 片段不可以嵌套。

声明:本站所有信息内容均由用户自行发表,该内容观点仅代表用户本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。Email:tellusa@foxmail.com

给TA打赏
共{{data.count}}人
人已打赏
XML/RSS教程

解析XML对代码中的空白处理

2024-4-27 0:16:15

XML/RSS教程

详解XML中的代码注释书写方法

2024-4-27 0:30:23

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
有新私信 私信列表
搜索