HTML和XML
html和xml都属于SGML(标准通用标记语言)的分支
html–程序型标记(html5不属于SGML)
xml–描述型语言(1998成为标准)
两者都是W3C维护
XML
xml:Extensible Markup Language,可扩展标记语言,xml只代表数据本身,而不包含任何样式,所以也称为一种描述语言
xml的作用
- 实现不同平台之间的数据交互(webservice)
- xml可以用于一些应用程序的配置文件(tomcat、servlet、web.xml)
xml的作用
- xml指令:<?xml version=”1.0” encoding=”UTF-8”>
- 文档类型定义<!DOCTYPE>
- 文档元素部分
xml指令
主要描述xml版本(目前只有1.0),编码,文档是否定义为一个独立的文件。
文档类型(DTD,XSD):规范文档中允许出现的标记,属性,以及标记之间的关系。
文档内容构成部分:标签、属性、文本。规范:标记必须成对出现,严格区分大小写
DOM解析
需要将被解析的文档完整的加载到内存中,解析为一颗倒置的树,可以通过解析器任意获取
文档树种的节点
优点:
适合解析较小的文档,解析速度快,可以任意搜索节点,并行搜索
缺点:
一次性加载整个文档,会消耗大量内存,无法解析较大文档
SAX解析:
基于事件驱动的方式,一流媒体方式解析解析,在读取到一部分内容之后立即开始解析,直
到读取到文档的结束标记后停止解析。
优点:
可以解析较大文档,解析效率快,一边读一边解析
缺点:
无法任意加载搜索节点,比较难实现并行搜索