Python lxml库：强大的XML和HTML处理工具

更多Python学习内容：ipengtao.com

Python的lxml库是一个功能强大的库，用于处理XML和HTML文档。它基于libxml2和libxslt库，提供了快速且灵活的API。lxml支持XPath、XSLT、HTML解析、XML模式验证等功能，是进行XML和HTML文档处理的理想选择。本文将详细介绍lxml库的安装、主要功能、基本操作、高级功能及其实践应用，并提供丰富的示例代码。

安装

lxml库可以通过pip进行安装。确保Python环境已激活，然后在终端或命令提示符中运行以下命令：

 pip install lxml复制

主要功能

解析和创建XML/HTML文档：支持从字符串、文件或URL中解析文档。
XPath和XSLT：支持使用XPath进行查询和使用XSLT进行转换。
HTML解析：支持宽容的HTML解析，可以处理不完美的HTML。
XML模式验证：支持使用DTD、RelaxNG和XML Schema进行验证。
与ElementTree兼容：兼容Python标准库的ElementTree接口。

基本操作

解析XML文档

以下示例展示了如何使用lxml解析XML文档：

 from lxml import etree
 
xml_data = """
<root>
    <child name="child1">Content1</child>
    <child name="child2">Content2</child>
</root>
"""
 
# 解析XML字符串
root = etree.fromstring(xml_data)
 
# 访问节点
for child in root:
    print(child.tag, child.attrib, child.text)复制

创建XML文档

以下示例展示了如何使用lxml创建XML文档：

 from lxml import etree
 
# 创建根节点
root = etree.Element("root")
 
# 创建子节点
child1 = etree.SubElement(root, "child", name="child1")
child1.text = "Content1"
 
child2 = etree.SubElement(root, "child", name="child2")
child2.text = "Content2"
 
# 转换为字符串
xml_data = etree.tostring(root, pretty_print=True).decode()
print(xml_data)复制

解析HTML文档

以下示例展示了如何使用lxml解析HTML文档：

 from lxml import html
 
html_data = """
<html>
  <body>
    <div class="content">Content1</div>
    <div class="content">Content2</div>
  </body>
</html>
"""
 
# 解析HTML字符串
tree = html.fromstring(html_data)
 
# 访问节点
contents = tree.xpath('//div[@class="content"]/text()')
print(contents)复制

使用XPath查询

以下示例展示了如何使用XPath查询XML文档：

 from lxml import etree
 
xml_data = """
<root>
    <child name="child1">Content1</child>
    <child name="child2">Content2</child>
</root>
"""
 
# 解析XML字符串
root = etree.fromstring(xml_data)
 
# 使用XPath查询
result = root.xpath('//child[@name="child1"]/text()')
print(result)复制

高级功能

使用XSLT进行转换

以下示例展示了如何使用XSLT转换XML文档：

 from lxml import etree
 
xml_data = """
<root>
    <child name="child1">Content1</child>
    <child name="child2">Content2</child>
</root>
"""
 
xslt_data = """
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
    <xsl:template match="/root">
        <html>
            <body>
                <h1>My Content</h1>
                <xsl:for-each select="child">
                    <div>
                        <span><xsl:value-of select="@name"/></span>: 
                        <span><xsl:value-of select="."/></span>
                    </div>
                </xsl:for-each>
            </body>
        </html>
    </xsl:template>
</xsl:stylesheet>
"""
 
# 解析XML和XSLT字符串
xml_root = etree.fromstring(xml_data)
xslt_root = etree.fromstring(xslt_data)
 
# 应用XSLT转换
transform = etree.XSLT(xslt_root)
result_tree = transform(xml_root)
 
# 输出结果
print(str(result_tree))复制

验证XML模式

以下示例展示了如何使用lxml验证XML文档的模式：

 from lxml import etree
 
xml_data = """
<root>
    <child name="child1">Content1</child>
    <child name="child2">Content2</child>
</root>
"""
 
# 定义XML Schema
schema_data = """
<xs:schema xmlns:xs="http://www.w3.org/2001/XMLSchema">
  <xs:element name="root">
    <xs:complexType>
      <xs:sequence>
        <xs:element name="child" maxOccurs="unbounded">
          <xs:complexType>
            <xs:simpleContent>
              <xs:extension base="xs:string">
                <xs:attribute name="name" type="xs:string" use="required"/>
              </xs:extension>
            </xs:simpleContent>
          </xs:complexType>
        </xs:element>
      </xs:sequence>
    </xs:complexType>
  </xs:element>
</xs:schema>
"""
 
# 解析XML和Schema字符串
xml_root = etree.fromstring(xml_data)
xml_schema_root = etree.fromstring(schema_data)
schema = etree.XMLSchema(xml_schema_root)
 
# 验证XML文档
is_valid = schema.validate(xml_root)
print(f"XML is valid: {is_valid}")复制

与ElementTree兼容

以下示例展示了如何使用lxml与ElementTree兼容的接口：

 from lxml import etree
 
# 创建XML字符串
xml_data = """
<root>
    <child name="child1">Content1</child>
    <child name="child2">Content2</child>
</root>
"""
 
# 使用ElementTree解析XML字符串
tree = etree.ElementTree(etree.fromstring(xml_data))
root = tree.getroot()
 
# 访问节点
for child in root:
    print(child.tag, child.attrib, child.text)复制

实践应用

处理大型XML文件

以下示例展示了如何使用lxml处理大型XML文件：

 from lxml import etree
 
# 定义XML文件路径
xml_file_path = 'large.xml'
 
# 逐行解析大型XML文件
context = etree.iterparse(xml_file_path, events=('end',), tag='child')
 
# 处理解析的事件
for event, elem in context:
    print(elem.tag, elem.attrib, elem.text)
    elem.clear()  # 释放已解析元素占用的内存复制

网络爬虫与HTML解析

以下示例展示了如何使用lxml进行HTML解析和网络爬虫：

 import requests
from lxml import html
 
# 发送HTTP请求获取网页内容
url = 'https://example.com'
response = requests.get(url)
 
# 解析HTML内容
tree = html.fromstring(response.content)
 
# 提取特定信息
titles = tree.xpath('//h1/text()')
print(titles)复制

转换和格式化XML

以下示例展示了如何使用lxml转换和格式化XML文档：

 from lxml import etree
 
# 创建XML字符串
xml_data = """
<root>
    <child name="child1">Content1</child>
    <child name="child2">Content2</child>
</root>
"""
 
# 解析XML字符串
root = etree.fromstring(xml_data)
 
# 添加新元素
new_child = etree.SubElement(root, "child", name="child3")
new_child.text = "Content3"
 
# 转换为字符串并格式化
xml_output = etree.tostring(root, pretty_print=True).decode()
print(xml_output)复制

使用XPath提取数据

以下示例展示了如何使用lxml的XPath功能提取XML文档中的数据：

 from lxml import etree
 
# 创建XML字符串
xml_data = """
<root>
    <child name="child1">Content1</child>
    <child name="child2">Content2</child>
    <child name="child3">Content3</child>
</root>
"""
 
# 解析XML字符串
root = etree.fromstring(xml_data)
 
# 使用XPath提取数据
names = root.xpath('//child/@name')
contents = root.xpath('//child/text()')
 
print("Names:", names)
print("Contents:", contents)复制

总结

lxml库为Python开发者提供了一个功能强大且灵活的工具，用于处理XML和HTML文档。它基于libxml2和libxslt库，具备高性能和丰富的功能，能够满足多种场景下的文档处理需求。通过lxml，用户可以轻松解析和创建XML/HTML文档，使用XPath进行高效查询，应用XSLT进行文档转换，以及执行模式验证以确保文档的正确性。在本文中，详细介绍了lxml库的安装方法，讲解了解析和创建XML/HTML文档的基本操作，并展示了如何使用XPath、XSLT和XML模式验证等高级功能。此外，还通过实际应用示例，演示了lxml在处理大型XML文件、进行网络爬虫、转换和格式化XML文档以及使用XPath提取数据方面的强大能力。希望通过本文，大家能够全面掌握lxml库的使用方法，并在实际项目中充分利用它的强大功能，提高XML和HTML文档处理的效率和准确性。

如果你觉得文章还不错，请大家点赞、分享、留言，因为这将是我持续输出更多优质文章的最强动力！

更多Python学习内容：ipengtao.com

如果想要系统学习Python、Python问题咨询，或者考虑做一些工作以外的副业，都可以扫描二维码添加微信，围观朋友圈一起交流学习。

我们还为大家准备了Python资料和副业项目合集，感兴趣的小伙伴快来找我领取一起交流学习哦！

往期推荐

Python 中的 iter() 函数：迭代器的生成工具

Python 中的 isinstance() 函数：类型检查的利器

Python 中的 sorted() 函数：排序的利器

Python 中的 hash() 函数：哈希值的奥秘

Python 中的 slice() 函数：切片的利器

Python 的 tuple() 函数：创建不可变序列

点击下方“阅读原文”查看更多

	from lxml import etree

	xml_data = """
	<root>
	<child name="child1">Content1</child>
	<child name="child2">Content2</child>
	</root>
	"""

	# 解析XML字符串
	root = etree.fromstring(xml_data)

	# 访问节点
	for child in root:
	print(child.tag, child.attrib, child.text)

	from lxml import etree

	# 创建根节点
	root = etree.Element("root")

	# 创建子节点
	child1 = etree.SubElement(root, "child", name="child1")
	child1.text = "Content1"

	child2 = etree.SubElement(root, "child", name="child2")
	child2.text = "Content2"

	# 转换为字符串
	xml_data = etree.tostring(root, pretty_print=True).decode()
	print(xml_data)

	from lxml import html

	html_data = """
	<html>
	<body>
	<div class="content">Content1</div>
	<div class="content">Content2</div>
	</body>
	</html>
	"""

	# 解析HTML字符串
	tree = html.fromstring(html_data)

	# 访问节点
	contents = tree.xpath('//div[@class="content"]/text()')
	print(contents)

	from lxml import etree

	# 创建XML字符串
	xml_data = """
	<root>
	<child name="child1">Content1</child>
	<child name="child2">Content2</child>
	</root>
	"""

	# 使用ElementTree解析XML字符串
	tree = etree.ElementTree(etree.fromstring(xml_data))
	root = tree.getroot()

	# 访问节点
	for child in root:
	print(child.tag, child.attrib, child.text)

	from lxml import etree

	# 定义XML文件路径
	xml_file_path = 'large.xml'

	# 逐行解析大型XML文件
	context = etree.iterparse(xml_file_path, events=('end',), tag='child')

	# 处理解析的事件
	for event, elem in context:
	print(elem.tag, elem.attrib, elem.text)
	elem.clear() # 释放已解析元素占用的内存

	import requests
	from lxml import html

	# 发送HTTP请求获取网页内容
	url = 'https://example.com'
	response = requests.get(url)

	# 解析HTML内容
	tree = html.fromstring(response.content)

	# 提取特定信息
	titles = tree.xpath('//h1/text()')
	print(titles)