python教程lxml详解

lxml是一个用于Python的XML和HTML处理库，它提供了高效、灵活和易于使用的API，用于解析、操作和生成XML和HTML文档。lxml基于libxml2和libxslt C库，因此在处理大型XML和HTML文档时，它具有优异的性能。

文章目录

介绍
1. 解析器
2. Element对象
创建Element对象
访问和修改Element对象的属性
访问和修改Element对象的文本内容
添加子元素
删除子元素和属性
Element对象的其他属性和方法

3. XPath和CSS选择器
使用XPath选择元素
使用CSS选择器选择元素
修改元素
添加元素
删除元素
修改元素的标签和属性
修改元素的文本内容

序列化HTML文档
总结

介绍

以下是关于lxml的一些详解：

解析XML和HTML文档：lxml提供了两种主要的解析器，分别是基于C的解析器和基于Python的解析器。基于C的解析器使用libxml2库，速度较快，而基于Python的解析器则更加容易安装和使用。使用lxml的解析器，可以将XML和HTML文档解析成一个树状结构的Element对象，从而可以通过操作Element对象来访问、修改和操作文档的内容。
Element对象：Element对象是lxml中的主要对象，它代表了XML或HTML文档中的一个元素或标签。Element对象具有丰富的属性和方法，可以用于获取元素的标签名、属性、文本内容、子元素、父元素等信息，也可以用于添加、删除和修改元素的属性和内容。
XPath和CSS选择器：lxml支持使用XPath和CSS选择器来定位和搜索XML和HTML文档中的元素。XPath是一种用于在XML和HTML文档中定位元素的语言，它可以通过路径表达式来指定元素的位置关系。CSS选择器则是一种类似于CSS的语法，可以通过选择器来定位元素。使用XPath和CSS选择器，可以灵活地定位和操作文档中的元素。
树遍历和搜索：lxml提供了一系列的方法，用于在Element对象之间进行树遍历和搜索。例如，可以使用Element对象的getchildren()方法来获取子元素，使用Element对象的iter()方法来迭代遍历子元素，使用Element对象的find()和findall()方法来搜索匹配条件的子元素，等等。这些方法使得在XML和HTML文档中定位和操作元素变得非常方便。
元素操作：lxml允许对Element对象进行丰富的操作，例如可以使用Element对象的attrib属性来访问和修改元素的属性，使用Element对象的text属性来访问和修改元素的文本内容，使用Element对象的append()和insert()方法来添加子元素，使用Element对象的remove()方法来删除元素，等等。这些方法使得对XML和HTML文档的修改变得简单和直观。
文档生成：lxml还可以用于生成XML和HTML文档。可以使用Element对象的Element()函数来创建新的元素，可以使用Element对象的attrib属性来添加和修改元素的属性，可以使用Element对象的text属性来设置元素的文本内容，等等。通过组合和嵌套当解析和处理XML和HTML文档时，lxml是一个功能强大且高效的Python库。它基于libxml2和libxslt C库，提供了一组丰富的API，用于解析、操作和生成XML和HTML文档。本篇文章将详细介绍lxml库的各个方面，包括解析器、Element对象、XPath和CSS选择器、树遍历和搜索、元素操作、文档生成等，以便深入理解lxml的用法和功能。

1. 解析器

lxml提供了两种主要的解析器，分别是基于C的解析器和基于Python的解析器。

基于C的解析器使用libxml2库，是lxml的默认解析器。它具有很高的性能，特别适用于处理大型XML和HTML文档。要使用基于C的解析器，需要安装lxml库，并且安装了C库libxml2和libxslt。

基于Python的解析器使用lxml自己实现的纯Python解析器，不依赖于外部C库。它更容易安装和使用，适合在没有安装C库的环境中使用。要使用基于Python的解析器，只需在导入lxml库时显式指定即可，例如：

 from lxml import etree
 
# 使用基于Python的解析器
parser = etree.XMLParser(parser='python')复制

在使用解析器时，可以通过设置不同的参数来控制解析过程，例如是否验证文档、是否保留注释和空白字符、是否启用命名空间等。可以参考lxml官方文档以获取更多关于解析器的详细信息。

2. Element对象

Element对象是lxml中的主要对象，它代表了XML或HTML文档中的一个元素或标签。Element对象具有丰富的属性和方法，可以用于访问、修改和操作文档的内容。

创建Element对象

可以使用Element()函数来创建一个新的Element对象，需要传入元素的标签名作为参数。例如，下面的代码创建了一个名为"book"的Element对象：

 from lxml import etree
 
# 创建一个名为"book"的Element对象
book = etree.Element("book")复制

可以通过在Element()函数中传入其他参数来设置元素的属性和文本内容，例如：

 # 创建一个带有属性和文本内容的Element对象
book = etree.Element("book", title="The Great Gatsby", price="10.99")
book.text = "A classic novel"复制

访问和修改Element对象的属性

Element对象的属性可以通过attrib属性来访问和修改。attrib是一个字典，包含了元素的所有属性和对应的值。例如，可以使用下面的代码访问和修改"book"元素的"title"属性和值：

 # 访问和修改元素的属性
print(book.属性名) 
# 访问属性值 
book.attrib["title"] = "The Catcher in the Rye" 
# 修改属性值复制

访问和修改Element对象的文本内容

Element对象的文本内容可以通过text属性来访问和修改。text属性存储了元素的文本内容，可以直接赋值来修改文本内容。例如，可以使用下面的代码访问和修改"book"元素的文本内容：

 # 访问和修改元素的文本内容
print(book.text)  # 访问文本内容
book.text = "A classic novel about teenage angst"  # 修改文本内容复制

添加子元素

可以使用append()方法向Element对象添加子元素。append()方法需要传入一个Element对象作为参数，表示要添加的子元素。例如，下面的代码向"book"元素添加了一个名为"author"的子元素：

 from lxml import etree
 
# 创建一个名为"book"的Element对象
book = etree.Element("book")
 
# 创建一个名为"author"的Element对象
author = etree.Element("author")
author.text = "J.D. Salinger"
 
# 将"author"元素添加为"book"元素的子元素
book.append(author)复制

删除子元素和属性

可以使用remove()方法从Element对象中删除子元素。remove()方法需要传入一个Element对象作为参数，表示要删除的子元素。例如，下面的代码从"book"元素中删除了名为"author"的子元素：

 book.remove(author)  # 从"book"元素中删除"author"子元素复制

要删除Element对象的属性，可以使用del关键字，例如：

 del book.attrib["title"]  # 删除"book"元素的"title"属性复制

Element对象的其他属性和方法

Element对象还具有许多其他属性和方法，用于获取和操作元素的相关信息。例如：

tag: 获取元素的标签名
attrib: 获取元素的属性字典
get(): 获取指定属性的值
set(): 设置指定属性的值
keys(): 获取元素的所有属性名
items(): 获取元素的所有属性和对应的值
find(): 在元素的子元素中查找符合条件的第一个元素
findall(): 在元素的子元素中查找符合条件的所有元素
iter(): 获取元素的迭代器，用于遍历元素的所有子元素
itertext(): 获取元素及其子元素的文本内容，用于迭代遍历所有文本内容

可以参考lxml官方文档以获取更多关于Element对象的详细信息。

3. XPath和CSS选择器

lxml支持使用XPath和CSS选择器来定位和筛选文档中的元素。XPath是一种用于在XML和HTML文档中定位元素的语言，而CSS选择器是一种用于在HTML文档中定位元素的语言。lxml提供了xpath()和cssselect()方法，可以通过这两种方式来进行元素的选择和筛选。

使用XPath选择元素

XPath使用路径表达式来定位文档中的元素。路径表达式由一系列的节点和运算符组成，用于描述元素在文档中的位置关系。例如，下面的XPath路径表达式可以选择所有名为"book"的元素：

 # 使用XPath选择元素
books = root.xpath("//book")  # 选择所有名为"book"的元素复制

XPath路径表达式中的//表示从根节点开始搜索，book表示元素的标签名，因此这个路径表达式可以选择所有名为"book"的元素。

可以在XPath路径表达式中使用各种运算符和轴（axis）来更精确地定位元素。例如，下面的XPath路径表达式可以选择所有名为"book"的子元素中的第一个：

 # 使用XPath选择元素的子元素
first_book = root.xpath("book[1]")  # 选择第一个名为"book"的元素复制

在XPath路径表达式中，[]表示运算符，可以用于筛选满足条件的元素。这里的[1]表示选择第一个满足条件的元素。

XPath还支持各种函数，例如text()函数可以用于获取元素的文本内容，@符号可以用于获取元素的属性值。例如，下面的XPath路径表达式可以选择所有名为"book"的元素的"title"属性：

 # 使用XPath选择元素的属性
titles = root.xpath("//book/@title")  # 选择所有名为"book"的元素的"title"属性复制

可以参考XPath的语法规则和函数列表以获取更多关于XPath的详细信息。

使用CSS选择器选择元素

CSS选择器是一种常用于在HTML文档中定位元素的语言，lxml也支持使用CSS选择器来选择元素。使用cssselect()方法可以通过CSS选择器来选择元素。例如，下面的代码可以选择所有名为"book"的元素：

 # 使用CSS选择器选择元素
books = root.cssselect("book")  # 选择所有名为"book"的元素复制

在CSS选择器中，标签名表示元素的标签名，可以通过空格来表示元素的层级关系。例如，下面的代码可以选择所有名为"book"的子元素中的第一个：

 # 使用CSS选择器选择元素的子元素
first_book = root.cssselect("book:first-child")  # 选择第一个名为"book"的元素复制

CSS选择器还支持各种伪类和伪元素，用于更精确地定位元素。例如，:first-child表示选择第一个子元素，:last-child表示选择最后一个子元素，:nth-child(n)表示选择第n个子元素，等等。可以参考CSS选择器的语法规则和伪类、伪元素列表以获取更多关于CSS选择器的详细信息。

修改元素

lxml提供了丰富的方法来修改HTML文档中的元素。可以使用这些方法来添加、删除、修改元素的标签、属性和文本内容。

添加元素

可以使用Element类的append()、insert()和extend()方法来添加元素。

append(element)：将一个元素添加为当前元素的子元素的最后一个元素。
insert(index, element)：将一个元素添加为当前元素的子元素的指定位置。
extend(elements)：将多个元素添加为当前元素的子元素的最后几个元素。

例如，下面的代码将在名为"books"的元素下添加一个名为"book"的子元素：

 # 添加元素
new_book = Element("book")
new_book.text = "New Book"
books.append(new_book)复制

删除元素

可以使用Element类的remove()方法来删除元素。

remove(element)：从当前元素的子元素中删除指定的元素。

例如，下面的代码将删除名为"book"的元素：

 # 删除元素
book_to_delete = root.cssselect("book")[0]
root.remove(book_to_delete)复制

修改元素的标签和属性

可以使用Element类的tag和attrib属性来修改元素的标签和属性。

tag：元素的标签名，可以直接修改。
attrib：元素的属性字典，可以通过修改字典来修改元素的属性。

例如，下面的代码将名为"book"的元素的标签名修改为"new_book"，并将其"category"属性值修改为"fiction"：

 # 修改元素的标签和属性
book_to_modify = root.cssselect("book")[0]
book_to_modify.tag = "new_book"
book_to_modify.attrib["category"] = "fiction"复制

修改元素的文本内容

可以使用Element类的text属性来修改元素的文本内容。

text：元素的文本内容，可以直接修改。

例如，下面的代码将名为"title"的元素的文本内容修改为"New Title"：

 # 修改元素的文本内容
title_element = root.cssselect("title")[0]
title_element.text = "New Title"复制

序列化HTML文档

lxml提供了将HTML文档序列化为字符串的功能，可以使用Element类的tostring()方法。

tostring(element, encoding=None, pretty_print=False, method="xml", xml_declaration=None, with_tail=True, standalone=None)：将元素序列化为字符串。

例如，下面的代码将名为"root"的元素序列化为字符串：

 # 序列化HTML文档
html_string = tostring(root, encoding="utf-8", pretty_print=True).decode("utf-8")
print(html_string)复制

可以通过修改encoding参数来指定输出字符串的编码方式，通过pretty_print参数来控制是否使用缩进格式输出，通过method参数来指定输出的序列化方法（默认为"xml"，也可以选择"html"）。

总结

lxml是一个强大且灵活的Python库，用于处理XML和HTML文档。它提供了丰富的功能，包括解析、遍历、搜索、修改和序列化XML和HTML文档。在处理大型复杂的XML和HTML文档时，lxml表现出色，因为它基于C实现，速度快且内存占用低。

在使用lxml时，可以使用Element类来表示XML和HTML文档中的元素，并使用其提供的方法来进行解析、遍历、搜索、修改和序列化操作。可以使用XPath和CSS选择器来定位元素，使用Element类的属性和方法来获取、修改元素的标签、属性和文本内容。

需要注意的是，在处理用户输入的XML和HTML数据时，应该谨慎防范潜在的安全漏洞，例如XXE攻击和XSS攻击。可以使用lxml提供的一些安全选项来对输入数据进行验证和过滤，以防止安全风险。

希望通过本篇文章的详解，您对lxml库有了更深入的了解，并能够在实际项目中充分发挥其功能和优势。

	from lxml import etree

	# 使用基于Python的解析器
	parser = etree.XMLParser(parser='python')

	from lxml import etree

	# 创建一个名为"book"的Element对象
	book = etree.Element("book")

	# 创建一个带有属性和文本内容的Element对象
	book = etree.Element("book", title="The Great Gatsby", price="10.99")
	book.text = "A classic novel"

	# 访问和修改元素的属性
	print(book.属性名)
	# 访问属性值
	book.attrib["title"] = "The Catcher in the Rye"
	# 修改属性值

	# 访问和修改元素的文本内容
	print(book.text) # 访问文本内容
	book.text = "A classic novel about teenage angst" # 修改文本内容

	# 使用XPath选择元素
	books = root.xpath("//book") # 选择所有名为"book"的元素

	# 使用XPath选择元素的子元素
	first_book = root.xpath("book[1]") # 选择第一个名为"book"的元素

	# 使用XPath选择元素的属性
	titles = root.xpath("//book/@title") # 选择所有名为"book"的元素的"title"属性

	# 使用CSS选择器选择元素
	books = root.cssselect("book") # 选择所有名为"book"的元素

	# 使用CSS选择器选择元素的子元素
	first_book = root.cssselect("book:first-child") # 选择第一个名为"book"的元素

	# 添加元素
	new_book = Element("book")
	new_book.text = "New Book"
	books.append(new_book)

	# 删除元素
	book_to_delete = root.cssselect("book")[0]
	root.remove(book_to_delete)

	# 修改元素的标签和属性
	book_to_modify = root.cssselect("book")[0]
	book_to_modify.tag = "new_book"
	book_to_modify.attrib["category"] = "fiction"

	# 修改元素的文本内容
	title_element = root.cssselect("title")[0]
	title_element.text = "New Title"

	# 序列化HTML文档
	html_string = tostring(root, encoding="utf-8", pretty_print=True).decode("utf-8")
	print(html_string)