最详细爬虫零基础教程11——html格式提取之xpath

文章目录

一、html和xml
二、xpath获取节点属性
三、xpath语法
四、案例展示
总结

一、html和xml

lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息。

区别：
1.xml被设计为传输和存储数据，其焦点是数据的内容
2.html是显示数据以及如何更好的显示数据

xml树结构展示
xml
XML结构 eg
xml

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。

二、xpath获取节点属性

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言，可用来在 HTML\XML 文档中对元素和属性进行遍历。

每个XML的标签我们都称之为节点，其中最顶层的节点称为根节点。

xpath中节点的关系
在这里插入图片描述
这里给大家推荐一个学习工具,Chrome插件（xpath_helper），百度网盘：https://pan.baidu.com/s/1UM94dcwgus4SgECuoJ-Jcg 密码:337b

三、xpath语法

选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。
查找特定的节点

注意点: 在xpath中，第一个元素的位置是1，最后一个元素的位置是last(),倒数第二个是last()-1
选取未知节点

为了加强对xpath的理解，多多练习才是正道：https://movie.douban.com/top250

练习1

选择所有的h1下的文本
//h1/text()
获取所有的a标签的href
//a/@href
获取html下的head下的title的文本
/html/head/title/text()
获取html下的head下的link标签的href
/html/head/link/@href

练习2
从豆瓣电影top250的页面中：选择所有的电影的名称，href，评分，评价人数

四、案例展示

xpath提取豆瓣单页内容

 from lxml import etree
import requests
 
if __name__ == '__main__':
    url_ = 'https://movie.douban.com/top250'
    headers_ = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
    }
    response_ = requests.get(url_,headers=headers_)
    str_data = response_.text
    print(response_.text)
    # 在提取任何网站的文本数据之前，先打印响应文本看看有没有想要的数据，如果有，再往下写代码，如果没有，再重新找数据包
 
    # str类型无法直接被xpath识取
    html_obj = etree.HTML(str_data)
 
    title_list = html_obj.xpath('//a/span[@class="title"][1]/text()')
    # print(len(title_list),title_list)
 
    url_list = html_obj.xpath('//div[@class="hd"]/a[@class=""]/@href')
    # print(len(url_list),url_list)
 
    dict_ = {}
    for i in range(len(title_list)):
        dict_[title_list[i]] = url_list[i]
    print(dict_)复制

总结

这两天我们学习的量有点大，各位uu们可以根据自己的情况来学习，主要是去多花时间练习。

以良好的心态面对生活，你的生活才美好。

最详细爬虫零基础教程11——html格式提取之xpath

文章目录

一、html和xml

二、xpath获取节点属性

三、xpath语法

四、案例展示

总结

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

文本，wangEditor5展示HTML无样式，wangEditor5如何看源码，Ctrl U看CSS文件，代码高亮，Prism.js可以实现，解决方法，参考网页源代码的写法

HTML/SSM-实验室预约管理系统-99299（免费领源码开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C 、python、数据可视化、大数据、全套文案

【简单html静态网页代码】制作一个简单HTML宠物网页（HTML CSS）

模仿电影中黑客电脑界面，html装逼代码

【html】新建一个html并且在浏览器运行

SSM基于html的网上购物系统2nluo 在线充值

在IntelliJ IDEA中创建一个HTML项目

CSS字体、行高等其他样式

CSS3新增属性(15个案例代码效果图素材)

前端哥

C#解析JSON的常用库--Newtonsoft.Json

jsonfield 项目常见问题解决方案

【SpringMVC】_SpringMVC项目返回HTML与JSON

BugJson因为json格式问题OOM怎么办

python 解读JSON文件，一文搞懂！

Redisson同时使用jackson、fastjson、kryo、protostuff序列化（含效率对比）

开源项目“Pretty JSON”安装与配置完全指南

2024年前端最新Nodejs基础之包管理工具npm(二)(2)，微软面试题及答案

解决全局安装pnpm后无法使用的问题

安装Nodejs后，npm无法使用

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	from lxml import etree
	import requests

	if __name__ == '__main__':
	url_ = 'https://movie.douban.com/top250'
	headers_ = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
	}
	response_ = requests.get(url_,headers=headers_)
	str_data = response_.text
	print(response_.text)
	# 在提取任何网站的文本数据之前，先打印响应文本看看有没有想要的数据，如果有，再往下写代码，如果没有，再重新找数据包

	# str类型无法直接被xpath识取
	html_obj = etree.HTML(str_data)

	title_list = html_obj.xpath('//a/span[@class="title"][1]/text()')
	# print(len(title_list),title_list)

	url_list = html_obj.xpath('//div[@class="hd"]/a[@class=""]/@href')
	# print(len(url_list),url_list)

	dict_ = {}
	for i in range(len(title_list)):
	dict_[title_list[i]] = url_list[i]
	print(dict_)

最详细爬虫零基础教程11——html格式提取之xpath

文章目录

一、html和xml

二、xpath获取节点属性

三、xpath语法

四、案例展示

总结

微信扫一扫：分享