爬虫入门到精通_框架篇18(Scrapy中选择器用法)_sector,xpath,css,re

官方文档

Using selectors

To explain how to use the selectors we’ll use the Scrapy shell (which provides interactive testing) and an example page located in the Scrapy documentation server:
https://docs.scrapy.org/en/latest/_static/selectors-sample1.html
在这里插入图片描述

 <!DOCTYPE html>
 
<html>
  <head>
    <base href='http://example.com/' />
    <title>Example website</title>
  </head>
  <body>
    <div id='images'>
      <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' alt='image1'/></a>
      <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' alt='image2'/></a>
      <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' alt='image3'/></a>
      <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' alt='image4'/></a>
      <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' alt='image5'/></a>
    </div>
  </body>
</html>复制

进入命令行交互模式：

 scrapy shell https://docs.scrapy.org/en/latest/_static/selectors-sample1.html复制

在这里插入图片描述
输入

 response.selector复制

输出：request内置的selector选择器
在这里插入图片描述

XPath选择器

let’s construct an XPath for selecting the text inside the title tag:

 response.xpath("//title/text()")复制

输出选择器与内容.
在这里插入图片描述

css选择器

 response.css("title::text").get()复制

在这里插入图片描述

xpath和css的运用

xpath查找images标签

 response.xpath('//div[@id="images"]')复制

在这里插入图片描述

 response.xpath('//div[@id="images"]').css("img")复制

在这里插入图片描述
css可以用::attr()获取属性:

 response.xpath('//div[@id="images"]').css("img::attr(src)").extract()复制

在这里插入图片描述
default:查不到内容返回default里内容

href标签：

contains

找属性名称包含image的所有的超链接可以使用contains选项，第一个参数是属性名，第二个属性是要查找的值

 response.xpath('//a[contains(@href,"image")]/@href').extract()复制

在这里插入图片描述
CSS的写法：

 response.css('a[href*=image]::attr(href)').extract()复制

在这里插入图片描述
假如我们要选择所有a标签里的img里面的src属性，用上contains：

 response.xpath('//a[contains(@href,"image")]/img/@src').extract()复制

在这里插入图片描述
CSS:注意[]之后要有空格

 response.css('a[href*=image] img::attr(src)').extract()复制

在这里插入图片描述

正则表达式

提取内容
在这里插入图片描述
提取冒号后的内容，就需要正则表达式了，注意，\用来对：进行转义。

  response.css('a::text').re('Name\:(.*)')复制

在这里插入图片描述
与extract()方法类似，re也提供了取得列表中第一个元素的方法：re_first()

 response.css('a::text').re_first('Name\:(.*)')复制

在这里插入图片描述
进一步地，可以使用strip()方法，去掉返回结果中前后的空格：

 response.css('a::text').re_first('Name\:(.*)').strip()复制

在这里插入图片描述

小结

response为我们提供了几个提取方法：

xpath
CSS
re

返回的结果都是Selector类型，可以进行嵌套循环。
a) 对css来说:

获取a标签中的文本内容：response.css(‘a::text’)
获取a标签中的某个属性：response.css(‘a::attr(属性)’)

(b)对xpath来说：

获取a标签中的文本内容：response.xpath(‘//a/text()’)
获取a标签中的某个属性：response.xpath(‘//a/@href’)

两种选择方法，写法不同，效果类似。

要从selector变为数据，则在后面加上.extract() 或 .extract()_first() 或.extract()[x]（x为list中元素的下标）。
如果要提取更具体的信息，可以用正则表达式的方法，在后面加上 .re() 或 .re()_first 进行嵌套选择。

爬虫入门到精通_框架篇18(Scrapy中选择器用法)_sector,xpath,css,re

Using selectors

XPath选择器

css选择器

xpath和css的运用

contains

正则表达式

小结

文本，wangEditor5展示HTML无样式，wangEditor5如何看源码，Ctrl U看CSS文件，代码高亮，Prism.js可以实现，解决方法，参考网页源代码的写法

【简单html静态网页代码】制作一个简单HTML宠物网页（HTML CSS）

CSS字体、行高等其他样式

CSS3新增属性(15个案例代码效果图素材)

基于CSS3媒体查询的响应式旅游网站设计与实现-计算机毕设附源码 12755

如何让CSS只在当前组件中起作用

CSS--解决图片变形的方法

CSS Grid 布局在 IE 中不兼容的原因与解决方案

快速入门CSS

html css基础教程入门篇之CSS 浮动行框和清理

前端哥

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	<!DOCTYPE html>

	<html>
	<head>
	<base href='http://example.com/' />
	<title>Example website</title>
	</head>
	<body>
	<div id='images'>
	<a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' alt='image1'/></a>
	<a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' alt='image2'/></a>
	<a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' alt='image3'/></a>
	<a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' alt='image4'/></a>
	<a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' alt='image5'/></a>
	</div>
	</body>
	</html>

爬虫入门到精通_框架篇18(Scrapy中选择器用法)_sector,xpath,css,re

Using selectors

XPath选择器

css选择器

xpath和css的运用

contains

正则表达式

小结

微信扫一扫：分享