CSS Selector—选择方法，和html自动——异步社区的爬取（动态网页）——爬虫（get和post的区别）

这里先说一下GET请求和POST请求：
post我们平时是要加data的也就是信息，你会发现我们平时百度之类的搜索都是post请求

get我们带的是params，是发送我们指定的内容。

要注意是get和post请求！！！

先说一下异步社区的爬取吧！！！

import ast
import json
import os
import requests
import re

img_path = "异步社区免费书名"
img_path = f"./{img_path}/"  # 指定保存地址
if not os.path.exists(img_path):
    print("您没有这个文件为您新建一个文件---")
    os.mkdir(img_path)
else:
    print(f"为您保存在{img_path}文件夹中")

url = 'https://www.epubit.com/pubcloud/operation/front/portal/getData?'

hearder = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0',
    'Cookie':'acw_tc=2760778817075767822875772e9bcf3ab5beae1aa1ebb67787560accfa3087'
}
for i in range(1,4,1):
    params = {
        'policyId': '97a5bcb8-54c2-4649-ac37-72a11b0490dc',
        'floorCode': 'A1',
        'more': 'true',
        'page': f'{i}',
        'row': '10'
    }

    response = requests.get(url,headers=hearder,params=params).text
    #print(response)
    dic = json.loads(response)
    # print(dic)
    # print(type(dic))
    dic2 = dic['data']
    dic3 = dic2['records']
    for i in range(0,len(dic3),1):
        content = dic3[i]['name']
        print(content)
        #print(type(dic3[i]))
        f = open(f"{img_path}name.txt", 'a')
        content = content+'\n'
        f.write(content)

这个方法是用我以前用的动态网页爬取的爬的。还在尝试用selenium爬取（没有成功）！

这是没有加params你会发现，找不到我们想要找的。这个是个动态网页的抓取。

然后加上上面代码中的params，就可以进入了。

1.dic = json.loads(response)

这个就是把json形式转为字典，json的形式就是，代大括号像字典的。

dic2 = dic['data']
dic3 = dic2['records']

这个就是找找找！！！

3.for i in range(0,len(dic3),1):
    content = dic3[i]['name']
    print(content)
    #print(type(dic3[i]))
    f = open(f"{img_path}name.txt", 'a')
    content = content+'\n'
    f.write(content)

这个就是写入文件

结束！！！，还想尝试selenium但是没成功！

下来进入重点！！！

先说自动化，这个就是基本形式

from selenium import webdriver
from selenium.webdriver.common.by import By

# 创建 WebDriver 对象
wd = webdriver.Chrome()

# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wd.get('https://www.byhy.net/_files/stock1.html')

# 根据id选择元素，返回的就是该元素对应的WebElement对象
element = wd.find_element(By.ID, 'kw')

# 通过该 WebElement对象，就可以对页面元素进行操作了
# 比如输入字符串到 这个 输入框里
element.send_keys('通讯\n')

1.web自动化：选择元素：

element = wd.find_element(By.ID, 'kw')

这个就是选择ID为kw的内容。ID这里可以变为CLASS_NAME

elements = wd.find_elements(By.TAG_NAME, 'div')

这个是找标签！

2.wd.click()这个是点击！wd.quit()这个关闭网页！！

3.为防止我们平时爬取太慢而没有爬到——wd.implicitly_wait(10)

这个就是没有爬到等待，最多等到10s

4.这个也是获取class的内容

element.get_attribute('class')

获取HTML

element.get_attribute('innerHTML')

获取输入框内容

element.get_attribute('value')

下面是css表达式：这个就比较高效了

如果我们要选择的元素没有id、class 属性，或者有些我们不想选择的元素也有相同的 id、class属性值，怎么办呢？

这时候我们通常可以通过 CSS selector 语法选择元素。

css格式：——class——‘.’

——id——‘#’

——标签——“什么都不要”

——href——“[href="网址"]”

这个是搜索格式：

find_element(By.CSS_SELECTOR, CSS Selector参数)

CSS 选择器可以指定选择的元素要同时具有多个属性的限制，像这样

div[class=misc][ctype=gun]

子和后代元素的选择：

子元素 ‘>’

后代元素‘空格’

1.div.footer1 > span.copyright

这个的意思是 div标签的class类中的叫footer1的子元素span标签的class类的叫copyright

2..footer1 .copyright

这个意思是class类叫footer1的后代叫copyright的

3..plant , .animal

这个意思是class类叫plant和叫animal的选择

这个是格式：

elements = wd.find_elements(By.CSS_SELECTOR, '.plant , .animal')

节点：

我们可以指定选择的元素 是父元素的第几个子节点

使用 nth-child

1.span:nth-child(2)

这个意思是父元素的第二个子元素，类型为span

2.p:nth-last-child(1)

这个意思是倒数

3.nth-of-type

这个意思是只看这个所选的类型

4.span:nth-of-type(1)

这个意思是第一个span类型的子元素

5.nth-last-of-type

这个是倒数

6.nth-child(even)——偶数节点，nth-child(odd)——奇数节点

如果要选择的是父元素的 某类型偶数节点，使用 nth-of-type(even)

如果要选择的是父元素的 某类型奇数节点，使用 nth-of-type(odd)

7.h3 + span

标签为h3后面紧跟的span

8.h3 ~ span

标签为h3后面的所有span节点

css注意“空格”不能乱加，这个是根据白月黑雨写的这个爆赞！！！

CSS Selector—选择方法，和html自动——异步社区的爬取（动态网页）——爬虫（get和post的区别）

有小伙伴想要的纯原生版代码

CSS3--背景：图片大小、位置区域和剪裁

模拟淘宝密码登录界面

Js实现轮盘抽奖功能，一招帮你解决选择困难症

前端基础篇-快速了解 Vue 前端框架（Vue 指令）

打字通小游戏制作教程：用HTML5和JavaScript提升打字速度

适合小白的HTML的思维导图

2.2 HTML5保留的常用标签

HTML小游戏26 —— HTML5密室逃生游戏（附完整源码）

前端上传二进制格式图片数据到后端接口的实现方法

前端哥

如何定义 jQuery 函数？

jQuery事件方法

JavaWeb笔记之前端开发JQuery

原型链，改变this指向，settimeout和setinterval的区别， js入口函数与jQuery入口函数的区别，内存生命周期及解决内存浪费

有小伙伴想要的纯原生版代码

JQuery前端操作JSON浅谈

「jQuery系列」jQuery插件介绍（表单校验Prettydate、提示框Tooltip、树型菜单Treeview）

Echarts环形饼状图设置内外边框

使用 Echarts 做数据可视化智能大屏1

echarts 雷达图实例属性详解

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011000

2
ECharts 饼状图颜色设置

2024-02-16 14:02:001000

3
echarts实现动态渲染多柱图

2024-02-12 14:02:341000

4
移动端css布局大全

2024-02-06 15:02:421000

5
使用HTML5和JS实现日期下拉框功能

2024-02-04 11:02:521000

6
JS生成条形码JsBarcode.all.js，转成图片canvas2image.js，并打印二维码jQuery.print.js

2024-01-27 01:01:181000

7
echarts 图表，定时器实现数据实时动态

2024-03-13 00:03:28999

8
jQuery事件处理

2024-03-12 01:03:32999

9
HTML5实现下拉列表的标签有哪些

2024-03-11 10:03:35999

10
成都工业学院Web技术基础（WEB）实验一：HTML5排版标签使用

2024-02-27 11:02:41999