Rust爬虫练手:爬取B站“庆余年2“相关视频链接

1. 基本模板

这里的外链接指的所有是<href>标签的值；

 // 导入 error_chain 宏，用于定义错误处理宏
use error_chain::error_chain;
// 导入 select 库中的 Document 结构体，用于解析 HTML 文档
use select::document::Document;
// 导入 select 库中的 Name 谓词，用于选择指定标签
use select::predicate::Name;
 
// 使用 error_chain 宏定义错误处理宏
error_chain! {
    // 定义外部错误链接
    foreign_links {
        // 将 reqwest 库中的 Error 错误类型映射为 ReqError
        ReqError(reqwest::Error);
        // 将 std::io 库中的 Error 错误类型映射为 IoError
        IoError(std::io::Error);
    }
}
 
// 异步 main 函数，使用 tokio::main 宏标记为异步函数
#[tokio::main]
async fn main() -> Result<()> {
    // 发起 GET 请求获取指定网址的响应
    let res = reqwest::get("https://www.qianlans.top")
        .await? // 等待请求完成，处理可能出现的请求错误
        .text() // 将响应转换为文本
        .await?; // 等待文本转换完成，处理可能出现的 IO 错误
 
    // 从响应文本创建一个 Document 对象
    Document::from(res.as_str())
        // 查找所有符合条件的 <a> 标签
        .find(Name("a"))
        // 获取每个 <a> 标签的 href 属性值，过滤掉空值
        .filter_map(|n| n.attr("href"))
        // 遍历每个 href 属性值并打印
        .for_each(|x| println!("{}", x));
 
    // 返回 Ok 表示程序执行成功
    Ok(())
}复制

2. 案例实操：爬取B站搜索”庆余年2“的视频数据

2.1 第一爬：爬取当页所有链接

最近庆余年相关的内容都比较受欢迎，这里就以爬取B站以庆余年为关键词搜索出来的视频链接作为示例演示这段代码的功能：

爬取的目标地址:

https://search.bilibili.com/all?vt=27468598&keyword=庆余年2&from_source=webtop_search&spm_id_from=333.934&search_source=2

2.2 第二爬：过滤非法链接

从上面爬取得数据来看，爬取得链接地址并不全部符合我们得要求，我们需要是包含了https开头得完可访问的视频url，但是这里却包含了一些奇奇怪怪的地址，比如开头那几行就没意义，后面这些地址也不是完整的URL,因此还需要进一步改进我们的代码；

 use error_chain::error_chain;
use regex::Regex;
use select::document::Document;
use select::predicate::Name;
error_chain! {
    foreign_links {
        ReqError(reqwest::Error);
        IoError(std::io::Error);
    }
}
 
#[tokio::main]
async fn main() -> Result<()> {
    let res = reqwest::get("https://search.bilibili.com/all?keyword=庆余年2&from_source=webtop_search&spm_id_from=333.934&search_source=2")
        .await?
        .text()
        .await?;
    let base_url = "https:";
    let re = Regex::new(r"//www\.bilibili\.com/video/[^?]*\?from=search").unwrap();
    let mut count = 0;
    Document::from(res.as_str())
        .find(Name("a"))
        .filter_map(|n| n.attr("href"))
        .filter(|href| re.is_match(href))
        .for_each(|href| {
            let full_url = if href.starts_with("//") {
                format!("{}{}", base_url, href)
            } else {
                href.to_string()
            };
            count += 1;
            println!("{}", full_url);
        });
    println!("==============================爬完了================================");
    println!("当页爬取视频条数:{}", count);
 
    Ok(())
}复制

这段代码在原基础上做了一下几点调整：

新增了一个base_url，用来对获取到的相对地址进行追加https头，完善链接；
新增了一个匹配规则，使用正则表达式过滤不满足条件的地址，我们需要的只是当页的可访问视频URL。

2.3 第三爬：自动翻页,爬取所有数据

通过上面两次爬取，我们的程序已经可以正常爬取并过滤当前页的视频数据了，那么接下来如何实现自动爬取第二页、第三页到全部页码的总数据呢？

观察页面，总结规律

打开B站搜索结果地址，默认就是第一页的，我们看看这页的地址栏信息如下：

第一页：

第二页：

第三页

第四页

嗯~ o(￣▽￣)o，差不多了，通过观察这几页的地址可以提取出来他们的公共部分:

也就是说，这部分是固定不变的，不管你当前页码是多少页也不影响。真正动态变化的是后面这部分：

&page=n&o=108

一眼就看出来：

page代表当前页的页码，比如2,3,4,4,5...n;
o代表截至当前页的数据总条数，注意这是从第二页开始计算的

B站目前视频搜索结果的分页策略是每页36条数据，假设我们以第4页为例，那么截至第4页，当前的视频总数就是 $(4 - 1) * 36 = 108$ ;也就是 $o = (p a g e - 1) * 36$ ;

额，有点跑题了，其实不需要知道的如此准确。我们需要的就是每页的地址栏变化规律

 use error_chain::error_chain;
use regex::Regex;
use select::document::Document;
use select::predicate::Name;
 
error_chain! {
    foreign_links {
        ReqError(reqwest::Error);
        IoError(std::io::Error);
    }
}
 
#[tokio::main]
async fn main() -> Result<()> {
    let base_url = "https://search.bilibili.com/all?keyword=庆余年2&from_source=webtop_search&spm_id_from=333.934&search_source=2&page=";
    let base_offset = "&o=";
    let re = Regex::new(r"//www\.bilibili\.com/video/[^?]*\?from=search").unwrap();
    let mut count = 0;
    let mut page = 1;
 
    loop {
        let url = format!("{}{}{}{}", base_url, page, base_offset, (page - 1) * 36);
        let res = reqwest::get(&url).await?.text().await?;
 
        let links_count = Document::from(res.as_str())
            .find(Name("a"))
            .filter_map(|n| n.attr("href"))
            .filter(|href| re.is_match(href))
            .map(|href| {
                let full_url = if href.starts_with("//") {
                    format!("https:{}", href)
                } else {
                    href.to_string()
                };
                count += 1;
                println!("Link {}: {}", count, full_url);
            })
            .count();
 
        if links_count == 0 {
            break; // No more links found on this page, exit the loop
        }
 
        page += 1;
    }
 
    println!("==============================爬完了================================");
    println!("总共爬取视频条数: {}", count);
 
    Ok(())
}
 复制

下面是爬取页码数据之后的结果，符合条件的URL，随便点一条都是可以正常访问的。

不过从数据来看，爬取的数据存在重复的情况，但是此时由于请求次数过多，已经触发了B站的风控策略，暂时没法继续调试了，剩下的去重工作就交给你了，年轻人！

B站风控结束，今天继续将后面部分补上吧！

2.4 第四爬：对数据进行去重

今天又可以继续请求数据了，所以就花几分钟时间把这部分补上。之前的数据是存在重复的，这就导致了爬取到的数据是原数据条数的两倍，这里简单做了个去重，原理比较简单，用HashSet这个数据结构。

 use std::collections::HashSet;
 
use error_chain::error_chain;
use regex::Regex;
use select::document::Document;
use select::predicate::Name;
 
error_chain! {
    foreign_links {
        ReqError(reqwest::Error);
        IoError(std::io::Error);
    }
}
 
#[tokio::main]
async fn main() -> Result<()> {
    let base_url = "https://search.bilibili.com/all?keyword=庆余年2&from_source=webtop_search&spm_id_from=333.934&search_source=2&page=";
    let base_offset = "&o=";
    let re = Regex::new(r"//www\.bilibili\.com/video/[^?]*\?from=search").unwrap();
    let mut count = 0;
    let mut page = 1;
    let mut visited_links = HashSet::new();
    loop {
        let url = format!("{}{}{}{}", base_url, page, base_offset, (page - 1) * 36);
        let res = reqwest::get(&url).await?.text().await?;
 
        let links_count = Document::from(res.as_str())
            .find(Name("a"))
            .filter_map(|n| n.attr("href"))
            .filter(|href| re.is_match(href))
            .map(|href| {
                let full_url = if href.starts_with("//") {
                    format!("https:{}", href)
                } else {
                    href.to_string()
                };
               // count += 1;
                if !visited_links.contains(&full_url) {
                    visited_links.insert(full_url.clone());
                    count+=1;
                    println!("Link {}: {}", count, full_url);
                }
               
            })
            .count();
 
        if links_count == 0 {
            break; // No more links found on this page, exit the loop
        }
 
        page += 1;
    }
 
    println!("==============================爬完了================================");
    println!("总共爬取视频条数: {}", count);
 
    Ok(())
}复制

在上面的代码示例中，使用了 visited_links.insert(full_url.clone()) 来将链接添加到 HashSet 中。这里的 clone() 操作会复制 full_url 的所有内容，可能会对性能产生一定影响，特别是在处理大量数据时。

2.5 第五爬：将数据写入文件

在终端打印爬取得数据显然不是一种很可取得方法，现在我们通过修改代码，将爬取得数据写入到指定得文件中进行持久化。

 use error_chain::error_chain;
use regex::Regex;
use select::document::Document;
use select::predicate::Name;
use std::collections::HashSet;
use std::fs::File;
use std::io::prelude::*;
 
error_chain! {
    foreign_links {
        ReqError(reqwest::Error);
        IoError(std::io::Error);
    }
}
 
 
#[tokio::main]
async fn main() -> Result<()> {
    let base_url = "https://search.bilibili.com/all?keyword=庆余年2&from_source=webtop_search&spm_id_from=333.934&search_source=2&page=";
    let base_offset = "&o=";
    let re = Regex::new(r"//www\.bilibili\.com/video/[^?]*\?from=search").unwrap();
    let mut count = 0;
    let mut page = 1;
    let mut visited_links = HashSet::new();
    let mut output_file = File::create("庆余年2视频链接.txt")?; // 处理Result以获取File对象
 
 
    loop {
        let url = format!("{}{}{}{}", base_url, page, base_offset, (page - 1) * 36);
        let res = reqwest::get(&url).await?.text().await?;
 
        let links_count = Document::from(res.as_str())
            .find(Name("a"))
            .filter_map(|n| n.attr("href"))
            .filter(|href| re.is_match(href))
            .map(|href| {
                let full_url = if href.starts_with("//") {
                    format!("https:{}", href)
                } else {
                    href.to_string()
                };
 
                if !visited_links.contains(&full_url) {
                    visited_links.insert(full_url.clone());
                    count += 1;
                    writeln!(&mut output_file, "Link {}: {}", count, full_url).unwrap();
                    //println!("数据已写入文件!");
                }
            })
            .count();
 
        if links_count == 0 {
            break; // No more links found on this page, exit the loop
        }
 
        page += 1;
    }
    println!("数据已写入文件");
 
    Ok(())
}
 复制

项目地址:GiHub

Rust爬虫练手:爬取B站“庆余年2“相关视频链接

1. 基本模板

2. 案例实操：爬取B站搜索”庆余年2“的视频数据

2.1 第一爬：爬取当页所有链接

2.2 第二爬：过滤非法链接

2.3 第三爬：自动翻页,爬取所有数据

2.4 第四爬：对数据进行去重

2.5 第五爬：将数据写入文件

5 个最佳的 Rust HTML 解析器

【油猴脚本】00036 案例 Tampermonkey油猴脚本,爬虫, 仅用于学习,不要乱搞。网页数据获取器-添加层级不遮挡。Jquery爬虫,HTML Css JavaScript编写

【油猴脚本】00037 案例 Tampermonkey油猴脚本,爬虫, 仅用于学习,不要乱搞。网页数据获取器-遮罩提升层级不遮挡。Jquery爬虫,HTML Css JavaScript编写

【油猴脚本】00030 案例 Tampermonkey油猴脚本,仅用于学习,不要乱搞。数据获取器-添加所有网站都可使用的功能。Jquery、JavaScript、HTML Css JavaScript

【Python爬虫实战】XPath与lxml实现高效XML/HTML数据解析

【Python爬虫实战】高效解析和操作XML/HTML的实用指南

【油猴脚本】00017 案例 Tampermonkey油猴脚本，仅用于学习，不要乱搞。完善添加一列的功能，Jquery爬虫，JavaScript爬虫，HTML Css JavaScript编写

【油猴脚本】00020 案例 Tampermonkey油猴脚本，仅用于学习，不要乱搞。添加不可移动到窗口外的功能。Jquery爬虫，JavaScript爬虫HTML Css JavaScript编写

python简单易懂的lxml读取HTML节点及常用操作方法

【油猴脚本】00018 案例 Tampermonkey油猴脚本，仅用于学习，不要乱搞。继续优化UI界面，Jquery爬虫，JavaScript爬虫，HTML Css JavaScript编写

前端哥

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	// 导入 error_chain 宏，用于定义错误处理宏
	use error_chain::error_chain;
	// 导入 select 库中的 Document 结构体，用于解析 HTML 文档
	use select::document::Document;
	// 导入 select 库中的 Name 谓词，用于选择指定标签
	use select::predicate::Name;

	// 使用 error_chain 宏定义错误处理宏
	error_chain! {
	// 定义外部错误链接
	foreign_links {
	// 将 reqwest 库中的 Error 错误类型映射为 ReqError
	ReqError(reqwest::Error);
	// 将 std::io 库中的 Error 错误类型映射为 IoError
	IoError(std::io::Error);
	}
	}

	// 异步 main 函数，使用 tokio::main 宏标记为异步函数
	#[tokio::main]
	async fn main() -> Result<()> {
	// 发起 GET 请求获取指定网址的响应
	let res = reqwest::get("https://www.qianlans.top")
	.await? // 等待请求完成，处理可能出现的请求错误
	.text() // 将响应转换为文本
	.await?; // 等待文本转换完成，处理可能出现的 IO 错误

	// 从响应文本创建一个 Document 对象
	Document::from(res.as_str())
	// 查找所有符合条件的 <a> 标签
	.find(Name("a"))
	// 获取每个 <a> 标签的 href 属性值，过滤掉空值
	.filter_map(\|n\| n.attr("href"))
	// 遍历每个 href 属性值并打印
	.for_each(\|x\| println!("{}", x));

	// 返回 Ok 表示程序执行成功
	Ok(())
	}

	use error_chain::error_chain;
	use regex::Regex;
	use select::document::Document;
	use select::predicate::Name;
	error_chain! {
	foreign_links {
	ReqError(reqwest::Error);
	IoError(std::io::Error);
	}
	}

	#[tokio::main]
	async fn main() -> Result<()> {
	let res = reqwest::get("https://search.bilibili.com/all?keyword=庆余年2&from_source=webtop_search&spm_id_from=333.934&search_source=2")
	.await?
	.text()
	.await?;
	let base_url = "https:";
	let re = Regex::new(r"//www\.bilibili\.com/video/[^?]*\?from=search").unwrap();
	let mut count = 0;
	Document::from(res.as_str())
	.find(Name("a"))
	.filter_map(\|n\| n.attr("href"))
	.filter(\|href\| re.is_match(href))
	.for_each(\|href\| {
	let full_url = if href.starts_with("//") {
	format!("{}{}", base_url, href)
	} else {
	href.to_string()
	};
	count += 1;
	println!("{}", full_url);
	});
	println!("==============================爬完了================================");
	println!("当页爬取视频条数:{}", count);

	Ok(())
	}

	use std::collections::HashSet;

	use error_chain::error_chain;
	use regex::Regex;
	use select::document::Document;
	use select::predicate::Name;

	error_chain! {
	foreign_links {
	ReqError(reqwest::Error);
	IoError(std::io::Error);
	}
	}

	#[tokio::main]
	async fn main() -> Result<()> {
	let base_url = "https://search.bilibili.com/all?keyword=庆余年2&from_source=webtop_search&spm_id_from=333.934&search_source=2&page=";
	let base_offset = "&o=";
	let re = Regex::new(r"//www\.bilibili\.com/video/[^?]*\?from=search").unwrap();
	let mut count = 0;
	let mut page = 1;
	let mut visited_links = HashSet::new();
	loop {
	let url = format!("{}{}{}{}", base_url, page, base_offset, (page - 1) * 36);
	let res = reqwest::get(&url).await?.text().await?;

	let links_count = Document::from(res.as_str())
	.find(Name("a"))
	.filter_map(\|n\| n.attr("href"))
	.filter(\|href\| re.is_match(href))
	.map(\|href\| {
	let full_url = if href.starts_with("//") {
	format!("https:{}", href)
	} else {
	href.to_string()
	};
	// count += 1;
	if !visited_links.contains(&full_url) {
	visited_links.insert(full_url.clone());
	count+=1;
	println!("Link {}: {}", count, full_url);
	}

	})
	.count();

	if links_count == 0 {
	break; // No more links found on this page, exit the loop
	}

	page += 1;
	}

	println!("==============================爬完了================================");
	println!("总共爬取视频条数: {}", count);

	Ok(())
	}

Rust爬虫练手:爬取B站“庆余年2“相关视频链接

1. 基本模板

2. 案例实操：爬取B站搜索”庆余年2“的视频数据

2.1 第一爬：爬取当页所有链接

2.2 第二爬：过滤非法链接

2.3 第三爬：自动翻页,爬取所有数据

2.4 第四爬：对数据进行去重

2.5 第五爬：将数据写入文件

微信扫一扫：分享