Python爬虫抓取对html进行解析的利器Beautiful Soup

一、关于Beautiful Soup的简介

Beautiful Soup支持Python标准库中的HTML解析器(html.parser)，有如下特点：

1，功能：Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.
2，编码问题：Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
3，性能：Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。
4，版本问题：Beautiful Soup：可同时支持Python2.7和Python3.2。目前Beautiful Soup的版本是Beautiful Soup 4，且移植到了BS4中（Beautiful Soup 3已停止开发）;

二、Beautiful Soup 的安装：

Beautiful Soup当前的最新版本：4.3.2。下载地址

https://pypi.python.org/pypi/beautifulsoup4/4.3.2

利用 pip 或者 easy_install 来安装，以下方法均可

pip install beautifulsoup4  #直接pip安装，推荐
easy_install beautifulsoup4 #直接easy_insall安装，推荐
sudo python setup.py install#下载版本后解压安装

三、Beautiful Soup 中的 lxml

Beautiful Soup 还支持一些第三方的解析器,其中一个是强大的lxml .根据操作系统不同,可以选择下列方法来安装lxml（lxml除了html解析器还有xml解析器），还可以支持纯Python实现的html5lib解析器, html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib。可像安装其它组件一样的安装，如下：

$ easy_install lxml
$ pip install lxml
$ easy_install html5lib
$ pip install html5lib

在进行分析时，需要指定解析器，如下面的两行代码，上面这行代码运行时不指定html.parser解析器，则会报错提示你使用html.parser：

sout = BeautifulSoup(cont)
#soup = BeautifulSoup(cont, "html.parser")

报错如下：

UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("html.parser"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

The code that caused this warning is on line 14 of the file test.py. To get rid of this warning, change code that looks like this:
 BeautifulSoup([your markup])
to this:
 BeautifulSoup([your markup], "html.parser")
  markup_type=markup_type))
Traceback (most recent call last):
  File "test.py", line 17, in <module>
    print soup
NameError: name 'soup' is not defined
shell returned 1

四、 Beautiful Soup 的使用

Beautiful Soup使用非常方便快速，如果有Jquery基础更好。因为它可以支持CSS选择器，下面的例子就是使用的CSS选择器。下面举一个简单的例子，代码如下：

from bs4 import BeautifulSoup
cont = '<html><head><title>城市数据</title></head><body><table><tr class="cu"><td>全市</td><td class="you lv">334</td><td class="you lv">30355.87</td><td class="you lv">350</td
><td class="you lv">31476.48</td></tr></table></body></html>'
soup = BeautifulSoup(cont, "html.parser")
td = soup.select('table > tr > td')
#print soup.prettify()
print td
print '-----------'

for data in td: 
    print data.get_text()

执行后显示的结果如下图，soup.prettify()可以让结果以一种目录结构(像XML)直接在linux中显示，可以试试。

五、Beautiful Soup 更多参考

更详细的用法文档见官网：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html ，下面罗列上面提到的几个解析器的优缺点对比:

解析器	使用方法	优势	劣势
Python标准库	BeautifulSoup(markup, "html.parser")	Python的内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, "lxml")	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, ["lxml", "xml"]) BeautifulSoup(markup, "xml")	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, "html5lib")	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依赖外部扩展

Python爬虫抓取对html进行解析的利器Beautiful Soup

一、关于Beautiful Soup的简介

二、Beautiful Soup 的安装：

三、Beautiful Soup 中的 lxml

四、 Beautiful Soup 的使用

五、Beautiful Soup 更多参考

基于CSS3媒体查询的响应式旅游网站设计与实现-计算机毕设附源码 12755

python requests编写 api接收json

用Python开发桌面端软件：pywebview (框架) Python (后端) vue (前端) pyinstaller (打包)

基于Vue的求职招聘系统的设计与实现-计算机毕设附源码 25284

使用Flask的jsonify函数返回JSON数据

(开题报告)django vue企业设备管理系统论文源码

FastHTML：使用 Python 彻底改变 Web 开发

Vue 图片预览功能实现指南

python vue基于django/flask的鲜花销售系统java nodejs-计算机毕业设计

OpenAI / GPT-4o：Python 返回结构化 / JSON 输出

前端哥

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000