浅学爬虫-HTML和CSS结构

HTML结构

HTML（HyperText Markup Language）是构建网页的基础语言。它通过标签（Tags）来定义网页的结构和内容。HTML文档的基本结构如下：

 <!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
  </head>
  <body>
    <h1>这是标题</h1>
    <p>这是一个段落。</p>
    <a href="http://example.com">这是一个链接</a>
  </body>
</html>复制

基本标签介绍:

<!DOCTYPE html>: 声明文档类型，告诉浏览器这是一个HTML5文档。
<html>: HTML文档的根元素，表示整个HTML文档。
<head>: 包含页面的元数据，如编码、标题、样式等。
<meta charset="UTF-8">: 声明文档的字符编码为UTF-8。
<title>: 设置网页的标题，显示在浏览器标签页上。
<body>: 包含网页的可见内容。
<h1>: 一级标题，用于定义重要的标题。
<p>: 段落，用于定义文本段落。
<a>: 超链接，用于创建链接。

其他常用标签:

<h1> - <h6>: 标题标签，<h1>表示最高级别的标题，<h6>表示最低级别的标题。
<div>: 区块元素，用于定义文档中的分区或节。
<span>: 内联元素，用于对文档中的一部分文本进行分组。
<ul>: 无序列表，用于定义项目符号列表。
<ol>: 有序列表，用于定义编号列表。
<li>: 列表项，用于定义列表中的项。
<img>: 图像标签，用于嵌入图像。
<table>: 表格标签，用于创建表格结构。

CSS选择器

CSS（Cascading Style Sheets）用于控制HTML文档的样式。选择器是CSS中用于选取元素的模式。常见的CSS选择器包括：

标签选择器: 选取指定标签的所有元素。

 p {
  color: blue;
}复制

类选择器: 选取具有指定类属性的所有元素，类名以.开头。

 .example {
  font-size: 16px;
}复制

ID选择器: 选取具有指定ID属性的元素，ID名以#开头。

 #header {
  background-color: gray;
}复制

属性选择器: 选取具有指定属性的元素。

 [type="text"] {
  border: 1px solid black;
}复制

后代选择器: 选取某元素内的所有指定子元素。

 div p {
  color: red;
}复制

其他常用选择器:

群组选择器: 选取所有符合选择器的元素。

 h1, h2, h3 {
  font-family: Arial, sans-serif;
}复制

子元素选择器: 选取作为某元素直接子元素的所有指定元素。

 ul > li {
  list-style-type: square;
}复制

伪类选择器: 选取处于特定状态的元素。

 a:hover {
  color: green;
}复制

伪元素选择器: 选取元素的某部分内容。

 p::first-line {
  font-weight: bold;
}复制

使用BeautifulSoup解析HTML

BeautifulSoup是一个用于解析HTML和XML文档的Python库。我们可以使用BeautifulSoup轻松地从网页中提取数据。

步骤1：安装BeautifulSoup

 pip install beautifulsoup4复制

步骤2：编写解析HTML的代码

 from bs4 import BeautifulSoup
 
# 示例HTML
html_doc = """
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Example Page</title>
</head>
<body>
    <h1>Example Header</h1>
    <p class="description">This is a description paragraph.</p>
    <a href="http://example.com" id="example-link">Example Link</a>
</body>
</html>
"""
 
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')
 
# 提取标题
title = soup.title.string
print(f"页面标题: {title}")
 
# 提取一级标题
header = soup.h1.string
print(f"一级标题: {header}")
 
# 提取段落内容
description = soup.find('p', class_='description').string
print(f"段落描述: {description}")
 
# 提取链接
link = soup.find('a', id='example-link')['href']
print(f"链接地址: {link}")复制

代码解释:

创建BeautifulSoup对象: 使用BeautifulSoup解析HTML文档。

 soup = BeautifulSoup(html_doc, 'html.parser')复制

提取标题: 使用soup.title.string提取文档的标题。

 title = soup.title.string
print(f"页面标题: {title}")复制

提取一级标题: 使用soup.h1.string提取一级标题内容。

 header = soup.h1.string
print(f"一级标题: {header}")复制

提取段落内容: 使用soup.find方法结合标签名和类名提取段落内容。

 description = soup.find('p', class_='description').string
print(f"段落描述: {description}")复制

提取链接: 使用soup.find方法结合标签名和ID提取链接地址。

 link = soup.find('a', id='example-link')['href']
print(f"链接地址: {link}")复制

BeautifulSoup常用方法

find(): 返回第一个符合条件的元素。

 soup.find('a')复制

find_all(): 返回所有符合条件的元素列表。

 soup.find_all('a')复制

select(): 使用CSS选择器选取元素。

 soup.select('a[href]')复制

get_text(): 获取元素的文本内容。

 soup.get_text()复制

示例解析复杂HTML

假设我们有一个更复杂的HTML文档：

 <!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Sample Page</title>
  </head>
  <body>
    <div id="content">
      <h1>Sample Header</h1>
      <p class="description">This is a sample description.</p>
      <div class="links">
        <a href="http://example1.com" class="external">Link 1</a>
        <a href="http://example2.com" class="external">Link 2</a>
      </div>
    </div>
  </body>
</html>复制

我们可以编写以下代码来解析这个文档：

 from bs4 import BeautifulSoup
 
# 示例HTML
html_doc = """
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Sample Page</title>
</head>
<body>
    <div id="content">
        <h1>Sample Header</h1>
        <p class="description">This is a sample description.</p>
        <div class="links">
            <a href="http://example1.com" class="external">Link 1</a>
            <a href="http://example2.com" class="external">Link 2</a>
        </div>
    </div>
</body>
</html>
"""
 
# 创建BeautifulSoup对象
soup = BeautifulSoup(html_doc, 'html.parser')
 
# 提取标题
title = soup.title.string
print(f"页面标题: {title}")
 
# 提取一级标题
header = soup.find('h1').string
print(f"一级标题: {header}")
 
# 提取段落内容
description = soup.find('p', class_='description').string
print(f"段落描述: {description}")
 
# 提取所有链接
links = soup.find_all('a', class_='external')
for link in links:
    href = link['href']
    text = link.string
    print(f"链接文本: {text}, 链接地址: {href}")复制

代码解释:

提取所有链接: 使用soup.find_all('a', class_='external')提取所有带有class="external"的链接。
遍历链接: 遍历提取到的链接，获取链接文本和地址。

结论

本文详细介绍了HTML的基本结构和常见标签，解释了CSS选择器的作用和使用方法，并通过示例展示了如何使用BeautifulSoup解析HTML并提取数据。这些基础知识将帮助初学者理解和编写爬虫。在下一篇文章中，我们将进一步探讨处理复杂网页的方法。

浅学爬虫-HTML和CSS结构

HTML结构

CSS选择器

使用BeautifulSoup解析HTML

BeautifulSoup常用方法

示例解析复杂HTML

结论

基于CSS3媒体查询的响应式旅游网站设计与实现-计算机毕设附源码 12755

python requests编写 api接收json

用Python开发桌面端软件：pywebview (框架) Python (后端) vue (前端) pyinstaller (打包)

基于Vue的求职招聘系统的设计与实现-计算机毕设附源码 25284

使用Flask的jsonify函数返回JSON数据

(开题报告)django vue企业设备管理系统论文源码

FastHTML：使用 Python 彻底改变 Web 开发

Vue 图片预览功能实现指南

python vue基于django/flask的鲜花销售系统java nodejs-计算机毕业设计

OpenAI / GPT-4o：Python 返回结构化 / JSON 输出

前端哥

C#解析JSON的常用库--Newtonsoft.Json

jsonfield 项目常见问题解决方案

【SpringMVC】_SpringMVC项目返回HTML与JSON

BugJson因为json格式问题OOM怎么办

python 解读JSON文件，一文搞懂！

Redisson同时使用jackson、fastjson、kryo、protostuff序列化（含效率对比）

开源项目“Pretty JSON”安装与配置完全指南

2024年前端最新Nodejs基础之包管理工具npm(二)(2)，微软面试题及答案

解决全局安装pnpm后无法使用的问题

安装Nodejs后，npm无法使用

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	<!DOCTYPE html>
	<html lang="en">
	<head>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1.0">
	<title>Document</title>
	</head>
	<body>
	<h1>这是标题</h1>
	<p>这是一个段落。</p>
	<a href="http://example.com">这是一个链接</a>
	</body>
	</html>

	from bs4 import BeautifulSoup

	# 示例HTML
	html_doc = """
	<!DOCTYPE html>
	<html lang="en">
	<head>
	<meta charset="UTF-8">
	<meta name="viewport" content="width=device-width, initial-scale=1.0">
	<title>Example Page</title>
	</head>
	<body>
	<h1>Example Header</h1>
	<p class="description">This is a description paragraph.</p>
	<a href="http://example.com" id="example-link">Example Link</a>
	</body>
	</html>
	"""

	# 创建BeautifulSoup对象
	soup = BeautifulSoup(html_doc, 'html.parser')

	# 提取标题
	title = soup.title.string
	print(f"页面标题: {title}")

	# 提取一级标题
	header = soup.h1.string
	print(f"一级标题: {header}")

	# 提取段落内容
	description = soup.find('p', class_='description').string
	print(f"段落描述: {description}")

	# 提取链接
	link = soup.find('a', id='example-link')['href']
	print(f"链接地址: {link}")

浅学爬虫-HTML和CSS结构

HTML结构

CSS选择器

使用BeautifulSoup解析HTML

BeautifulSoup常用方法

示例解析复杂HTML

结论

微信扫一扫：分享