Python爬虫html网址实战笔记

仅供学习参考

一、获取html网址中文本和链接，写入TXT文件中

 import requests
from lxml import html
 
base_url = "https://abcdef自己的网址要改"
response = requests.get(base_url)
response.encoding = 'utf-8'  # 指定正确的编码方式
 
tree = html.fromstring(response.content, parser=html.HTMLParser(encoding='utf-8'))
 
# 固定部分XPath，只有最后一个div的索引会变化，自己修改，复制网址的xpath路径
fixed_xpath = "/html/body/div[4]/div[2]/ul/li[{div_index}]/a"
 
filename = "现TXT文本内容.txt"
 
with open(filename, "w", encoding="utf-8") as f:
    for div_index in range(1, 100):  # 假设有100个人
        # 构建完整的XPath
        xpath = fixed_xpath.format(div_index=div_index)
 
        # 使用XPath定位每个人员信息的元素
        person_elements = tree.xpath(xpath)
 
        for person_element in person_elements:
            # 获取网址路径和姓名信息
            url_path = person_element.get("href")
            full_url = base_url + url_path if url_path else ""
            name = person_element.xpath('string()').strip()  # 提取文本内容并去除空格
 
            # 仅输出网址中的路径部分
            url_path = full_url.replace(base_url, "")
            output_str = f"网址路径：{url_path}\n姓名：{name}\n\n"
            print(output_str)
            f.write(output_str)
 
print(f"输出已保存到文件 {filename}")
 复制

 结果：现TXT文本内容
 
网址路径：http://abc.html
姓名：abc
 复制

二、根据现有的TXT文本，打开链接找到需要的内容。将内容放入姓名之后，以新的文本输出

 import re
import requests
from lxml import html
 
# 读取文件内容
with open("现TXT文本内容.txt", "rb") as file:
    content = file.read().decode('utf-8', 'ignore')
 
lines = content.splitlines()
 
email_xpath = '/html/body/div[4]/div/div/div/div/div[2]/div[1]/div[2]/div[4]/div[1]/text()'
 
filename = "现TXT文本内容邮箱.txt"
 
with open(filename, "w", encoding="utf-8") as f:
    # 遍历每一行内容
    for i in range(0, len(lines), 1):
        url_line = lines[i]  # 当前行为URL
        name_line = lines[i + 1]  # 下一行为姓名
 
        # 从URL和姓名行中提取URL和姓名信息
        url_match = re.search(r"https?://[^\s]+", url_line)
        name_match = re.search(r"姓名：(.+)", name_line)
 
        # 如果URL和姓名都匹配到了
        if url_match and name_match:
            url = url_match.group()
            name = name_match.group(1)
 
            # 发送GET请求到URL获取页面内容
            response = requests.get(url)
            # 将页面内容转为XPath对象
            tree = html.fromstring(response.content)
 
            # 使用XPath表达式提取邮箱信息
            email = tree.xpath(email_xpath)
            email = email[0] if email else "未找到邮箱地址"
 
            # 将姓名和邮箱信息写入文件
            output_str = f"{name}：{email}\n"
            print(output_str)
            f.write(output_str)
 
# 输出保存结果
print(f"输出已保存到文件 {filename}")复制

 输出TXT文本内容
abc：abc@aa.com
...复制

Python爬虫html网址实战笔记

一、获取html网址中文本和链接，写入TXT文件中

二、根据现有的TXT文本，打开链接找到需要的内容。将内容放入姓名之后，以新的文本输出

使用jQuery写一个注册界面

【前端开发】前端开发深度解析：HTML、CSS、JavaScript与Vue.js

vue项目使用canvas画图实现canvas带背景的橡皮擦 canvas转base64 canvas转file文件方法

10个好用的 HTML5 特性，2024年最新web前端开发资料

mapbox添加symbol图层显示文字详情

html--机器人

如何在原生HTML里面使用VUE（保姆级教学）

lxml&xpath一站式教学

HTML 入门 ( 一 )

HTML基础知识详解（中）（如果想知道html的全部基础知识点，那么只看这一篇就足够了！）

前端哥

【JavaWeb】 JavaScript 开发利器之 jQuery

jQuery和CSS选择器的使用

JavaScript之jQuery番外篇【打地鼠游戏的制作讲解】(1)

HTML前端表单校验的方法

「jQuery系列」jQuery插件介绍（遮挡面板Accordion、根据输入内容过滤/补全Autocomplete）

使用jQuery写一个注册界面

Jquery 中封装的Ajax和封装函数serializeObject和nprogress 进度条插件

jQuery之scrollLeft()、scrollTop()

解决js文件使用ES6语法import...from...导入jquery出现的问题，使用webpack

JQuery中的事件对象，阿里一线架构师技术图谱

1
js数组常用方法（19种）|你会的到底有多少呢？

2024-04-08 11:04:211000

2
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011000

3
ECharts 饼状图颜色设置

2024-02-16 14:02:001000

4
echarts实现动态渲染多柱图

2024-02-12 14:02:341000

5
移动端css布局大全

2024-02-06 15:02:421000

6
使用HTML5和JS实现日期下拉框功能

2024-02-04 11:02:521000

7
JS生成条形码JsBarcode.all.js，转成图片canvas2image.js，并打印二维码jQuery.print.js

2024-01-27 01:01:181000

8
vue实现可输入可下拉选择的组件

2024-04-05 09:04:35999

9
echarts 图表，定时器实现数据实时动态

2024-03-13 00:03:28999

10
jQuery事件处理

2024-03-12 01:03:32999

	import requests
	from lxml import html

	base_url = "https://abcdef自己的网址要改"
	response = requests.get(base_url)
	response.encoding = 'utf-8' # 指定正确的编码方式

	tree = html.fromstring(response.content, parser=html.HTMLParser(encoding='utf-8'))

	# 固定部分XPath，只有最后一个div的索引会变化，自己修改，复制网址的xpath路径
	fixed_xpath = "/html/body/div[4]/div[2]/ul/li[{div_index}]/a"

	filename = "现TXT文本内容.txt"

	with open(filename, "w", encoding="utf-8") as f:
	for div_index in range(1, 100): # 假设有100个人
	# 构建完整的XPath
	xpath = fixed_xpath.format(div_index=div_index)

	# 使用XPath定位每个人员信息的元素
	person_elements = tree.xpath(xpath)

	for person_element in person_elements:
	# 获取网址路径和姓名信息
	url_path = person_element.get("href")
	full_url = base_url + url_path if url_path else ""
	name = person_element.xpath('string()').strip() # 提取文本内容并去除空格

	# 仅输出网址中的路径部分
	url_path = full_url.replace(base_url, "")
	output_str = f"网址路径：{url_path}\n姓名：{name}\n\n"
	print(output_str)
	f.write(output_str)

	print(f"输出已保存到文件 {filename}")

	结果：现TXT文本内容

	网址路径：http://abc.html
	姓名：abc

	import re
	import requests
	from lxml import html

	# 读取文件内容
	with open("现TXT文本内容.txt", "rb") as file:
	content = file.read().decode('utf-8', 'ignore')

	lines = content.splitlines()

	email_xpath = '/html/body/div[4]/div/div/div/div/div[2]/div[1]/div[2]/div[4]/div[1]/text()'

	filename = "现TXT文本内容邮箱.txt"

	with open(filename, "w", encoding="utf-8") as f:
	# 遍历每一行内容
	for i in range(0, len(lines), 1):
	url_line = lines[i] # 当前行为URL
	name_line = lines[i + 1] # 下一行为姓名

	# 从URL和姓名行中提取URL和姓名信息
	url_match = re.search(r"https?://[^\s]+", url_line)
	name_match = re.search(r"姓名：(.+)", name_line)

	# 如果URL和姓名都匹配到了
	if url_match and name_match:
	url = url_match.group()
	name = name_match.group(1)

	# 发送GET请求到URL获取页面内容
	response = requests.get(url)
	# 将页面内容转为XPath对象
	tree = html.fromstring(response.content)

	# 使用XPath表达式提取邮箱信息
	email = tree.xpath(email_xpath)
	email = email[0] if email else "未找到邮箱地址"

	# 将姓名和邮箱信息写入文件
	output_str = f"{name}：{email}\n"
	print(output_str)
	f.write(output_str)

	# 输出保存结果
	print(f"输出已保存到文件 {filename}")

Python爬虫html网址实战笔记

一、获取html网址中文本和链接，写入TXT文件中

二、根据现有的TXT文本，打开链接找到需要的内容。将内容放入姓名之后，以新的文本输出

微信扫一扫：分享