Java读取html 中标签的值

步骤一：发送请求

在开发中，我们要直接访问一个链接地址可以用：

阿帕奇的：HttpClient.execute()

hutool的：httpUtil.sendGet()

okhttp的：okhttputil.get()

等等，有很多发送http请求的方法；

如果返回的是json格式的字符串，可以用jsonUtil的工具类，直接转换成jsonobject，然后直接jsonObject.get("key")，就可以拿到数据，那如果返回的是一个html页面呢，应该怎么获取html页面中的信息呢;

步骤二：解析 HTML

Java 提供了多个库用于解析 HTML，比如 Jsoup 和 HtmlUnit。这里以 Jsoup 为例。

引入jsoup库

 <dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>复制

 // 引入 Jsoup 库
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
// 使用 Jsoup 解析 HTML
Document doc = Jsoup.parse(html);复制

步骤三：提取指定内容

根据 HTML 的结构和需要提取的内容，可以使用 Jsoup 提供的选择器来获取指定的元素。以下是几个常见的选择器示例：

根据标签名提取内容：

 // 选择 <title> 标签
String title = doc.select("title").text();
 
// 选择 <h1> 标签
String h1 = doc.select("h1").text();复制

根据类名提取内容：

 // 选择 class 为 "content" 的元素
String content = doc.select(".content").text();复制

根据 ID 提取内容：

 // 选择 id 为 "main" 的元素
String mainContent = doc.select("#main").text();复制

其它：

你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据可以这样：

 Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();复制

在本机硬盘上有一个HTML文件，需要对它进行解析从中抽取数据或进行修改：

 File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/";);复制

解析一个body片断

 Document doc = Jsoup.parseBodyFragment(html);
Element body = doc.body();复制

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

A：查看元素

 　getElementById(String id)
　　　　getElementsByTag(String tag)
　　　　getElementsByClass(String className)
　　　　getElementsByAttribute(String key) (and related methods)
　　　　Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
　　　　Graph: parent(), children(), child(int index)复制

B：元素数据

 　　attr(String key)获取属性attr(String key, String value)设置属性
　　　　attributes()获取所有属性
　　　　id(), className() and classNames()
　　　　text()获取文本内容text(String value) 设置文本内容
　　　　html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
　　　　outerHtml()获取元素外HTML内容
　　　　data()获取数据内容（例如：script和style标签)
　　　　tag() and tagName()复制

C：操作HTML和文本

 　　append(String html), prepend(String html)
　　　　appendText(String text), prependText(String text)
　　　　appendElement(String tagName), prependElement(String tagName)
　　　　html(String value)复制

从元素抽取属性，本文和HTML

 String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
　　Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现
　　Element link = doc.select("a").first();//查找第一个a元素
 
　　String text = doc.body().text(); // "An example link"//取得字符串中的文本
　　String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
　　String linkText = link.text(); // "example""//取得链接地址中的文本
 
　　String linkOuterH = link.outerHtml(); 
 　　   // "<a href="http://example.com"><b>example</b></a>"
　　String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容复制

等等还有很多方法，具体可参考：

Jsoup（一）Jsoup详解（官方）

标签

Java读取html 中标签的值

步骤一：发送请求

步骤二：解析 HTML

步骤三：提取指定内容

其它：

前端提高篇（102）：jQuery高级方法callbacks、deferred

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

文本，wangEditor5展示HTML无样式，wangEditor5如何看源码，Ctrl U看CSS文件，代码高亮，Prism.js可以实现，解决方法，参考网页源代码的写法

HTML/SSM-实验室预约管理系统-99299（免费领源码开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C 、python、数据可视化、大数据、全套文案

【简单html静态网页代码】制作一个简单HTML宠物网页（HTML CSS）

模仿电影中黑客电脑界面，html装逼代码

【html】新建一个html并且在浏览器运行

SSM基于html的网上购物系统2nluo 在线充值

前端哥

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	<dependency>
	<groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
	<version>1.13.1</version>
	</dependency>

	// 引入 Jsoup 库
	import org.jsoup.Jsoup;
	import org.jsoup.nodes.Document;

	// 使用 Jsoup 解析 HTML
	Document doc = Jsoup.parse(html);

	// 选择 <title> 标签
	String title = doc.select("title").text();

	// 选择 <h1> 标签
	String h1 = doc.select("h1").text();

	// 选择 class 为 "content" 的元素
	String content = doc.select(".content").text();

	// 选择 id 为 "main" 的元素
	String mainContent = doc.select("#main").text();

	Document doc = Jsoup.connect("http://example.com/").get();
	String title = doc.title();

	File input = new File("/tmp/input.html");
	Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/";);

	Document doc = Jsoup.parseBodyFragment(html);
	Element body = doc.body();

	getElementById(String id)
	getElementsByTag(String tag)
	getElementsByClass(String className)
	getElementsByAttribute(String key) (and related methods)
	Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
	Graph: parent(), children(), child(int index)

	attr(String key)获取属性attr(String key, String value)设置属性
	attributes()获取所有属性
	id(), className() and classNames()
	text()获取文本内容text(String value) 设置文本内容
	html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
	outerHtml()获取元素外HTML内容
	data()获取数据内容（例如：script和style标签)
	tag() and tagName()

	append(String html), prepend(String html)
	appendText(String text), prependText(String text)
	appendElement(String tagName), prependElement(String tagName)
	html(String value)

	String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
	Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现
	Element link = doc.select("a").first();//查找第一个a元素

	String text = doc.body().text(); // "An example link"//取得字符串中的文本
	String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
	String linkText = link.text(); // "example""//取得链接地址中的文本

	String linkOuterH = link.outerHtml();
	// "<a href="http://example.com"><b>example</b></a>"
	String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容

Java读取html 中标签的值

步骤一：发送请求

步骤二：解析 HTML

步骤三：提取指定内容

其它：

微信扫一扫：分享