实践：读取html文本提取相应内容按照格式导出到excel中

最近在做一个需求，需要将html文本中的内容提取出来，然后导出到excel里面，实现交代情景，html文本中存在许多标签，且很乱，因此需要之间将标签里面的文本提取出来，再进行处理。

            ............
        String text = Jsoup.parse(content).wholeText();
        // 解析字符串并将数据添加到表格
        String[] dataArray = text.split("\n");
        // 创建Excel工作簿和工作表
        Workbook workbook = new XSSFWorkbook();
        Sheet sheet = workbook.createSheet("Sheet");

        int rowNum = 0;
        Row row = null;

        for (String data : dataArray) {
        //对每一行数据进行处理，插入到Sheet中
               ............
                row = sheet.createRow(rowNum++);
                // 创建新行并填充数据
                row.createCell(0).setCellValue(entry[0].trim());
                row.createCell(1).setCellValue(entry[1].trim());
        }

        // 导出Excel
             ............ 
    }

1.利用Jsoup解析HTML文档

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.14.3</version> <!-- 版本号可能需要根据实际情况调整 -->
</dependency>

Jsoup（发音为 “jay-soup”）是一款用于解析HTML文档、从HTML中提取数据和操作HTML的Java库。它提供了简单而直观的API，使得在Java中处理HTML变得非常容易。

Jsoup.parse(content).wholeText(); 这行代码是使用Jsoup库解析HTML内容并提取其中的纯文本信息。

1.Jsoup.parse(content): 这部分代码使用Jsoup的parse方法，将传入的content字符串解析为一个Jsoup的Document对象。Document对象表示整个HTML文档。
2.wholeText(): 一旦解析为Document对象，然后调用wholeText()方法。这个方法用于获取整个文档的纯文本内容，即去除HTML标签后的文本信息。

解析出来的文档里面包含了 /n 等转义字符，可用于后续的字符处理

2.使用 Apache POI 库创建Excel 文档

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>5.2.0</version> <!-- 版本号可能需要根据实际情况调整 -->
</dependency>

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>5.2.0</version> <!-- 版本号可能需要根据实际情况调整 -->
</dependency>

   // 创建Excel工作簿和工作表
        Workbook workbook = new XSSFWorkbook();
        Sheet sheet = workbook.createSheet("Sheet");

Workbook 类：
Workbook 是 Apache POI 中表示 Excel 工作簿（Workbook）的接口。
在这里，通过 new XSSFWorkbook() 创建了一个 XSSFWorkbook 对象，XSSFWorkbook 是 Workbook 接口的一个实现，用于处理基于 XML 格式的 .xlsx 文件（Excel 2007及以上版本）。
Sheet 类：
Sheet 是 Workbook 中的一个接口，表示 Excel 工作簿中的一个表单或工作表。
通过 workbook.createSheet(“Sheet”) 创建了一个名为 “Sheet” 的工作表。可以通过不同的工作表名称创建多个工作表，每个工作表包含一组行和列，用于组织和存储数据。

这段代码创建了一个空的 Excel 工作簿，其中包含一个名为 “Sheet” 的工作表。一旦创建了工作簿和工作表，你可以通过 Apache POI 提供的 API 向工作表中添加数据、设置格式、创建图表等。这样你就能够使用 Java 编程来生成、修改和操作 Excel 文档。

3.按照一定规则插入表格数据

    row = sheet.createRow(rowNum++);
    // 创建新行并填充数据
    row.createCell(0).setCellValue(entry[0].trim());
    row.createCell(1).setCellValue(entry[1].trim());

4.导出excel

 /**
     * 将 Workbook 导出到 HttpServletResponse 输出流
     *
     * @param workbook Excel Workbook 对象
     * @param fileName 导出文件名
     */
    public void exportToResponse(Workbook workbook, String fileName) {
        try {
            // 设置响应头
            httpServletResponse.setContentType("application/octet-stream");
            httpServletResponse.setHeader("Content-Disposition", "attachment; filename=" + fileName);

            // 将 Workbook 写入 HttpServletResponse 的输出流
            workbook.write(httpServletResponse.getOutputStream());
            workbook.close();

            // 刷新响应
            httpServletResponse.flushBuffer();
        } catch (IOException e) {
            // 处理异常
            log.error("导出文件{}失败", fileName);
            throw new BusinessException(BusinessError.EXPORT_FILE_FAIL);
        }
    }

httpServletResponse.setContentType(“application/octet-stream”);：

通过 setContentType 方法设置响应的内容类型。在这里，设置为 application/octet-stream，表示二进制流数据。这个 MIME 类型通常用于下载文件，因为它指示浏览器应该处理响应的数据作为二进制流而不是尝试解析它。

httpServletResponse.setHeader(“Content-Disposition”, “attachment; filename=” + fileName);：

通过 setHeader 方法设置响应头的属性。在这里，设置了 Content-Disposition 属性。
Content-Disposition 属性指示浏览器如何处理响应体。在这个上下文中，attachment 表示要将响应作为附件下载，而不是直接在浏览器中打开。filename 参数用于指定下载的文件名。
filename= 后面的部分是具体的文件名，通常是服务器上的文件名或者用户在下载时看到的文件名。

workbook.write(httpServletResponse.getOutputStream());：

使用 Excel Workbook 对象的 write 方法将 Workbook 写入 HttpServletResponse 的输出流。这样，Excel 数据就会以二进制流的形式发送到客户端。

workbook.close();

关闭 Workbook 对象，释放资源。

httpServletResponse.flushBuffer();

刷新响应的缓冲区，确保所有的数据都被写入到输出流。

实践：读取html文本提取相应内容按照格式导出到excel中

1.利用Jsoup解析HTML文档

2.使用 Apache POI 库创建Excel 文档

3.按照一定规则插入表格数据

4.导出excel

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

文本，wangEditor5展示HTML无样式，wangEditor5如何看源码，Ctrl U看CSS文件，代码高亮，Prism.js可以实现，解决方法，参考网页源代码的写法

HTML/SSM-实验室预约管理系统-99299（免费领源码开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C 、python、数据可视化、大数据、全套文案

【简单html静态网页代码】制作一个简单HTML宠物网页（HTML CSS）

模仿电影中黑客电脑界面，html装逼代码

【html】新建一个html并且在浏览器运行

SSM基于html的网上购物系统2nluo 在线充值

在IntelliJ IDEA中创建一个HTML项目

CSS字体、行高等其他样式

CSS3新增属性(15个案例代码效果图素材)

前端哥

C#解析JSON的常用库--Newtonsoft.Json

jsonfield 项目常见问题解决方案

【SpringMVC】_SpringMVC项目返回HTML与JSON

BugJson因为json格式问题OOM怎么办

python 解读JSON文件，一文搞懂！

Redisson同时使用jackson、fastjson、kryo、protostuff序列化（含效率对比）

开源项目“Pretty JSON”安装与配置完全指南

2024年前端最新Nodejs基础之包管理工具npm(二)(2)，微软面试题及答案

解决全局安装pnpm后无法使用的问题

安装Nodejs后，npm无法使用

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000