Unity C# 之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

一、简单介绍

二、实现原理

三、注意事项

四、效果预览

五、关键代码

一、简单介绍

Unity中的一些知识点整理。

本节简单介绍在Unity开发中的，使用 HttpClient，获取指定网页的相关信息，然后进行数据清洗，去掉html 格式，以及标签，函数，多余的空格等信息，仅留下和网页显示差不多的文字信息，为什么这么做呢，其实这里一个使用场景是把网页数据喂给GPT，然后让 GPT 进行处理总结，如果你有新的方式也可以留言，多谢。

二、实现原理

1、HttpClient 获取指定网页的 html 数据

2、使用 HtmlAgilityPack 进行 html 的数据进行去除所有的<script>标签及其内容，获取纯文本内容，最后再去除多余的空格和空行

三、注意事项

1、直接代码访问网页，最好添加上 User-Agent，不然，可能不能正常访问

2、注意 NuGet 安装 HtmlAgilityPack 包

四、效果预览

五、关键代码

 using HtmlAgilityPack;
using System;
using System.Linq;
using System.Net.Http;
using System.Text.RegularExpressions;
 
namespace TestHtml
{
    class Program
    {
        static async System.Threading.Tasks.Task Main(string[] args)
        {
            //string url = "https://movie.douban.com/chart";
            //string url = "http://www.weather.com.cn/";
            //string url = "https://movie.douban.com/";
            //string url = "http://time.tianqi.com/";
            string url = "http://time.tianqi.com/shenzhen/";
            string htmlContent = @"
            <html>
            <head>
            <title>Sample Page</title>
            <script>
            function myFunction() {
                alert(""Hello!"");
            }
            </script>
            </head>
            <body>
            <h1>Welcome to My Page</h1>
            <p>This is a sample page with some content.</p>
            </body>
            </html>";
 
            using (HttpClient client = new HttpClient())
            {
                // 设置请求头以模拟浏览器访问
                client.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3");
 
                // 访问网页并获取HTML内容
                
                htmlContent = await client.GetStringAsync(url);
 
                // 输出获取的HTML内容
                //Console.WriteLine(htmlContent);
            }
 
            // 创建HtmlDocument对象并加载HTML内容
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(htmlContent);
 
            // 去除所有的<script>标签及其内容
            foreach (var script in doc.DocumentNode.DescendantsAndSelf("script").ToArray())
            {
                script.Remove();
            }
 
            // 获取纯文本内容
            string text = doc.DocumentNode.InnerText;
 
            // 去除多余的空格和空行
            text = Regex.Replace(text, @"\s+", " ").Trim();
 
            // 输出展示内容
            Console.WriteLine(text);
        }
    }
}复制

Unity C# 之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

Unity C# 之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

一、简单介绍

二、实现原理

三、注意事项

四、效果预览

五、关键代码

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

文本，wangEditor5展示HTML无样式，wangEditor5如何看源码，Ctrl U看CSS文件，代码高亮，Prism.js可以实现，解决方法，参考网页源代码的写法

HTML/SSM-实验室预约管理系统-99299（免费领源码开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C 、python、数据可视化、大数据、全套文案

【简单html静态网页代码】制作一个简单HTML宠物网页（HTML CSS）

模仿电影中黑客电脑界面，html装逼代码

【html】新建一个html并且在浏览器运行

SSM基于html的网上购物系统2nluo 在线充值

在IntelliJ IDEA中创建一个HTML项目

CSS字体、行高等其他样式

CSS3新增属性(15个案例代码效果图素材)

前端哥

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	using HtmlAgilityPack;
	using System;
	using System.Linq;
	using System.Net.Http;
	using System.Text.RegularExpressions;

	namespace TestHtml
	{
	class Program
	{
	static async System.Threading.Tasks.Task Main(string[] args)
	{
	//string url = "https://movie.douban.com/chart";
	//string url = "http://www.weather.com.cn/";
	//string url = "https://movie.douban.com/";
	//string url = "http://time.tianqi.com/";
	string url = "http://time.tianqi.com/shenzhen/";
	string htmlContent = @"
	<html>
	<head>
	<title>Sample Page</title>
	<script>
	function myFunction() {
	alert(""Hello!"");
	}
	</script>
	</head>
	<body>
	<h1>Welcome to My Page</h1>
	<p>This is a sample page with some content.</p>
	</body>
	</html>";

	using (HttpClient client = new HttpClient())
	{
	// 设置请求头以模拟浏览器访问
	client.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3");

	// 访问网页并获取HTML内容

	htmlContent = await client.GetStringAsync(url);

	// 输出获取的HTML内容
	//Console.WriteLine(htmlContent);
	}

	// 创建HtmlDocument对象并加载HTML内容
	HtmlDocument doc = new HtmlDocument();
	doc.LoadHtml(htmlContent);

	// 去除所有的<script>标签及其内容
	foreach (var script in doc.DocumentNode.DescendantsAndSelf("script").ToArray())
	{
	script.Remove();
	}

	// 获取纯文本内容
	string text = doc.DocumentNode.InnerText;

	// 去除多余的空格和空行
	text = Regex.Replace(text, @"\s+", " ").Trim();

	// 输出展示内容
	Console.WriteLine(text);
	}
	}
	}

Unity C# 之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

Unity C# 之 Http 获取网页的 html 数据，并去掉 html 格式等相关信息

一、简单介绍

二、实现原理

三、注意事项

四、效果预览

五、关键代码

微信扫一扫：分享