如何将语雀文档导出为html（使用语雀API）

需求

语雀本身是用web端访问的，按理来说，导出为html文件应该是最接近原生文档的观感的，但是却不支持，反倒是可以导出为pdf、markdown、word等格式。

可以用爬虫把文档给爬下来，但是我很不喜欢用爬虫，因为大型网站总是会使用各种反爬技术，这些阻拦会使我爬出的结果不够优雅。

如果优雅的解决这个问题呢，思路是利用语雀的API，很轻松就能获取一个文档的各种信息（作者、页面的markdown内容，html内容等）。很多个人博客可以跟语雀相关联，也是通过API实现的。这是一个可玩性很高的功能。

解决方法

在语雀的账户设置->Token里新建一个token
问ChatGPT，如何使用语雀API拿到一个页面的内容（它真的能给你一个可运行的代码！）
这里记录一下我修改后，适用于我自己的需求的代码：

 import requests
import os
 
# 设置API访问令牌
token = 'YOUR_ACCESS_TOKEN'
 
# 设置API请求URL
url = 'https://www.yuque.com/api/v2/repos/upcxailixin/ua125n/docs/'
chapters = ['rqwsfpzkh97ivvxm','hl788mwbbw2d82is','hcxgg7','afrstd','iz3dks','khnvy8','bhbw2z','qvzagc','dky80n','zzw6o7','qrg1f2eds2h8talq']
 
 
# 设置API请求头
headers = {
    'User-Agent': 'Mozilla/5.0',
    'X-Auth-Token': token
}
 
for i in range(len(chapters)):
    # 发送API请求
    response = requests.get(os.path.join(url,chapters[i]), headers=headers)
 
    # 解析API响应
    if response.status_code == 200:
        doc = response.json()
        # print(doc['data']['body_html'])
        print('标题:', doc['data']['title'])
        # print('内容:', doc['body'])
    else:
        print('请求失败:', response.status_code)
 
        
    # 写入
    with open(f"/Users/sunbaile/临时/语雀2html/{doc['data']['title'].replace('/','')}.html",'w') as f:
        f.write(doc['data']['body_html'])
 
    # import json
    # with open('./raw.json','w',encoding='utf8') as f:
    #     f.write(json.dumps(doc,ensure_ascii=False))复制

这时候html文档已经搞出来了，但是文档中的图片、以及svg公式都指向语雀的cdn，这是不能直接放在服务器上的，因为会有跨域的问题。所以我们得再写个脚本把文档中的img都下载到本地的images目录下（这一步的代码仍然是通过问ChatGPT获得的），下面记录适用于我自己的需求的修改后的代码：

 import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import time
 
basepath = '/Users/sunbaile/临时/语雀2html/下载图片'
# # 创建存储图片的文件夹
# if not os.path.exists('/Users/sunbaile/临时/语雀2html/下载图片/images'):
#     os.makedirs('/Users/sunbaile/临时/语雀2html/下载图片/images')
for filename in os.listdir(basepath):
    if filename.endswith('.php'):
 
        # 读取HTML文件
        with open(os.path.join(basepath,filename), 'r') as f:
            html = f.read()
 
        # 解析HTML文件
        soup = BeautifulSoup(html, 'html.parser')
 
        # 获取所有图片链接
        img_tags = soup.find_all('img')
        img_urls = [img['src'] for img in img_tags]
        print(filename)
        print(img_urls)
 
        # 下载图片
        for url in img_urls:
            # img_url = urljoin('http://example.com', url)  # 根据相对链接生成绝对链接
            img_url = url
            response = requests.get(img_url)
            filename = os.path.join(os.path.join(basepath,'images'), os.path.basename(url))  # 使用图片链接的文件名作为下载的文件名
            with open(filename, 'wb') as f:
                f.write(response.content)
        time.sleep(1)
 复制

最后，要将html文档中img标签的src内容修改一下，把绝对路径改成相对路径

 from bs4 import BeautifulSoup
import os
 
basepath = '/Users/sunbaile/临时/语雀2html/下载图片'
for fname in os.listdir(basepath):
    if fname.endswith('.php'):
        # 读取HTML文件
        with open(os.path.join(basepath,fname), 'r') as f:
            html = f.read()
 
        # 解析HTML文件
        soup = BeautifulSoup(html, 'html.parser')
 
        # 获取所有图片标签
        img_tags = soup.find_all('img')
 
        # 替换所有图片链接
        for img_tag in img_tags:
            img_url = img_tag['src']
            if img_url.startswith('http'):  # 判断是否为绝对链接
                filename = os.path.basename(img_url)  # 获取文件名
                img_tag['src'] = 'book/images/{}'.format(filename)
 
        # 将修改后的HTML文档写回原始文件
        with open(os.path.join(basepath,fname), 'w') as f:
            f.write(soup.prettify())
 复制

总结

ChatGPT真好用～以后就不用自己思考代码框架了，直接面向ChatGPT编程。

标签

如何将语雀文档导出为html（使用语雀API）

需求

解决方法

总结

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

文本，wangEditor5展示HTML无样式，wangEditor5如何看源码，Ctrl U看CSS文件，代码高亮，Prism.js可以实现，解决方法，参考网页源代码的写法

HTML/SSM-实验室预约管理系统-99299（免费领源码开发文档）可做计算机毕业设计JAVA、PHP、爬虫、APP、小程序、C#、C 、python、数据可视化、大数据、全套文案

【简单html静态网页代码】制作一个简单HTML宠物网页（HTML CSS）

前端哥

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	import requests
	import os

	# 设置API访问令牌
	token = 'YOUR_ACCESS_TOKEN'

	# 设置API请求URL
	url = 'https://www.yuque.com/api/v2/repos/upcxailixin/ua125n/docs/'
	chapters = ['rqwsfpzkh97ivvxm','hl788mwbbw2d82is','hcxgg7','afrstd','iz3dks','khnvy8','bhbw2z','qvzagc','dky80n','zzw6o7','qrg1f2eds2h8talq']


	# 设置API请求头
	headers = {
	'User-Agent': 'Mozilla/5.0',
	'X-Auth-Token': token
	}

	for i in range(len(chapters)):
	# 发送API请求
	response = requests.get(os.path.join(url,chapters[i]), headers=headers)

	# 解析API响应
	if response.status_code == 200:
	doc = response.json()
	# print(doc['data']['body_html'])
	print('标题:', doc['data']['title'])
	# print('内容:', doc['body'])
	else:
	print('请求失败:', response.status_code)


	# 写入
	with open(f"/Users/sunbaile/临时/语雀2html/{doc['data']['title'].replace('/','')}.html",'w') as f:
	f.write(doc['data']['body_html'])

	# import json
	# with open('./raw.json','w',encoding='utf8') as f:
	# f.write(json.dumps(doc,ensure_ascii=False))

	import os
	import requests
	from bs4 import BeautifulSoup
	from urllib.parse import urljoin
	import time

	basepath = '/Users/sunbaile/临时/语雀2html/下载图片'
	# # 创建存储图片的文件夹
	# if not os.path.exists('/Users/sunbaile/临时/语雀2html/下载图片/images'):
	# os.makedirs('/Users/sunbaile/临时/语雀2html/下载图片/images')
	for filename in os.listdir(basepath):
	if filename.endswith('.php'):

	# 读取HTML文件
	with open(os.path.join(basepath,filename), 'r') as f:
	html = f.read()

	# 解析HTML文件
	soup = BeautifulSoup(html, 'html.parser')

	# 获取所有图片链接
	img_tags = soup.find_all('img')
	img_urls = [img['src'] for img in img_tags]
	print(filename)
	print(img_urls)

	# 下载图片
	for url in img_urls:
	# img_url = urljoin('http://example.com', url) # 根据相对链接生成绝对链接
	img_url = url
	response = requests.get(img_url)
	filename = os.path.join(os.path.join(basepath,'images'), os.path.basename(url)) # 使用图片链接的文件名作为下载的文件名
	with open(filename, 'wb') as f:
	f.write(response.content)
	time.sleep(1)

如何将语雀文档导出为html（使用语雀API）

需求

解决方法

总结

微信扫一扫：分享