使用python读写txt和json（jsonl）大文件

在深度学习方向，尤其是NLP领域，最重要的就是和海量的文字打交道，不管是读取原始数据还是处理数据亦或是最终写数据，合理的读写文件是极为重要的，这篇博客用以记录一下工作中学习到的对大文件读写的过程。

读写txt文本文件

读写JSON文件

读写JSONL文件

遇到的问题

读写txt文本文件

最简单也是最常见的就是读写txt文本文件

读写txt文件直接调用python内部库的open和write函数就基本可以了，比如中student.txt文件中：

 张奇    18    计算机学院    看书,打篮球,看电影
刘欣    19    计算机学院    唱歌,健身
杜航    18    计算机学院    动漫,看书
盛蓉    20    外国语学院    唱歌,看书,美食
余杰    20    土木学院    唱歌,运动,游戏
王某    19    土木学院    羽毛球,游戏
李某    20    外国语学院    动漫,唱歌复制

其中分别为姓名，年龄，学院，兴趣爱好，每类用一个制表符（\t）隔开，兴趣爱好中间用英文逗号分隔开来，然后用open打开txt文件并将内容读取打印

 file_txt = "student.txt"
with open(file_txt) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        print(name,age,department,hobby)复制

同样，也可以用write函数写到一个新的文件中去，过程中我们可以用几个list先将数据存起来，也可以一边读一边写，但是一行行读一行行写小数据还好，当文件过大时大量的文件io会话费大量的时间，但是使用list全部存储然后写的话又会比较耗内存，各有优劣，看情况使用

使用list：

 file_txt = "student.txt"
file_new_txt = "newstudent.txt"
stu = []
with open(file_txt) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        stu.append(name+"-"+age+"-"+department+"-"+hobby)
with open(file_new_txt,"a+") as file:
    for student in stu:
        file.write(student+"\n")复制

边读边写：

 file_txt = "student.txt"
file_new_txt = "newstudent.txt"
with open(file_txt) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        with open(file_new_txt,"a+") as file_new:
            file_new.write(name+"-"+age+"-"+department+"-"+hobby+"\n")
 复制

txt文件是最常用的，但是也有其局限性，就是很难对文件中分隔开的内容进行标注，比如，对每一行数据都标明姓名：张奇，年龄：18这样，这时就需要用到json文件格式了

读写JSON文件

python中对json文件的读写需要导入json包，然后调用包内函数就可以完成读写了

 import json
file_txt_path = "student.txt"
file_json_path = "student.json"
with open(file_txt_path) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        hobby = hobby.split(",")
        data = {
                "姓名":name,
                "年龄":age,
                "学院":department,
                "爱好":hobby
            }
        with open(file_json_path,"a+") as file_json:
            file_json.write(json.dumps(data,ensure_ascii=False))
            file_json.write(","+"\n")
 复制

这样就会获得这样一个json文件

但是这样的json文件格式是有问题的，我们需要在前面和后面加个[]，并且把最后面那个","去掉

前后加[]倒是比较简单，如何去掉最后一个","倒是比较头疼，我暂时的思路是统计txt文件行数，在最后一行的时候就不写入","了

我们调用wc来统计文件行数:

 import json
 
file_txt_path = "student.txt"
file_json_path = "student.json"
 
def _wc_count(file_name):
        """通过wc命令统计文件行数"""
        import subprocess
        out = subprocess.getoutput("wc -l %s" % file_name)
        return int(out.split()[0])
 
count = _wc_count(file_txt_path)
i = 0
 
with open(file_json_path,"a+") as file:
     file.write("["+"\n")
with open(file_txt_path) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        hobby = hobby.split(",")
        data = {
                "姓名":name,
                "年龄":age,
                "学院":department,
                "爱好":hobby
            }
        with open(file_json_path,"a+") as file_json:
            file_json.write(json.dumps(data,ensure_ascii=False))
            if(i < count):
                file_json.write(","+"\n")
            else:
                file_json.write("\n")
                file_json.write("]")
            i +=1
 复制

这样写入之后就变成了

这样，将完成了json文件的写入

json文件的读会比较不太好用，因为它是无法一行行或者说一条条数据的读的，只能一次性将所有内容读到内存中，代码如下：

 import json
 
file_json_path = "student.json"
 
with open(file_json_path) as file:
    result = json.loads(file.read())
    #result是一个json对象
 
for stu in result:
    hobby = ",".join(stu["爱好"])
    print(stu["姓名"]+"\t"+stu["年龄"]+"\t"+stu["学院"]+"\t"+hobby)复制

但是上面也提到了，json文件只能一次性将所有内容读到内存中然后进行操作，当文件很大的时候这样说不合理的，尤其是现在的NLP领域，文件都有数十G甚至上百G，显然内存是不足以放下的，那么这样，我们就要用到一个可以逐行读取json对象的文件格式了

读写JSONL文件

jsonl文件的读写和json文件很相似，但是文件格式上有一丝丝的不同

图中将}后面的","去掉就是一个完整的jsonl文件格式

所以，我们写jsonl文件就十分方便了。代码如下

 import jsonlines
 
file_txt_path = "student.txt"
file_jsonl_path = "student.jsonl"
 
 
with open(file_txt_path) as file:
    for line in file:
        name,age,department,hobby = line.strip().split("\t")
        hobby = hobby.split(",")
        data = {
                "姓名":name,
                "年龄":age,
                "学院":department,
                "爱好":hobby
            }
        with jsonlines.open(file_jsonl_path,mode="a") as file_jsonl:
            file_jsonl.write(data)复制

然后就是jsonl的读了，代码如下：

 import jsonlines
 
file_jsonl_path = "student.jsonl"
 
with open(file_jsonl_path) as file:
    for stu in jsonlines.Reader(file):
        hobby = ",".join(stu["爱好"])
        print(stu["姓名"]+"\t"+stu["年龄"]+"\t"+stu["学院"]+"\t"+hobby)复制

这样，就可以实现一条条读取json对象了

遇到的问题

上面这些可以满足大部分对数据的读写了，但是我在工作中遇到了一个问题，就是json对象的删除情况，在json文件中，可以直接调用del来删除字段，但是中jsonl文件中，我无法删除指定字段，只能用复写新文件的方法来实现，翻阅了很久的资料都没有找到相应的方法，希望有大佬能在评论区指导一下

	张奇 18 计算机学院看书,打篮球,看电影
	刘欣 19 计算机学院唱歌,健身
	杜航 18 计算机学院动漫,看书
	盛蓉 20 外国语学院唱歌,看书,美食
	余杰 20 土木学院唱歌,运动,游戏
	王某 19 土木学院羽毛球,游戏
	李某 20 外国语学院动漫,唱歌

使用python读写txt和json（jsonl）大文件

读写txt文本文件

读写JSON文件

读写JSONL文件

遇到的问题

html 无序标签有序标签及表单

CSS3新增属性(15个案例代码效果图素材)

基于CSS3媒体查询的响应式旅游网站设计与实现-计算机毕设附源码 12755

Postman导出JSON文件轻松转换为HTML或Markdown

python requests编写 api接收json

用Python开发桌面端软件：pywebview (框架) Python (后端) vue (前端) pyinstaller (打包)

js/jquery打字机效果/文字渐变效果（文字逐个出现）

jQuery 常用语法详解

JAVA多线程基础：单例模式与双重检查锁

2024年10个最佳Node JS API框架

前端哥

用html写一个漂亮的登录页

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000

	file_txt = "student.txt"
	with open(file_txt) as file:
	for line in file:
	name,age,department,hobby = line.strip().split("\t")
	print(name,age,department,hobby)

	file_txt = "student.txt"
	file_new_txt = "newstudent.txt"
	stu = []
	with open(file_txt) as file:
	for line in file:
	name,age,department,hobby = line.strip().split("\t")
	stu.append(name+"-"+age+"-"+department+"-"+hobby)
	with open(file_new_txt,"a+") as file:
	for student in stu:
	file.write(student+"\n")

	import json
	file_txt_path = "student.txt"
	file_json_path = "student.json"
	with open(file_txt_path) as file:
	for line in file:
	name,age,department,hobby = line.strip().split("\t")
	hobby = hobby.split(",")
	data = {
	"姓名":name,
	"年龄":age,
	"学院":department,
	"爱好":hobby
	}
	with open(file_json_path,"a+") as file_json:
	file_json.write(json.dumps(data,ensure_ascii=False))
	file_json.write(","+"\n")

	import json

	file_json_path = "student.json"

	with open(file_json_path) as file:
	result = json.loads(file.read())
	#result是一个json对象

	for stu in result:
	hobby = ",".join(stu["爱好"])
	print(stu["姓名"]+"\t"+stu["年龄"]+"\t"+stu["学院"]+"\t"+hobby)

	import jsonlines

	file_txt_path = "student.txt"
	file_jsonl_path = "student.jsonl"


	with open(file_txt_path) as file:
	for line in file:
	name,age,department,hobby = line.strip().split("\t")
	hobby = hobby.split(",")
	data = {
	"姓名":name,
	"年龄":age,
	"学院":department,
	"爱好":hobby
	}
	with jsonlines.open(file_jsonl_path,mode="a") as file_jsonl:
	file_jsonl.write(data)

	import jsonlines

	file_jsonl_path = "student.jsonl"

	with open(file_jsonl_path) as file:
	for stu in jsonlines.Reader(file):
	hobby = ",".join(stu["爱好"])
	print(stu["姓名"]+"\t"+stu["年龄"]+"\t"+stu["学院"]+"\t"+hobby)

使用python读写txt和json（jsonl）大文件

读写txt文本文件

读写JSON文件

读写JSONL文件

遇到的问题

微信扫一扫：分享