Python读取大json文件性能优化及入库（100G ）

业务背景

本次需求为数据迁移，采用的方式是脚本迁移。即我拿到导出来的数据后跑脚本入库，但个人觉得直接用内置接口快照恢复会更简便（泪目）。

阅读前提

本次的Json文件是一行一条数据。

遇到的问题和解决方法

读取文件的方式-> with open 优于 open，这个应该不用再细说了吧。

读取json文件时解析速度过慢，耗时多 -> 逐行读取

但这个逐行读取是有讲究的，一开始采用网上这种常见的方法：

with open('file.txt', 'r') as f:
    lines = f.readlines()
    for line in lines:
        print(line)

这种方法的本质是先将整个文件读取到一个大列表中，再遍历。但问题是，这个大列表是占用内存的，因此是高CPU开销的，但服务器上只有32G内存，我需要性能更好的代码。后来发现：

with open('file.txt', 'r') as f:
    for line in f:
        print(line)

使用以上方式更节省内存，并且是最优的，比分块读取，如f.read(8K)、f.readlines(1000)更优。原因在于，f为文件对象，采用缓存I/O来对文件进行读写操作，本身就具有内存管理，可以不用担心内存管理的问题。

文件读取的性能优化后，接下来是入库性能优化。

以前服务器资源充足时，一直使用bulk批处理 + 手动数据分批，直到这次才了解到流式批量执行（stream_bulk）、并发批量执行（parallel_bulk）。

首先阅读使用手册。发现python中yield的用法，可以编写数据迭代生成器，适合于批处理。于是进一步改进代码，和流式批处理结合进行。

from elasticsearch.helpers import streaming_bulk
from elasticsearch.helpers import parallel_bulk
from elasticsearch.helpers import bulk, scan


# 数据迭代生成器 
def generate_actions():
    with open('file.json') as f:
        for line in f:
            data = json.loads(line)
            yield data

# 1. parallel_bulk（还可以用类似streaming_bulk的for循环）
deque(parallel_bulk(client=self.es, index=index, doc_type="doc", actions=generate_actions(), chunk_size=3000, thread_count=32), maxlen=0)

# 2. streaming_bulk
for ok, action in streaming_bulk(client=self.es, index=index, doc_type="doc", actions=generate_actions(), max_retries=5):
    pass

# 3. bulk
bulk(client=self.es, doc_type="doc", index=index, actions=generate_actions())

代码详见我的GitHub仓库。记录了我在读取大文件时代码更迭的版本。

标签

Python读取大json文件性能优化及入库（100G ）

html 无序标签有序标签及表单

CSS3新增属性(15个案例代码效果图素材)

基于CSS3媒体查询的响应式旅游网站设计与实现-计算机毕设附源码 12755

Postman导出JSON文件轻松转换为HTML或Markdown

python requests编写 api接收json

用Python开发桌面端软件：pywebview (框架) Python (后端) vue (前端) pyinstaller (打包)

js/jquery打字机效果/文字渐变效果（文字逐个出现）

jQuery 常用语法详解

JAVA多线程基础：单例模式与双重检查锁

2024年10个最佳Node JS API框架

前端哥

运行npm error code ENOENTnpm error syscall opennpm error path C:\Users\ultra\Desktop\Vue-Project\pac

前端提高篇（102）：jQuery高级方法callbacks、deferred

解决npm install 报错 “npm err code 1“

【常见错误】npm ERR! code CERT_HAS_EXPIRED & errno CERT_HAS_EXPIRED

vue前端页面弹出红色报错遮罩层 Uncaught runtime errors:at handleError (webpack-internal:///./node_modules/webpack

npm ERR! code CERT_HAS_EXPIRED npm ERR! errno CERT_HAS_EXPIRED npm ERR! request to https://registry.

JQuery中的load()、$

《WEB前端框架开发技术》HTML5响应式旅游景区网站——榆林子州HTML CSS JavaScript (1)

基于Java SpringBoot Vue HTML5药店管理系统(源码 LW 调试文档讲解等)/药店管理软件/药店进销存系统/药店库存管理系统/药店销售系统/药品管理系统/药店收银系统

基于Java SpringBoot Vue HTML5宠物健康顾问系统(源码 LW 调试文档讲解等)/宠物健康/顾问系统/宠物护理/宠物医疗/宠物保健/宠物咨询/宠物医生/宠物健康管理/宠物健康服务

1
【Echarts系列】—— 实现电池图、3D立体圆形柱状图

2024-03-03 11:03:011001

2
CSS常用属性（文本属性）

2024-11-04 09:11:111000

3
TypeScript 中的 Number 类型，Number 类型的特性、常见操作和注意事项

2024-09-30 23:09:061000

4
CSS写代码使页面划分为左右两个区域

2024-09-09 00:09:071000

5
vue使用datav echarts

2024-09-06 00:09:381000

6
使用TweenMax.js和CSS3创建冰球运动员动画效果教程

2024-09-04 23:09:411000

7
使用CDN提高jQuery加载速度

2024-08-24 23:08:211000

8
小兔鲜儿网页首页制作黑马程序员前端基础项目自学笔记

2024-08-19 22:08:161000

9
《Vue》你的弹窗能拖动吗？Vue自定义指令实现可拖动弹窗

2024-08-19 22:08:121000

10
npm的使用

2024-08-18 00:08:131000