Py之MarkItDown:MarkItDown(PDF/PPT/Word/Excel/Html/Csv/Json等转换为 Markdown 格式)的简介、安装和使用方法、案例应用
目录
MarkItDown的简介
1、支持多种文件类型的转换
MarkItDown的安装和使用方法
1、安装
要安装 MarkItDown,可以使用以下命令通过 pip 安装:
如果需要从源代码安装,可以使用:
2、使用方法
命令行使用
Python API 使用
Docker 使用
MarkItDown的案例应用
MarkItDown的简介
MarkItDown 是一个用于将各种文件和办公文档转换为 Markdown 格式的 Python 工具。MarkItDown 提供了一种高效的方式来处理和管理多种类型的文档和数据。该工具的主要应用场景包括文档索引、文本分析等。
GitHub地址:https://github.com/microsoft/markitdown
1、支持多种文件类型的转换
PowerPoint
Word
Excel
图像(支持 EXIF 元数据和 OCR)
音频(支持 EXIF 元数据和语音转录)
HTML
基于文本的格式(如 CSV、JSON、XML)
ZIP 文件(可以遍历其内容)
MarkItDown的安装和使用方法
1、安装
要安装 MarkItDown,可以使用以下命令通过 pip 安装:
pip install markitdown
复制
如果需要从源代码安装,可以使用:
pip install -e .
复制
2、使用方法
命令行使用
在命令行中使用 MarkItDown 来转换文件非常简单:
markitdown path-to-file.pdf
复制
这将生成一个名为 document.md 的 Markdown 文件。
你也可以使用管道将文件内容传递给 MarkItDown:
cat path-to-file.pdf | markitdown
复制
Python API 使用
在 Python 中使用 MarkItDown 的基本示例如下:
from markitdown import MarkItDown md = MarkItDown() result = md.convert("test.xlsx") print(result.text_content)
复制
如果需要使用大型语言模型(如 OpenAI 的 GPT-4o)来生成图像描述,可以这样做:
from markitdown import MarkItDown from openai import OpenAI client = OpenAI() md = MarkItDown(llm_client=client, llm_model="gpt-4o") result = md.convert("example.jpg") print(result.text_content)
复制
Docker 使用
你也可以通过 Docker 来运行 MarkItDown。构建 Docker 镜像的命令如下:
docker build -t markitdown:latest .
复制
运行 Docker 容器并转换文件:
docker run --rm -i markitdown:latest < ~/your-file.pdf > output.md
复制
MarkItDown的案例应用
MarkItDown 可以用于多种场景,例如:
文档转档:将办公室文件(如 Word、Excel)快速转换为 Markdown 格式,以便于文档管理和版本控制。
数据分析:将 CSV 或 JSON 文件转换为 Markdown,以便于生成报告和数据摘要。
图像处理:提取图像的元数据或使用 OCR 技术将图像中的文本转换为可编辑的 Markdown 格式。
音频转录:将音频文件中的语音内容转录为文本,并转换为 Markdown 格式,方便后续分析或编辑。