

【干货】介绍Python中的模块，轻松将PDF转换成docx

关于数据分析与可视化

2023-07-23

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据，然后采用 python-docx 库解析内容的布局、段落、图片、表格等，最后自动生成 docx 文件。

pdf2docx功能

pdf2docx 同时解析出了表格内容和样式，因此也可以作为一个表格内容提取工具。

pip install pdf2docx

from pdf2docx import parse

pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'

# convert pdf to docx
parse(pdf_file, docx_file)

output

NO.1

往期推荐

Historical articles

分享、收藏、点赞、在看安排一下？

【声明】内容源于网络

关于数据分析与可视化

本公众号定期分享数据分析与可视化干货文章，并有时结合热点话题进行深入讨论，希望您会喜欢，要是哪里写的不好，也渴望倾听您的想法和意见，感谢！❤️

内容 403

粉丝 0

关于数据分析与可视化本公众号定期分享数据分析与可视化干货文章，并有时结合热点话题进行深入讨论，希望您会喜欢，要是哪里写的不好，也渴望倾听您的想法和意见，感谢！❤️

总阅读117

粉丝0

内容403