大数跨境
0
0

【干货】介绍Python中的模块,轻松将PDF转换成docx

【干货】介绍Python中的模块,轻松将PDF转换成docx 关于数据分析与可视化
2023-07-23
1

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据,然后采用 python-docx 库解析内容的布局、段落、图片、表格等,最后自动生成 docx 文件。

pdf2docx功能

  • 解析和创建页面布局

    • 页边距
    • 章节和分栏 (目前最多支持两栏布局)
    • 页眉和页脚 [TODO]
  • 解析和创建段落

    • OCR 文本 [TODO]
    • 水平(从左到右)或竖直(自底向上)方向文本
    • 字体样式例如字体、字号、粗/斜体、颜色
    • 文本样式例如高亮、下划线和删除线
    • 列表样式 [TODO]
    • 外部超链接
    • 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距
  • 解析和创建图片

    • 灰度/RGB/CMYK等颜色空间图片
    • 带有透明通道图片
    • 浮动图片(衬于文字下方)
    • 内联图片
  • 解析和创建表格

    • 边框样式例如宽度和颜色
    • 单元格背景色
    • 合并单元格
    • 单元格垂直文本
    • 隐藏部分边框线的表格
    • 嵌套表格
  • 支持多进程转换

pdf2docx 同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。

限制

  • 目前暂不支持扫描PDF文字识别
  • 仅支持从左向右书写的语言(因此不支持阿拉伯语)
  • 不支持旋转的文字
  • 基于规则的解析无法保证100%还原PDF样式

安装

pip install pdf2docx

案例

from pdf2docx import parse

pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'

# convert pdf to docx
parse(pdf_file, docx_file)

output

NO.1
往期推荐
Historical articles

200行不到的Python代码,破解了隔壁家小姐姐的wifi密码,然后......



从Pandas到Polars :数据的ETL和查询



YYDS!用Python就能轻松控制你的手机



这几个 Python 包的依赖管理,真的是太赞了!!


分享、收藏、点赞、在看安排一下?

【声明】内容源于网络
0
0
关于数据分析与可视化
本公众号定期分享数据分析与可视化干货文章,并有时结合热点话题进行深入讨论,希望您会喜欢,要是哪里写的不好,也渴望倾听您的想法和意见,感谢!❤️
内容 403
粉丝 0
关于数据分析与可视化 本公众号定期分享数据分析与可视化干货文章,并有时结合热点话题进行深入讨论,希望您会喜欢,要是哪里写的不好,也渴望倾听您的想法和意见,感谢!❤️
总阅读117
粉丝0
内容403