大数跨境
0
0

使用marker-pdf将PDF 转换为 Markdown

使用marker-pdf将PDF 转换为 Markdown David的跨境日记
2025-10-19
61
导读:还在为国内AI的良莠不齐,效果不好而烦恼吗?

还在为国内AI的良莠不齐,效果不好而烦恼吗?

那么一起来看看 开发喵AI(3in1) 

这是一个整合了 GPT-4、Claude3、Gemini 三位一体的集成化AI助手

覆盖了三个AI工具的所有模型

包括 GPT-4o 和 Gemini flash

现仅需 ¥8就可以将它们拥为己用

官网价值 ¥420+

后台发送“开发喵”开启使用

此刻成为会员还可享受一对一私人服务,给您的使用保驾护航



我使用过多种在线工具将 PDF 文档转换为 Markdown 格式,但没有一个能与Marker相提并论。除了基本的 Markdown 转换之外,它还可以格式化表格、将大多数方程式转换为乳胶、提取和存储图像。

以下是我使用 Marker 提取 PDF 内容并将其转换为有效 Markdown 的方法。

使用的环境

Windows 11

先决条件

根据 Marker 的GitHub 存储库,它需要安装:

  • Python
  • PyTorch
img
img

1.安装 Python > 3.8

转到 Python下载页面并下载最新版本的 Python。

img
img

按照说明安装设置。

2.安装PyTorch

注意:为了正确安装 PyTorch,系统上必须安装 Python 3.8 或更高版本。

要安装 PyTorch,请访问其官方网站,将看到如下图所示的内容:

img
img

可以调整这些选项,看看哪一个最适合自己的系统。获取命令后,打开 PowerShell 或命令提示符,然后将命令粘贴到那里。

这是我用来安装 PyTorch 的命令:

pip3 install  torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

PyTorch 将开始在您的系统上安装……

img
img

由于主文件大小为 2.7 GB,因此下载和安装需要一些时间。

几分钟后,PyTorch 将被安装。

img
img

现在,先决条件已经满足。接下来,你可以继续进行实际的 Marker 操作了。

Clone Marker

可以使用以下命令在本地系统上克隆 Marker 项目:

git clone https://github.com/VikParuchuri/marker.git

克隆后,Marker GitHub repo 将如下所示:

img
img

我们已经克隆了存储库,但由于尚未安装 Marker,因此仍然无法将 PDF 转换为 Markdown 格式。

安装Marker

1. 创建新环境

在新克隆的 Marker GitHub 存储库之外,创建一个用于将 PDF 转换为 Markdown 文件的新环境。

python -m venv myenv

这将创建一个由多个文件组成的myenv文件夹。

img
img

2.激活环境

myenv\Scripts\activate

这将激活新创建的环境。

img
img

3.安装“marker-pdf”

此命令实际上将使用pip包管理器安装****marker-pdf

pip install marker-pdf

现在我们准备将 PDF 文档转换为 Markdown 文件!

4. 将 PDF 格式转换为 Markdown

要将 PDF 转换为 Markdown,我们需要两样东西:

  • PDF的输入路径
  • 输出路径

因为转换的命令是这样的:

marker_single "input_path" "output_path" - batch_multiplier 2 - max_pages 12

因此,在克隆的标记 GitHub 项目文件夹中,我将创建两个文件夹:

  • pdfs:我的输入文件夹
  • 输出:我的输出文件夹

我将使用示例 PDF 进行 Markdown 转换并将其粘贴到pdfs文件夹中。

img
img

现在,要转换 PDF “Get_Started_With_Smallpdf.pdf”,我将使用以下命令:

marker_single “D:/projects/marker-pdf/marker/pdfs/Get_Started_With_Smallpdf.pdf”  “D:/projects/marker-pdf/marker/output” - batch_multiplier 2 - max_pages 12

根据Marker GitHub repo,其他两个参数的含义如下:

--batch_multiplier如果您有额外的 VRAM,则默认批次大小乘以的数值。数值越高,占用的 VRAM 越多,但处理速度越快。默认设置为 2。默认批次大小将占用约 3GB 的 VRAM。

--max_pages是需要处理的最大页数。省略此项可转换整个文档。

一旦执行该命令,Marker 将启动转换并将 Markdown 保存到输出文件夹。

img
img

Marker 的妙处在于它可以提取与 PDF 相关的所有图像并将其与主**.md**(Markdown)文件一起存储。

img
img

它甚至会生成 JSON 格式的元数据文件

img
img

所有图像均以 .png 格式提取,可以把 PDF 转换成了 Markdown。

PDF输入

这是我们提供给 Marker 作为输入文件的 PDF

img
img

Markdown 输出

# Welcome To Smallpdf

Ready to take document management to the next level? 

![0_image_0.png](0_image_0.png)

## Digital Documents—All In One Place

With the new Smallpdf experience, you can 

![0_image_1.png](0_image_1.png) freely upload, organize, and share digital documents. When you enable the 'Storage' option, we'll also store all processed files here. 

## Enhance Documents In One Click

When you right-click on a file, we'
ll present 

![0_image_2.png](0_image_2.png) you with an array of options to convert, compress, or modify it. 

## Access Files Anytime, Anywhere

You can access files stored on Smallpdf from 

![0_image_3.png](0_image_3.png)

your computer, phone, or tablet. We'll also sync files from the Smallpdf Mobile App to our online portal

## Collaborate With Others

Forget mundane administrative tasks. With Smallp











往期爆🔥文章:

Ollama模型管理神器——Gollama(78)
Xorbits Inference:Ollama最强竞品(73)
Ollama可以设置的环境变量(68)

如对您有帮助,别着急😝点个“分享 在看”再划走🫦


【声明】内容源于网络
0
0
David的跨境日记
跨境分享营 | 持续分享跨境心得
内容 46537
粉丝 1
David的跨境日记 跨境分享营 | 持续分享跨境心得
总阅读279.7k
粉丝1
内容46.5k