还在为国内AI的良莠不齐,效果不好而烦恼吗?
那么一起来看看 开发喵AI(3in1) 吧
这是一个整合了 GPT-4、Claude3、Gemini 三位一体的集成化AI助手
覆盖了三个AI工具的所有模型
包括 GPT-4o 和 Gemini flash
现仅需 ¥88 就可以将它们拥为己用
官网价值 ¥420+
后台发送“开发喵”开启使用
此刻成为会员还可享受一对一私人服务,给您的使用保驾护航
我使用过多种在线工具将 PDF 文档转换为 Markdown 格式,但没有一个能与Marker相提并论。除了基本的 Markdown 转换之外,它还可以格式化表格、将大多数方程式转换为乳胶、提取和存储图像。
以下是我使用 Marker 提取 PDF 内容并将其转换为有效 Markdown 的方法。
使用的环境
Windows 11
先决条件
根据 Marker 的GitHub 存储库,它需要安装:
-
Python -
PyTorch
1.安装 Python > 3.8
转到 Python下载页面并下载最新版本的 Python。
按照说明安装设置。
2.安装PyTorch
注意:为了正确安装 PyTorch,系统上必须安装 Python 3.8 或更高版本。
要安装 PyTorch,请访问其官方网站,将看到如下图所示的内容:
可以调整这些选项,看看哪一个最适合自己的系统。获取命令后,打开 PowerShell 或命令提示符,然后将命令粘贴到那里。
这是我用来安装 PyTorch 的命令:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
PyTorch 将开始在您的系统上安装……
由于主文件大小为 2.7 GB,因此下载和安装需要一些时间。
几分钟后,PyTorch 将被安装。
现在,先决条件已经满足。接下来,你可以继续进行实际的 Marker 操作了。
Clone Marker
可以使用以下命令在本地系统上克隆 Marker 项目:
git clone https://github.com/VikParuchuri/marker.git
克隆后,Marker GitHub repo 将如下所示:
我们已经克隆了存储库,但由于尚未安装 Marker,因此仍然无法将 PDF 转换为 Markdown 格式。
安装Marker
1. 创建新环境
在新克隆的 Marker GitHub 存储库之外,创建一个用于将 PDF 转换为 Markdown 文件的新环境。
python -m venv myenv
这将创建一个由多个文件组成的myenv文件夹。
2.激活环境
myenv\Scripts\activate
这将激活新创建的环境。
3.安装“marker-pdf”
此命令实际上将使用pip包管理器安装****marker-pdf。
pip install marker-pdf
现在我们准备将 PDF 文档转换为 Markdown 文件!
4. 将 PDF 格式转换为 Markdown
要将 PDF 转换为 Markdown,我们需要两样东西:
-
PDF的输入路径 -
输出路径
因为转换的命令是这样的:
marker_single "input_path" "output_path" - batch_multiplier 2 - max_pages 12
因此,在克隆的标记 GitHub 项目文件夹中,我将创建两个文件夹:
-
pdfs:我的输入文件夹 -
输出:我的输出文件夹
我将使用示例 PDF 进行 Markdown 转换并将其粘贴到pdfs文件夹中。
现在,要转换 PDF “Get_Started_With_Smallpdf.pdf”,我将使用以下命令:
marker_single “D:/projects/marker-pdf/marker/pdfs/Get_Started_With_Smallpdf.pdf” “D:/projects/marker-pdf/marker/output” - batch_multiplier 2 - max_pages 12
根据Marker GitHub repo,其他两个参数的含义如下:
--batch_multiplier如果您有额外的 VRAM,则默认批次大小乘以的数值。数值越高,占用的 VRAM 越多,但处理速度越快。默认设置为 2。默认批次大小将占用约 3GB 的 VRAM。
--max_pages是需要处理的最大页数。省略此项可转换整个文档。
一旦执行该命令,Marker 将启动转换并将 Markdown 保存到输出文件夹。
Marker 的妙处在于它可以提取与 PDF 相关的所有图像并将其与主**.md**(Markdown)文件一起存储。
它甚至会生成 JSON 格式的元数据文件
所有图像均以 .png 格式提取,可以把 PDF 转换成了 Markdown。
PDF输入
这是我们提供给 Marker 作为输入文件的 PDF
Markdown 输出
# Welcome To Smallpdf
Ready to take document management to the next level?

## Digital Documents—All In One Place
With the new Smallpdf experience, you can
 freely upload, organize, and share digital documents. When you enable the 'Storage' option, we'll also store all processed files here.
## Enhance Documents In One Click
When you right-click on a file, we'll present
 you with an array of options to convert, compress, or modify it.
## Access Files Anytime, Anywhere
You can access files stored on Smallpdf from

your computer, phone, or tablet. We'll also sync files from the Smallpdf Mobile App to our online portal
## Collaborate With Others
Forget mundane administrative tasks. With Smallp
如对您有帮助,别着急😝点个“分享 在看”再划走🫦






