一.模型介绍
本文将基于Bitahub云端GPU环境,完成 DeepSeek-OCR 模型的部署实操。DeepSeek-OCR 是深度求索于 2025 年 10 月开源的革命性 OCR 模型,其核心优势在于:首创上下文光学压缩技术,通过视觉模态高效实现文本信息的压缩与解压,突破传统 OCR 性能限制;以 3B 参数量达成行业 SOTA 性能,在 A100-40G 显卡上单日可处理超 20 万页数据,兼顾高效性与高精度;同时支持多语言识别及多种输入格式适配,可满足批量处理与单张识别等多样化场景需求。借助 BitaHub 提供的云端算力,无需本地配置硬件,可快速完成模型部署并投入使用。
二.部署流程
首先创建开发环境,我们需在 BitaHub 项目中开启自定义容器端口功能。在平台端配置端口 8080 为容器对外服务端口,确保服务对外可访问。
打开「终端」,创建专属的 Conda 环境,避免依赖冲突。等待环境创建完成,再输入第二条命令激活环境。
conda create -n deepseek-ocr python=3.12.9 -yconda activate deepseek-ocr
克隆 DeepSeek-OCR 的官方仓库到本地环境,输入命令,等待仓库文件下载完成。
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
进入刚才克隆的仓库目录,接着安装 PyTorch 及项目核心依赖。
pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118pip install -r requirements.txt
接着克隆 Demo 仓库(用于可视化 Web 界面),并安装 Demo 专属依赖。
git clone https://huggingface.co/spaces/merterbak/DeepSeek-OCR-Democd DeepSeek-OCR-Demopip install -r requirements.txt
另外需要安装 ModelScope 工具(用于下载模型文件)
pip install modelscope
安装完成后退回主目录,然后创建专门存放模型文件的文件夹并用 ModelScope 下载模型,这个过程会下载模型文件,请耐心等待。
modelscope download --model 'deepseek-ai/DeepSeek-OCR' --local_dir './'
随后我们需要修改关键配置 —— 打开 Demo 目录下的 app.py 文件,需要改两处:
一是模型加载路径,找到 MODEL_NAME 这一行,把原来的远程路径改成你本地保存模型的目录。
二是 Gradio 启动配置,找到 launch () 函数,在里面添加以下代码,这样才能在 BitaHub 外访问 Web 界面。
share=True, server_name='0.0.0.0', server_port=8080
最后切换到 Demo 目录,安装 Gradio 及依赖,然后启动 Web 服务,等待服务启动完成。
cd deepseek-ocr/DeepSeek-OCR-Demopip install spaces gradiopython app.py
服务启动后,回到开发环境,复制完整的地址到浏览器中打开即可访问模型。
三.界面功能详解
界面左侧为操作区,用于文件上传与参数配置;右侧为结果展示区,实时反馈处理结果。
1. 文件上传
点击 “Upload Image or PDF” 按钮,系统支持多种格式输入,无论是常见的图片格式(如截图、扫描件),还是多页PDF文档,均可直接上传。上传后,左侧操作区会自动生成预览图,方便用户确认上传内容无误。
2. 模式选择
通过 “Mode” 选项,用户可以根据文档特性和对性能的要求,选择不同的处理模式:
Tiny (极速模式): 优先处理速度,适用于纯文字为主的快速识别场景。
Gundam (平衡模式): 平衡处理速度与精度,能满足绝大多数日常文档的识别需求。
Large (高精模式): 优先保证识别精度,适用于包含小字体、复杂表格等高难度文档的场景。
3. 任务选择
这是模型的核心能力所在。通过 “Task” 选项,用户可以定义具体的处理任务,覆盖了从基础到高级的多种应用场景:
Markdown (结构化提取): 将文档内容转换为Markdown格式。此模式下,表格、标题层级等结构信息将被完整保留,便于后续编辑和二次利用。
Free OCR (纯文本提取): 仅提取文档中的所有文本内容,忽略格式,快速输出纯文本结果。
Locate (关键词定位): 输入关键词后,模型会自动在文档中定位所有匹配项,并在返回的图像中用边界框清晰标记出其位置。
Describe (内容描述): 对图片或文档页面内容进行整体性描述,生成一段概括性的文字说明。
Custom (自定义指令): 提供一个开放式接口,允许用户输入自定义指令(如“提取所有邮箱地址”),以实现更灵活的特定信息抽取。
4. 执行与结果展示
完成上述配置后,点击蓝色的 “Extract” 按钮即可启动任务。处理结果将即时呈现在右侧的标签页中,各标签页功能如下:
Text: 展示提取出的纯文本内容。
Markdown: 展示结构化的Markdown格式结果。
Boxes: 以可视化方式在原图上显示识别出的文本或定位目标的边界框。
Cropped Images: 展示根据定位任务裁剪出的目标区域图像。
Raw: 展示模型输出的原始数据,便于开发者进行调试和二次开发。
通过这套完整的Web界面,部署完成后的模型能够为开发者提供从基础文本提取到高级自定义任务的全方位能力。
四.总结
至此,我们已经成功在Bitahub平台上完成了DeepSeek-OCR的部署。这个强大的OCR工具可以帮助大家处理各种文字识别任务。如果你也想快速部署各类 AI 模型,欢迎来 BitaHub 一键体验云端开发环境,让 AI 落地更简单!

