大数跨境
0
0

多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1

多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1 大模型自然语言处理
2025-11-22
6

往期相关:

模型架构

模型整体架构与mBART类似,遵循vision-encoder-decoder架构,这点和之前字节开源的dolphin架构类似。

  • 视觉编码器:ViT-H模型(https://huggingface.co/nvidia/C-RADIO)
  • 适配层:一维卷积和归一化,以压缩潜在空间的维度和序列长度(13184个token到3201个token)
  • 解码器:mBart [1] 10个块
  • 分词器:使用此模型中包含的分词器受CC-BY-4.0许可证的约束
  • 参数数量:< 1B

功能

版式分析识别的标签:标题、节、图例、索引、脚注、列表、表格、参考文献、图像

布局理解
表格提取
格式和方程提取

权重(已支持vllm推理):https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

【声明】内容源于网络
0
0
大模型自然语言处理
不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:老余,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
内容 222
粉丝 0
大模型自然语言处理 不定期分享自然语言处理、大语言模型,文档智能等领域前沿技术及实践。作者:老余,曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。
总阅读233
粉丝0
内容222