多模态文档智能解析模型进展-英伟达开源NVIDIA-Nemotron-Parse-v1.1

大模型自然语言处理

2025-11-22

往期相关：

模型架构

模型整体架构与mBART类似，遵循vision-encoder-decoder架构，这点和之前字节开源的dolphin架构类似。

版式分析识别的标签：标题、节、图例、索引、脚注、列表、表格、参考文献、图像

权重（已支持vllm推理）：https://huggingface.co/nvidia/NVIDIA-Nemotron-Parse-v1.1

【声明】内容源于网络

大模型自然语言处理

不定期分享自然语言处理、大语言模型，文档智能等领域前沿技术及实践。作者：老余，曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。

内容 222

粉丝 0

大模型自然语言处理不定期分享自然语言处理、大语言模型，文档智能等领域前沿技术及实践。作者：老余，曾获CCF、Kaggle、ICPR、ICDAR等国内外近二十项算法竞赛/评测冠亚季军。曾发表sci、顶会等论文多篇。

总阅读233

粉丝0

内容222