大数跨境
0
0

华为开源7B多模态模型,视觉定位和OCR能力出色,你的昇腾端侧“新甜点”来了

华为开源7B多模态模型,视觉定位和OCR能力出色,你的昇腾端侧“新甜点”来了 量子位
2026-01-05
8
导读:主打一个实用
允中 发自 凹非寺
量子位 | 公众号 QbitAI

7B量级模型因轻量与高性能兼顾,成为端侧部署与个人开发者的首选。它可灵活适配各类终端场景,同时满足图像信息抽取、文档理解、视频解析、物体定位等高频需求。

华为近日正式开源openPangu-VL-7B,专为昇腾平台优化的多模态大模型,精准切入7B级端侧应用核心赛道。

昇腾原生架构,推理与训练双优

依托昇腾原生模型结构,openPangu-VL-7B在单张Ascend Atlas 800T A2卡上处理720P图像时,首字模型推理时延(ViT与LLM时延之和)仅160毫秒,支持5FPS实时推理;训练阶段MFU达42.5%。

预训练阶段完成超3T tokens的无突刺集群长稳训练,为昇腾集群规模化训练提供可复用的工程范式。

多任务性能领先开源榜单

模型在通用视觉问答、文档图表理解与OCR、视觉定位、短视频理解等关键任务中表现突出,综合能力超越同量级开源模型。

官方Cookbook展示了其实际落地能力:

  • 输入菜品图,模型可准确定位并计数樱桃番茄数量;
  • 输入年报截图,自动输出结构化Markdown文本,大幅降低人工摘录成本。

核心技术亮点

1)适配昇腾的高性能视觉编码器

针对GPU设计的传统ViT编码器难以发挥昇腾硬件优势。团队通过系统性性能分析,构建更适配昇腾的视觉编码器:相同参数量下,吞吐较窗注意力版ViT-H提升15%;引入多标签对比学习框架,强化细粒度视觉理解能力,夯实视觉定位任务基础。

2)样本均衡的混合损失设计

创新采用“加权逐样本损失 + 逐令牌损失”混合方案,加权系数由令牌位置与样本重要性动态决定,兼顾长短回复的学习效率,避免训练失衡。消融实验验证其有效性。

3)千分位填充式定位数据格式

区别于业界主流0–999坐标方案,openPangu-VL-7B采用000–999千分位带填充格式进行相对坐标回归。统一三位token表达,显著降低模型学习难度,提升定位格式遵从性与任务精度。

技术报告还深入剖析了预训练数据配比、位置编码策略、模型融合方法等关键设计,为开发者提供完整技术参考。

作为一款轻量化、高性能、强通用的昇腾原生多模态模型,openPangu-VL-7B不仅拓展了端侧AI开发新路径,也将加速昇腾生态在智能终端、文档自动化、工业质检等场景的深度落地。

模型地址:
https://ai.gitcode.com/ascend-tribe/openPangu-VL-7B
技术报告:
https://ai.gitcode.com/ascend-tribe/openPangu-VL-7B/blob/main/doc/technical_report.pdf

【声明】内容源于网络
0
0
量子位
各类跨境出海行业相关资讯
内容 14594
粉丝 0
量子位 各类跨境出海行业相关资讯
总阅读106.3k
粉丝0
内容14.6k