
导读
INTRODUCTION
6月5日消息,据钛媒体报道,华为公司将发布一款直接对标ChatGPT的多模态千亿级大模型产品,名为“盘古Chat”。(注:这是内部代号,不是最终名字)
报道称,预计华为盘古Chat将于今年7月7日举行的华为云开发者大会 (HDC.Cloud 2023) 上对外发布以及内测,产品主要面向To B/G政企端客户。
据中国商标网显示,华为技术有限公司于日前申请注册了两枚“HUAWEI NETGPT”商标,国际分类为科学仪器、网站服务,当前商标状态为申请中。此外,华为已成功注册多枚“盘古”“PANGU”商标。



根据华为公布的一份论文数据显示,华为盘古 PanGu-Σ 大模型参数最多为 1.085 万亿,基于华为自研的 MindSpore 框架开发。整体来看,PanGu-Σ 大模型在对话方面可能已接近 GPT-3.5 的水平。

随着ChatGPT在全球范围内迅速爆红,AI大模型赛道的热潮从国外涌向国内,并随之急速升温。目前,阿里、腾讯、百度、三六零等巨头正加速大模型布局,华为的入局意味着在大模型领域,阿里、腾讯等巨头企业将迎来强劲对手。

自2020年华为已开始布局大模型,盘古大模型是由CV(计算机视觉)大模型、科学计算大模型、NLP(自然语言处理)大模型、语音大模型、多模态大模型组成的系列,于2021年4月正式发布。
对于盘古大模型定位,华为内部团队确立了三项最关键的核心设计原则:一是模型要大,可以吸收海量数据;二是网络结构要强,能够真正发挥出模型的性能;三是要具有优秀的泛化能力,可以真正落地到各行各业的工作场景。
据介绍,盘古 CV 大模型为业界最大 CV 大模型,首次达到 30 亿参数并实现兼顾判别与生成能力、在 ImageNet 上小样本学习能力上的业界第一。
华为云盘古大模型最终分为三个层级:L0是类似于GPT3这样的基础通用大模型;L1是基础模型与行业数据结合进行混合训练后的行业大模型,已经发布了矿山、气象、药物、分子、电力、海浪、金融等行业的大模型;L2是把L1再具体下游业务场景进行部署后生成的部署模型,如金融OCR模型、电力巡检模型等。
在大模型研发方面,华为拥有完整的产业链和较强的算力匹配能力。据浙商证券此前披露,训练千亿参数的盘古大模型时,华为团队调用了超过2000块的昇腾910芯片,进行了超2个月的数据训练能力。华为内部称,每年大模型训练调用GPU/TPU卡超过4000片,3年的大模型算力成本高达9.6亿元人民币。
产业生态层面,华为则延续了自己重B端的企业基因,大模型产业化的初衷正是在于开辟更多B端业务场景。此外,还融入了华为在5G、云计算、物联网等领域的技术优势,为企业提供智能化服务。
目前,盘古预训练大模型能力已在包括能源、零售、金融、工业等领域得到验证。同时盘古NLP大模型通过迁移学习实现少样本学习目标,并采用了分布式计算技术,可以实现模型的在线训练和增量学习,随着数据量的增加不断优化模型,提高模型的准确度和质量,使其更加适合复杂的商用场景,在部分应用中的表现已超过GPT-3.5。
此次,华为盘古大模型有望成为国内领先的大模型,其生态产业链标的有望迎来加速发展。
更多资料下载
点击下方图片

来源:,对原作者表示感谢,分享仅作学习交流,不作商用,我们尊重版权,如有侵权请联系我们删除等相关处理。
监制/西贝
编辑/荔枝



