
AI聊天机器人程序ChatGPT自去年年底上线后,开始呈现出爆发式用户增长。其卓越的技术与理念竞争力,良好的用户体验使人们看到了生成式AI的未来。
作为一种基于大语言模型的生成式AI,ChatGPT通过人类反馈强化学习,使之更好地理解人类需求,输出符合人类期望的答案。尽管目前ChatGPT对训练数据和硬件有较高要求,但随着技术迭代成本不断下降,预计前期大量投入可带来丰厚回报。
在硅谷,ChatGPT的商业化已经打破了原有的互联网生态格局,搜索引擎巨头谷歌落后微软一步,更多科技巨头也即将面临重新洗牌的挑战。与此同时,众多AI领域的初创公司在未来极有可能占据新的生态位。国内AI业界在意识到与ChatGPT技术差距的同时,也从中获得技术路线启发,尝试在商业化探索中平衡计算成本与用户需求。AI细分赛道的初创公司也亟需通过了解大模型的应用寻求自身生存空间。
目 录
一、ChatGPT的全景图
二、ChatGPT模型的工作原理
三、ChatGPT背后大语言模型的经济成本
四、硅谷科技巨头如何迎接ChatGPT的挑战
五、国内业界对ChatGPT的反响
1.ChatGPT与OpenAI介绍
ChatGPT即“生成型预训练变换模型”(Chat Generative Pre-trained Transformer),是由OpenAI开发的生成式人工智能聊天机器人程序,使用基于GPT-3.5架构的大语言模型(Large Language Model, LLM)并通过人类反馈强化学习(RLHF)进行训练,2022年11月上线后不到一周就突破100万用户。
-
OpenAI 是美国的非营利性顶尖AI实验室,由埃隆·马斯克和知名风投机构YC前总裁Sam Altman成立于2015年底,定位是促进发展使人类整体受益的AI。
2.ChatGPT的核心竞争力
数据层:在有3000亿单词的语料库上预训练拥有1750亿参数的模型。
算法层:人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF) 使其回答更加翔实、公正,能拒绝不当问题和知识范围外的问题。
算力层:在Azure AI超算基础设施(由V100 GPU组成的高带宽集群)上训练,总算力消耗约3640 PF-days(以每秒一千万亿次计算运行3640天)。
理念层:OpenAI的章程包括广泛造福社会,关注长远安全问题,引领技术研究和保持合作意愿。OpenAI始终将大语言模型看作通向通用人工智能(AGI)的必由之路。
3. ChatGPT体验和分析
目前ChatGPT的理解能力和道德感很强,看重事实而非观点,但中文回答逊于英文,且答案存在信息差,可能对陷阱问题胡乱回答。其最大贡献在于基本实现了理想大语言模型(LLM)的接口层,让LLM适配人的习惯表达方式,增加了LLM的易用性和用户体验。由于Bert/GPT可以端到端地解决最终任务,作为解决实际需求的辅助阶段存在的中间任务可能消亡。但ChatGPT目前仍存在衡量指标难以确定,模型与知识非实时更新,模态单一,训练成本高等局限性。
1.大语言模型的能力与一致性
在机器学习中,模型的一致性关注的是模型的目标和行为在多大程度上符合人类的实际期望。此前大语言模型中的一致性问题通常表现为提供无效帮助,内容胡编乱造,决策缺乏可解释性,内容偏见有害等。
Next-token-prediction等用于训练语言模型的核心技术允许模型学习语言的统计结构,如常见词序列和词使用模式,有助于模型生成更自然流畅的文本。但模型不一定会学习词含义的某些更高级表征,因此训练策略可能会导致语言模型在复杂任务中出现不一致。
2.从人类反馈中强化学习(Reinforcement Learning from Human Feedback,RLHF)
有监督的调优:使用有监督学习策略(Supervised Fine-Tuning,SFT),收集来源于标注人员或GPT-3用户的小型高质量数据集,使用GPT-3.5系列中最新版模型,在程序代码模型之上进行调优预训练。
模拟人类偏好:标注者对大量SFT 模型输出进行投票,创建比较数据组成的新数据集,训练得到训练回报模型(Reward Model,RM),为SFT模型的输出进行打分排序以评价在多大程度上模仿人类偏好。
近端策略优化(Proximal Policy Optimization, PPO):用RM模型进一步调优SFT模型,根据agent所采取的行动计算优势函数,直接对当前策略进行更明智的更新。
1.LLM的工作原理
大语言模型在给定上下文的情况下对可能输出的token作出预测,根据输出 token的概率重复采样新token,再附加到上下文窗口以提示下一次迭代。当下 LLM性能的背后是数十亿参数的深度神经网络。浮点运算(FLOPS)数值通常与参数数量成比例,在处理器上完成,因此随着参数量指数增长,计算成本迅速增加。
2.LLM的成本结构
驱动搜索成本
以LLM方法2-Stage Search Summarizer为例,它可以在推理时访问传统搜索引擎,将响应得分最高的搜索结果返回给用户。这种方法能从搜索结果中引用来源,获取最新信息,但由于需要更高计算成本,搜索引擎现有成本也增加了。参考市场上现有基础模型API的标价,该方法查询成本为 0.066 美元/次,约为每次查询收入的1.4倍。
通过多种技术优化,预估成本会降至原来的1/4,而运行自建基础设施则会使成本降低1/2,综合以上改进后在搜索中融入高性能 LLM 的成本大约只占据当前查询收入的15%。考虑云计算成本,OpenAI的API定价为0.02美元/1000词,这意味着对于一台一直运行的机器而言其毛利率约为80%。
训练成本
GPT-3在3000亿token上进行训练,每个token的训练成本约为6倍参数数量,训练过程中FLOPS利用率为46.2%。已知谷歌使用GCP TPU v4芯片来训练PaLM模型,如今效仿谷歌的训练成本仅为140万美元左右。
成本轨迹通用框架
框架中重要变量之一是参数数量效率。对大多数 LLM 来说,考虑边际效益,使用更多训练数据比增加参数更划算。在未来将增量计算资源转移到大型数据集上进行训练有利于获得更好的性能。
Cost/FLOP效率也很重要。硬件性能改进旨在实现峰值FLOPS吞吐量和模型FLOPS利用率最大化。得益于张量核心(Tensor Cores),每代GPU的性能已得到很大提升,训练 LLM的数据中心GPU的年均吞吐量提高了22%。
硬件利用率的三个维度包括单芯片,芯片到芯片的扩展和系统到系统的扩展。在后两个维度上,软件划分策略是硬件有效利用的关键因素。LLM 训练的挑战之一是将模型从单个芯片扩展到多个系统和集群级别。GPT-3这样的大模型在10000 个V100 GPU上训练也需要14.8天。预计未来其他新兴技术如扩展芯片等将进一步推动硬件发展。
3. 大语言模型的投入与回报
从经济角度来看,将高性能 LLM 纳入搜索的部署已经切实可行。过去两年半里GPT-3等模型的训练成本下降了80%以上并将继续降低。市场上部分产品部署LLM后已经可以通过SaaS(Software as a service)来盈利。尽管训练大语言模型需要大量前期投入,但会逐年获得回报。未来因为增加模型参数带来的回报递减,高质量训练数据会成为更稀缺的资源。
1. ChatGPT是否会颠覆谷歌搜索
AI专家主流的答案是现在ChatGPT错误率很高,不能替代谷歌搜索,但以后理论上有这种可能。
搜索引擎的执行步骤包括主动式信息需求,理解意图,寻找合适信息,对信息进行理解、整合和回答。过去谷歌在意图理解和信息寻找上做到了极致,但ChatGPT这样的LLM在知识理解和整合上表现更好,且效率远高于搜索引擎,无需主动搜索和浏览分析就能得到答案。因此ChatGPT对搜索引擎是高一维度的技术。
尽管ChatGPT还不够完美,但可以预见搜索引擎将在未来成为历史,中间会有一段“双引擎模式”时期:一开始以搜索引擎为主,ChatGPT为辅,Top 1的搜索结果由ChatGPT产生,可以下拉看其他搜索结果;随着LLM发展,过渡到以ChatGPT生成内容为主,最后进化成ChatGPT以智能助理APP形式存在的终极形态。
因此谷歌若固步自封,其市场份额将受到冲击;而Bing搜索引擎的母公司微软则最可能通过推广ChatGPT主导新市场。
2. 科技巨头对AI初创公司的投资竞争
微软与谷歌的竞争已初见分晓。微软CEO表示会用AI升级Bing搜索和Edge浏览器并推向百万用户,承认其布局已久。谷歌则投资给ChatGPT的对手也就是OpenAI前成员创立的Anthropic。科技巨头普遍非常重视这些初创公司,预测其中将诞生生成式AI的新巨头。而谷歌在微软Bing发布会之后推出的对话机器人Bard出现事实性错误,令市场担心该匆忙对策反映出其对科技前沿的认知和创新魄力上已经落后。
谷歌为何在AI产品化中失去先机?对于大公司的研发实验室而言,最重要的是前瞻性,如何推进技术前沿和思考下一个里程碑,而现在的OpenAI初步具备了这种眼光。原本谷歌的NLP模型Transformer和RLHF方法令其占据技术先发优势,但其策略过于保守,商业化敏感性差;快速迭代的OpenAI则始终坚持产品驱动的路径,市场化思路非常清晰,这也可见微软投资决策的成功。
3. ChatcGPT有望重塑互联网格局
ChatGPT背后大模型方法论的范式将可能会取代目前搜索和推荐引擎的机器学习模型。这代表更大的机会和风险,包括谷歌、微软、苹果、英伟达、脸书等科技巨头在内,整个互联网的格局可能会完全颠覆。此前硅谷认为互联网创新已经到达技术天花板,但ChatGPT即将带来令人兴奋的新生态格局。谷歌危机意识的薄弱也在提醒其他科技公司竞争和创新的重要性。
1.AI从业者对国内外技术差距的评价
特看科技CEO乐乘等业界人士认为,目前全球还没有能跟ChatGPT抗衡的大模型,业界共识是差距在两年以上,国内需要趁早追赶。
模型训练程度:其中一个差距在基础模型本身,我们的模型训练的充分程度远远不够。
模型迭代:OpenAI所有的模型都提供了API调用,建立起真实世界用户数据和模型迭代之间的飞轮,在此过程中也养活了美国众多创业公司,建立起行业生态。
算力:由于GPU芯片等问题,即使是国内头部公司,从算力上与谷歌等相比差距也比较明显。
数据质量:中文互联网的数据质量较英文世界有明显差距。
企业精神:OpenAI实验室具备纯粹的创新精神与长期主义,在无明显效益阶段坚持技术研发。
2.ChatGPT模型对国内业界的启发
ChatGPT的InstructGPT模型非常强大。GPT模型路线在与BERT模型路线竞争落后时,通过增加参数和数据规模,结合人工反馈增强学习(RLHF),在ChatGPT上反超了BERT模型路线。技术路线交替竞争是业内常态。
在建立RLHF机制的难点上ChatGPT取得了突破。它在新版本上引入了人工标注数据,通过人类反馈有针对性地进行优化,通过引导让大模型的生成符合预期的结果。ChatGPT在数据质量和多样性上有很大优势,RLHF的数据量不大,但对数据多样性、标注体系都有精巧设计,让数据发挥出强大作用。
3. 中国企业的市场探索
多数业内人士认为目前ChatGPT还是对AI技术范式的探索,它无法实时获取互联网信息,生成信息成本高,不能代替搜索,但可作为搜索引擎的补充。
ChatGPT主要的产业化路径最可能首先在C端,聚焦于开放性、创意性和通用性的任务。中国企业在行业市场的探索已经开启,如在智能客服领域调用ChatGPT回复客户已具备商用潜力。由于模型规模过大,ChatGPT在应用落地上也带来了挑战。在特定场景和条件下在特定的数据上训练规模适宜的模型,是业界努力的目标。此外AI是长链条产品技术,需要建立好的反馈机制,让模型根据最前端的问题持续成长和优化。
AI语音独角兽云知声一直跟进业内前沿算法,最早把BERT和GPT2模型方法用到实际业务系统,目标是先走通商业化,之后在既有业务如IoT智能语音交互对话和医疗行业应用中落地。但考虑商业化成本,模型参数可能要压到10亿量级。目前AI的生成式应用也在短视频、文案、游戏互动等领域提升生产效率和性能。而在数字人领域,大模型让数字人内容生产和交互方式发生变化,说话和行动不再需要靠真人行为驱动,可以通过大模型完成。
4. ChatGPT的商业化难题
目前ChatGPT调用成本与回报不成正比,在商业模型上跑不通。但随着竞争加剧,大模型调用成本显著降低时,它可能在行业内大规模应用。
现有大模型对资源要求高,不太可能实现很多客户的私有化部署要求,且模型在一些特定行业或任务上欠缺专业性,需要适配。大模型在下游任务上的微调如何兼顾成本、灵活性和数据隐私也亟待解决,因此还没有走到服务企业级客户那一步。此外,基于大模型的应用服务如何与企业的核心业务流程深度融合也是一个重要问题,ChatGPT单一的API会影响其应用价值。
5. 创业公司的竞争与发展空间
大模型被充分使用和反复迭代后,可能会威胁细分赛道创业公司的发展空间。
创业公司需要深化对垂直行业的认知,把大模型融入到创新业务流中。首先需要基于对行业的认知深度采集足够多场景数据,并基于细分数据更好服务用户,最终形成数据反馈的闭环。创业公司的竞争关键在于小模型跟业务结合的紧密程度,与能否解决跟大模型结合的问题。
创业者在充分利用已有大模型的情况下,也要尽可能要把小模型的闭环数据保护好。

