大数跨境
0
0

Sora全网刷屏令人侧目,国产大模型起飞必须解决的5个根本问题

Sora全网刷屏令人侧目,国产大模型起飞必须解决的5个根本问题 华军AI产品榜
2024-02-19
0
导读:中国什么时候诞生OpenAI这样的人工智能企业?

点击上方「蓝字」关注我们



公众号最近叕改版啦~
将本号设为⭐星标才能接收到我们的文章

以下文章节选自财经十一人,编辑 EVA

2月16日,AIGC行业的两场大地震。
1️⃣OpenAI对外展示了惊世骇俗的视频生成模型Sora
2️⃣谷歌发布了Gemini 1.5,号称媲美GPT-4 Turbo。
刚刚过去的2023年,大模型创业潮汹涌,国内诞生了上百个不同类型不同名字的大模型。
一时百花齐放,雨后春笋,好不热闹。
EVA观察,伴随ChatGPT与Sora的问世,最多人问及的问题是:
到底中国什么时候诞生OpenAI这样的人工智能企业?
OpenAI能够实现重塑技术革命,和硅谷其他几家大厂走过的路相似。

概括起来便是:有足够优秀的人才,海量资金支持,多年潜心投入,以及对目标决心的坚定。
在ChatGPT诞生之前,产业界和投资界大多不看好OpenAI,但并未动摇这家公司的决心与方向。
今天回头看,即便马后炮的人们都认可了大模型的方向。
大家都是一个共识——紧跟OpenAI的屁股后边别掉队。
时至今日,我们基本可以确定,算力、数据、人才三大因素是构建AI大模型的关键因素。而凭过往的经验,中国互联网企业更擅长将国外优质产品工程优化,做出符合大众的实际应用产品。
但事实真的那么顺其自然吗?
对于OpenAI来说,通过构建大模型迈向AGI,从来都是确定的方向,OpenAI的大部分资金都花在了算力上,当时英伟达A100显卡还很便宜。
根据外媒估算,OpenAI使用了大约3617台英伟达HGX A100服务器、近3万块GPU来训练大模型。
光有英伟达的GPU还不够,“金主爸爸”微软运用自身的资源,帮助OpenAI搭建了大规模的算力集群,能够进一步提升这些GPU的效率。
在数据方面,OpenAI从数据收集、数据标注、数据清洗、数据整理、数据优化等每个环节都有持续投入,还从全球外包聘用了大量的数据标注人员。
也就是说,在如此量能的投入下,OpenAI从成立到ChatGPT发布,依然用了超过八年的时间,才打造出CEO奥特曼口中“SO SO”的聊天机器人。
所以,为什么好几家中国的企业可以在几个月内,打造宣称“媲美or赶超GPT-4”的大模型产品呢?
投资热潮退却后,2023年下半年,有部分大模型被指“套壳”,这背后折射出AI产业在中国发展的五个问题,它们之间互为因果,每个问题都无法独立解决。
国产大模型是自研、套壳还是拼接?
2023年11月,阿里巴巴前技术副总裁、AI科学家贾扬清发文称,李开复团队“零一万物”推出的“Yi系列”开源模型,乃套壳Meta的开源模型LLaMA。
随后,李开复和“零一万物”均有回应,称在训练过程中沿用了开源架构,出发点是充分测试模型,执行对比实验,这样能快速起步,团队做了大量原创性优化和突破工作。

这种打法,类似于早年间直接沿用谷歌的安卓系统来打造自家的智能手机UI界面。
2023年12月,字节跳动被OpenAI捅破,偷偷调用了OpenAI的API,并使用ChatGPT输出的数据进行模型训练。随后,OpenAI禁用了字节的企业账号。
字节对此的回应是,在大模型探索初期,的确有将GPT的数据用于实验项目的研究。该模型仅为测试并未上线,这种做法已经停止。
目前国产大模型主要分为三类:
一是自研大模型;
二是套壳国外公司的开源大模型;
三是拼装大模型,将几个小模型拼在一起,变成参数量看似很大的“大模型”。
其中,国产的自研大模型数量最少,只有百度、阿里等大厂能够具备自研大模型的能力,需要很强的技术积累,且要有持续的高投入,风险很大,很容易造成投资打了水漂。

事实上,无论是OpenAI的奥特曼,还是百度的李彦宏都在呼吁,大模型的价值需要商业化来证明,当市场上已经出现足够好的基础大模型,其他公司应该去挖掘新的价值点。
好比基于谷歌的安卓系统去开发新手机、新的APP,建立应用生态。
大模型在不同领域的应用落地以及中间层还有市场蓝海,比如帮大模型进行微调训练、数据处理、算力服务等。
但现状是,绝大部分的创业者与投资人只专注于“卷大模型”,一方面是担心投资打水漂的风险,另外一方面需要花费人力时间成本去通过监管机构的审核。
而到了商业化落地阶段,客户也不太会在意是否自研,总之能用就行。
问题在于,即使是套壳与拼接模型,在宣传口径上都标榜“自研”,却又陷入“重复造车轮”的内耗。
算力“卡脖子”,还是缺钱买?
大模型的重要基础便是算力,且是先进算力,因此当下无论是的GPT还是Sora大模型都被称为“暴力美学”的产物。
英伟达A100此前被认为是目前最适合训练大模型的GPU,去年底,英伟达又推出了H100,而这两个型号目前都被美国政府禁止对华出售。

变本加厉的是,2023年1月,美国政府进一步从算力层面限制了中国企业购买英伟达在内的各家半导体公司的算力芯片。
一位英伟达的长期合作伙伴告诉《财经》记者,2023年,英伟达A100的单价涨了一倍。据他了解,能支付得了A100费用的中国企业只有互联网大厂,创业公司很少。
有一些国内的知名大模型创业公司会主动与英伟达的渠道商建立战略合作关系,并希望可以通过资源互换的方式获得算力,“不给钱的那种”。
有一说一,尽管美国政府加强了算力出口管制规则,中国公司想要获得英伟达的算力GPU并非完全不可能,目前还有许多灰色链条可以买到。
除了直接通过英伟达购买,还可以通过英伟达在华的渠道商采买。
买到GPU很贵,买来之后的部署、运营、调试、使用都是成本。此前业内流传的一句话是——中国不少地方的科研机构连英伟达A100的电费都付不起。
由八张英伟达A100组成的DGX服务器运行一小时6.5度电,同时要搭配大量的散热设备。按照工业用电每度0.63元计算,一台服务器开一天大约200元。如果是1000台服务器组成的算力集群,开一天起码20万元。

这个并不是凭空虚构的数字,包括微软、亚马逊、谷歌在内的硅谷大厂都在酝酿从第三方采购电力资源来降低成本。比如微软已经在寻求核电站洽谈供电。
大厂的钱也不是大风刮来的,更何况小型的初创公司。
还有一个办法就是租赁GPU资源,比如阿里云、腾讯云或亚马逊AWS都可以直接租用A100算力服务,但租金在过去的一年同样水涨船高。
实际情况是,大多数的大模型创业公司并不愿意在算力上做大规模投入。因为最实际的问题便是,项目成败难言,算力投入是无底洞。即便是OpenAI都多次出现ChatGPT宕机的情况。
此外,采买过去的算力GPU会让公司变成重资产公司,二手显卡很难处置,这对于公司未来的估值不利。

不少中国投资者会开诚布公地告诉大模型创业者,先招几个名校背景的大人物,抓紧上线产品开发布会,发布大模型产品并喊出响亮的口号,然后做下一轮融资,不要着急采买算力。
创业公司拿到融资,推高估值争取继续融资,再通过此前融到的钱,去低价竞标项目来争取营收,或者直接对外进行收购或投资来换取盈利。
但是一旦路线选择失误,就可能陷入恶性循环:缺乏算力→做不出优秀的大模型产品→用户流失,依旧难以与那些巨头们竞争。
质量差的训练数据集怎么解决?
除了算力,另外一个大模型的基础便是训练数据集。
在国内,获取一般的中英文数据集很容易,有能力的可以通过爬虫工具来收集,再差也可以直接使用开源数据集。
国产大模型普遍采用中文数据进行训练,这也是为何大模型开发商尤其强调“中文能力超越ChatGPT”。而业内从业者普遍认为中文互联网数据是“依托答辩”。

一位大模型创业者如此形容,当他需要在网上搜索专业信息时,会首先打开Google或者YouTube,想通过国内网站或者平台快速获取专业内容需要的时间更久。
诚然,OpenAI使用了的中文数据集同样来自中文世界,但他们花了更多的时间和人力成本来清洗以提升数据质量,而不是普通的数据标注工作。
一位创业者表示,在国内很难找到标准化的数据整理服务商,大多是项目制的定制化服务,单次定制的成本又很贵。
说到底,还是一个字——穷。
这与第2️⃣部分提及投资算力的逻辑类似,这笔投入对于大部分的公司,无论是时间还是金钱角度看,都很不划算。投入了成本并不意味着就能获得优质的大模型,与其投资打水漂,不如直接开发布会先割韭菜。

此外,长期以来国内缺乏有效的版权数据保护手段。
一位大厂的AI项目负责人对记者表示,“在中国,你能拿到的数据,别人也能拿到”,“如果你花了很多钱去清洗和整理高质量数据集,别人很快就可以用更低的价格直接取得,反过来也一样。”
今天我们已经知道,无论是何种模型,训练之初就需要优质的数据集,在落地到具体应用场景中时,也必须匹配专业的数据做优化调试。总而言之,没有高质量数据就别谈做出高质量的大模型
投资人短视,但只是金主吗?
以上三个问题,背后都指向资本短视。
OpenAI能干成的事,对于绝大多数投资人来说都是很难接受的。
投资人对于每笔投资的目的很明确:投钱→退出→赚钱。

OpenAI火了,估值翻几倍增长,未来还会继续增长,现在高看可达1000亿美元。在中国投资人眼里是一个非常确定的信号,如果以合适的价格投资中国大模型创业公司,也能在很短时间内做到估值成倍增长。
中国投资人的耐心只有三五年,这是资本运作模式决定的。
早期融资可以靠风口和讲故事,但走到中后期甚至上市,就必须有一定规模的商业化能力。投资人们发现,拖得越久,转手股份就越难,尤其是AIGC本身具备非常强的ToB端服务属性,细水长流并不适合资本运作。
投资人只能趁风口还在,迅速推动公司完成多轮融资,抬高估值,之后哪怕打折出售手里的股份也是划算的。
这也可以解释,为什么整个2023年大模型发布会层出不穷,把硅谷创企三年走完的路在国内一年时间里加速走完。
但“短视”绝不是投资人单方面的问题。在今天经济大环境下行的预期下,大部分创业者也对未来5-10年没有十足的把握。与其说是短视,不如说是保守。
大模型商业落地不易,谁来买单?
今年的CES 2024展会上,两位著名的华人AI科学家李飞飞和吴恩达均表示,今年AI商业化会有明显发展,会深入更多行业。

目前看来,大模型的主要应用方向有两个:
第一是,通过大模型技术为ToC端提供工具服务,增强生产力,比如文生文、文生图等。但C端用户付费意愿普遍不高,对大模型应用的完成度要求较高,投资回报的速度较慢。
其二是,更有希望的ToB端服务。然而在中国市场,做B端软件服务一直是一个“老大难”的生意。多位投资人和业内人士都提到,中国市场最大的B端客户是政府和国企,大模型作为先进生产力会直接裁减人力。而在政企单位,减少人力通常就是阻力。
退而求其次,目标锁定中小企业客户,即便是OpenAI推出的先进大模型依然存在严重的“AI幻觉”,在2024年诞生杀手级的应用恐怕还是很困难。
一位AI大模型创业者说,他近期询问了不少企业客户,得到的回应是:“大模型能做什么?能帮我裁员,还是能帮我赚钱?”
总结:
尽管前路漫漫其修远兮,但大模型已经切实在实际落地应用。
多位业内人士都提到,因为大模型的出现,很多过去无法解决的问题都有了新方法可以解决,且效率有明显提升。
一些企业已经开始使用拼接的垂直模型来解决业务问题,比如人工智能客服,不需要再单独训练模型,可以直接调取使用。
此外,在一些有庞大业务的公司里,大模型也已经落地使用。比如AI算法迅速在信息流内容推荐、电商、打车、外卖等领域发挥重要价值。腾讯、阿里、字节都已经用上了大模型赋能老牌APP。

2024年,AI大模型的发展会有几个相对确定的趋势:
一是融资热度下滑。不可能再出现数亿元的融资项目投入到大模型的训基础练。目前看来,大厂们更有实力做大模型基础设施的工作,创业公司可以考虑及时调整方向,填补基础大模型到应用之间的空白。
二是大模型的应用会持续渗透与重做。尤其是对于ToC端的应用与APP,大模型也会进一步实现大众普及。不过对于中国市场,C端应用的变现模式更可能是嵌入广告与比较廉价的订阅服务。
三是国产算力基座会进一步得到重视。比如华为昇腾服务器与科大讯飞的合作就是典型例子。但是不能指望在短期内出现巨大的飞跃突破,这将是一个漫长的过程。伴随着算力的提升、炒作、造势与圈钱。
透过现象看本质,中国的大模型产业与海外是两个完全不同的运转逻辑。
产业风口会刺激产业迅速扩张,泡沫随之而生,机会越大,泡沫就越大。只有撇开泡沫,才能看清产业发展的新机会。

 
👇🏻推荐好文👇🏻


一文读懂OpenAI神级Sora视频模型



新春AI全家福写真玩法来了!直接白嫖



想及时接收【AI奇点网】最新文章❓
点击页底账号,再点右上角【…】添加星标⭐️
分享点赞在看 「三连」拜托拜托~👇🏻

👇🏻点一下「关注」

一起洞见智慧未来



【声明】内容源于网络
0
0
华军AI产品榜
华军软件园出品,每月发布国内AI产品排行数据丨发现最受欢迎的先进工具丨统计维度业内最多
内容 151
粉丝 0
华军AI产品榜 华军软件园出品,每月发布国内AI产品排行数据丨发现最受欢迎的先进工具丨统计维度业内最多
总阅读8
粉丝0
内容151