极市导读
要想跑出来,无非是做好能力和数据天平的配平。要么选一个简单的场景,当你的任务越难,能力越远离通用大模型,越深潜,越复杂,就需要越多,越好,越相关的垂类数据来训练大模型。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
这两天腾讯搞了两个很好的采访,分别是杨植麟,一位是朱啸虎。杨植麟是AIGC创业者学术大佬,朱啸虎是TMT方向颇负盛名的投资大佬。两篇文章的链接分别是:
1.杨植麟采访:https://mp.weixin.qq.com/s/kEKotLcnlFK0jf8gNajXIg
2.朱啸虎采访:https://mp.weixin.qq.com/s/4111julSNH4XPXsUc8XEXA
原文比较长,让大模型来总结下:
我仔细检查了两篇文章,并对我的回答进行了补充和完善,以确保完整覆盖所有方面
杨植麟与朱啸虎对AGI的看法
1.对大模型创业的看法:
杨植麟: 坚定看好大模型创业,认为这是未来十年唯一有意义的事,并将其视为一个结合科学、工程和商业的系统,需要长期投入和坚持,最终目标是实现 AGI
朱啸虎: 不看好大模型创业,认为现阶段大模型公司缺乏场景和数据,估值过高,且面临开源模型的竞争,投资风险大。他更倾向于投资能快速商业化、变现的应用层项目。
2.对开源模型的看法
杨植麟: 认为开源模型落后于闭源模型,且差距会持续存在因为开源的开发方式和人才、资金聚集程度都无法与闭源模型
朱啸虎: 认为开源模型会逐渐赶上闭源模型,因为技术迭代曲线会放缓,且开源社区有更多开发者参与。他认为中国开发者更倾向于使用开源模型,因为不用担心被抄袭
3.对 AGI 的看法:
杨植麟: 坚定相信 AGI 是未来,并将其作为公司发展的长期目标。他认为 AGI 会改变世界,并希望通过技术突破和用户产品的结合来实现这一目标。
朱啸虎: 对 AGI 持怀疑态度,认为至少在5到10 年内还无法实现。他更关注短期内能商业化的应用,并认为在现阶段投入三资研发 AGI 风险过高。
4.对中美大模型产业的看法
杨植麟: 认为中美在基础通用能力上不会有太大差别,但在通用能力基础上的差异化应用更可能发生。他也相信中国公司未来有机会在某些方面取得领先。
朱啸虎: 认为中美在大模型领域差距很大,美国在底层技术上领先,而中国在应用场景和数据上更有优势。他建议中国创业公司先聚焦国内市场,再考虑出海。
5.对投资策略的看法:
杨植麟: 追求长期主义,愿意投入大量资金和资源进行前沿探索,并相信技术突破最终会带来商业回报
朱啸虎: 追求短期回报,更倾向于投资能快速商业化、变现的项目,并强调创业公司要控制成本、不要烧钱。
6.对 Sora 的看法:
杨植麟: 认为 Sora 是一个重要的里程碑,代表着视频生成技术的巨大进步,并认为它可以用来提升对多模态输入的理解能力,以及打通数字世界和物理世界
朱啸虎: 文章中没有明确表达对 Sora 的看法,但他对视频生成技术的前景表示乐观,并认为中国公司有机会在这一领域取得领先。
7对创业公司和巨头的关系的看法
杨植麟: 认为巨头和创业公司在目标和策略上有所不同,但两者之间存在着竞争和合作关系
朱啸虎: 认为大模型创业公司最终可能会被巨头收购,但收购价格不会很高,因为大模型技术同质化严重
8.对创业的风险和挑战的看法
杨植麟: 坦然接受创业的风险和挑战,并表示会无所畏惧地往前冲。
朱啸虎: 认为在当前的宏观环境下,创业公司要更加注重控制成本和自我造血能力,才能在市场竞争中存活下来
9.对未来的展望
杨植麟: 对未来充满乐观,相信 AGI 可以推动人类文明进入下一个阶段。
朱啸虎: 对未来持谨慎态度,认为技术发展存在不确定性,创业公司需要更加现实和务实。
10.对人才的看法
杨植麟: 重视人才密度,并认为公司上限是由人的上限决定然后 补充其他维度的人才。打造的。他一开始寻找天才个完整、有韧性、能打仗的团队。
朱啸虎: 认为大模型领域的人才同质化严重,创业公司需要找到有商业头脑和管理销售能力的人才,才能在市场竞争中胜氏。
11.对商业化的看法
杨植麟: 认为商业化是实现 AGI 的手段和目的,但不能为了追求短期商业利益而放弃长期目标。
朱啸虎: 认为商业化是检验大模型公司价值的唯一标准,并强调创业公司要找到能快速变现的场景和应用,
总结: 杨植麟和朱啸虎代表了两种不同的投资理念和对 AI 发展路径的判断。两种观点各有其合理性,最终谁的判断更准确,还需要时间来验证。
一位是典型的实用主义,一位是典型的长期主义,谁对谁错需要更长的时间来验证。
我们从落地的角度看看,AGI有哪些“实用主义”的问题。
环顾四周,除了写代码,看文档之外,目前大模型对C端落地的应用最多的两个场景,一个是电商+助手(淘宝问问,京东京言), 另外一个是评论区+助手(小红书,B站,什么值得买)。前一个目前距离理想效果有一定差距,后一个有较好的表现。
分析电商+多轮chat助手落后的主要原因,技术方面如下:
1.大模型能力有限。电商类助手依赖大模型作为Agent大脑,但是现阶段大模型能力有限,无法完成特别复杂的决策。大模型可以很好的学习大量的语料,获取人类的知识,也可以学习大量的代码,获取形式化和逻辑的能力,但不擅长在一个特别具体的任务上做深入思考。
2.特定训练数据缺乏。chat+电商缺少真实的导购语言交互数据,与之相对推销是一个典型的有大量语言交互数据的场景,朱啸虎也提到了,这个B端方向取得了较好的落地进展。在“直接推断”或者“少量训练”模式下,大模型不能很好的理解用户一个垂直场景的各类长尾需求。为此,大家利用GPT4的能力,要么直接使用GPT4进行prompt的指令构造,要么使用GPT4构造数据,其优点是可以快速上线拿到60分,缺点在于天花板不高,未从根本上解决真实导购数据缺失问题。
产品方面因为体验不到较为理想的状态,用户的留存较低,抱着好奇心体验后,未有持续使用的意愿,无法形成积累数据和体验提升的飞轮。总结来看,是因为大模型能力和数据问题,导致了目前的电商导购AI助手的体验不达预期,形成了“简单的问题无需助手,复杂的问题助手又解决不了”的局面。
另外你真的需要一个助理吗?
需要,但不是一个APP上的助理,也不是一个手机里的助理,而是一个真实世界,能取外卖,订餐馆,订会议室,整理会议纪要,订机票的助理。
这里面的差别就是,Agent解决应用内的十位数内的接口调用,而助理真的需要连接真实世界万种接口调用,现在AI做不到。
传统的搜广推通过列表页的高效精准呈现信息,而导购助手在一个粗略模糊的需求上,也给个位数选择,与目前大家网购的真实习惯有极大的冲突。
当然,大模型在这个事上也不是一无是处,在技术上,大模型带来一个的优势是,让传统的任务对话的pipeline变简单了,开发一个这样的导购的任务型机器人了不需要那么多人工定制的部分,GPT可以把意图识别,槽位提取做个60分,并且自带一点生成和总结的能力。
虽然大模型对开发简化提效有所帮助,但大模型并未提高助理效果的核心因素,如理解、规划和推理等。没有数十万规模的真实的助理数据训练,无法理解其垂直场景的各种长尾情况。
逛淘宝买衣服的女同胞和给领导订餐馆的朋友可知其难度。
与之相对的,我们应该尽可能去寻找大模型落地的可能性较高的场景,要有两个特点:1.符合大模型能力要求2.数据满足要求的场景,进而形成体验和数据的飞轮。
目前落地较好的一些B端应用,都有如下特点:
1.相对基座已经有的能力,其任务简单,不过分依赖大模型的推理,规划,思考能力,仅利用其生成和记忆本质。
2.场景有较完备的数据支撑。
这两个是一个天平的关系,越难的垂直任务,需要越多越好越相关的数据。
大家都说,现在大模型很强了,Agent的工具调用能力可以低成本开发很多应用,确实,大模型在垂直应用的意义就是把其中一部分任务的难度降低了,让你不需要特别多的垂类数据也能做很好。但是,大模型也不是擅长所有的事情,在很多场景,仍需非常多的数据微调。我们看看核心的两个问题。
一、大模型的能力边界在哪?
定性来说,能力边界是任务对大模型能力提出的要求及格分数线。在回答能力边界是什么上,我们首先要想办法定义一个任务的难度。如传统的分类任务中,我们可以通过类别多少,类别差异性来判断一个任务的难度,典型的大规模2000文本细粒度分类的任务就要比二极的情感分类难上很多。大模型也是如此,我们定义的难度指标主要与三个角度:
1.与基座相似性:任务需要的能力,相比基座原有的能力越接近,则构建该任务越简单。比如写代码,文本摘要等,这些都是大模型基座能力的舒适区,构建一个类似的应用,需要的额外的场景的数据量越少,给基座写几个prompt就可以搞定了。
2.场景深潜:任务需要的能力,是漂在任务的表面,还是需要挖掘场景内各种“长尾”。比如订餐助手,你如果只考虑做什么时间,什么餐馆,几个人吃饭,那就是传统的任务型对话都可以搞定的简单任务。如果是另外一个场景,“刚刚领导打电话给我,让我晚上陪他参加一场饭局,让我提前去饭店把菜点好”,这个问题就非常困难,需要仔细了解各种各样的情况,结合“人”和POI的特点综合考量,难上加难。
3.逻辑复杂:任务需要的能力,是直来直去,还是逻辑复杂。写代码的逻辑并不复杂,可以用形式语言描述,有非常严格的语法表达;查阅论文知识的逻辑也并不复杂,只需要预训练阶段大量记忆,根据语义的相关性检索记忆就可以。复杂的逻辑要求大模型走出总结,概括,记忆的舒适区,去挑战真正的能力泛化。
看一下GPTs应用商店的应用热度top10,主要集中在科学研究,写代码,文档问答,图像生成等领域。其实总结也可以发现,GPT落地应用较好的几个领域,除图像外有以下几种共性:强知识储备低复杂逻辑,与基座具有的能力相似,离个性化较远。侧重于总结,抽取,整理或形式语言,诸如写代码,看论文,PDF文档问答等应用。
二、到底需要多少数据和什么样的数据?
1.数据量:在考察我们场景的数据丰富度的时候,并非所有任务一概而论,到底多少数据才够,要考虑上文提到的场景的“难度”。随着一个任务难度的提升,需要的数量量也是成指数性增长。比如写代码,1k的prompt足够。总结摘要回答问题,Lora +几千条数据也够了,AI营销机器人,需要几十万的真实推销交互数据。复刻GPT4,需要千亿数量级的token数。另外,数量只是数据的一个维度,还有两个很重要的维度是数据哪里来和数据质量。
2.数据一致性:数据越接近于交互的结果,越直接相关越好。通常数据来源有三种:真实数据,转写数据,生成数据。生成数据就是蒸馏GPT4,真实数据是直接的用户交互产生的数据,转写数据通过其他方式,把用户的数据转录为语言。比如学习一个熟练的销售员在微信上的聊天记录,要比使用ASR翻译的推销电话效果要好,更远远好于用GPT4模仿一个高级销售的效果。
3.数据质量:数据的质量越高越好。驻场硕士标注员清洗/标注的数据,大概率好于外包标注。openAI花了大价钱寻找的标注员也是有备而来的,他可不是乱找的。
看完了技术分析,我们再看看这1.5年的大模型应用整体情况。
2023年是大模型快速发展的一年,也是人们对大模型的认知迭代逐渐收敛清晰的一年。
在资金意愿和落地进展两方面,基座都领先于应用。2月20日,AI领域内的初创企业月之暗面融资超10亿美元,应用方面微软接入GPT4打造Copilot已经过去一年。
更具体地回顾这一年,在基座能力方面,我们观察到的时间线是:22年末的狂热,23年初期国产化的奋起追赶,23年中GPT4发布,23年底国产大模型基座在一年内差不多具有了GPT3.5的能力。
在应用能力方面,热点追踪主要从23年初诞生了RAG概念和llama index ,langchain等开源工具,23年中Agent概念火爆,GPTs应用商店发布,24年初sora发布。
整体看起来,大家对于国产基座追赶GPT4的目标,还保持着高涨的热情和投入。
但是在C端应用方面,除了几个大模型能力甜点区,如写代码,看论文,文生图等场景取得了较好的落地效果,在其他拟人要求高,思考能力要求高的应用上,大模型的落地进展落后于预期。
参考华为天才少年的演讲,我们拆分两个维度,分别是思考深度和人格特点,通过这两个维度划分典型应用,横轴是人格轴,对应着有趣的强人格和有用的工具两端;纵轴是思考深度的维度,即快速思考与缓慢思考。快速思考类似于下意识的反应,不经过深思熟虑,如ChatGPT这种即问即答的模式可以视为一种快速思考,缓慢思考则涉及到有状态的、复杂的思维过程,比如规划和解决复杂问题的顺序和方法。大模型的优势区是第三象限(弱人格,强工具,低深度,快思考),如下图所示。
目前落地较好的也是第三象限。
B端应用方面,除了在与基座能力近的方向落地很好,如Copilot,写代码,看文档等,另外在一些数据丰富的垂直场景效果也很不错,比如微信的私域营销,AI电话等。
所以,最后总结起来,要想跑出来,无非是做好能力和数据天平的配平。要么选一个简单的场景,当你的任务越难,能力越远离通用大模型,越深潜,越复杂,就需要越多,越好,越相关的垂类数据来训练大模型。
我们在技术攀登上,要向延绵而未知的雪山前进,在落地应用上,要秉承着实用主义的思路。
仰望星空,脚踏实地,共勉。

公众号后台回复“数据集”获取100+深度学习各方向资源整理
极市干货

点击阅读原文进入CV社区
收获更多技术干货

