人类创造的数据不够了?
我们可能高估了大模型的学习能力和效率。我们可以把大模型想象成一个同时在炼金和制造黄金工艺品的一个机器。每一次我们喂给其一些数据,就是喂了一些金矿石进去,大模型会把金矿石里的稀稀拉拉的金子提取出来,融汇成一个黄金工艺品。

可以想见,"金矿石"的含金量—— 也就是数据的质量和信息密度越丰富 ,能够快速提炼出来的金子就越多。这也是为什么说可用于AI训练的数据开始告紧缺,不是数据不够 —— 我们每天都产生成千上万T的数据 —— 是高质量的,整理标注过的,经过验证的,蕴涵的知识度高的新数据越来越少。这就像一个人饱读诗书后,发现真正的精品其实就那么多;这个问题在理工类学科也一样,优质的教科书和题库就那么些。那这么说,学霸就不学习了吗?显然不是。

第一,优质知识含量的数据少了,并不意味着没有了,大量的阅读同样可以从密度没那么高的数据中萃取出知识来,就像大油田,自喷井的石油如果采得差不多了,还有大量页岩油蕴藏在页岩层里。可以看到现代的会学习者的阅读量/交流量是更大(不一定是读纸质书),而不是没东西可学;
第二,研究者,知识工程者每天,每时每刻都在产生新的知识,类似交叉学科研究会把不同领域的新发现新见解关联整合产生新的认知。说要把知识都要学完了的大模型,且不说别的,有没有把《自然》《科学》新发表的论文都消化掉?人工智能自身也在整理和生产出新的数据,这就是合成数据,合成数据真的有知识价值吗?当然可以有。人工智能生成数据也不是反刍自己已知的信息,而是把新的信息结合AI自己的理解,逻辑推理能力再整理整合出新知识点.

第三,有一个巨大而优质的数据源领域并没有充分利用,那就是多模态数据。视频,图片,声音,传感器等等,蕴藏了大量的对世界规律的描述,而这些数据常常只有关联起来(注释)才有学习指导意义 ——比如一个视频中化学实验的画面,结合实验原料,过程等文字/语音/符号描述,才能够对人类和对人工智能make sense,这就需要巨大的标注工作来将各种模态关联起来,目前的自动标注的模型,显然还达不到高质量的人类标注的水准。但"多模态"必然是未来AI学习的方向,了解一个复杂系统的复杂规律,当然不能只通过文字,或只通过图片声音,人类学习理解这个世界,是综合调动了一切感官,神经系统,内分泌系统,把各种感官的信息交叉关联对比,才能有比AI高得多的(自监督)学习效率,只是人类同时也受到了生物机制的限制,由此看得到,多模态(自监督)深度学习,才是结合机器和人类学习各自优点的高效学习方式,这也是为什么各大AI巨头都将Multimodality作为了下一阶段AI的重点。
我觉得,下一阶段的AI训练数据,会朝着多模态标注的方向发展,会有大量优质专业的原始数据,比如一个生产工艺过程,会以多种模态来描述和注释,喂给大模型。人类 + AI, 会是知识生产,萃取和封装最有效的方式。—— 代表前橙智库尹智老师观点


