【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？

首页

【申万宏源】必然的碎片化AI落地，哪种路径可能胜出？ | 元宇宙Meta洞见

洞见研报行业前沿

2021-12-16

大规模预训GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大规模预训练模型（大模型）渐渐成为了AI算法领域的热点。

AI产业链：从算力到应用

工作流程视角

• 算法设计环节：机器视觉、语音识别、自然语音处理、知识图谱

• 算法实现环节：深度学习框架，训练、推理部署，对模型的调参优化

• 算法运行环节：AI芯片和AIDC超算中心，提供硬件基础

AI平台层：何种训练模型可以脱颖而出

AI平台：少量企业参与的AI高地之争

• 训练软件框架：实现深度学习训练算法的模块化封装

• 模型生产平台：实现模型的工业级生产

• 推理部署框架：实现模型生产完成后的工业级高效、自动的部署

• 数据平台：包括数据采集、数据标注、数据生产、数据存储等功能

训练框架：调节参数，生成参数

训练框架是AI的重要基石，也是AI发展战略的制高点。当算法变成改造甚至颠覆软件行业的力量时，最后核心就是看这些AI的公司有没有平台化的能力，即“能够批量、高效、比竞争对手更及时地供应优质算法。

推理框架：与硬件和设备端紧密相关

推理框架：主要部署在设备端和云端，因此与硬件厂商紧密相关。

开源框架的选择：规模效应与生态

四大顶级深度学习框架阵营可以满足绝大部分开发者要求。社区规模效应：维护力量、贡献人员决定了算法库扩展及时性、API水平，软件框架规模效应较强。

AI大模型：成为行业新趋势

行业更新热点在“大模型”

传统机器学习里，模型过小则欠拟合，模型过大则过拟合。深度学习里Double Descent现象在2018年揭示，随着模型参数变多，Test Error是先下降，再上升，然后第二次下降；原则上，在成本可接受的情况下，模型越大，准确率越好。

OpenAI ：GPT-3

GPT-3在许多NLP数据集上均具有出色的性能，包括翻译、问答和文本填空任务，这还包括一些需要即时推理或领域适应的任务，例如给一句话中的单词替换成同义词，或执行3位数的数学运算。

GPT-3工具DALL·E和“逻辑”优化

基于GPT-3构建，仅使用了120亿个参数样本，相当于GPT-3参数量的十四分之一；有利于降低了深度学习需要的数据标注量，文本和图像理解结合起来

优势显著

• 自监督学习功能，大幅降低对数据量的需求：GPT舍弃Fine-tuning，先使用海量数据预训练大模型，得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练。大幅降低后续对数据量的需求。

• 预训练大模型+细分场景微调，更适合长尾落地：大规模预训练可以有效地从大量标记和未标记的数据中捕获知识，通过将知识存储到大量的参数中并对特定任务进行微调，极大扩展模型的泛化能力。

• 有望进一步突破现有模型结构的精度局限：可能继续突破精度上限。

AI碎片化问题：必然性的两种路径

AI落地和碎片化需求同时出现

业界在2015-2017年后开始发生变化，AI走出实验室和商业模式转变：

• 工业场景更复杂的逻辑：编程模式从静态网络结构描述向动态计算过程转变。

• SDK商业模式可能无法在国内落地：早期试图复制海外SDK销售路线，但这一模式无法在国内复制。

两种路径的总结

设计并训练工业级的高性能AI模型需要大量的成本投入和深厚的技术沉淀，包含多场景汇总的海量数据，复杂的模型设计和训练算法，以及复杂的软件框架和硬件系统在内的大型计算基础设施，AI公司需要突破技术发展的瓶颈。

【洞见研报】专业免费的行业研究数据库，覆盖各行业研究报告、行业报告、咨询报告、上市公司研报、招股书、蓝白皮书等，采用智能搜索引擎、自然语言处理等技术，为金融投资人员、企业高管、咨询顾问、行业研究员、市场分析师提供便捷、全面、专业的信息检索服务！

【声明】内容源于网络

洞见研报行业前沿

每日商业智库市场洞察分享，各行业研究报告，发现报告中的新知，各类智库精华报告，为投资者、高管、咨询顾问、商业分析师提供全面、实时的信息服务。电脑端请访问DJyanbao.com享受最佳体验。

内容 996

粉丝 0

洞见研报行业前沿每日商业智库市场洞察分享，各行业研究报告，发现报告中的新知，各类智库精华报告，为投资者、高管、咨询顾问、商业分析师提供全面、实时的信息服务。电脑端请访问DJyanbao.com享受最佳体验。

总阅读696

粉丝0

内容996