AI产业研究系列二：大模型“瘦身”能带来行业变革吗？- 大数跨境

CCID苏州赛迪

2024-08-08

导读：本期内容探讨了大模型的压缩部署技术在行业中的应用与迭代，探讨通过压缩模型降低部署成本，利用联邦学习保障数据安全并促进模型迭代的应用前景，共同推动大模型在更多业务场景中的深入应用与持续创新。

本期内容探讨了大模型的压缩部署技术在行业中的应用与迭代，探讨通过压缩模型降低部署成本，利用联邦学习保障数据安全并促进模型迭代的应用前景，共同推动大模型在更多业务场景中的深入应用与持续创新。

大模型压缩并非全新概念，压缩大模型的需求自大模型概念兴起便一直伴生存在。尽管大模型的优异表现吸引了大众关注，但当前高昂的应用成本也令许多用户望而却步。为此，剪枝、量化、知识蒸馏、权重低秩分解等多种模型压缩方式衍生出来，通过削减大模型参数以及把参数转化为低位宽表示的方式节省空间占用。2024年3月，清华、哈工大联合研发大模型极限压缩框架OneBit，首次实现大模型权重压缩超越90%并保留大部分（83%）能力，且模型规模越大，压缩效果越显著。随着压缩技术的不断强化，大模型逐步在多元场景中发挥应用价值。

▲图 1 OneBit框架的空间占用和平均位宽最低

大模型压缩部署缓解智能算力“荒”问题

智能算力“荒”是短期限制大模型应用的重要因素。一方面，随着近年来中国“智改数转网联”进程加速，大模型训练、计算等需求使得智能算力、超算算力等先进算力需求快速增加，智能算力缺口在一年前已超过50%。随着未来类脑计算、超算等先进计算技术应用不断深化，先进算力需求将继续扩大，算力“荒”问题将在短期上成为大模型应用推广的绊脚石。另一方面，进口限制阻碍了算力服务平价化。目前寒武纪、摩尔线程等中国厂商在芯片制程、生态建设等方面仍相较海外巨头落后，高性能芯片采购限制导致的高昂成本拖慢了国内算力服务的规模化进程。两方面因素叠加形成的智能算力“荒”问题成为国内大模型应用迭代的关键掣肘之一。

▲图 2 智能算力缺口超过50%

通过压缩技术降低大模型体积，或将成为缓解智能算力“荒”问题的重要手段。首先，大模型压缩技术可在保持大部分性能的同时显著降低模型的存储、计算、传输资源需求，节省大量服务器及能源消耗，缓解智能算力缺口带来的不利影响。其次，大模型压缩技术可通过本地化部署将部分智能算力需求转移至性能更低的本地设备上，降低服务器需求。AIPC即是本地化部署下的产物，自英特尔提出AIPC的概念后，微软等头部PC厂商纷纷推出各自的AIPC产品，并通过通用大模型切入市场。从国内来看，Qwen（通义千问）至今已开源从0.5B（5亿参数）到110B（1100亿参数）共六个尺寸的通用大模型，尝试满足不同资源条件下的本地部署要求，实现从手机电脑等个人终端到服务器的全域覆盖。

▲图 3 Qwen（通义千问）开源大模型尺寸越小速度越快

从市场来看，当前大模型压缩技术更多的应用于个人终端设备的通用大模型中。然而，算力需求更多集中在企业端，缓解算力“荒”还需要从企业着手。现阶段，相较于通用大模型，行业大模型更广泛应用于企业，同时行业大模型具备体量紧凑、响应快、专业性强、复杂度可控、压缩难度低的优势，运用压缩技术更有利于切实缓解智能算力“荒”问题。

▲图 4 大模型规模等级

大模型压缩部署契合B端用户需求

企业、政府机构等B端用户对大模型应用的需求可分为5个需求层次：安全性、经济性、可靠性、时效性、便捷性。本地部署大模型压缩模型相比云端大模型方案更契合B端用户需求。

在安全性上，本地部署则能确保数据在内部网络中处理，避免数据上传到云端可能带来的风险，从而有效保护用户的敏感数据。

在经济性上，大模型压缩技术降低了企业的应用成本并可使大模型更易集成到业务流程中，实现数据驱动的决策和业务模式创新，推动企业的数字化转型进程。

在可靠性上，本地部署允许企业根据自身需求对模型进行高度定制和优化，解决供应链和工艺差异带来的数据口径问题，并通过本地部署减少用户对云端资源的依赖，确保业务的连续性不受云端影响。

在时效性上，本地部署可最大程度规避数据传输和云端故障带来的延迟及性能下降，压缩模型则通过减少计算量加快响应，支持B端用户实现实时分析和决策，并通过更频繁地模型决策分析，提升决策质量。当前工厂“黑箱”和仓储物流等供应链节点处理速度要求较高，压缩模型能够“以黑箱解决黑箱”，助力“智改数转网联”发展进程。

在便捷性上，大模型的复杂性要求用户投入高额的人力、财力和场地用于数据管理、迭代训练、系统运维。模型压缩技术结合操作页面简化等手段降低学习成本，可使得大模型轻松灵活地应用于多种场景，全面渗透生产环节。

▲图 5 B端用户大模型应用需求层次

大模型压缩部署解决模型安全迭代需求

当前，企业数据安全与大模型迭代需求存在显著矛盾，大量高价值行业数据基于安全考虑保留在私域无法被用于大模型训练，而数据训练是大模型良性发展的硬性需求。

谷歌发布的TFF（TensorFlow Federated）开源框架代表的类似框架提出了一类解决方案——通过一种称为联邦学习（FL）的方法在去中心化数据上试验机器学习和其他计算，并已应用于医疗、交通、金融等多个领域。该方案下，同一行业内部署了压缩模型的每部终端设备不断获取数据并在本地完成对模型(A)的训练，这些被不同用户数据训练出来的新模型参数在总部服务器被汇总(B)聚合形成一个改进的共享模型(C)并下发至用户端完成更新，从而形成持续迭代的良性循环。这种模式无需用户上传训练用数据，虽然有着更高的防御要求，但可在保护用户数据安全及模型个性的同时，推动大模型持续升级迭代，最终实现用户与开发商互利合作的产业良性发展。

▲图 6 TensorFlow Federated工作流程

赛迪数字经济研究中心殷天舸

关于“赛迪数字经济研究中心”

赛迪数字经济研究中心（简称“研究中心”）作为赛迪工业和信息化研究院集团（苏州）有限公司八大中心之一，由赛迪研究院信息化与软件产业研究所发起成立。研究中心以创建长三角区域数字经济领域一流高端智库为己任，以助力长三角数字经济高质量发展为使命，以数字经济、软件、信创、人工智能、工控、数据治理、工业互联网、数字化转型为研究主线，以引领性的创新研究、多层次的咨询服务和全方位的政府支撑为重点工作，致力为各地方政府、园区、企业等主体提供优质的决策咨询和支撑服务。

【声明】内容源于网络

CCID苏州赛迪

赛迪工业和信息化研究院集团(苏州)有限公司是工业和信息化部中国电子信息产业发展研究院在长三角区域的唯一综合性分支机构。围绕建设长三角一流高端智库的目标，苏州赛迪坚持数字化和信创两条业务主线，提供“产业研究-产业赋能-产业集聚”一体化服务。

内容 511

粉丝 0

CCID苏州赛迪赛迪工业和信息化研究院集团(苏州)有限公司是工业和信息化部中国电子信息产业发展研究院在长三角区域的唯一综合性分支机构。围绕建设长三角一流高端智库的目标，苏州赛迪坚持数字化和信创两条业务主线，提供“产业研究-产业赋能-产业集聚”一体化服务。

总阅读160

粉丝0

内容511