

Scaling Law 仍然成立，企业搜广推怎么做才能少踩“坑”？

AI前线

2025-12-09

导读：生成式推荐真正落地后的关键挑战是什么？又应该如何解决？

当大模型从通用技术探索深入产业场景，搜索、广告与推荐系统作为连接用户需求与业务价值的核心链路，正迎来全链路智能重构。生成式推荐落地后面临哪些关键挑战？又该如何应对？

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了京东内容推荐架构负责人颜林担任主持人，与荣耀 AI 算法专家冯晓东、京东算法总监张泽华、中科大计算机学院副教授王皓共同探讨生成式推荐的落地实践。

部分核心观点如下：

行业尚未实现端到端统一 pipeline，多数工作仍集中在单点环节与大模型结合。
搜广推场景中的 scaling law 依然成立，且处于快速上升阶段。
低价值场景采用小模型覆盖，高价值场景使用大模型争取增量收益。
技术演进无需追求爆发式突破，持续积累方能推动革命性进展。

以下内容基于直播速记整理，经删减优化。

大模型如何重塑搜广推系统？

颜林：在各位负责的业务中，大模型真正改变了搜广推系统的哪一个环节？能否结合典型场景对比前后变化？

冯晓东：当前变化最显著的是特征工程。虽然线上模型尚未全面接入生成式模型，但已广泛利用大语言模型补充特征构建能力。

以广告为例，通过多模态大模型自动生成标签化或向量化语义特征，有效缓解传统特征挖掘瓶颈。我们将用户历史行为整合为长序列输入，借助大模型提取偏好表示，减少对统计类、交叉类特征的依赖，提升推理效率。

王皓：学界关注模型规模扩展（scaling）的可行性。研究发现，只要数据质量与结构合理，模型做大做深后普遍具备良好 scaling 能力。但在高校环境中受限于算力，更多聚焦轻量化 attention 机制、长序列建模等方向，探索如何在有限资源下提升推理 reasoning 能力。

张泽华：大模型初期令人兴奋，但实际落地需大量基础“脏活”——如数据清洗、思维链样本构建、多模态语义对齐等。这些工作耗时耗力，若处理不扎实，即便堆砌算力也难以释放模型潜力。因此，团队正从传统特征工程转向系统化的数据与样本体系建设。

系统架构如何演进？

颜林：团队更倾向于在现有 pipeline 上叠加，还是重新设计新链路？过程中是否有重大取舍？

冯晓东：全面重构成本过高，尤其在低价值场景难量化收益。我们采取渐进策略：第一阶段用大模型补充特征；第二阶段尝试替代部分模块；未来可能逐步替代召回、重排等环节。长期看，颠覆式 pipeline 有望落地，但过程必然是迭代推进。

张泽华：最初期望大模型端到端输出结果，例如电商搜索中一次性理解 query、上下文和隐性偏好完成检索。但实测显示该方式多数场景无收益甚至负向。于是我们拆解各环节逐一验证，发现大模型优势在于强语义理解与逻辑推理，适用于长链路任务（如兴趣形成→决策→下单→收货），而非毫秒级点击反馈等短链场景。

主要矛盾体现在两方面：一是大模型推理成本高、验证周期长（周级至月级），影响迭代效率；二是需要大量高质量标注数据支撑，否则易产生负向效果。目前观察到，不仅参数规模存在 scaling law，精炼样本的数量与质量也呈现类似趋势。

王皓：尽管业界正在构建完整的大模型 pipeline，但实际大规模应用的能力仍集中于个别环节，如特征交互增强或召回模块优化。整体仍处于“多点突破”阶段，距离“全链路重构”尚有差距。学界趋势亦然，更多是模块级创新而非一体化重构。

如何看待搜广推中的 Scaling Law？

冯晓东：推荐领域同样存在 scaling law，且边际效益远未触顶。原因有二：其一，用户行为数据量庞大、序列极长（可达上万 token），模型复杂度需求极高；其二，受限于线上资源，当前模型潜能尚未完全释放。未来关键是将线下能力有效迁移至线上。

王皓：首先需明确：推荐领域的 scaling law 是否等同于语言模型？我们提出 P-law（performance law）概念，在统一 item ID 词表与数据质量标准后，不同模型（包括 LLaMA、SOTA）均能拟合出较一致的 scaling 曲线，说明推荐领域存在可研究的通用规律。

其次，当前模型规模仍不足，远未达上限。技术路线尚无共识——是延续 sequence-to-sequence（S2S），还是走向 unified LLM，仍待探索。

张泽华：我们认为距离天花板还很遥远。以典型搜广推场景为例，在 300 毫秒推理预算内完成全流程计算，反推所需参数量至少十几个 billion。而现有工程条件下已接近极限。

实验发现，7B 模型中不少参数对结果影响微弱，说明小模型性能差并非仅因参数少，而是有效参数比例低。采用 MoE 结构后，随着有效参数占比提升，性能呈明显 scaling 趋势。

进一步放宽约束测试表明：允许 3–30 秒推理时间或扩大输入信息（query+行为+商品描述），200B–300B 规模模型效果显著优于 8B–10B。综合来看，scaling law 在搜广推中依然成立且处于上升期，关键是如何将其转化为线上收益，并平衡推理耗时、工程成本与规模扩展。

如何平衡模型规模、收益与成本？

冯晓东：上线大模型面临性能瓶颈，需投入大量资源优化。我们主要探索两类方法：

模型蒸馏：用大模型指导小模型学习，保持效果同时降低推理成本；
分层剪枝与 MoE 压缩：裁剪非关键层，或借鉴 DeepSeek 的 MoE 路由机制，减少激活参数量。

策略上坚持：低价值场景用小模型覆盖，高价值场景在 ROI 可接受前提下使用大模型争取额外收益。

王皓：观察发现，推荐链路不同阶段对模型规模需求不同。召回到精排各环节可差异化设计模型大小。此外，除蒸馏外，还可利用大模型生成高质量训练数据，助力小模型突破性能瓶颈。根据 P-law，2B–3B 小模型仍有较大提升空间。

张泽华：模型只要达成目标效果即为合格，后续问题归结为 ROI。提升小模型能力路径包括：提高有效推理参数比例、提供更高质量训练样本、优化输入输出设计以“物尽其用”。

企业实践中还需考虑资源投入的合理性。例如 671B 模型需 16–32 卡 GPU 支撑高并发请求，成本指数级增长，且延迟无法无限压缩。因此必须在算力与延迟间寻找最优平衡。

大模型上线后的工程挑战

颜林：大模型上线生产系统后，遇到的主要工程挑战有哪些？有何经验可分享？

冯晓东：最大挑战是实时数据同步与模型快速迭代。传统推荐模型可实现分钟级更新，而大模型训练在线下进行，难以及时响应新行为数据。

优化方向包括：构建高效数据流 pipeline，确保样本与序列特征快速输入；改进更新策略，尝试冻结部分参数、仅更新关键塔或共享网络，避免全参更新导致的数据滞后问题。

王皓：突出问题是离线与在线结果长期不对齐。新模型虽离线表现优，但因缺乏长期历史数据积累，难以超越持续迭代的旧模型。如何让新模型继承长期知识成为难题，版本增多后训练与验证成本也急剧上升。

张泽华：除“离在线对不齐”外，前期适配成本更高。算法迭代快（按周甚至小时发布），但业务数据结构、平台资源组织差异大，开源模型难以直接落地。

常见误区包括忽略 tokenizer 变更带来的影响，或误判离线可跑通即满足线上 serving 要求。工业环境下的 gap 往往巨大。

此外，用户行为分布受历史模型影响，新模型若适配不同用户类型，可能在现有交互模式下表现不佳。为此我们开发了多智能体强化学习模拟器，构建沙箱环境进行反事实评估，并支持持续回放与强化学习，提升校验严谨性。

生成式、智能体与知识工程的未来方向

颜林：生成式能力目前定位是什么？是否承担候选生成、策略规划等核心任务？最期待但尚未成熟的方向是什么？

冯晓东：当前主要用于多模态内容理解与生成，如广告素材自动化。也在探索生成式推荐，基于用户历史数据生成推理特征，补充增量知识。愿景是逐步替代全流程线上推断，简化工程体系并提升业务效果。

王皓：生成式推荐正走向系统工程化，重点在于打通 pipeline 各环节衔接。在此框架下颠覆性创新空间有限，未来突破或将来自任务形式化定义与自主决策能力。

张泽华：创意文案类任务已广泛应用，尤其是图像视频生成（AIGC）。语言模型普及后，自动翻译、会议纪要、要点抽取等功能已在企业内部渗透。面向中小商家的自动化工具（如文案生成、评论筛选）尤为受欢迎。

最期待的是具备自主规划与研究能力的智能体，摆脱人工预设 workflow，实现复杂任务的自主执行。

成熟的搜广推系统应具备何种生态？

冯晓东：未来特征工程或将被知识工程取代。模型可直接基于原始行为语料学习，辅以大模型构建的知识库弥补冷启动等问题。系统架构方面，智能体有望承担特征构建、模型训练等流程编排任务，算法工程师或将转型为“跑模工程师”。

王皓：两个根本问题亟待解决：一是推荐基础模型的本质机制为何？如何融合 ID 等离散表示？二是若希望系统以 problem-based 形式运行，必须先形式化定义任务边界、结构与规则，这是比模型优化更难的前置条件。

张泽华：不同场景任务差异大。召回与粗排本质是信息检索，适合稠密结构大模型；精排与重排则需丰富辅助信息，如 item 关系、兴趣变化、多样性指标及多模态因素（图片美观度、价格波动等）。

测试发现，HSTU 类模型结合用户上下文与背景信息，在曝光→点击→转化链路中更具优势。

新模型为何打不过旧模型？如何应对？

张泽华：原因主要有二：

数据积累差异：在线模型通过 online learning 长期累积数据，离线模型仅基于有限时间段训练，即便短期评估更优，实际表现仍可能落后。
结构性误差：大模型参数量大，离线与在线推理路由机制差异易放大误差。传统 CTR 模型依赖稀疏 ID 特征，结构稳定，失真较小。

应对策略：若离线模型潜力更大（scaling 曲线更陡），可接受短期损失推动上线，保障迭代节奏；对于结构性误差，需严格排查训练与评测环节，或通过 AB 实验观察是否随时间收敛。

HSTU 是否会成为推荐基础模型？

冯晓东：HSTU 基于 Transformer 架构，在处理长序列用户行为方面具有独特优势，已成为不错的 base model。尽管推荐系统尚未跳出 Transformer 范式，但期待未来能发展出更契合自身数据特征的新结构。

颜林：过去一两年中，有没有哪件事改变了你原本的判断？

冯晓东：起初认为语言 Token 建模不适用于推荐，因用户行为序列缺乏自然语言的强逻辑性。直到 Meta 提出 HSTU，才意识到序列建模的巨大潜力。HSTU 更契合推荐需求，也为我们指明新方向。

王皓：推荐系统始终沿大语言模型路线演进，但面临 ID 处理、词表扩展、时延控制等工程挑战。长远看，必须与基础语言模型深度结合，才能构建通用大模型。

张泽华：“有多少人工，就有多少智能”。过去一年结构创新层出不穷，但决定性因素仍是数据质量。通用大模型在垂直领域表现差，必须沉淀专业化知识工程。我们总结六大类知识体系，在搜广推场景带来两位数以上收益提升。

推荐系统本质是解决用户意图问题：明确搜索需快速响应，漫无浏览需多样化内容，深度对比则需模型推理辅助决策。新一代大模型为此提供了新手段。

给一线算法工程师的建议

冯晓东：不必拘泥于主流技术或期待爆发式收益。建议先拆解业务链路，逐环节分析目标，找到最适合与大模型结合的切入点。只要能在效果、成本或推理效率任一方面优化，就值得尝试。所有革命性进展都源于持续积累。

王皓：真正的基础模型应具备多任务解决能力，并可在不同企业间迁移复用。系统不仅是技术链路，更要形成“产品力”，建立壁垒与差异化优势。思考自身场景的独特性与不可替代能力，才是竞争力所在。

张泽华：大模型演进始终趋向综合化。从 CV 到 NLP 再到多模态融合，方法在变，但本质业务问题不会消失，只会转移。不要自我设限或挑拣式学习，所有核心问题最终都必须被彻底解决。

【声明】内容源于网络

AI前线

面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

内容 7982

粉丝 0

AI前线面向AI爱好者、开发者和科学家，提供大模型最新资讯、AI技术分享干货、一线业界实践案例，助你全面拥抱AIGC。

总阅读42.7k

粉丝0

内容8.0k