大数跨境
0
0

Scaling Law 仍然成立,企业搜广推怎么做才能少踩“坑”?

Scaling Law 仍然成立,企业搜广推怎么做才能少踩“坑”? AI前线
2025-12-09
2
导读:生成式推荐真正落地后的关键挑战是什么?又应该如何解决?

当大模型从通用技术探索深入产业场景,搜索、广告与推荐系统作为连接用户需求与业务价值的核心链路,正迎来全链路智能重构。生成式推荐落地后面临哪些关键挑战?又该如何应对?

近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了京东内容推荐架构负责人颜林担任主持人,与荣耀 AI 算法专家冯晓东、京东算法总监张泽华、中科大计算机学院副教授王皓共同探讨生成式推荐的落地实践。

部分核心观点如下:

  • 行业尚未实现端到端统一 pipeline,多数工作仍集中在单点环节与大模型结合。
  • 搜广推场景中的 scaling law 依然成立,且处于快速上升阶段。
  • 低价值场景采用小模型覆盖,高价值场景使用大模型争取增量收益。
  • 技术演进无需追求爆发式突破,持续积累方能推动革命性进展。

以下内容基于直播速记整理,经删减优化。

大模型如何重塑搜广推系统?

颜林:在各位负责的业务中,大模型真正改变了搜广推系统的哪一个环节?能否结合典型场景对比前后变化?

冯晓东:当前变化最显著的是特征工程。虽然线上模型尚未全面接入生成式模型,但已广泛利用大语言模型补充特征构建能力。

以广告为例,通过多模态大模型自动生成标签化或向量化语义特征,有效缓解传统特征挖掘瓶颈。我们将用户历史行为整合为长序列输入,借助大模型提取偏好表示,减少对统计类、交叉类特征的依赖,提升推理效率。

王皓:学界关注模型规模扩展(scaling)的可行性。研究发现,只要数据质量与结构合理,模型做大做深后普遍具备良好 scaling 能力。但在高校环境中受限于算力,更多聚焦轻量化 attention 机制、长序列建模等方向,探索如何在有限资源下提升推理 reasoning 能力。

张泽华:大模型初期令人兴奋,但实际落地需大量基础“脏活”——如数据清洗、思维链样本构建、多模态语义对齐等。这些工作耗时耗力,若处理不扎实,即便堆砌算力也难以释放模型潜力。因此,团队正从传统特征工程转向系统化的数据与样本体系建设。

系统架构如何演进?

颜林:团队更倾向于在现有 pipeline 上叠加,还是重新设计新链路?过程中是否有重大取舍?

冯晓东:全面重构成本过高,尤其在低价值场景难量化收益。我们采取渐进策略:第一阶段用大模型补充特征;第二阶段尝试替代部分模块;未来可能逐步替代召回、重排等环节。长期看,颠覆式 pipeline 有望落地,但过程必然是迭代推进。

张泽华:最初期望大模型端到端输出结果,例如电商搜索中一次性理解 query、上下文和隐性偏好完成检索。但实测显示该方式多数场景无收益甚至负向。于是我们拆解各环节逐一验证,发现大模型优势在于强语义理解与逻辑推理,适用于长链路任务(如兴趣形成→决策→下单→收货),而非毫秒级点击反馈等短链场景。

主要矛盾体现在两方面:一是大模型推理成本高、验证周期长(周级至月级),影响迭代效率;二是需要大量高质量标注数据支撑,否则易产生负向效果。目前观察到,不仅参数规模存在 scaling law,精炼样本的数量与质量也呈现类似趋势。

王皓:尽管业界正在构建完整的大模型 pipeline,但实际大规模应用的能力仍集中于个别环节,如特征交互增强或召回模块优化。整体仍处于“多点突破”阶段,距离“全链路重构”尚有差距。学界趋势亦然,更多是模块级创新而非一体化重构。

如何看待搜广推中的 Scaling Law?

冯晓东:推荐领域同样存在 scaling law,且边际效益远未触顶。原因有二:其一,用户行为数据量庞大、序列极长(可达上万 token),模型复杂度需求极高;其二,受限于线上资源,当前模型潜能尚未完全释放。未来关键是将线下能力有效迁移至线上。

王皓:首先需明确:推荐领域的 scaling law 是否等同于语言模型?我们提出 P-law(performance law)概念,在统一 item ID 词表与数据质量标准后,不同模型(包括 LLaMA、SOTA)均能拟合出较一致的 scaling 曲线,说明推荐领域存在可研究的通用规律。

其次,当前模型规模仍不足,远未达上限。技术路线尚无共识——是延续 sequence-to-sequence(S2S),还是走向 unified LLM,仍待探索。

张泽华:我们认为距离天花板还很遥远。以典型搜广推场景为例,在 300 毫秒推理预算内完成全流程计算,反推所需参数量至少十几个 billion。而现有工程条件下已接近极限。

实验发现,7B 模型中不少参数对结果影响微弱,说明小模型性能差并非仅因参数少,而是有效参数比例低。采用 MoE 结构后,随着有效参数占比提升,性能呈明显 scaling 趋势。

进一步放宽约束测试表明:允许 3–30 秒推理时间或扩大输入信息(query+行为+商品描述),200B–300B 规模模型效果显著优于 8B–10B。综合来看,scaling law 在搜广推中依然成立且处于上升期,关键是如何将其转化为线上收益,并平衡推理耗时、工程成本与规模扩展。

如何平衡模型规模、收益与成本?

冯晓东:上线大模型面临性能瓶颈,需投入大量资源优化。我们主要探索两类方法:

  1. 模型蒸馏:用大模型指导小模型学习,保持效果同时降低推理成本;
  2. 分层剪枝与 MoE 压缩:裁剪非关键层,或借鉴 DeepSeek 的 MoE 路由机制,减少激活参数量。

策略上坚持:低价值场景用小模型覆盖,高价值场景在 ROI 可接受前提下使用大模型争取额外收益。

王皓:观察发现,推荐链路不同阶段对模型规模需求不同。召回到精排各环节可差异化设计模型大小。此外,除蒸馏外,还可利用大模型生成高质量训练数据,助力小模型突破性能瓶颈。根据 P-law,2B–3B 小模型仍有较大提升空间。

张泽华:模型只要达成目标效果即为合格,后续问题归结为 ROI。提升小模型能力路径包括:提高有效推理参数比例、提供更高质量训练样本、优化输入输出设计以“物尽其用”。

企业实践中还需考虑资源投入的合理性。例如 671B 模型需 16–32 卡 GPU 支撑高并发请求,成本指数级增长,且延迟无法无限压缩。因此必须在算力与延迟间寻找最优平衡。

大模型上线后的工程挑战

颜林:大模型上线生产系统后,遇到的主要工程挑战有哪些?有何经验可分享?

冯晓东:最大挑战是实时数据同步与模型快速迭代。传统推荐模型可实现分钟级更新,而大模型训练在线下进行,难以及时响应新行为数据。

优化方向包括:构建高效数据流 pipeline,确保样本与序列特征快速输入;改进更新策略,尝试冻结部分参数、仅更新关键塔或共享网络,避免全参更新导致的数据滞后问题。

王皓:突出问题是离线与在线结果长期不对齐。新模型虽离线表现优,但因缺乏长期历史数据积累,难以超越持续迭代的旧模型。如何让新模型继承长期知识成为难题,版本增多后训练与验证成本也急剧上升。

张泽华:除“离在线对不齐”外,前期适配成本更高。算法迭代快(按周甚至小时发布),但业务数据结构、平台资源组织差异大,开源模型难以直接落地。

常见误区包括忽略 tokenizer 变更带来的影响,或误判离线可跑通即满足线上 serving 要求。工业环境下的 gap 往往巨大。

此外,用户行为分布受历史模型影响,新模型若适配不同用户类型,可能在现有交互模式下表现不佳。为此我们开发了多智能体强化学习模拟器,构建沙箱环境进行反事实评估,并支持持续回放与强化学习,提升校验严谨性。

生成式、智能体与知识工程的未来方向

颜林:生成式能力目前定位是什么?是否承担候选生成、策略规划等核心任务?最期待但尚未成熟的方向是什么?

冯晓东:当前主要用于多模态内容理解与生成,如广告素材自动化。也在探索生成式推荐,基于用户历史数据生成推理特征,补充增量知识。愿景是逐步替代全流程线上推断,简化工程体系并提升业务效果。

王皓:生成式推荐正走向系统工程化,重点在于打通 pipeline 各环节衔接。在此框架下颠覆性创新空间有限,未来突破或将来自任务形式化定义与自主决策能力。

张泽华:创意文案类任务已广泛应用,尤其是图像视频生成(AIGC)。语言模型普及后,自动翻译、会议纪要、要点抽取等功能已在企业内部渗透。面向中小商家的自动化工具(如文案生成、评论筛选)尤为受欢迎。

最期待的是具备自主规划与研究能力的智能体,摆脱人工预设 workflow,实现复杂任务的自主执行。

成熟的搜广推系统应具备何种生态?

冯晓东:未来特征工程或将被知识工程取代。模型可直接基于原始行为语料学习,辅以大模型构建的知识库弥补冷启动等问题。系统架构方面,智能体有望承担特征构建、模型训练等流程编排任务,算法工程师或将转型为“跑模工程师”。

王皓:两个根本问题亟待解决:一是推荐基础模型的本质机制为何?如何融合 ID 等离散表示?二是若希望系统以 problem-based 形式运行,必须先形式化定义任务边界、结构与规则,这是比模型优化更难的前置条件。

张泽华:不同场景任务差异大。召回与粗排本质是信息检索,适合稠密结构大模型;精排与重排则需丰富辅助信息,如 item 关系、兴趣变化、多样性指标及多模态因素(图片美观度、价格波动等)。

测试发现,HSTU 类模型结合用户上下文与背景信息,在曝光→点击→转化链路中更具优势。

新模型为何打不过旧模型?如何应对?

张泽华:原因主要有二:

  1. 数据积累差异:在线模型通过 online learning 长期累积数据,离线模型仅基于有限时间段训练,即便短期评估更优,实际表现仍可能落后。
  2. 结构性误差:大模型参数量大,离线与在线推理路由机制差异易放大误差。传统 CTR 模型依赖稀疏 ID 特征,结构稳定,失真较小。

应对策略:若离线模型潜力更大(scaling 曲线更陡),可接受短期损失推动上线,保障迭代节奏;对于结构性误差,需严格排查训练与评测环节,或通过 AB 实验观察是否随时间收敛。

HSTU 是否会成为推荐基础模型?

冯晓东:HSTU 基于 Transformer 架构,在处理长序列用户行为方面具有独特优势,已成为不错的 base model。尽管推荐系统尚未跳出 Transformer 范式,但期待未来能发展出更契合自身数据特征的新结构。

颜林:过去一两年中,有没有哪件事改变了你原本的判断?

冯晓东:起初认为语言 Token 建模不适用于推荐,因用户行为序列缺乏自然语言的强逻辑性。直到 Meta 提出 HSTU,才意识到序列建模的巨大潜力。HSTU 更契合推荐需求,也为我们指明新方向。

王皓:推荐系统始终沿大语言模型路线演进,但面临 ID 处理、词表扩展、时延控制等工程挑战。长远看,必须与基础语言模型深度结合,才能构建通用大模型。

张泽华:“有多少人工,就有多少智能”。过去一年结构创新层出不穷,但决定性因素仍是数据质量。通用大模型在垂直领域表现差,必须沉淀专业化知识工程。我们总结六大类知识体系,在搜广推场景带来两位数以上收益提升。

推荐系统本质是解决用户意图问题:明确搜索需快速响应,漫无浏览需多样化内容,深度对比则需模型推理辅助决策。新一代大模型为此提供了新手段。

给一线算法工程师的建议

冯晓东:不必拘泥于主流技术或期待爆发式收益。建议先拆解业务链路,逐环节分析目标,找到最适合与大模型结合的切入点。只要能在效果、成本或推理效率任一方面优化,就值得尝试。所有革命性进展都源于持续积累。

王皓:真正的基础模型应具备多任务解决能力,并可在不同企业间迁移复用。系统不仅是技术链路,更要形成“产品力”,建立壁垒与差异化优势。思考自身场景的独特性与不可替代能力,才是竞争力所在。

张泽华:大模型演进始终趋向综合化。从 CV 到 NLP 再到多模态融合,方法在变,但本质业务问题不会消失,只会转移。不要自我设限或挑拣式学习,所有核心问题最终都必须被彻底解决。

【声明】内容源于网络
0
0
AI前线
面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
内容 7982
粉丝 0
AI前线 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。
总阅读42.7k
粉丝0
内容8.0k