大数跨境

[SIGIR'26] 当Dense MLP遇上推荐系统:如何用稀疏筛选打破Scaling天花板

[SIGIR'26] 当Dense MLP遇上推荐系统:如何用稀疏筛选打破Scaling天花板 阿里国际智能技术
2026-05-12
0
导读:对于推荐系统,密集连接本身就是scalability的瓶颈。通过将稀疏从训练副产品提升为架构设计原则,SSR实现了推荐模型的有效scaling。

前言:排序大模型的另一种解法

近年来,推荐系统领域的排序模型正朝着大规模化方向快速发展。从判别式的RankMixer、TokenMixer-Large,到生成式的GPT-4Rec、RecMind,再到基于Transformer的HSTU和引入MoE架构的工业级排序模型,各类方法在不同程度上都在打破传统Dense连接MLP的限制,RankMixer的Token-Mixing操作符替代了全连接的特征交叉,MoE通过稀疏激活控制实际计算量,生成式方法则从根本上重构了排序任务的范式。

一个共性点是,这些方法都在以各自的方式引入稀疏性。正如ICML 2024的论文所证明的,MLP-Mixer本质上就是一个宽而稀疏的MLP,其Token-Mixing和Channel-Mixing层的Kronecker积结构天然蕴含了高度稀疏的连接模式。这指出了一个核心insight:稀疏性不是Scaling的障碍,而是一种有益的归纳偏置

然而,现有方法的稀疏性大多是架构设计的附属或推理效率的妥协,而非针对推荐数据结构特性的显式对齐。Dense MLP在训练后仍会自发呈现出大量权重被压制到接近零的稀疏模式,这说明模型本身在"挣扎"着向稀疏靠拢,但这种隐式稀疏无法真正释放Scaling的潜力。

本文旨在探索排序大模型的另一种架构可能:以显式稀疏性打破稠密模型的Scaling瓶颈,并验证“归纳偏置与数据结构对齐”这一设计原则在提升模型可扩展性与效率上的有效性。

1. 从一个反直觉的现象说起

LLM的scaling law告诉我们:模型越大,效果越好。那么,推荐系统能否沿用这套逻辑,把MLP叠得更深、参数堆得更大,效果就能持续提升?

答案是否定的

在我们的工业实践中,一个十分令人困惑的现象反复出现:当Dense MLP从3层扩展到更深的层数时,模型不仅没有变好,反而出现了性能退化。这不是正则化没调好,不是learning rate的问题,而是一个结构性的瓶颈

工业CTR模型隐藏层的权重分析。左:92%的权重被抑制到接近零(<10^-3)。右:80%的权重能量集中在仅4%的维度上

为了理解这个现象,我们做了一件很简单的事,把线上工业CTR模型全连接层的学习权重拿出来做可视化(训练过程没有施加任何稀疏约束,如L2正则),结果:

  • 92%的连接权重被隐式压制到接近零

  • 80%的权重能量集中在仅4%的输入维度

也就是说,我们给了模型一个全连接结构,但模型自己"选择"了稀疏。大量参数预算被浪费在"学习如何不使用某些连接"上。

这指向一个核心问题:Dense连接对输入维度的重要性不提供任何结构先验,将"从数千维中发现哪些维度有用"的全部负担交给优化器,而推荐数据的天然属性恰恰是高维且极度稀疏的,每个样本只有少数特征维度真正有信息量。

2. 核心思想:从"隐式权重抑制"到"显式信号筛选"

MLP-Mixer告诉我们结构化稀疏是一种有益的归纳偏置。但要在推荐场景中落地,首先得搞清楚:Dense MLP到底差在哪?差多严重?

2.1 Dense MLP的问题

第一章的观察揭示了全连接架构在推荐数据上的系统性失配。

首先是信号稀释。对于一次具体展现,"用户A看到了商品B",真正决定点击的可能就是用户年龄段、商品品类、最近浏览记录等少数维度。但全连接层强制每个输出神经元与全部输入维度建立连接,少量有效信号被大量无关连接淹没。网络越深,这种稀释越容易逐层累积。当然,深层网络的性能退化还有优化困难、过拟合等因素参与,但信号稀释是可以通过架构设计直接解决的,也正是SSR的切入点。

其次是优化负担。如果有效连接只占4%,优化器96%的工作量花在了"把参数压到零"上。给模型60M参数,真正用于建模有效交互的可能只有几M。名义容量大,有效容量小。在早期的探索中,我们在不同数据集上也观察到76.6%的权重接近零,同样印证了这一点。

这两个问题叠加的后果就是Scaling天花板:Dense MLP无法有效scaling。参数从60M增到600M,新增的大部分权重也会被优化到接近零。不是推荐系统不需要大模型,是Dense MLP这个架构没办法消化更多参数。

2.2 隐式稀疏 vs 显式稀疏

Dense MLP训练后呈现出强烈的稀疏模式。既然模型自己"选择"了稀疏,是不是说明已经够好了?

并不是。两者有本质区别:

  • 隐式稀疏:接近零 ≠ 等于零。92%被"抑制"的权重仍有微小非零值,推理时仍消耗完整的计算和存储开销,对输出的边际贡献却极小。

  • 显式稀疏:不存在的连接直接被排除,根本不在计算图中出现。

打个比方,隐式稀疏像图书管理员面对100万本书,每本都得翻一遍才能判断"这99万本不相关";显式稀疏则先用索引系统到的1万本,只读这1万本。

值得一提的是,结构化稀疏的价值在CV领域已有理论支撑。ICML 2024的重要论文"Understanding MLP-Mixer as a Wide and Sparse MLP" 证明了MLP-Mixer本质上是一个宽而稀疏的MLP,其Token-Mixing和Channel-Mixing层的权重矩阵可表示为Kronecker积形式:

 // Token-Mixing

 // Channel-Mixing

这种数学结构意味着:

  1. Mixer的有效宽度是 m = S × C,可以高达  10^4 ~ 10^6

  2. 权重矩阵中非零元素的比例仅为 1/C 或 1/S,天然就是高度稀疏的

  3. 更进一步,Kronecker积参数化天然蕴含了隐式的L1正则化效应

这篇论文还通过实验验证了Golubeva假说:在固定参数量(连接数)的前提下,增大宽度(从而增大稀疏度)可以持续提升泛化性能。MLP-Mixer恰好体现了这一原则,它用结构化的稀疏连接,在巨大的有效宽度上高效地建模。

2.2.1 RankMixer的Mixer操作:另一种稀疏矩阵视角

稀疏性作为归纳偏置的价值不仅在MLP-Mixer中得到体现,在推荐系统的最新进展中也有印证。RankMixer(CIKM 2025)提出的Mix操作,从另一个角度展示了稀疏矩阵乘法如何在推荐场景中发挥作用。

疏矩阵乘法

如图所示,RankMixer的Mix操作可以通过两种方式理解:

方法一:Rankmixer核心操作mixup & add

方法二:稀疏矩阵乘法

  • 等价于一个16×4的稀疏矩阵   与输入向量的乘法

  • 稀疏矩阵   的非零元素仅占  ,且具有清晰的分块结构

这一观察揭示了RankMixer成功的关键:它不是一个无参的特征变换,而是一个具有特定稀疏模式的矩阵乘法。这与MLP-Mixer的Kronecker积结构异曲同工——两者都通过结构化的稀疏连接,在降低参数量的同时保持了强大的表达能力。

从SSR的视角看,RankMixer的Mix操作可以理解为一种隐式的多视图筛选:输入的不同部分被分别映射到不同的输出维度,每个输出维度只"看到"输入的特定子集。

这给了我们关键的理论支撑:稀疏性不是缺陷,而是一种有益的归纳偏置。 我们在推荐模型中观察到的“92%权重被压制”,并非模型生病了,而是模型在Dense的囚笼中,拼命向稀疏归纳偏置靠拢的挣扎。

2.3 核心范式:先筛选,再融合(Filter-then-Fuse

我们的核心思路是:不要让模型"学"稀疏,而是在架构层面直接"给"稀疏。

SSR的核心是先稀疏筛选,再融合

  1. 筛选阶段:在非线性变换之前,通过显式稀疏筛选器从高维输入中选出一部分维度子集。

  2. 融合阶段:在筛选后的"纯净"低维子空间内,做标准的稠密非线性变换,高效建模有效特征的高阶交互。

这里的关键设计选择是将"稀疏筛选"和"特征交互"解耦为两个独立阶段。Dense MLP试图用一个全连接层同时做这两件事,所有食材所有调料都放进去炒一锅出。SSR让第一阶段专注于"稀疏筛选"一些食材和调料,第二阶段专注于"炒菜",各司其职。


SSR框架由两个级联阶段组成——多视图稀疏筛选(Multi-view Sparse Filtering)和视图内稠密融合(Intra-view Dense Fusion)

3. SSR的架构设计:两阶段级联

3.1 第一阶段:多视图稀疏筛选

SSR将完整的输入向量  解耦为 b 个独立的"视图",每个视图通过一个稀疏筛选器  从高维输入中提取净化后的子空间表示  。

这一阶段提供了两种稀疏筛选策略:

策略一:SSR-S:Static Random Filter,零FLOP的物理稀疏

这是一个简单的设计:

(B_i 为二值选择矩阵,每列是one-hot向量)

每个视图只是从输入中随机选取  个维度,不是乘以一个稀疏矩阵,而是直接做索引切片(gather)。这意味着:

  • 零FLOP:没有任何浮点乘加运算

  • 硬维度缩减:未选中的维度在物理上被排除在计算图之外

  • 特征子空间多样性:不同视图之间独立采样,天然引入多样性

从矩阵运算的角度看,这一操作等价于用一个分块对角稀疏矩阵左乘扩展后的输入向量。

具体构造过程如下:首先将输入 x 复制 b 份,形成扩展向量(通过Kronecker积   );然后定义筛选权重矩阵为分块对角形式:

 (直和,非对角区域全为零)

其中每个子块  是一个稀疏选择矩阵,每列有且仅有 1 个元素为 1,如下图

SSR的分块对角稀疏选择矩阵,非零元素仅占 0.01%,且全部集中在对角块上

稀疏度有多极致? 以工业典型设置为例(d_in ≈ 300, b = 8, d_v = 64):

每个 B_i 的非零元素数:d_v × 1 = 64整个 S 的非零元素总数:b × d_v = 512权重矩阵总元素数:b × d_in × d_v = 8 × 300 × 64 = 153,600稀疏度 = 1 - 512/153,600 = 99.67%

如果把  放大到工业级(300+ 个特征域 × 16维 embedding ≈ 5000),稀疏度轻松超过 99.99%。这不是 L1 正则化那种"很多权重接近零"的软稀疏,而是从结构上保证 99.99% 的连接在不存在

裁掉99.99%的连接,为什么反而更强?

从统计学习理论看,在推荐数据满足"特征交互以局部子集为主"的条件下,结构化稀疏可以找到一个更优的Bias-Variance operating point :

  • 有限预算下更优的函数逼近:Dense MLP在参数预算P下将隐层宽度限制为 h=P/d_in,在高维稀疏数据上将大量参数分散在无关交互方向,实际逼近能力受损。SSR将同样的预算集中在 b 个低维子空间上,每个子空间的交互被充分建模,这不是在无限参数意义上Dense MLP逼近不了(它的假设空间严格包含SSR),而是在有限预算的实际regime下,匹配数据结构的约束反而带来更好的逼近

  • 更低的Variance:分块对角权重矩阵是全连接空间的强约束子集,在同等参数量下有效自由度更低

前提是推荐数据的有效交互确实以局部特征子集为主。如果一个任务的标签强依赖所有维度的全局交互,SSR的分块结构反而会成为瓶颈。但第一章的权重可视化(80%能量集中在4%维度)和消融实验(去除多视图仅掉0.15-0.22pt)共同表明,推荐数据确实符合这一前提。

策略二:SSR-D(Iterative Competitive Sparse, ICS),动态的可微稀疏

静态随机筛选对所有样本一视同仁,但推荐场景中不同用户/商品组合的有效特征子集是不同的。SSR-D用一个可学习的投影加动态竞争来解决这个问题:

其中  是每个视图的可学习投影矩阵, 通常大于静态策略中的  (扩展维度以保留更多候选信号供动态筛选)。投影先把输入映射到 维空间,然后ICS在这个空间内做动态稀疏化,大部分非关键元素被截断到真零,只保留高响应维度。具体做法在第四章。

和SSR-S的区别在于:SSR-S是数据无关的(data-independent),用固定的随机索引实现结构稀疏;SSR-D是数据相关的(data-dependent),每个样本根据自身语义上下文动态决定保留哪些维度。ICS的具体机制详见第四章。

实验显示,ICS在训练收敛后可以达到约91%的稀疏度,即每次前向传播中只有约9%的维度存活。静态稀疏提供高效的结构先验,动态稀疏提供样本级的自适应筛选,两者互补。

3.2 第二阶段:视图内稠密融合

经过筛选后,每个视图获得了一个"纯净"的低维表示。此时再施加标准的稠密非线性变换:

其中 (静态)或  (动态),σ 为激活函数(如GELU)。每个视图的输出经过Norm后再拼接:

LayerNorm放在拼接之前而非之后,是因为各视图的子空间统计特性可能差异很大,逐视图归一化能避免某个视图的量级主导整体输出。

第二阶段本身也体现了稀疏性,但这次是参数层面的结构稀疏

整体等价于一个块对角权重矩阵  ,相比标准全连接层:

放块对角权重矩阵示意图
标准全连接参数量:O((b·d_v)²)块对角参数量:    O(b·d_v²)参数稀疏度:      1 - 1/b

当 b = 8 时,参数稀疏度为 87.5%;b = 16 时达到 93.75%。参数量降了 b 倍,但表达力没有等比损失,第一阶段已经确保了送入每个块的特征是筛选过的,训练过程会使每个块学会在其随机子空间内做最优特征交互。多个随机子空间的叠加带来类似随机投影的多样性效应:单个子空间可能遗漏某些交互,但多个互补子空间合起来对有效交互的覆盖更充分。跨视图交互则可通过多层堆叠在高层恢复。

3.3 多层堆叠与最后一层的特殊处理

上述的两阶段结构(筛选 + 融合)可以被堆叠为多层,逐层深化特征交互。在中间层,各视图的输出通过concat拼接后传入下一层。

然而,在最后一层(即计算CTR/CVR预测分数的logits层),视图融合的方式发生了关键变化,不再使用concat,而是改为对多个视图的输出求平均:

具体来说,最后一层的处理流程如下:

  1. 各视图独立完成稠密融合,得到各自的表示 
  2. 将所有视图的输出沿视图维度取平均,得到统一的共享表示 
  3. 基于这个共享表示  ,分别接入CTR和CVR的预测head,通过全连接层输出最终分数:

这种设计有几个关键考量:

  • 多视图一致性约束:concat会保留各视图的差异性,而求平均迫使不同视图的子空间表示最终收敛到一个一致的共享语义空间,避免各视图各自为政

  • 预测头的参数效率如果最后一层仍用concat,预测head的输入维度将是  ,参数量随视图数线性增长。改为平均后,预测head的输入维度固定为  ,参数量与视图数无关

4. ICS:把Top-k重新想象为生态竞争

传统的动态稀疏化通常依赖Top-k操作,但Top-k面临两个根本困难:

  1. 不可微:离散选择操作无法直接反向传播,通常需要STE(Straight-Through Estimator),但STE引入的梯度不一致会在训练中累积误差

  2. 计算瓶颈:排序操作的复杂度为 ,在推荐系统的高维特征上代价不菲 ICS将稀疏化问题重新表述为一个离散时间非线性动态系统:

1 初始化:x^(0) = ReLU(z)
2 迭代(t = 0, ..., T-1):
3     μ^(t) = Mean(x^(t))// 全局抑制场
4     x^(t+1) = ReLU(x^(t) - α_t · μ^(t))// 适者生存
5 信号恢复:y = γ ⊙ x^(T)

背后的直觉来自生物竞争:把特征强度看作"种群活力",通过均值场产生全局抑制力,只有显著强于平均水平的特征才能存活,其余被竞争性淘汰至真零。

ICS算法的完整前向传播流程。整个过程仅涉及加减法和均值运算,每步O(N),总复杂度O(T·N)

为什么需要迭代而非单步阈值?单步阈值化(T=1)依赖对噪声基底的静态估计。在竞争过程中,随着噪声维度被逐步淘汰,均值μ^(t)会被不断修正,后续的阈值更加精确。这就实现了渐进式筛选,先粗去噪、再精调。

实验也印证了这一点(Table 5):

  • T=1时,稀疏度仅76.4%,AUC=0.7821

  • T=5时,稀疏度达到91.0%,AUC=0.7835

关于信号恢复:由于每步竞争都使总能量单调递减 ,有用信号也会被衰减。可学习的逐维缩放参数γ把信号恢复和后续变换解耦,充当方差稳定器。

5. 从中间过程看设计演化

SSR的最终形态不是一步到位的。在早期版本阶段,我们对这个问题的理解经历了一次比较重要的转变。

早期视角:"组合空间的高效搜索"

最初的理解侧重于数学性质,分块对角结构能在同等参数预算下覆盖更多的特征组合候选。这个视角解释了"为什么有效",但不够直观,也未能揭示Dense MLP到底"差在哪"。

关键转折:一张热力图的启示

Dense FFN权重矩阵的可视化。白色区域为接近零的权重(占比约76.6%),反映了无结构的隐式稀疏——这正是SSR要解决的问题

在SF-FFN阶段,我们对不同数据集训练的Dense FFN做了权重可视化,观察到约76.6%的权重接近零。这和论文最终在工业模型上发现的92%近零(Figure 1)形成了呼应,但这是在更小规模、不同数据集上独立观察到的,说明Dense MLP的隐式稀疏不是某个数据集的偶然现象,而是普遍的结构性问题。

这个实验直接推动了叙事的转变:从抽象的"组合空间覆盖效率"转向了更直观的"信号稀释 vs 信号筛选"。Dense MLP的问题不只是参数利用率低,更根本的是架构失配,它在用大量参数学习"哪些连接不重要",而SSR从架构层面直接消除了这个负担。

6. 实验

6.1 核心结果

在AliExpress十亿级工业数据集上:

工业数据集上的完整性能对比

几个值得注意的点:

  1. SSR-S用56%的参数和44%的FLOPs就超越了RankMixer,增益来自架构而非参数量。

  2. SSR-D在相近计算预算下取得了所有指标的最佳表现,ICS的动态稀疏确实有效。

  3. 三个公开数据集(Avazu、Criteo、Alibaba)上SSR-D同样取得最优AUC(详见论文Table 2、Table 3),增益来自模型设计而非数据集特定调优。

6.2 Scaling实验


性能(AUC)随模型参数(对数尺度)的变化。Dense MLP很快饱和,而SSR-D持续上升


这张图展示了:

  • Dense MLP在参数增大后迅速饱和,加再多参数也"喂不进去"

  • Wukong和RankMixer比Dense MLP好一些,但scaling曲线仍在趋于平缓

  • SSR-D在整个参数范围内保持了持续上升的趋势,在接近900M参数时依然在有效利用额外容量

这证实了论文的核心命题:稀疏筛选打破了密集架构的scaling天花板

6.3 消融实验的洞察

从消融实验的结果看:

消融实验
  • 去除稀疏筛选(直接暴露全维输入给稠密块):工业数据集AUC下降0.37pt,这是最大的单一因素

  • 用Dropout替代稀疏筛选:AUC下降0.45pt,证明增益不是来自正则化

  • 用STE Top-k替代ICS:AUC下降0.29pt,验证了可微竞争机制在训练过程的优势

ICS模块的训练过程。稀疏度在训练早期快速上升后趋于稳定;深层(Layer 2)收敛到更高的稀疏度(~90%),说明越深的层越"挑剔"

上图展示了ICS在训练过程中的行为:

  • Layer 1收敛到约75%的稀疏度,Layer 2达到约90%

  • 这种层级递增的稀疏性非常符合直觉:浅层保留更多原始信息,深层做更激进的筛选

  • 后期稀疏度稳定,说明模型找到了稳定的特征选择策略而非反复切换

6.4 线上A/B测试

在AliExpress核心推荐场景的两周A/B测试中,以线上生产模型RankMixer:100M为baseline :

  • CTR +2.1%

  • 人均订单量 +3.2%

  • GMV +3.5%

  • 延迟仅增加1ms(26ms vs 25ms)

7. 更深层的理解:为什么是"稀疏"?

7.1 推荐系统与NLP/CV的根本差异

NNLP和CV的输入有天然的局部性,语言有语序结构,图像有空间相邻性。Transformer的self-attention和CNN的卷积核,本质上都是对这种局部性的建模。

推荐系统的输入完全不同:几百个异构特征域(用户画像、商品属性、上下文信号、行为序列)被拼接成一个平坦的向量,维度之间没有天然的空间或时序邻近关系。全连接层不对特征重要性做任何结构假设,把发现有效交互的全部负担留给优化器,结果就是大量参数被用于建模无效的维度交互。

7.2 隐式稀疏与显式稀疏的边界

一个值得思考的方法论问题:什么时候隐式稀疏够用,什么时候必须走向显式?

关键在于输入数据是否有稳定的结构先验。CV中patch之间有固定的空间邻接关系,这种结构是数据集无关的,无论识别猫还是车,空间局部性都成立。所以MLP-Mixer可以用Kronecker积这种固定的数学结构隐式引入稀疏。

推荐数据不是这样。哪些特征域之间有意义的交互,是高度数据依赖和样本依赖的。"年龄×品类"的交互对服装推荐重要,对数码推荐可能不重要。一套固定的稀疏模式没法适配这种动态性,这就是SSR需要显式设计两种互补稀疏机制(静态随机筛选 + 动态竞争淘汰)的原因。

从MLP-Mixer到SSR,不只是"把稀疏从CV搬到推荐",而是一次方法论上的推进:从数学结构隐含的稀疏,到为数据特性显式设计的稀疏。

7.3 稀疏性作为归纳偏置对齐

从归纳偏置的角度看,模型架构隐含了对数据结构的假设。Dense MLP的全连接拓扑不对特征重要性做任何结构假设,所有维度对之间都建立连接,把筛选有效交互的工作全部留给优化过程。当数据的特征激活模式本身就是稀疏的,推荐数据正是如此,这种"无偏好"的架构选择反而是一种与数据结构不匹配的归纳偏置

SSR的显式稀疏架构则将"只有少数特征子集的交互是有效的"这一先验直接编码进网络拓扑。这不是形式化的贝叶斯推断,而是一种架构层面的归纳偏置注入。

说到底,SSR有效果是架构归纳偏置与数据结构的对齐

不同视图的投影矩阵之间的余弦相似度极低,证明多视图架构成功学到了互补而非冗余的特征表示

8. 总结

这篇论文提出了一个清晰的观点:对于推荐系统,密集连接本身就是scalability的瓶颈。通过将稀疏从训练副产品提升为架构设计原则,SSR实现了推荐模型的有效scaling。

往大了说,这项工作是"归纳偏置应当匹配数据结构"这一原则在推荐领域的一次实践。CNN的卷积核之所以有效,是因为它匹配了图像的空间局部性;Transformer的attention适合序列建模,是因为它编码了长程依赖。同样的逻辑,SSR的显式稀疏在推荐上有效,是因为它匹配了推荐数据高维且稀疏的特征结构。

9. 参考文献

[1] Yantao Yu, Sen Qiao, Lei Shen, Bing Wang, Xiaoyi Zeng. "Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation." SIGIR 2026.

[2] Tomohiro Hayase and Kazushi Karakida. "Understanding MLP-Mixer as a Wide and Sparse MLP." ICML 2024.

[3] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. "MLP-Mixer: An all-MLP Architecture for Vision." NeurIPS 2021.

[5] Jie Zhu, Zhifang Fan, et al. "RankMixer: Scaling up Ranking Models in Industrial Recommenders." CIKM 2025.

[6] Buyun Zhang, Liang Luo, Yuxin Chen, et al. "Wukong: Towards a Scaling Law for Large-Scale Recommendation." arXiv 2024.

[7] Ruoxi Wang, Rakesh Shivanna, Derek Cheng, et al. "DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-Scale Learning to Rank Systems." WWW 2021.

[8] Huifeng Guo, Ruiming Tang, Yunming Ye, et al. "DeepFM: A Factorization-Machine Based Neural Network for CTR Prediction." IJCAI 2017.

[9] Heng-Tze Cheng, Levent Koc, et al. "Wide & Deep Learning for Recommender Systems." DLRS 2016.

[10] Weiping Song, Chence Shi, et al. "AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks." CIKM 2019.

10. 关于我们

我们是阿里国际智能技术团队,负责阿里巴巴旗下多个国际化电商平台的搜索、推荐、广告、用增等核心AI业务和技术。团队致力于将最前沿的AI技术与国际化电商业务深度结合,为全球用户打造更智能化的购物体验,同时助力广大商家拓展全球电商市场。选择加入我们意味着投身于高速发展的国际化电商业务,同时一起打造最先进的AI技术以驱动国际化电商业务发展。

图片

点击上方名片关注我们吧~





【声明】内容源于网络
0
0
阿里国际智能技术
阿里国际技术—智能技术团队官方技术号,分享前沿AI技术在阿里国际化电商业务中的应用和创新。
内容 25
粉丝 0
阿里国际智能技术 阿里国际技术—智能技术团队官方技术号,分享前沿AI技术在阿里国际化电商业务中的应用和创新。
总阅读205
粉丝0
内容25