在海外风控领域,AppList 是极具价值的数据源。用户手机中安装的应用列表,往往能折射其金融习惯、消费方式、设备真实性、借贷需求及风险偏好,甚至反映近期的资金压力。
业界常见的技术方案是将每个 App 转化为向量(Embedding),再聚合成用户向量输入风控模型。具体做法通常是将用户安装的 App 视为一串 Token,利用 Word2Vec 或 DeepWalk 等算法训练 Embedding。这一思路在理论上逻辑自洽且优雅,但在实际落地中,若忽略 App 的生命周期与市场投放变化,极易导致模型不稳定。模型学到的可能并非稳定的用户风险特征,而是短期内市场投放策略和 App 生态分布的波动。
AppList Embedding 的核心逻辑
Embedding 的原理源于自然语言处理。在 NLP 中,句子被视为词组序列,频繁在相似语境共现的词,其向量距离更近。同理,用户手机中的 App 列表可视为一句“行为语言”,每个 App 即为一个“词”。
Embedding 模型通过学习以下共现关系构建向量空间:
- 哪些 App 经常同时出现在同一设备中;
- 哪些 App 出现在相似特征的用户手机上;
- 哪些 App 与贷款、博彩、钱包或赚钱类应用共现频率更高。
最终,模型将 App 映射至向量空间,使同类应用(如贷款类、银行钱包类、博彩类、改机工具类、生活服务类)在空间中聚集。通过对用户手机内所有 App 向量进行平均或加权平均,即可生成该用户的 AppList 特征向量,用于预测逾期、坏账、欺诈及多头借贷等风险。
Embedding 本质:学习“共现分布”而非“固定身份”
一个常见的误区是认为某个 App 的 Embedding 代表其固定属性(如"LoanAppA=高风险”)。事实上,App 的 Embedding 反映的是在特定时间、特定市场及样本集中,它与其他 App 的共现关系。Embedding 学到的是动态的“分布”,而非静态的“身份证”。一旦 App 的用户群体发生变化,其向量含义也会随之改变。
导致 App 用户群变化的主要原因包括:App 下架、新 App 上架、投放量激增或投放量锐减。
场景一:App 下架后的信号异化
当某贷款 App 下架后,新用户无法安装,仅老用户手机中可能残留。此时,该 App 从“当前活跃信号”转变为“历史残留信号”。它可能不再代表当前的借贷行为,而是指向用户曾接触过的旧渠道、长期未清理的设备状态或特定的历史借贷生态。若模型仍将其视为强风险信号,可能导致误判。
场景二:新 App 上架的冷启动难题
新上架的 App 在历史数据中缺失,面临 Out of Vocabulary (OOV) 问题。即便初期积累少量样本,由于用户多来自特殊渠道或种子用户,训练出的向量极不稳定,难以界定其属性(是正规贷、现金贷、博彩导流还是马甲包),导致模型识别困难。
场景三:投放激增引发的向量漂移
这是最危险的场景。假设某小众高风险现金贷 App 突然大规模买量,其用户群将从“羊毛党、互推渠道”扩展至普通大众。新用户的设备中常伴有 WhatsApp、Facebook、Shopee 等主流应用。这将导致该 App 的共现关系发生根本性变化,其 Embedding 从高风险区域向大众区域漂移。若沿用旧模型,可能将大量正常用户误杀为高风险客户。
场景四:投放减少导致的用户结构偏斜
当 App 减少或停止投放,新增用户锐减,留存用户多为品牌搜索者、高需求人群或高风险渠道用户。此时用户结构反而变得更加“偏科”和高风险。若模型继续使用基于广泛投放时期训练的旧 Embedding,可能会低估该类 App 当前的风险水平。
粗放式建模的局限与应对策略
传统的"App 列表清洗 - 训练 Embedding - 向量平均 - 输入模型”流程,默认了 App 共现结构在训练期与应用期是稳定的。然而,海外借贷市场生态变化极快,下架潮、上架潮、买量策略调整频发,导致同一 App 在不同时间段代表完全不同的人群。
针对这一问题,头部机构的有效策略是建立滚动训练机制:
- 高频迭代:每月重训一次 Embedding,在市场剧烈波动期提高频率;
- 实时监控:每周监控 App 向量漂移(Drift)情况;
- 版本管理:保留历史 Embedding 版本进行对比分析。
对风控业务的关键影响
与推荐系统仅影响点击率不同,风控领域的 Embedding 漂移直接关系到授信通过率、坏账率、额度定价及反欺诈规则的有效性。
- 若将已大众化的 App 误判为高风险,会导致误拒优质客户;
- 若将转向高风险渠道的 App 仍视为普通应用,会引入坏账;
- 若未能及时识别新上架的高风险 App,将漏掉新型多头借贷风险;
- 若未对下架 App 降权,会将历史残留误判为当前风险。
综上所述,AppList Embedding 不仅是算法问题,更是市场生态、投放策略与风控建模的系统工程。其核心价值在于捕捉人工分类难以发现的共现结构,但必须警惕其“时效性”风险。只有精准识别并适应 App 背后用户分布的动态变化,才能将简单的安装列表转化为可监控、可解释且稳健的风控特征体系。

