
训练:一次性训练、批量训练和实时训练/在线训练
应用:批训练、实时训练 (数据库触发器、Pub/Sub、Web服务、inApp)
一次性训练
从Jupyter到Prod
模型格式
训练
批训练

实时训练

批量预测与实时预测的比较
载荷的影响
架构的影响
成本的影响
评估的影响
批量预测集成

实时预测集成

配置文件:客户配置文件包含和客户相关的所有属性,以及给出预测所必需的不同属性(例如:计数器)。对于客户级预测,为了减少从多个地方提取信息的延迟,以及简化机器学习模型的量产化过程,配置文件是必须的。在大多数情况下,为了更有效地获取数据,需要相似的数据存储类型。
触发器:触发器是引导进程启动的事件,它们可以用于客户流失的预测。例如调用客户服务中心、检查订单历史记录中的信息等。
模型: 模型需要经过预先训练,通常导出到前面提到的 3 种格式之一 (pickle、 ONNX 或 PMML) ,以便可以将其移植到量产中。
取决于数据库集成:诸多数据库供应商为在数据库中绑定高级分析用例做出了重大努力,既可以直接集成Python或R代码,也可以导入PMML模型。
利用Pub/Sub模型:预测模型本质上是对数据流的输入执行某些操作,例如提取客户配置信息等。
Webservice:围绕模型预测设置API封装器,并将其部署为Web服务。根据Web服务的设置方式,它可能执行或不执行驱动模型所需的数据操作。
inApp:也可以将模型直接部署到本地或Web应用程序中,并让模型在本地或外部数据源上运行。
数据库集成

流程
新事件: 当在投诉表中插入新行时,将生成事件触发器。
触发器: 触发器功能将更新该客户在客户配置文件表中提出的投诉数量,并为客户更新记录。
预测请求:使用PL/Python重新运行客户流失模型并检索预测结果。
用户配置文件的更新:根据更新后的预测结果重新更新客户配置文件。然后,当检查客户配置文件是否已经用客户流失预测值进行更新时,就会生成下游流。
技术
Pub/Sub


流程
技术
提供标识符,然后让web服务提取所需的信息,计算预测值,然后返回该值
或者通过接受有效载荷,将其转换为数据帧,进行预测并返回该值。

流程
应用程序初始化(1至3)阶段:应用程序初始化,向客户配置文件发出请求,检索其初始值,在本地存储中初始化配置文件。
应用程序(4)阶段:应用程序将与该程序中出现的不同事件存储到本地存储区的数组中。
预测准备阶段(5-8):如果应用程序想要检索一个新的客户流失预测,那么它需要将互联网服务所需的信息准备好。首先对本地存储进行初始请求,并检索客户配置文件的值及其存储的事件数组,检索完成后,向还原器函数提出请求,将这些值作为参数,还原器函数输出一个更新后的客户配置文件,并将本地事件合并到这个客户配置文件中。
Web服务预测阶段(9至10):应用程序向客户流失预测的互联网服务产品发出请求,将第8步骤中的有效载荷提供给更新后的客户配置文件。然后,互联网服务产品可以使用载荷提供的信息生成预测并将其值输出给应用程序。
技术
函数


容器
笔记簿
应用程序内部
需要综合考虑的几点
模型的复杂度
数据来源
实验框架
小结
-
*作者:Julien Kervizic
*文章来源: 数据派THU


