京东零售实时计算的现状
实时计算框架
场景优化:
TopN
场景优化:动线分析
场景优化:FLINK 一站式机器学习
京东零售实时计算的现状
1.1 现状
-
技术门槛高、学习成本大、开发周期长。行业内实时开发能力只有少数人能够掌握的现状; -
数据开发迭代效率比较低,重复逻辑反复的开发缺少复用;
-
测试运维难,复杂业务逻辑难以局部测试。
-
降本增效、节省人力,助力高效开发; -
多角色数据开发,不同角色对应不同的开发方式,非数据人员也能做数据开发的工作。
1.3 目标
-
降低数据开发门槛,通过标准化积木式的开发,实现低代码配置化数据加工,进一步实现图形化清晰表达数据流转; -
通过算子库组件的沉淀,提升开发效率,提高复用性,一站式加工; -
通过单元测试以及沉淀用例,提高开发质量。
实时计算框架
2.1 为什么做数据流框架
-
数据流框架:9N-Tamias/9N-Combustor,数据流框架基于计算引擎之上,提供一种易用高效的数据开发方式,包括:tamias,是基于 Flink 的引擎的开发框架;combustor:基于 Spark 引擎的开发框架。基于 9N-Tamias 和 9N-Combustor 提供数据流开发工具; -
支持实时离线统一的表达; -
多种使用方式:图形化、配置化、SDK 等; -
算子、组件复用:数据流算子、转换算子、自定义算子、目标源算子,灵活的组合,沉淀常用的算子组合,组件化包括数据流组件和自定义组件,通过数据流开发沉淀数据流组件,同时也开放自主开发自定义组件方式,通过算子、组件的复用,提高开发效率。

2.2 怎么做实时计算框架?

2.3 实时框架:公用 Ops 和 Function

场景优化:TopN
3.1 复用算子

3.2 任务优化
场景优化:动线分析
4.1 什么是动线
4.2 数据建模

4.3 模型建模

场景优化:FLINK 一站式机器学习

5.1 特征


5.3 模型 online learning

5.4 预估

往期精选
点击「阅读原文」,查看更多技术内容~





