传统数据开发的技术架构多呈现紧耦合、封闭式特征,企业内部不同时期搭建的业务系统基于异构技术栈与数据库构建,形成 “数据烟囱” 式布局。例如金融机构的核心交易系统、客户管理系统往往分别基于 Oracle、MySQL 搭建,协议不兼容导致数据交互需定制化开发适配,跨系统数据整合效率低下。
架构扩展性不足的问题在数据量指数级增长时尤为突出。传统架构依赖垂直扩容模式,当业务数据从 TB 级跃升至 PB 级时,存储与计算资源无法弹性伸缩,导致数据处理延迟从小时级延长至天级,直接影响业务决策时效。
数据集成面临 “来源碎片化、格式多样化、质量差异化” 三重挑战。企业数据分散于关系型数据库、日志文件、物联网传感器等数十种数据源,不仅存在结构化与非结构化数据格式差异,还面临 API 接口、传输协议不统一的适配难题。
数据质量管控更显被动。传统模式缺乏全链路质量监控,数据源常存在缺失值、重复值、逻辑冲突等问题,且需依赖人工事后校验。比如EasyData的某个证券公司客户在未进行数据治理前,上千张业务表格中存在 30% 的字段定义冲突,导致监管报送数据反复修正,合规成本激增 30%。
传统数据开发流程呈线性割裂状态,从需求分析、数据采集到模型部署需历经多环节手工衔接,跨角色协同依赖线下沟通,某银行的数据模型发布周期曾长达 7 天。环节间的信息断层极易引发需求偏差,某电商企业曾因开发与业务部门对 “用户活跃” 定义不一致,导致数据分析成果返工,浪费 2 周人力成本。
开发工具的智能化缺失进一步制约效率。多数团队依赖纯手工编码完成数据处理,复杂 SQL 编写需反复调试,且缺乏逻辑校验机制。
传统数据开发缺乏内嵌于流程的治理机制,数据从产生到应用的全链路质量管控断层。数据经多系统流转时,字段篡改、精度丢失等问题难以实时察觉,某医疗机构曾因检验数据传输过程中的精度偏差,导致临床分析结论失真。
数据质量缺陷直接传导至决策层面。比如某畜牧业客户因生产数据不准确,影响养殖周期预判与成本控制。
EasyData数据开发治理平台,是网易大数据开发与数据治理实践经验的积累,是一站式大数据开发及治理平台。在沉淀网易大数据建设方法论的基础之上,EasyData大数据生产力平台支撑数据中台建设,同时与政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手,不断提升数据应用效率,助力产业数字化升级。
经过9年多的时间,结合450+客户的经验沉淀,EasyData形成了“先设计,后开发,先标准,后建模”的设计理念,通过各子产品充分配合协同,可以有效解决传统数据开发困境,让数据处理过程从容。
针对数据处理的各个环节,离线开发子产品是使用最高频,最重要的产品之一,本文将进行离线开发子产品的相关介绍。
EasyData 离线开发以 DataOps 为核心方法论,构建 “编码 - 编排 - 测试 - 代码审查 - 发布审核 - 部署上线” 六阶段全生命周期闭环,成为首家通过信通院 DataOps 系统工具四项全能力评估的产品。
1)编码阶段
主要完成任务代码的的编写工作,支持丰富的节点,比如最常用的Hive SQL。以及离线同步、Spark、Python、Shell、Perl、MR等,可以满足更多数据开发场景。同时,也支持轮询节点、选择节点、嵌套流、触发器节点,满足更多复杂场景。
轮询节点:支持分钟执行数据查询能力,根据返回结果判断是否符合预期,符合条件时,才执行下游。比如用于数据传输上游数据准备完成判断等。
选择节点:支持根据上游各节点的执行情况选择执行下游哪些节点。比如基于上游的执行失败或成功状态,或者具体的产出数据,进行分支路由。
嵌套流:可以选择嵌套一个已经提交上线的任务,将其作为本工作流的一个节点运行。比如任务加工链路极其复杂,则可以进行任务拆解,将部分逻辑摘录出来,形成一个独立的任务,再通过嵌套流节点引用进来。
触发器节点:外部系统可以发送一个任务成功信号,本平台接收到信号后,可将触发器节点状态设置为成功,从而实现跨平台间的任务依赖。
此外,编码阶段,也支持参数组、资源组。
参数组:一般用于将一些常用的参数,统一配置成一个参数组,供离线开发、数据传输、实时开发、数据质量中心等产品使用,实现一份参数配置被多个任务使用的功能。同时,当相应的参数需要增删改时,可以同时生效到所有引用该参数组的任务。
资源组:一般用于将平台的公共资源,如jar、sh等文件,统一配置成一个资源组,供离线开发的任务引用使用,实现一份资源被多个任务使用的功能。同时,当相应的资源需要修改或替换时,可以同时生效到所有引用该资源组的任务。
2)编排阶段
平台支持在一个任务内创建多个节点,节点间通过连线构建节点间依赖关系,也即节点的执行顺序。在一个任务中,使用者可以按需组合使用不同类型的节点,完成数据加工处理。
同时,任务之间也支持配置依赖关系,构件更加复杂的任务处理流程。在构建任务之间的关系时,支持智能依赖推荐。系统会基于当前任务的输入表信息,自动获取输入表的产出任务(基于上游任务的执行结果进行解析得到输入输出关系),并进行依赖推荐。
特别地,针对有些场景,数据表的输入输出是采用python等代码处理,系统无法动态解析获取到,此时可以通过节点那配置自定义血缘,在节点运行后,自动完成血缘推送,从而补充表输出输出血缘关系,同时可为下游智能推荐提供数据。
3)测试阶段
该阶段,主要是数据开发人员相关测试,包括代码和数据。
在代码测试方面,支持在提交上线时进行代码扫描和卡点校验。支持在“离线开发配置”中设置中代码扫描的规则,包括代码规范类、代码性能类、代码质量类、语法检查等。每一条规则,支持设置为强规则或弱规则,如果被扫描到的规则是强规则,将阻断提交;是弱规则,则会仅作提醒。目前支持Hive SQL,Doris,StarRocks。
在数据测试方面,可以使用数据质量中心的数据比对和形态探查功能。
形态探查功能支持对Hive、MySQL、Oracle、SQLServer、StarRocks、Diors表进行数据形态探查。一般可用于新接入的源头表或者对新加工出来的数据进行探查,了解数据整体情况。也可以通过该功能,发现数据的潜在的问题,比如主键唯一性、字段空值、非常规字段值等等。
数据比对功能可对两个表进行逐字段级别的比对,一般用于当重要表的加工逻辑调整后或者模型重构后,为了确保加工出来的新数据和原有数据的一致性,需要和原有数据进行比对。 支持逐字段级进行比较,并输出表级和字段级的不一致率数据,以及差异明细。目前支持hive表之间比对,以及MySQL、Oracle、SQLServer、Greenplum、StarRocks、Doris数据源与hive数据比对。也支持同数据源下StarRocks表和Diors表之间比对。
4)代码审查&发布审核阶段
这2个阶段,主要进行代码和配置层面的审查工作。
通过平台的强制审批机制,可以特定目录下的任务在特定时间窗口提交上线时,需要有1-2位人员进行审批。使用者可按需设置,比如设置代码审查和QA,一个负责验证代码,一个负责验证结果。
如下图,为设置强制走工单审批的页面。
如下图,为任务提交上线的页面,任务提示需要进行工单审批。
如下图,为工单系统中的通知,审批者可快速跳转查看提交上线报告和版本比较内容。在版本比对中,可查看当前提交的代码和线上版本的代码比对情况。
AI 技术贯穿数据开发和运维的全流程,通过打造EasyCopilot,让数据开发都能高效、高质量地完成数据处理。
数据标准,支持元数据的快速分词和词根快速翻译,助力后续模型设计的规范化。
离线开发,通过SQL Copilot,支持代码生成、代码解释、代码纠错、代码补全等能力,让SQL开发游刃有余。
数据资产中心,AI找数,换一种方式找数据,告别大海捞针。
安全中心,数据安全等级扫描,更快更准确。
数据质量中心,基于元数据快速推荐质量监控规则,大幅提升数据质量监控比例。
任务运维,让密密麻麻又看不懂的报错转成小白都能看懂的总结,还能贴心给出处理建议。
通用问答,数据开发路上的副驾驶,有什么问题都可以问答(开发通用问题、函数使用、平台使用手册等)。
EasyData 离线开发通过 “架构革新、流程优化、智能赋能” 三重路径,针对性破解传统数据开发的核心难题:逻辑数据湖打破异构隔离,使数据流通效率提升 一倍以上;DataOps 流水线将开发周期缩短 30%;开发治理一体化使数据质量问题减少 80%。在金融、制造、水利等多行业的实践中,产品已展现显著价值。
智能能力进阶:持续升级EasyCopilot能力,在数据开发各个环节引入和加强AI能力,提升数据开发效率和质量。
架构融合创新:在数据底座对接上,扩展更多数据底座对接,加强已有数据底座深度对接(CDH、CDP等),以及对Doris、StarRocks的全链路深度适配
信创生态完善:持续适配国产软硬件体系,构建从芯片到应用的全栈信创解决方案,助力国央企数字化转型安全合规落地。
网易数帆 EasyData 离线开发正推动数据开发从 “人工密集型” 向 “智能驱动型” 转型,未来将通过技术创新与场景深耕,进一步释放数据资产价值,助力企业构建数智竞争力。

