

传统数据开发困境与EasyData离线开发解决方案

网易数帆学堂

2025-11-15

导读：产品及解决方案咨询：0571-89926330

传统数据开发的技术架构多呈现紧耦合、封闭式特征，企业内部不同时期搭建的业务系统基于异构技术栈与数据库构建，形成 “数据烟囱” 式布局。例如金融机构的核心交易系统、客户管理系统往往分别基于 Oracle、MySQL 搭建，协议不兼容导致数据交互需定制化开发适配，跨系统数据整合效率低下。

架构扩展性不足的问题在数据量指数级增长时尤为突出。传统架构依赖垂直扩容模式，当业务数据从 TB 级跃升至 PB 级时，存储与计算资源无法弹性伸缩，导致数据处理延迟从小时级延长至天级，直接影响业务决策时效。

数据集成面临 “来源碎片化、格式多样化、质量差异化” 三重挑战。企业数据分散于关系型数据库、日志文件、物联网传感器等数十种数据源，不仅存在结构化与非结构化数据格式差异，还面临 API 接口、传输协议不统一的适配难题。

数据质量管控更显被动。传统模式缺乏全链路质量监控，数据源常存在缺失值、重复值、逻辑冲突等问题，且需依赖人工事后校验。比如EasyData的某个证券公司客户在未进行数据治理前，上千张业务表格中存在 30% 的字段定义冲突，导致监管报送数据反复修正，合规成本激增 30%。

传统数据开发流程呈线性割裂状态，从需求分析、数据采集到模型部署需历经多环节手工衔接，跨角色协同依赖线下沟通，某银行的数据模型发布周期曾长达 7 天。环节间的信息断层极易引发需求偏差，某电商企业曾因开发与业务部门对 “用户活跃” 定义不一致，导致数据分析成果返工，浪费 2 周人力成本。

开发工具的智能化缺失进一步制约效率。多数团队依赖纯手工编码完成数据处理，复杂 SQL 编写需反复调试，且缺乏逻辑校验机制。

传统数据开发缺乏内嵌于流程的治理机制，数据从产生到应用的全链路质量管控断层。数据经多系统流转时，字段篡改、精度丢失等问题难以实时察觉，某医疗机构曾因检验数据传输过程中的精度偏差，导致临床分析结论失真。

数据质量缺陷直接传导至决策层面。比如某畜牧业客户因生产数据不准确，影响养殖周期预判与成本控制。

EasyData数据开发治理平台，是网易大数据开发与数据治理实践经验的积累，是一站式大数据开发及治理平台。在沉淀网易大数据建设方法论的基础之上，EasyData大数据生产力平台支撑数据中台建设，同时与政务、央国企、金融、零售、互联网、能源、制造、工业等行业的客户携手，不断提升数据应用效率，助力产业数字化升级。

经过9年多的时间，结合450+客户的经验沉淀，EasyData形成了“先设计，后开发，先标准，后建模”的设计理念，通过各子产品充分配合协同，可以有效解决传统数据开发困境，让数据处理过程从容。

针对数据处理的各个环节，离线开发子产品是使用最高频，最重要的产品之一，本文将进行离线开发子产品的相关介绍。

EasyData 离线开发以 DataOps 为核心方法论，构建 “编码 - 编排 - 测试 - 代码审查 - 发布审核 - 部署上线” 六阶段全生命周期闭环，成为首家通过信通院 DataOps 系统工具四项全能力评估的产品。

1）编码阶段

主要完成任务代码的的编写工作，支持丰富的节点，比如最常用的Hive SQL。以及离线同步、Spark、Python、Shell、Perl、MR等，可以满足更多数据开发场景。同时，也支持轮询节点、选择节点、嵌套流、触发器节点，满足更多复杂场景。

轮询节点：支持分钟执行数据查询能力，根据返回结果判断是否符合预期，符合条件时，才执行下游。比如用于数据传输上游数据准备完成判断等。
选择节点：支持根据上游各节点的执行情况选择执行下游哪些节点。比如基于上游的执行失败或成功状态，或者具体的产出数据，进行分支路由。
嵌套流：可以选择嵌套一个已经提交上线的任务，将其作为本工作流的一个节点运行。比如任务加工链路极其复杂，则可以进行任务拆解，将部分逻辑摘录出来，形成一个独立的任务，再通过嵌套流节点引用进来。
触发器节点：外部系统可以发送一个任务成功信号，本平台接收到信号后，可将触发器节点状态设置为成功，从而实现跨平台间的任务依赖。

此外，编码阶段，也支持参数组、资源组。

参数组：一般用于将一些常用的参数，统一配置成一个参数组，供离线开发、数据传输、实时开发、数据质量中心等产品使用，实现一份参数配置被多个任务使用的功能。同时，当相应的参数需要增删改时，可以同时生效到所有引用该参数组的任务。
资源组：一般用于将平台的公共资源，如jar、sh等文件，统一配置成一个资源组，供离线开发的任务引用使用，实现一份资源被多个任务使用的功能。同时，当相应的资源需要修改或替换时，可以同时生效到所有引用该资源组的任务。

2）编排阶段

平台支持在一个任务内创建多个节点，节点间通过连线构建节点间依赖关系，也即节点的执行顺序。在一个任务中，使用者可以按需组合使用不同类型的节点，完成数据加工处理。

同时，任务之间也支持配置依赖关系，构件更加复杂的任务处理流程。在构建任务之间的关系时，支持智能依赖推荐。系统会基于当前任务的输入表信息，自动获取输入表的产出任务（基于上游任务的执行结果进行解析得到输入输出关系），并进行依赖推荐。

特别地，针对有些场景，数据表的输入输出是采用python等代码处理，系统无法动态解析获取到，此时可以通过节点那配置自定义血缘，在节点运行后，自动完成血缘推送，从而补充表输出输出血缘关系，同时可为下游智能推荐提供数据。

3）测试阶段

该阶段，主要是数据开发人员相关测试，包括代码和数据。

在代码测试方面，支持在提交上线时进行代码扫描和卡点校验。支持在“离线开发配置”中设置中代码扫描的规则，包括代码规范类、代码性能类、代码质量类、语法检查等。每一条规则，支持设置为强规则或弱规则，如果被扫描到的规则是强规则，将阻断提交；是弱规则，则会仅作提醒。目前支持Hive SQL，Doris，StarRocks。

在数据测试方面，可以使用数据质量中心的数据比对和形态探查功能。

形态探查功能支持对Hive、MySQL、Oracle、SQLServer、StarRocks、Diors表进行数据形态探查。一般可用于新接入的源头表或者对新加工出来的数据进行探查，了解数据整体情况。也可以通过该功能，发现数据的潜在的问题，比如主键唯一性、字段空值、非常规字段值等等。

数据比对功能可对两个表进行逐字段级别的比对，一般用于当重要表的加工逻辑调整后或者模型重构后，为了确保加工出来的新数据和原有数据的一致性，需要和原有数据进行比对。支持逐字段级进行比较，并输出表级和字段级的不一致率数据，以及差异明细。目前支持hive表之间比对，以及MySQL、Oracle、SQLServer、Greenplum、StarRocks、Doris数据源与hive数据比对。也支持同数据源下StarRocks表和Diors表之间比对。

4）代码审查&发布审核阶段

这2个阶段，主要进行代码和配置层面的审查工作。

通过平台的强制审批机制，可以特定目录下的任务在特定时间窗口提交上线时，需要有1-2位人员进行审批。使用者可按需设置，比如设置代码审查和QA，一个负责验证代码，一个负责验证结果。

如下图，为设置强制走工单审批的页面。

如下图，为任务提交上线的页面，任务提示需要进行工单审批。

如下图，为工单系统中的通知，审批者可快速跳转查看提交上线报告和版本比较内容。在版本比对中，可查看当前提交的代码和线上版本的代码比对情况。

AI 技术贯穿数据开发和运维的全流程，通过打造EasyCopilot，让数据开发都能高效、高质量地完成数据处理。

数据标准，支持元数据的快速分词和词根快速翻译，助力后续模型设计的规范化。
离线开发，通过SQL Copilot，支持代码生成、代码解释、代码纠错、代码补全等能力，让SQL开发游刃有余。
数据资产中心，AI找数，换一种方式找数据，告别大海捞针。
安全中心，数据安全等级扫描，更快更准确。
数据质量中心，基于元数据快速推荐质量监控规则，大幅提升数据质量监控比例。
任务运维，让密密麻麻又看不懂的报错转成小白都能看懂的总结，还能贴心给出处理建议。
通用问答，数据开发路上的副驾驶，有什么问题都可以问答（开发通用问题、函数使用、平台使用手册等）。

EasyData 离线开发通过 “架构革新、流程优化、智能赋能” 三重路径，针对性破解传统数据开发的核心难题：逻辑数据湖打破异构隔离，使数据流通效率提升一倍以上；DataOps 流水线将开发周期缩短 30%；开发治理一体化使数据质量问题减少 80%。在金融、制造、水利等多行业的实践中，产品已展现显著价值。

智能能力进阶：持续升级EasyCopilot能力，在数据开发各个环节引入和加强AI能力，提升数据开发效率和质量。
架构融合创新：在数据底座对接上，扩展更多数据底座对接，加强已有数据底座深度对接（CDH、CDP等），以及对Doris、StarRocks的全链路深度适配
信创生态完善：持续适配国产软硬件体系，构建从芯片到应用的全栈信创解决方案，助力国央企数字化转型安全合规落地。