大数跨境
0
0

从结构化到多模态,AI 时代如何利用多模态数据智能中台激活业务价值?

从结构化到多模态,AI 时代如何利用多模态数据智能中台激活业务价值? 袋鼠云 DTSTACK
2025-11-13
0
导读:近日,AI“顶流”学者李飞飞的最新长文《从语言到世界:空间智能是人工智能的下一个前沿》刷屏时,整个科技圈再次

近日,AI“顶流”学者李飞飞的最新长文《从语言到世界:空间智能是人工智能的下一个前沿》刷屏时,整个科技圈再次被“升维”的焦虑击中。她指出,AI的下一个前沿是“空间智能”——让AI真正理解和交互物理世界。她将其称为“世界模型”(World Models),并强调了其三大核心能力:生成性、交互性,以及至关重要的多模态性

而在企业数字化与智能化落地的场景中,这种多模态能力正是实现AI价值的关键前提。企业的数据不仅限于文本或结构化报表,还包括图像、视频、传感器数据等多种形式,呈现出天然的多模态特征。传统的数据平台往往难以统一管理和高效利用这些异构数据,限制了AI应用的深度和广度。本文将深入探讨企业在AI时代面临的数据挑战,并结合袋鼠云的实践,解析如何通过构建从大数据底座平台到多模态数据中台,真正激活企业的数据应用业务价值。

企业级 AI 应用挑战

大模型时代的到来,推动了AI应用的百花齐放,从生成视频、图片、PPT到智能会议和Chatbot等场景,都依赖数据作为底层支撑。然而,企业级AI应用面临多重挑战,这些问题源于数据从结构化向多模态的演变,以及传统数据平台的局限性。

首先,数据规模与模态的爆炸式变化是核心痛点。传统数据主要以结构化形式存在(如表格、数据库),但AI时代要求数据从稳定增长转向爆炸增长,从单模态转向多模态(包括图片、视频、音频、文档等)。例如,在汽车行业,车辆信息表、传感器日志和高精地图矢量等数据并存;在电商领域,用户评论、商品图片和直播视频混合使用。这种多模态数据导致数据关联性从独立转向结构化关联,实时性从离线处理转向动态实时,安全性从弱管控转向强管控。同时,数据质量要求从准确完整转向真实高覆盖,企业需处理海量非结构化数据,但传统平台难以统一采集和存储,导致数据孤岛问题加剧。

其次,隐性知识未沉淀和效率瓶颈制约AI落地。企业内部存在大量“Know-how”,如资深工程师的故障排查经验或销售专家的沟通技巧,这些知识往往未被系统记录,导致AI训练数据不完整。传统BI工具依赖固定报表,无法满足敏捷、即时洞察需求,用户需跨系统调取数据,分析效率低下。此外,资源管理挑战突出:数据分散在关系型数据库、文件服务器和对象存储中,开发平台分离(结构化用离线/实时平台,非结构化用算法平台),上手门槛高,权限管理不统一,引发安全风险。

最后,政策与技术兼容性问题凸显。国家政策如《“数据要素×”三年行动计划》强调数据要素的放大作用,但企业面临国产信创要求(如兼容麒麟、统信OS和达梦数据库),原有Hadoop集群迁移复杂,AI算法与国产硬件适配难。这些挑战如果未解决,将阻碍AI从模型训练上半场转向真实场景评估下半场,企业难以实现数据驱动的智能化转型。

袋鼠云多模态数据智能中台设计理念与架构

面对挑战,袋鼠云的解法是构建一个“Data + Compute + Intelligence 一体化” 的AI Ready数据底座 。这个底座的演进分为两个核心阶段:首先是构建坚实的新一代国产化大数据底座平台(EasyMR),其次是实现AI的数据全面Ready的DataZen多模态数据中台。

EasyMR: 新一代国产化大数据底座平台

EasyMR是袋鼠云构建的面向未来的国产化AI数据底座平台 ,其核心是“1+4”全新产品矩阵 ,旨在解决最基础的存算、运维和国产化适配问题。

(1)1个管理平台:EasyManager,提供从安装部署、集群运维、监控告警到集群迁移的全栈式大数据运维管理 
(2)4大核心能力:
  • EasyMR for AI Storage:提供湖仓一体智能存储 ,包含HDFS分布式文件系统 和Hbase高并发查询等 
  • EasyMR for MQ (Kafka):提供实时流式数据能力 ,支持高吞吐、低延迟的数据传输 
  • EasyMR for MPP:提供高性能实时分析 ,集成了StarRocks 和Doris等引擎。
  • 大数据基础平台:包含Hive 、Spark 、Flink 等批计算和流计算引擎。

EasyMR的突出优势在于其自主可控全面的信创兼容。它全面适配国产处理器(如鲲鹏、飞腾、海光) ,国产操作系统(如麒麟、统信UOS、龙蜥、openEuler) 及国产数据库(如达梦、人大金仓) 

在安全体系上,EasyMR构建了可信、可控、可审计的底座 ,采用零信任防护层 ,基于Ranger实现库、表、行、列级的细粒度权限管控 ,并支持多级加密体系,全面兼容国密算法 

阶段二:DataZen多模态数据中台 - 实现AI的数据全面Ready

EasyMR解决了“地基”问题,而多模态数据中台则是在此之上构建的“大厦”,其核心理念是实现所有模态数据的三大统一 

  • 统一数据集成

  • 统一数据开发

  • 统一数据资产管理

其产品架构涵盖了从多模态数据源 (结构化 、半结构化 、非结构化 ),经过统一的数据存储(HDFS 、MinIO S3 、Milvus )和多算力引擎(Spark 、Flink 、PyTorch/Ray ),到统一的数据开发层 、数据资产层 和最终的智能应用 。

从EasyMR大数据底座平台到DataZen多模态数据中台的关键能力

从EasyMR演进到DataZen多模态数据中台,袋鼠云构建了三大核心能力,以满足AI时代的需求。

关键能力一:多模态数据统一对接采集存储

平台具备对接全域数据源的能力,无论是关系型数据库(RDB)、文档(PDF, Word)、图片、视频还是网页 和IoT设备 。

数据入库流程被统一重构:通过离线同步、实时采集或本地上传后,平台自动进行文件解析 、文件拆分和向量化 ,最终存入对应的向量数据库(Milvus)、对象存储(MinIO)或数据存储(HDFS)中。

关键能力二:多模态数据统一融合处理

这是平台的核心亮点 。袋鼠云实现了在一个平台、一个工作流中,完成跨模态任务的关联及数据融合开发 。

① 一站式开发:如图所示,用户可以在一个DAG(有向无环图)中,将处理结构化数据的Spark SQL节点、处理文档的PDF解析节点、处理图像的图片解析节点和处理视频的视频解析节点进行混编 
② 丰富算子内置:平台内置了大量针对多模态数据的处理算子(Operator) 。例如:
  • Document/Text:doc_normalizer (文本规范化), language_filter (语言过滤), minhash_deduplicator (MinHash近邻去重)。
  • Image:image_face_blur_mapper (人脸模糊隐私保护), image_aesthetics_filter (低美学评分图片过滤), image_deduplicator (感知哈希去重)。
  • Video:video_duration_filter (过滤过长或过短视频), video_captioning_from_frames_mapper (视频帧抽帧生成文字描述)。
③ CPU+GPU混合调度:传统的结构化数据处理(如Spark SQL)使用CPU,而文档解析、图像识别、视频抽帧等AI任务则需要GPU。平台支持单个任务按需同时指定CPU和GPU的用量,实现异构资源的灵活调度 

关键能力三:统一数据资产管理与安全保障

数据入库和开发后,平台会形成统一的多模态数据资产 

  • 统一元数据:对结构化(库、表)和非结构化(文件、目录)的元数据进行统一存储 、统一向量化 、统一编目打标和统一血缘追溯 。

  • 统一安全:实现统一的数据安全保障 。支持租户级的数据隔离 ,并能对结构化数据的“表/行/列” 和非结构化数据的“文件/目录” 进行统一的、细粒度的权限管控。

多模态数据智能中台主要应用场景与案例分析

“EMR大数据底座平台+DataZen多模态数据中台”,为上层AI应用提供了坚实的支撑。

场景一:制造业 - 电池质量追溯与用户画像

某大型制造业企业拥有20+PB数据,其中非结构化数据(车载传感器视频图像、技术文档等)占比高达74% 

①痛点:数据彼此不互通,跨系统调取导致分析效率低下 ;用户营销分析仅依赖结构化数据,维度单一 
②解决方案:构建多模态数据智能中台 ,打通了MES、ERP等结构化数据 ,与车辆传感器的时序数据 、视频图像 以及社媒数据 、产品文档等。
③业务价值:
  • 效率提升:质量问题追溯时效从6小时/案例缩短至15分钟/案例,效率提升96%。数据关联分析耗时从3天(跨5个系统)缩短至30分钟(一站式平台) 
  • 业务增收:通过视频+时序数据关联分析,发现某型号电芯的装配压力参数异常,使电池生产良率提升2.3%(年节省成本900万) 。通过语音情绪分析识别高焦虑用户,客诉率下降40%

场景二:银行业 - 贷款风控多模态审核

在银行贷款风控场景中 ,多模态中台发挥了关键作用:

  • 合同(PDF):通过文本抽取(OCR) 和结构化提取 ,解析出借款人姓名、金额、利率等 
  • 身份证(Image):通过OCR识别姓名、身份证号 
  • 现场视频(Video):通过语音识别(ASR)转录客户回答 ;通过关键帧抽取和人脸对比 ,验证“人证合一”。
  • 征信(DB):调用Python节点,按身份证号查询征信数据  最终,所有模态的数据被整合成一份统一的客户风险画像 ,实现高效、精准的风控。

场景三:高校 - “AIMetrics智能指标”实现数据驱动决策

某高校通过建设数据治理、指标体系与AI智能问数能力 ,实现了管理模式的转型。

业务价值:
  • 管理效能:实现了从“经验驱动”到“数据驱动”的转型 ,跨部门协作效率提升50%,管理人员工作效率提升30%以上 。
  • 服务体验:服务响应时间缩短40%,自助服务比例提升45%
  • 资源配置:教学资源利用率提升20%,科研经费效益提升15%

场景四:AI 辅助数据开发与报告生成

平台还提供AI Copilot能力,直接赋能数据开发者和分析师。

  • AI辅助开发:在开发平台中 ,AI可基于元数据和知识库 ,提供智能SQL生成、SQL解释、SQL优化和日志智能诊断 。
  • AI文档助手:提升报告生成效率 。用户只需上传一份历史文档(如月报)作为模板 ,AI会自动将其中的指标内容标记 ,归档为模板并构建指标SQL ,分析师下载新文档时,AI会自动取数并重新生成最新的文档 。

数据赋能 AI数智应用:利用AIWorks打造智能体应用

如果说多模态数据中台是“备料”,那么袋鼠云自研的AIWorks智能体应用平台 则是“烹饪”的过程,它负责将数据激活为智能应用 。AIWorks的核心是重构产品交互逻辑,推动产品从“点击式界面”向“自然语言交互” 、从“单向工具”向“人机协同” 、从“硬编码规则”向“智能决策” 转变。

AIWorks 平台重点功能

AIWorks 是一个低代码与模型编排平台 ,其核心功能包括:

  • 可视化与低代码编排:用户无需编写复杂代码,通过拖拽、连接组件的方式,即可像搭积木一样构建复杂的AI工作流 
  • 灵活的模型与数据源集成:平台内置插件,可无缝对接多种大模型(如GPT、DeepSeek、通义千问 )和企业内部数据源(数据库、数据湖等) 
  • 强大的工作流调度与管理:内置工作流引擎,负责任务调度、编排 ,支持出错重试 、并行执行 、条件判断 等复杂逻辑。
  • 可观测性与持续迭代:平台提供全面的可观测性能力,包括日志记录 、指标监控 和链路追踪 ,确保应用稳定和持续优化。

智能体应用:AIMetrics智能指标问数与分析场景

智能问数与分析作为企业级AI应用的标杆场景,助力企业重新定义数据使用体验!

①功能特性:
  • 精准识别:借助大模型理解自然语言提问,支持上下文追问与修正
  • 自动分析:自动生成可视化图表,并一键生成数据解读、特征洞察和异常校验
  • 随处访问:支持PC、移动端及钉钉、企微等多平台
  • 企业级安全:支持私有化部署,数据不出域,并复用数据平台的权限管控
②原理解析:
  • 用户发起查询(Query)
  • 系统进行Query改写(Query Rewrite) ,并进行意图识别
  • RAG检索:系统从“指标元信息知识库” 和“资料知识库” 中检索相关信息。
  • 参数解析:AI解析出“指标名称”、“时间维度”、“维度字段”和“维度值” 
  • 数据查询:调用数据引擎 ,执行数据查询 (经过权限校验 )。
  • 结果生成:根据需要展示图表 或进行归因分析 ,最终返回Result 
③四大核心场景:
  • 智能问数与秒级响应:用户以自然语言提问,系统基于指标语义层快速识别意图,生成可视化分析结果,真正实现“所想即所得”。相比传统的数据排队分析,业务决策响应效率提升一个量级。
  • 指标波动监测与根因分析:指标波动自动触发预警,通过AI与知识图谱辅助识别异常原因。平台支持时间序列与多维归因能力,实现问题定位从“被动响应”向“主动识别”演进。
  • 趋势预测与智能目标管理:平台支持结合结构化数据与非结构化语料进行多粒度、多模型的指标预测,并与目标管理闭环结合,实现动态评估、策略调优、结果跟踪。
  • 智能指标知识库管理:融合指标定义与多模态的业务知识构建知识图谱,支持AI在回答时同步调取组织语义与历史策略,不仅提升理解准确率,也实现知识经验的持续沉淀与复用。

在AI时代的浪潮下,企业构建智能应用已不是“是否要做”的问题,而是“如何做好”的挑战。袋鼠云提供的“Data+AI”融合架构 给出了一条清晰的路径:

  •  EasyMR 为基石 ,解决大数据底座平台的自主可控、国产信创兼容和稳定运维问题。
  • DataZen多模态数据中台,通过“三大统一” 将结构化、半结构化乃至视频、图像、文档等非结构化数据全面“AI-Ready”。
  • 利用 AIWorks 智能体开发应用平台作为“激活器”,通过低代码编排和模型调度能力 ,将沉睡的数据转化为智能问数、风控审核、AI Copilot等高价值智能体应用。
  • 垂直应用深耕例如AIMetrics智能指标应用平台,“指标+AI”将不仅是一个抽象概念,更是一套具备工程落地路径、行业Know-how、智能协同能力的完整体系。它打通了数据治理与智能应用的闭环,将“指标”作为AI理解企业业务的语义底座,将“AI”作为指标能力释放与组织协同的加速器,从实践中可以看到“指标+AI”都已经展现出其穿透式、结构化的解决力。

从坚实的数据底座,到包罗万象的多模态中台,再到敏捷的智能体应用,这一整套解决方案正在帮助企业构筑AI时代的真正护城河 ,驱动业务实现智能跃迁。

【声明】内容源于网络
0
0
袋鼠云 DTSTACK
袋鼠云官方服务号。袋鼠云,领先的数字化基础软件与应用服务商,提供云原生数据中台、数字孪生和可观测运维等业务,提供一站式全生命周期大数据产品和服务,助力产业数字化转型,让数据产生价值。
内容 319
粉丝 0
袋鼠云 DTSTACK 袋鼠云官方服务号。袋鼠云,领先的数字化基础软件与应用服务商,提供云原生数据中台、数字孪生和可观测运维等业务,提供一站式全生命周期大数据产品和服务,助力产业数字化转型,让数据产生价值。
总阅读50
粉丝0
内容319