2022 年 12 月 16 日,由星策开源社区主办、思否社区协办的首届“ 星策 Summit ” 落下帷幕。峰会中,来自企业智能化转型、MLOps 与 FeatureStore 等领域的企业管理层、CTO、CEO、AI 工程师与开发者们齐聚一堂,分享 AI 前沿创新技术与 AI 新浪潮。
1
训练数据平台的起源
刘世林博士首先介绍了 Xtreme1 平台的起源与初衷。UBS 的一份研究报告指出,AI 工程师花费了 70%-90% 的时间在训练数据的处理与准备上。作为集数据治理、本体中心、模型集成等能力的新一代训练数据平台,Xtreme1 针对 AI 研发过程中数据漂移、数据成本上升等痛点提出了解决方案。

图 1|AI 研发中的新痛点
2
Xtreme1 亮点展示
Xtreme1 的使命是构建最容易触达的开源 Data-Centric MLOps 基础设施,以连接人、模型和数据。第二个部分中,刘博士依次展示了 Xtreme1 平台的四个亮点,分别是:本体中心、标注套件、数据治理与模型集成。
Xtreme1 本体中心 - Xtreme1 首次引入本体(Ontology)来穿透不同 AI 客户的问题抽象,以实现更易于共享、融合、推荐的子问题定义,从而加速模型的开发进程。使用本体可以推进标注方案的标准化建设,也可以实现更高效的数据集管理,尤其是跨数据集的搜索与管理,通过数据集的过滤高效创建新的数据集。
Xtreme1 标注套件 - 在介绍 Xtreme1 标注套件的亮点时,刘世林博士对 Xtreme1 标注套件的几个特色功能进行了演示:分别是预训练模型帮助下的单帧批量自动化识别、3D 目标跟踪、参数调整、标注框自动收敛与全新的工作流管理功能。

Xtreme1 数据治理 - 随着 AI 对训练数据的质量要求不断上升,评价尺度也更加多样化,对工具的建设也提出了更高的要求。因此,Xtreme1 平台对于数据治理规划了一系列特色功能。其中数据可视化方面,Xtreme1 平台的一个可视化工具可以便捷地进行结果审阅。用户可以自由切换不同视角、传感器数据。这一功能不仅可以服务于数据标注的数据质检环节,还可以极大地帮助算法工程师进行定位、评测模型在数据预测上的效果。
3
平台建设中的技术挑战与应对策略
在第三部分,刘博士分享了 Xtreme1 平台建设过程中遇到的技术挑战与应对策略,包括 Xtreme1 如何进行技术架构、如何处理结构化数据与非结构化数据的存储、平台的资源管理解决方案、异步计算解决方案以及监控与日志的解决方案。

4
未来的规划与设想
源于开源,拥抱开源。Xtreme1 相信开源是实现快速打造 Data-Centric MLOps 的路径,Xtreme1 于 2022 年 9 月正式开源,开源功能包括训练数据平台的底座,以及图像与点云机器视觉场景的工具支持。2023 年,Xtreme1 将推出更多开发者友好的工具,比如 SDK 支持、开放 API 以及完善更多的数据类型支持,如文本、语音及视频。长远来看,平台将进一步支持模型训练能力。

图 5|Xtreme1 安装代码、优势与行动

往期回顾

官网:xtreme1.io




