
星尘数据是一家以 AI 全生命周期数据闭环系统为基座,具备数据生产、数据管理、难例发现和模型推理等能力的数据服务公司。致力于通过应用机器学习算法开发出高效的自动化标注工具,为标注产业注入科技和创新基因,赋能AI企业算法迭代和数据闭环。
星尘数据创始人章磊于近期接受非凡产研专访,畅谈了数据标注行业现状、星尘数据的竞争优势和以数据为中心的战略方向。

数据标注行业正迎来巨大增长空间
随着人工智能技术的发展,自动驾驶和大语言模型对数据标注的需求量迎来了爆发式的增长。全球数据标注市场未来将以约年复合增长率40%的速度增长,市场规模快速扩大。此外,数据标注的流程也正在被大模型范式改变,由人工标注转向算法驱动的自动化标注,大幅提升了标注效率,市场将进一步扩大。
在此之前,国内的数据标注行业进入门槛较低,主要由需求侧主导,由数据标注供应商开发标注工具供大批量标注员使用,以目标任务为导向,该模式主要依靠渠道、人力等要素,该模式较为传统。
但随着生成式AI技术的爆发,需求方对数据标注的需求和要求进一步提高,需要针对不同阶段而非任务,需要高效的预标注、辅助标注算法。更加困难的是设计相应的产品去承接模型算法,打通数据闭环形成数据协同。实现难度高,人力成本提高,给传统数据标注模式带来了很大挑战,也给基于算法思维的自动标注新模式留出了成长和市场空间。
因此章磊于 2017 年创办了星尘数据,并在创立之初就确立了三个目标:首先,通过自动化标注提高标注效率;其次,通过提供数据策略专家服务,为客户创造更多的价值;第三,通过数据闭环让模型训练效果更好,数据标注量更少,提高标注性价比。
章磊本科和硕士分别毕业于浙江大学和乔治华盛顿大学,先后在华尔街、硅谷工作十余年,曾在硅谷开发过世界首款股权投资机器人,在华尔街工作期间开发的底层风控算法曾被美国联邦储蓄局作为压测标准;是国家语音及图像产品质量检验检测中心专家委员会专家、中国生产力促进中心协会自动驾驶专家。2017年带领团队打造了中国首个自动化标注平台系统并进行商业化落地。
目前星尘数据客户以每年2倍增速在发展,主要服务大模型和自动驾驶行业的客户。星尘在感知决策赛道上已服务了90%的头部自动驾驶企业,AGI方向的大客户也开始增多,目前已经与多家头部的大模型客户达成合作。

自动化辅助标注和数据闭环迭代,提升算法迭代效率
1、推出国内首个自动化标注平台Rosetta,自动化程度达70%
星尘数据主营业务:以一个 AI全生命周期数据闭环系统为基座,实现数据生产、数据管理、模型训练、模型部署等环节业务覆盖。以两条业务曲线为支撑,第一曲线致力于不断提升数据标注平台自动化率,提高AI研发效率;第二曲线基于数据闭环系统和大模型数据解决方案解决垂直行业痛点。
星尘数据推出了国内首个自动化标注平台Rosetta,平台提供数百个标注功能,支持4D-BEV、图像、点云、文本、语音和采集等在内的100多种主流标注场景。还开发了上百种辅助标注算法,为预标注、标注和质检等环节提供多样化的算法辅助,算法的加入让平台自动化水平逐年提升。
星尘数据的优势之一在于自研的 Autolabeling技术,平台的自动化程度70%+,年处理数据量达2亿条,准确率99.9%,服务的客户项目超过1000个。整体上从技术、行业经验和技术的迭代能力等方面在行业内都处于领先地位。高自动化率让标注效率和标注产能显著提升,相比其他平台,标注员在Rosetta平台能标得更快,获得更多收入。
2、自动化辅助标注+数据闭环迭代,提高算法迭代效率
一个完整的数据闭环,如果能解决数据的入库、流程编排、预处理、难例发现、数据送标、数据验收、模型训练过程管理和模型价值指标分析等工作,那么这个数据闭环可以极大加快算法迭代过程。“星尘数据不是要解决100%的数据标注,而是解决那部分难的、行业前沿的、大规模的数据标注,这也是那些具有付费能力的大客户最大的痛点。”章磊强调。
当前数据的复杂程度和需求的复杂程度越来越高。几年前是2D的图像识别,之后是3D识别,然后是2D和3D融合、BEV 4D标注等等。需要越来越多的技术方案,标注规则也越来越细,对标注人员的要求也越来越高。
目前行业主要有几种发展策略来满足需求变化。第一种是进行人力优化,比如将职高院校或者学校纳入管理体系,让人力变得更便宜,或者增加一些人力管控方案。第二种策略是商务路线或者销售路线,去拿下大客户,保证长期稳定的项目,这样也能保证一定的利润。第三种是做营销路线,这种可能不赚钱,甚至是贴钱,但先把收入规模做大,然后通过融资滚动起来。
在行业内传统数据标注公司的标注流程中,算法人员制定数据标注规则,标注公司消化后再提供给标注团队操作。然而,执行过程中,算法的思路并不能一次性达到最优化;其次,数据标注人员仅仅是一个“干活儿的”角色,并不能帮助更好地迭代算法效果。
星尘数据希望走出第四条路,通过自动化的辅助标注,加上数据闭环的迭代,真正有效地降低标注成本,提高标注效率。这条路线聚焦在技术的迭代与提升,比如一个算法迭代一版需要一到两个月,要真正迭代出效果,需要在一个方向花费一年、两年甚至更长的时间。在这么长的一个时间周期里实现商业化,对于商务销售、研发进度以及整个公司的管理都是挑战和难度,但其相信算法可以降低90%以上的人力成本,也可以大幅提升交付效率,满足整个行业的需求。
3、沉淀行业领先标注平台和工具,树立专业权威
章磊表示,数据策略中涉及大量前沿技术,既包括算法和数据相关的技术,如领域迁移、时空融合、数据增强、弱监督学习等等,也包括以数据为中心的反馈迭代技术,如主动学习、强化学习、数据检索、Human-in-the-loop、数据安全、场景化数据生成和模型测试等。数据策略专家既要了解相关技术也要熟悉产品,以专业性来服务客户。
在服务90%头部自动驾驶客户、经历上千个项目打磨后,星尘数据不仅沉淀出了行业领先的标注平台和工具,还培养出了经验丰富的数据策略专家。相比行业内一些人力优化公司,星尘数据在获取订单后帮客户拆解,然后再去给第三方去做标注。数据策略专家对算法的需求进行分解,选择最合理的方式去处理客户的数据。

从数据标注向搭建数据基础设施进化
1、提升数据复用性,降低大模型训练成本
在数据的整个生命周期发生当中,数据标注只是其中非常小的一部分。一个算法的上线部署需要经历需求定义、方案制定、数据采集、数据标注、模型设计、训练、指标测试、推理优化等流程,每个环节都涉及到数据的设计、使用、挖掘、测试等,尤其是大模型时代,海量数据管理正是企业头痛的问题,模型复现更是难点。
星尘数据的解决方案是真正能够解决客户的数据痛点的。MorninStar支撑企业AI数据高效迭代的各关键环节,避免数据债风险积聚、低价值数据成本浪费、模型训练与应用效果反馈链长等问题,实现机器学习闭环全链路打通,打造算法专注高效迭代生产环境。
2、AI全生命周期数据管理平台 MorningStar打通机器学习闭环
一个完整的机器学习全生命周期的数据管理系统不仅决定了数据质量和使用效率,也直接影响着模型效果的上限,成为解决“数据债*”问题的关键和未来AI领域最大的竞争壁垒。
注释:“技术债”一词源自软件开发领域,指的是在追求快速开发时所产生的长期维护成本,如果不及时解决,会不断累积。而“数据债”则是指机器学习系统中,在数据相关环节积累的“技术债”。缺乏高效的机器学习全生命周期的数据管理工具影响了算法开发迭代的效率,甚至导致大量“数据债”的积累。
针对AI 算法中数据债累积、低价值数据成本浪费以及模型训练与应用效果反馈链路过长等问题,星尘数据打造了一站式AI全生命周期数据管理平台 MorningStar,旨在支持AI算法的高效迭代,实现机器学习闭环全链路打通,助力打造专注高效迭代的算法生产环境,打通数据落盘、流程编排、数据管理、数据检索、难例发现、数据送标、算法管理、推理管理等机器学习闭环全链路,持续提升算法迭代速度。

MorningStar产品界面
通过数据全生命周期可视化管理,MorningStar确保数据运营统一管理和快速迭代;支持灵活数据切片、多模态、自定义数据检索,挖掘数据价值,快速提取特殊场景数据;同时,集成主流难例数据发现策略,如主动学习等,为算法工程师提供数据特征分布、可视化和挖掘、模型指标计算等便捷功能。此外,MorningStar汇聚数据资产及使用数据,实现企业数据资产管理,使团队协作更安全、数据迭代可追溯,打破企业内部的“数据孤岛”,助力企业在 AI 成本投入、算法精度和数据应用能力提升等方面。
星尘数据从一开始就搭好产品架构形成了闭环。首先,第一步是数据落盘,产品支持多语言多格式,结构化数据统计经营,底层有各种各样的数据库来支持这些格式,对于数据管理系统来说是一个新的挑战。之前的数据管理系统都是服务人,而星尘数据现在做的 AI DataOps 系统,是为算法服务而不是服务人。其独创数据生命周期管理,可以把整个数据的流转和变化处理,整个全生命周期可释放,确保从落盘到推理的整个自动化管道,持续记录数据价值发现的过程。
其次,星尘数据具有超强的数据存储和管理的能力,基于团队十年数据的沉淀,并且能够做到对丰富的数据管理对象进行管理。星尘数据集成的主流难例发现的策略具备丰富的可扩展性,包括支持各种指标和自定义指标,数据分布筛选、标签样本筛选等,同时支持主动学习。
以上过程结束后,不是直接接入到星尘数据的标准系统里面就能够连接起来形成闭环,而是标完了之后再去进行算法的迭代。同时星尘数据的系统内也可以进行算法版本的整理,根据真值数据做标准的数据集和算法的测评,最终形成了闭环。
星尘数据整个数据闭环系统能够让客户管理数据,例如,语义检索数据、了解被遮挡的汽车的数据;可视化分析,也可以通过记录的数据看到在现有空间中哪种数据使用频率高、哪种数据使用频率低,以及系统内是否有一些数据是无效的,哪些数据需要统筹迭代算法会更加有效的,找到这些数据之后,还有哪些是需要标注的可以直接送标到标注系统中。之后再反馈算法,算法每一次迭代也都会被替补,每一次数据算法迭代效果对算法赋能、加快算法的迭代,而不需要手动去记录每一次的数据情况。
3、从数据标注向数据闭环公司进化
全球数据标注领域的先驱者Scale AI成立于2016年,核心业务是数据标注,通过快速捕捉AI行业趋势,已从自动驾驶场景起家后切入政府、电商、机器人、大模型等场景,提供各类工具、平台和服务。
Scale AI做了很多工具,比如管理工具、测试工具、开发工具等。现在从一家数据标注公司已经变成了一家数据闭环以及Infra公司,业务覆盖范围的更广。
章磊讲到,Scale AI的核心能力在于他的技术应用的产品化和商业化的能力,能够设计一个非常好的产品,PMF 是最重要的。国内的创业公司极少具备产品化的能力,都是客户需要什么,公司迭代什么,这不叫产品,而是需求的搬运工。国内的创业公司需要非常资深的产品经理,还需要懂得前沿的科研的突破、产品目的方式和公司的战略方向,从而打通市场营销的整个链条。
章磊认为Scale AI的发展路线走得非常正确。无论是初期的定价方式、战略策略和销售策略都非常正确。在PMF阶段,Scale AI又逐步加入了自动化赋能。公司成长起来便不断加强品牌建设,和强化数据变化系统。这也是星尘数据正在进化的方向,将来也会像Scale AI一样,逐渐成长为数据闭环公司。

“以数据为中心的AI”运动正掀起AI范式转变
1、人工智能正在从以模型为中心(Model-centric)转向以数据为中心(Data-centric)
2021年,吴恩达提出,过去十年,人工智能最大的转变是拥抱深度学习,未来十年,人工智能将从以模型为中心(Model-centric)转向以数据为中心(Data-centric)。吴恩达表示,AI = Data + Code,更好的AI=80%的数据+20%的模型。未来机器学习想要发展更快,应该做的不仅是改进算法,而是转向创造出一种更系统的方式来改进数据,将80%的工作用来准备数据,将重点从大数据转移到高质量数据。
Data-centric AI是一种搭建AI系统的新理念,是人工智能系统开发、迭代和维护数据的框架。涉及构建有效训练数据、设计适当的推理数据以及维护数据的任务和方法。着重研究如何高效地构建高质量和大规模的数据集。
星尘数据当前的发展思路正是在实证Data-centric AI这一领先理念。
传统的搭建AI模型的方法主要是去迭代模型,数据相对固定。比如,通常会聚焦于几个基准数据集,然后设计各式各样的模型去提高预测准确率。这种方式称作以模型为中心(Model-centric)。然而,Model-centric没有考虑到实际应用中数据可能出现的各种问题,例如不准确的标签,数据重复和异常数据等情况。准确率高的模型只能确保很好地拟合了数据,并不一定意味着实际应用中会有很好的表现。

Model-centric AI是迭代模型,数据相对固定;Data-centric AI关注的是数据本身, 而模型相对固定。
与Model-centric不同,Data-centric更侧重于提高数据的质量和数量。也就是说Data-centric AI关注的是数据本身,而模型相对固定。采用Data-centric AI的方法在实际场景中会有更大的潜力,因为数据很大程度上决定了模型能力的上限。
Data-centric AI 理念的核心点在于 AI 的实际应用有无数场景,这些具体场景下很难拿到所谓的大数据,相比于调模型去提升效果,更可行的是在模型没做好的地方有针对性地提高样本的质量和数量。
2、高质量数据是提升模型性能的关键
在算法训练的过程中,工程师通常关注算法的设计和模型的性能,往往忽略了数据在整个系统中所占比重。实际上,大部分的工作,如数据采集、清洗、特征提取、模型训练、部署和监控等都离不开数据。在大模型井喷的背景下,高质量的数据能够提升模型性能已成为业内共识,大量数据的管理成为算法工程师的痛点,数据对于算法迭代的效率愈发重要。
获得高质量的数据是一个非常复杂的过程,涉及数据获取、数据标注、数据处理等多个环节,需要耗费大量的时间和人力成本。想要实现“从大数据迁移到高质量数据”,就离不开数据策略的设计。OpenAI的ChatGPT就是通过精妙的数据策略——基于人类反馈的强化学习(RLHF)。
章磊表示,实际上大模型真正的胜负手在于数据,而不是在于模型架构。即使是同样的架构,用不同的数据,模型效果是不一样的。因此高质量的数据就会成为当今以及下一阶段算法的胜负手。以数据为中心的迭代路径是人工智能落地的重要推动力,之前都是标注数据、迭代模型和部署上线的三段的逻辑,但实际上这种范式已经在人工智能的研发过程当中非常的落后和不具备竞争力了。
经过了多年的研究,模型设计已经相对比较成熟,特别是在Transformer出现之后。提高数据的数量和质量将成为未来提高AI系统能力的关键途径。此外,当模型变得足够强大时,大多数人可能不需要再训练模型。相反,只需要设计适当的推理数据便能从模型中获取知识。因此,Data-centric AI的研究和开发将持续推动未来AI系统的进步。
“以数据为中心的AI”运动正在掀起AI行业的范式转变,数据策略将在未来十年发挥愈加重要的作用。数据策略中涉及大量前沿技术,既包括算法中和数据相关的技术,如领域迁移、时空融合、数据增强、弱监督学习等等;也包括以数据为中心的反馈迭代技术,如主动学习、强化学习、数据检索、Human-in-the-loop、数据安全、场景化数据生成和模型测试等。

