面对原始数据噪声大、多模态对齐困难的行业痛点,优必选建立了数据精炼流水线。该系统从200亿规模原始数据中,通过规则筛选和质量评分,最终提取出1000万条高质量训练数据。
在标注环节,采用大模型辅助标注与交叉验证策略,将人工参与率控制在1%以下。该方法通过动态迭代优化标注算法,形成数据质量持续提升的闭环机制。
在工厂搬运场景中,Thinker控制系统会持续收集长尾案例数据,如抓取轨迹调整等操作记录。这些现场数据直接反馈至模型训练流程,形成数据回流机制。根据文档记录,基于该模型的Walker S2机器人在箱体搬运任务中实现了99.99%的作业准确率。
优必选将Thinker开源,使开发者可直接基于该模型构建机器人应用。这一做法可能推动工业机器人认知接口的标准化,降低中小企业技术门槛。但需要注意的是,模型在非结构化环境中的适应性仍需验证,其开源版本的长期技术支持方案也待明确。


