
智元发布家务机器人基座大模型 GO-1,成功率大幅提升
3月10日,智元机器人正式推出其首个通用具身基座大模型 ——Genie Operator-1(简称 GO-1)。这一消息引起了广泛关注,特别是其在家庭服务机器人的潜力方面,似乎为未来的家务管理带来了新的希望。根据智元机器人的官方介绍,GO-1大模型通过学习大量人类视频,展示了其在执行多项家务任务上的出色表现,如递送水杯、制作餐点和迎接客人等。
在技术性能方面,GO-1的表现相较于现有模型有显著提升,其平均成功率提高了32%。经过测试,GO-1在一些特定任务如倒水、清理桌面和补充饮料等方面,展现出了更加优异的能力。智元机器人表示,这一进展得益于新提出的 Vision-Language-Latent-Action(ViLLA)架构,这一架构能有效利用高质量数据集和大量视频数据,以增强模型的泛化能力。

此外,智元机器人去年底联合多个机构宣布开源百万级的真机数据集项目 AgiBot World,该数据集覆盖超过100种真实场景,其中40% 为家居场景,20% 为工业场景。这一数据集为训练和提升机器人能力提供了重要的基础。
智元机器人强调,GO-1大模型具备几大特点:一是能够从人类视频中学习,提升对人类行为的理解;二是具有强大的小样本快速泛化能力,可以在极少数据甚至零样本下适应新任务;三是可以在不同的机器人形态之间迁移,实现 “一脑多形” 的灵活应用。通过持续进化,GO-1能够从实际执行中获取数据,不断优化和提高自身能力。
智元机器人的这一发布,标志着家务机器人向具身智能的普及迈出了重要一步。根据信达证券的分析,AI 的进展正在从根本上推动人形机器人和自动驾驶等技术的发展,未来人形机器人产业化的前景值得期待。

AI “附体”浏览器?开源神器Browser Use引爆科技圈,开发者直呼“YYDS”!
最近,科技圈和开发者社区都被一个名为 Browser Use 的开源项目刷屏了!这款工具如同给AI插上了翅膀,让它们能够像人类一样自如操控浏览器,用自然语言就能指挥AI自动完成各种网页任务,其强大的自动化能力和灵活的部署方式,瞬间引燃了全球科技爱好者的热情,在X平台(原推特)上掀起滔天巨浪。Browser Use 正以燎原之势,推动着AI在浏览器自动化领域的应用边界不断拓展。

Browser Use 究竟是何方神圣,竟能引发如此巨大的关注? 这款托管在GitHub上的开源项目,目标直指赋予AI代理强大的浏览器操作能力。正如X用户 @GitHubGPT 在3月9日所言:“Browser-use 是一款让AI代理实现浏览器任务自动化的利器,它不仅提供开箱即用的托管版本,还为开发者准备了丰富的资源。” 这条帖子如同星星之火,迅速点燃了Browser Use 的热度。 项目由 @gregpr07主导开发,使用Python语言编写,短短时间内就已斩获37381颗星和3877次 Fork,人气爆棚,热度持续飙升。
Browser Use 的核心功能堪称强大而实用:它允许用户通过自然的语言指令来控制浏览器,无需繁琐的代码编写;同时支持云端和本地两种部署方式,满足不同用户的需求;更令人惊喜的是,它还能够兼容 DeepSeek、Claude、Gemini 和 GPT 等多种顶尖AI模型,展现出极佳的开放性和兼容性。 @LangChainAI 在2月8日的帖子中也盛赞 Browser-Use 为“一款开源工具,使 AI 代理能够通过自然语言控制浏览器,从而实现复杂的浏览器自动化操作。”
X 社区用户对 Browser Use 的热情反馈,更是直接印证了其强大的魅力。 @vista8在3月9日兴奋地表示:“Browser Use 这个开源项目太有趣了!它能让AI控制浏览器,访问网站,并自动总结资料。听说很多 Manus 类的产品都在用它。” 这位用户一语道破 Browser Use 的应用潜力,它不仅可以用于信息搜集,还能应用于网站操作等更广泛的场景,甚至被视为 AI 机器人流程自动化 (RPA) 领域的明日之星。
@hr98w 在1月7日分享了他的亲身体验:“我尝试让它在 Ahrefs 上查询网站的 DR 值,结果卡在了 Cloudflare 的人机验证环节,如果换用支持视觉识别的模型应该就能顺利完成。感觉这东西可以用来自动化提交外链,想象空间巨大!” 他还特别提到,Browser Use 配备了友好的用户界面 (UI),即使是非技术人员也能轻松上手,尽情享受AI自动化的便捷。 @TaNGSoFT 在2月13日更是惊呼:“这两天被 Browser Use WebUI 开源项目彻底震撼了,结合本地部署的 DeepSeek R1模型,简直可以实现无限自由的使用!” 这条评论充分展现了 Browser Use 在本地化部署和高效使用方面的巨大吸引力。
Browser Use 的成功,离不开其简洁的设计理念和强大的功能集成。 它化繁为简,让用户只需用自然语言就能指挥浏览器完成各种复杂任务,例如信息检索、表单填写、网页导航等等。 项目同时提供即开即用的云端托管版本,让用户能够立即体验其神奇之处,而开源的代码则为开发者提供了无限的二次开发和深度定制的可能性。
X 平台上的用户还透露,Browser Use 的高度灵活性使其能够作为底层技术,为其他 AI 产品提供强力支撑。 例如,@vista8就暗示,类似 Manus 这样的明星产品,很可能已经采用了 Browser Use 作为其核心组件。 更令人欣喜的是,社区开发者们也积极参与到 Browser Use 的建设中,贡献代码,优化UI,不断降低使用门槛,让这款神器变得越来越完善,越来越易用。
Browser Use 开源项目的异军突起,充分展现了开源技术在 AI 浏览器自动化领域蕴藏的巨大能量。 从 X 平台上的热烈反响来看,Browser Use 不仅为开发者们搭建了一个充满创新活力的平台,也为普通用户带来了前所未有的便捷自动化体验。 随着其功能的持续迭代升级和社区的蓬勃发展壮大,Browser Use 极有可能成为2025年 AI 技术生态中最耀眼的一颗新星,让我们共同期待它在未来带给我们更多的惊喜!

华为昇腾携手阶跃星辰推出开源多模态模型,进军 AI 新领域
近日,魔乐社区(Modelers)正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。这两款模型分别用于视频生成和语音交互,旨在为开发者和企业用户提供更强大的 AI 工具。
Step-Video 模型的全名为 Step-Video-T2V,这是一款参数量高达300亿的全球最大开源视频生成模型。该模型能够直接生成204帧、540P 分辨率的高质量视频,并在指令遵循、运动平滑性、物理合理性以及美感等方面,表现超越了市场上现有的顶尖开源视频模型。另一方面,Step-Audio 则是业内首款能够生成多种情感、方言、语言、唱腔和个性化风格的语音的大模型。这一技术的发布,标志着 AI 语音交互领域的一次重要突破。

图源备注:图片由AI生成,图片授权服务商Midjourney
值得一提的是,这些模型是基于华为昇腾 CANN 异构计算架构和昇腾服务器进行适配的。开发者和企业用户可以在魔乐社区中便捷地下载和体验这些模型。为了进一步降低使用门槛,魔乐社区还提供免费算力支持,让用户可以在线进行模型推理,而无需复杂的环境搭建,快速验证他们的 AI 方案。
此外,阶跃星辰的开源模型受到了多个行业标杆企业的关注,包括天数智芯、阿里云、火山引擎、TCL 等各行各业的厂商已纷纷接入这一开源生态。未来,阶跃星辰计划在3月份推出新的图生视频模型,进一步丰富其产品线。
华为昇腾与阶跃星辰的这一合作不仅拓展了多模态 AI 模型的应用场景,也为开发者提供了更为强大的工具,推动了整个行业的技术进步。

