资讯
直通车
SOFT STAO
Readtheirlips:能「看懂」唇语,悄悄话不再安全
AI软件Readtheirlips可识别唇语,它能识别红毯明星小声说话的唇语,但实测中发现存在局限性:识别视频时间约一分钟左右;人物不正脸对镜头、语速过快时易出错;目前仅支持3分钟以内视频上传。开发团队Symphonic Labs是初创公司,其工作原理是用标注数据训练模型,用户上传含面部特写(嘴部动作)的视频,模型分析嘴唇几何特征、动态变化并与训练数据匹配以识别内容,最后组合输出文本。
夸克:发布CueMe 智能对话助手,可生成2万字长文
夸克发布智能对话助手CueMe,可访问cueme.cn或通过夸克App使用。基于夸克大模型自主研发,AI写作能力强,能生成最长2万字内容且支持上千种体裁(还在扩展),包括多种常见写作类型。CueMe支持文风定制,有三项关键技术突破并从结构、素材、内容细节三个方向深度优化内容,例如通过多种方式优化大纲内容,还利用“常用指令”降低使用门槛。CueMe支持多样化提问,能提供多领域角色来回答用户生活、学习中的问题。
北大:提出首个通用指令导航大模型系统InstructNav
北京大学董豪团队提出首个通用指令导航大模型系统InstructNav,该工作已被CoRL 2024会议录用,不同导航任务需要不同能力,之前研究针对特定指令设计导航方法,无法满足人类下达混合类型指令的实际需求,而InstructNav极具价值。团队首先提出动态导航链路范式统一导航指令,利用大语言模型规划链路并在导航中根据场景更新。为引导机器人按链路行动,将规划结果映射到多源价值地图(包括动作、语义、直觉、轨迹价值地图),求和得到决策价值地图,以此控制机器人底层移动。作者在多种导航任务开展评测,InstructNav首次实现零样本视觉语言导航,在其他零样本导航任务上成功率最高。
阿里国际站服贸会上展示AI神器-生意助手
阿里国际站在服贸会(中国国际服务贸易交易会)展示AI生意助手,其极简发品功能可大幅缩短商家发品时间,上传产品图或关键词就能自动生成商品全套信息。该站负责人称阿里国际站致力于让中小外贸企业享受AI产品便利,AI已是中小外贸企业标配。除发品外,助手还有智能接待功能,能提升响应速度和海外买家二次回复率。在AI加持下,助手涵盖智能发品、接待、市场分析等多项功能,覆盖全球贸易多环节,降低中小企业门槛并提升效率。数据表明,经AI优化的商品海外曝光量提高37%等。服贸会前,阿里国际站在美国举办全球买家大会发布AI采购智能体,在采购环节应用生成式AI简化流程。超3万中小企业使用AI生意助手且数量在增加,阿里国际站还发布多项利好中小外贸企业措施。此外,阿里国际站将扶持服务型贸易企业出海,率先在物流等行业试水,打造服务贸易新增长点。
马斯克:2025 年末将批量装备 Dojo 2 AI 训练芯片,对标英伟达 B200 系统
埃隆·马斯克在All - In Summit 2024活动称,特斯拉AI芯片Dojo 2于2025年末批量装备。在特斯拉AI基础设施中,Dojo负责模型训练,车端芯片负责模型推理,特斯拉还将推出多代Dojo芯片。Dojo 2可与英伟达B200 AI训练系统在一定程度可比,Dojo 3可能2026年晚些时候推出,马斯克认为技术经3次重大迭代才达卓越水平,到Dojo 3才能知晓该系列芯片多优秀。特斯拉初代Dojo已量产,其单个训练模块含特定数量D1芯粒且采用台积电技术集成,Dojo 1系统配备网络互联接口处理器。
斯坦福团队:机器人新技能系鞋带
斯坦福团队教机器人系鞋带并发布全球首个相关演示视频,这个机器人(Aloha 2)相比之前的炒菜版机器人能执行更轻巧复杂任务。Aloha 2除系鞋带外还会挂衣服、拧齿轮、收拾厨房、给“同事”换配件等。为训练它,研究团队使用扩散策略收集2.6万个示范数据进行大规模训练,基于模仿学习而非强化学习,其神经网络架构参考ACT模型。研究人员按特定步骤操作,如给嵌入加位置嵌入等,基础模型有2.17亿可学习参数,小模型有1.5亿参数。训练基于JAX框架在64个TPUv5e上并行,有特定训练参数。最终实验成功率很高,研究人员认为模仿学习很有效。Aloha 2的研究团队由DeepMind和斯坦福小组组成,它是原始Aloha系统的增强版,硬件有改进,团队已开源其所有硬件设计、提供教程和模拟模型用于双手操作研究。