开发者朋友们大家好:
01
有话题的技术
1、OpenAl 发布 Agent 工具包,网友:谢谢 Manus AI

OpenAI 发布了一系列专为构建 AI Agents 设计的新工具和 API,帮助开发者更容易创建能自动完成任务的 AI Agents(智能体)。OpenAI 认为虽然过去一年推出的高级推理、多模态交互等模型能力为 Agent 奠定了基础,但开发者在构建生产级 Agent 时,还是会遇到不少难题。为此,他们今天特地发布了全新的 Responses API、三种内置工具以及以及一个开源的 Agents SDK。
省流版如下:
Responses API:结合 Chat Completions API 简洁性与 Assistants API 工具使用能力的新型 API 接口。
Web 搜索工具(Web Search Tool):让模型访问互联网获取最新信息的工具。
文件搜索工具(File Search Tool):从大量文档中检索相关信息的增强工具。
计算机使用工具(Computer Use Tool):由 Computer-Using Agent (CUA) 模型提供支持的计算机操作自动化工具,让 AI 能像人一样操作电脑界面。
-
Agents SDK:基于 Swarm 框架升级,简化多 Agent 工作流程编排的开源框架。
具体来说,Responses API 结合了 Chat Completions API(主要用来生成对话回复)的简洁性和 Assistants API(能让 AI 调用外部功能,比如查资料、操作东西)的工具使用能力,成为构建 Agent 应用的新基础。开发者只需调用一次 API ,即可利用多种工具和多轮模型交互解决复杂任务。
2、Manus 与阿里通义千问团队达成战略合作

3 月 11 日,Manus 官方微博宣布,与阿里通义千问团队正式达成战略合作。双方将基于通义千问系列开源模型,在国产模型和算力平台上实现 Manus 的全部功能。
3、Cartesia 升级 TTS 模型 Sonic 2.0,延迟 40 毫秒
Sonic 2.0 基于 Cartesia 新的状态空间模型架构构建,被描述为目前最快且最可控的语音模型。尽管是原始 Sonic 模型的两倍大,但 Sonic 2.0 的运行速度更快,完整模型的延迟仅为 90 毫秒,Turbo 模式的延迟仅为 40 毫秒。在对 100 个不同声音进行的盲测中,Sonic 2.0 比下一个最佳提供商获得了 1.5 倍的用户青睐。
02
有亮点的产品
1、Meta 携手雷朋为时尚品牌 Coperni 推出透明版智能眼镜:限量 3600 副、售价 549 美元

据了解,这款眼镜采用透明黑色框架,镜臂上印有 Coperni 标志,整体设计简约而高级,全球仅发售 3600 副,售完即止,目前仅在 Ray-Ban 官网有货。虽然外观升级,但内部配置与功能与普通版 Ray-Ban Meta 智能眼镜一致。
2、索尼 AI 游戏角色原型曝光:结合语音与动画,与玩家实时对话
IT 之家 3 月 11 日消息,科技媒体 The Verge 今天(3 月 11 日)发布博文,报道称索尼公司正开发由 AI 驱动的 PlayStation 游戏角色,并分享了一段时长 1 分钟的视频,展示了《地平线:西之绝境》(Horizon Forbidden West)游戏中的 AI 版角色埃洛伊(Aloy)。
03
有态度的观点
1、复旦副教授:人工智能的发展高潮尚未结束

近日,复旦大学大数据学院的魏忠钰副教授接受《追问》的采访,双方从基础研究到产业落地探讨,层层揭示 AI 崛起与迭代的内在逻辑。在谈及「初创公司是否应选择智能体作为入局方式」时,魏忠钰教授认可这一基本论断,同时其表示对于初创公司来说,如果现在再去开发基础模型能力,一方面很难与已经建立技术基础或数据基础的公司竞争,另一方面也难以获得足够的资源来进行基础模型的开发。因此,选择一些特定领域的应用,可能是一个相对明智的方向。同时,魏忠钰教授认为,针对特定领域的专有化能力建构始终是必要的,其中数据是关键之一。
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
写在最后:


