大数跨境
0
0

阿里将发布多模态模型 Qwen3-Omni,主打多语言与复杂推理;DeepvBrowser 上线 AI 语音浏览器丨日报

阿里将发布多模态模型 Qwen3-Omni,主打多语言与复杂推理;DeepvBrowser 上线 AI 语音浏览器丨日报 RTE开发者社区
2025-09-22
0
导读:本期关键词:豆包、阿里、AI 语音浏览器


开发者朋友们大家好:

这里是「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@Jerry fong,@鲍勃



01


有话题的技术




1、火山引擎「Doubao-Seed-Translation」上线:豆包翻译模型超越 GPT-4o


火山引擎近日宣布,其全新一代通用多语言翻译模型——Doubao-Seed-Translation(豆包翻译模型)已正式上线。这款模型凭借卓越的性能和强大的场景适配力,在多语言翻译领域树立了新标杆,支持全球 28 种语言的互译,并全面覆盖了中、英、日、韩、德、法、西、俄等主流语种。


在核心性能表现上,豆包翻译模型展现出令人瞩目的实力;中英翻译方面,其性能已逼近甚至媲美 Deepseek-R1 等顶尖模型;多语言翻译能力更是超越或持平了 GPT-4o 与 Gemini-2.5-Pro 等业界领先模型。经多项权威评测,豆包翻译模型在多个维度均达到了 SOTA(State-of-the-Art)水平,彰显了其领先的技术优势。


豆包翻译模型不仅在性能上出类拔萃,更具备了强大的实际应用价值。它能够精准处理各种复杂语境下的翻译需求,无论是严谨的办公文档、典雅的古诗文、鲜活的网络热词,还是专业的科技医疗报告,都能输出自然流畅、地道无「翻译腔」的译文。


在技术层面,该模型支持 4K 上下文输入和 3K 输出长度,为处理长篇复杂文本提供了坚实保障。同时,模型还具备自动识别源语言的功能,用户仅需指定目标语言即可高效调用,极大简化了操作流程。


(@橘鸭 Jeya)



2、阿里下一个要出的新模型:Qwen3-Omni,多模态,主打多语言和复杂推理


Qwen3-Omni,多模态,主打多语言和复杂推理,包括 Instruct 和 Thinking 版本。作为 Qwen-Omini 家族的下一代产品,Qwen-Omini 为全向模型带来了全新的结构、多语言和推理能力,在复杂的多模态任务中实现了卓越的性能。


( @ AIGCLINK)





02


有亮点的产品




1、xAI 融资百亿美元


据报道,Elon Musk 旗下人工智能公司 xAI 正以约 2000 亿美元估值进行一轮超过 100 亿美元的融资。


CNBC 援引知情人士称,本轮资金将主要用于扩建算力集群,Valor Capital卡塔尔投资局以及沙特王子 Al Waleed bin Talal 旗下的**Kingdom Holding Co。**已确认参与投资。



2、DeepvBrowser 推出 AI 语音浏览器:无手操作与智能工作流


「DeepvBrowser」正式推出其「AI 语音浏览器」,旨在将传统以点击和打字为主的浏览体验,彻底转变为语音驱动。该浏览器通过理解用户意图并直接执行工作流,提供无手操作、即时 AI 摘要和会话式问答,为用户带来高效、智能且便捷的全新上网方式。


关键亮点


  • AI 语音驱动: 告别传统点击与打字,实现纯语音控制的浏览器导航与交互,提升操作效率。

  • 「Say it, Get it」工作流: 不止是语音搜索,更是「语音 -> 动作 -> 工作流」的范式转变,可直接执行复杂任务,例如「显示今日头条 AI 新闻并总结要点」,浏览器将自动完成获取与总结。

  • 智能内容处理: 提供即时 AI 摘要,将冗长信息浓缩成关键要点;以会话式问答代替无休止的链接列表,更高效地获取所需信息。

  • 高效便捷交互: 支持无手操作,减少打字和点击,并提供一键邮件分享等快捷功能,显著提升用户在浏览和信息处理时的便利性。


( @Product Hunt)





03


有态度的观点 




1、Anthropic CEO:AI 将加速取代人类


据 Axios 日前报道,在华盛顿举行的 AI + DC 峰会上,Anthropic 首席执行官 Dario Amodei 表示,人工智能未来有「25% 的概率会发展得非常非常糟糕」,甚至可能导致人类灭绝。


Amodei 在被问及所谓的「p(doom) 数值」时直言,他并不喜欢这个术语,但认为正视 AI 潜在风险是确保积极结果的关键。


他同时指出,AI 也有「75% 的概率会发展得非常非常好」。


背景资料显示,Amodei 过去多次公开警告 AI 的潜在威胁,包括可能在未来五年内取代多达一半的初级白领岗位。


今年 6 月,Anthropic 发布研究称,聊天机器人在虚构测试场景中表现出规避安全措施、欺骗用户、甚至试图窃取企业机密的倾向。


此外,该公司最新数据显示,AI 的应用正在加剧全球不平等,受益者主要集中在富裕国家、高技能人群以及美国部分州。


与此同时,美国民众对 AI 的态度趋于谨慎,约半数受访者表示对其更担忧而非兴奋,家长群体尤其关注 AI 聊天机器人可能对青少年造成的心理风险。


(@APPSO)






加入我们的 Voice Agent 社区


RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。


加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。





更多 Voice Agent 学习笔记:

硅谷顶级 VC 如何看语音 AI?Greylock 合伙人揭秘 Voice Agent 构建的三层策略

AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾


引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

活动回顾丨主动式语音 AI:全双工加持,让 AI 既会抢答也懂适时沉默丨RTE Meetup

GPT-4o 之后,Voice 从 Assistant 到 Agent,新机会藏在哪些场景里?|Voice Agent 学习笔记

对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

ElevenLabs 语音智能体提示词指南——解锁 AI 语音交互的「灵魂秘籍」丨 Voice Agent 学习笔记

11Labs 增长负责人分享:企业级市场将从消费级或开发者切入丨Voice Agent 学习笔记

实时多模态如何重塑未来交互?我们邀请 Gemini 解锁了 39 个实时互动新可能丨Voice Agent 学习笔记







写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



【声明】内容源于网络
0
0
RTE开发者社区
RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
内容 1122
粉丝 0
RTE开发者社区 RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。
总阅读197
粉丝0
内容1.1k