01
有话题的技术
1、腾讯官宣本周开启「混元 3D 开源日」
近日,腾讯混元宣布,分别在 3 月 18 日和 3 月 19 日两天(都为上午 11 时)开启「混元 3D 开源日」。今年 1 月,腾讯混元宣布正式开源 3D 生成大模型 2.0 版本(Hunyuan3D-2.0),同时上线业界首个一站式 3D 内容 AI 创作引擎。据官方介绍,Hunyuan3D-2.0 相较于 1.0 版本,在 3D 模型生成效果上有显著提升,在几何结构上更加精细,纹理色彩更加丰富;根据 CLIP Maximum Mean Discrepancy (CMMD)、Frechet Inception Distance (FID) 和 CLIP-score 指标,Hunyuan3D-2.0 模型的整体表现,在业界处于领先梯队。
2、百度发布首个原生多模态大模型文心大模型 4.5 和深度思考模型 X1
3 月 16 日,百度正式发布文心大模型 4.5 及文心大模型 X1。据介绍,文心大模型 4.5 是百度首个原生多模态大模型,其多模态理解、文本和逻辑推理能力显著提升,在多项测试中表现优于 GPT4.5,API 调用价格仅为 GPT4.5 的 1%;文心大模型 X1 为深度思考模型,性能对标 DeepSeek-R1,并增加多模态、多工具调用能力,API 调用价格约为 R1 的一半。
3、Argmax 推出端侧说话人分离推理框架,10M 大小 ,1 秒识别 4 分钟音频
速度: 在 iPhone 上,SpeakerKit 仅需约 1 秒即可识别 4 分钟音频中的说话人。经测试,该速度远超其他任何系统,无论是在服务器端还是设备端。
质量: 尽管速度提高了一个数量级,SpeakerKit 在 13 个数据集上的错误率与 Pyannote 等最先进的系统相媲美。
大小: SpeakerKit 总大小约为 10 兆,可以轻松地与应用程序捆绑或快速下载。
广泛兼容性: 该框架支持所有运行 iOS 16 或 macOS 13 及更新版本的设备。Android 版本的支持也即将推出。
-
模块化: SpeakerKit 可以与 WhisperKit 协同工作,生成带有说话人标注的转录文本(「谁在何时说了什么」)。此外,它还可以与其他任何转录引擎结合使用,提供了许多服务器端 API 所不具备的灵活性。(@argmaxinc blog)
02
有亮点的产品
1、蔡浩宇的新游戏,今天终于正式曝光了
(视频来源:视频号「游戏葡萄」)
近日,由米哈游创始人蔡浩宇创立的 AI 游戏公司「Anuttacon」,公布首个游戏项目《Whispers From The Star》。据介绍,《Whispers From The Star》主角是一个天体物理系女生 Stella,她意外坠落在了一个外星星球上,玩家是她唯一能联系的人,同时玩家的任务是帮助她生存下去,并离开 GAIA 星球。该游戏最大亮点就是 Stella 的对话是 AI 实时生成,根据玩家输入的对话内容,Stella 会给出不固定的回答、情绪和动作。《Whispers From The Star》主打以 AI 驱动角色的实时对话,为玩家提供开放、个性化,并且身临其境的游玩体验。该游戏或为 Anuttacon 的实验产品,旨在验证多模态模型驱动下,实时交互的表现,因此《Whispers From The Star》的画面为 100% 实时演算。
2、伴鱼 AI 私教破解个性化教育难题
在国家全面推进「人工智能+教育」的战略背景下,伴鱼智学正式发布「AI 私教大模型系统」,凭借「纳米级知识体系」「全场景督学服务」「探究式学习闭环」三大核心能力,重新定义智能教育新范式,打造极致的个性化教育,让每个孩子发出独特的光。该系统基于 3000 万节课程、7000 万用户学习数据训练,在 1 对 1 真人教学场景中多项指标超越 OpenAI GPT 等国际大模型,成为国内首个通过「新课标理解准确率 98.5%」认证的 AI 教育产品。
03
有态度的观点
1、GitHub CEO:真正的 AI Agent,还有很长的路要走
近日,GitHub CEO Thomas Dohmke 接受播客 No Priors 的采访,其中 Thomas 在谈话中深入讨论了 AI Agent 对程序员的影响、AI 对软件团队的影响有多大等内容。开篇,Thomas 便定下了 AI Agent 广泛采用的标准:对用户来说,可预测的、可操控的、可验证的和可容忍的。其解释道,AI Agent 真正的目的在于提高用户的效率,而不是浪费用户的宝贵时间,同时 AI Agent 也需要一个好的推理模型,并弄清楚什么是正确的开发流程。Thomas 也表示,目前人类离 AI Agent 真正足够好还有很长的路要走,主要问题在于 AI Agent 没办法向人类一样,将系统思维代入到实际的开发中去。Thomas 指出,人类在做事情的过程中不断提出、解决新的问题,而目前 AI Agent 还是只能将一件大事分成小块而进行逐一解决。与其他人一样,Thomas 也有自己对 AI Agent 的未来想象。他认为,未来的 AI Agent 将会更加个性化,能够跟随用户的思路去给出符合用户想法的解决方案,并让解决结果更像用户自己的风格,同时,AI 模型也将变得更加多元化、更多选择。(@APPSO)
04
社区项目推荐
1、Talk to Computer:让计算机听懂人话
支持 Windows/Mac
无需环境 直接下载 exe/dmg 使用
-
算力使用云服务(硅基流动),对自己电脑性能无要求
https://github.com/zhangti112358/TalktoComputer
05
有看点的活动
1、官宣!【B4B 大数据商业应用挑战赛 2024-25】参赛者招募!
B4B 大数据商业应用挑战赛 2024-25 载誉归来!今年主题「碳科技于房地产 CarbonTech for Real Estate」和「从 AI 驱动的虚拟科技 Virtual Media Tech powered by AI」,我们期待通过这次命题,让科技在推动环境、社会和治理(ESG)倡议中的成为重要角色。参赛者将利用创新解决方案,探索技术如何应对气候变化和企业责任等全球性挑战。这一主题鼓励创造性思维和合作,激励团队开发不仅能推进商业目标,还能为社会和环境作出积极贡献的方案。
立即报名:
https://forms.office.com/r/yikgCvK3Rp
2025 年 3 月 17 日
🎯我们不限范围和应用,只要您的解决方案能解决 ESG 问题,并符合公众对数据获取、存储、使用和分析的道德期望,我们都欢迎您的参与,参赛队伍可以免费参加香港会议展览中心国际创科展(InnoEX)!此外,入围的队伍亦有机会跟同行顶尖及有丰富经验的导师团队学习,并有机会到国内,与内地的团队及企业进行交流,这将是一个难得的学习和交流机会!
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势

