01
有话题的技术
1、快手新作 CineMaster:3D 感知与可控的电影级文本到视频生成框架

快手联合大连理工等机构发布 CineMaster,实现 3D 感知与精准可控的文本到视频生成;
采用两阶段工作流程,用户可在 3D 空间调整边界框和摄像机位置,再基于条件信号生成视频;
-
系统通过语义布局控制网络和摄像机适配器,准确区分并控制物体运动与摄像机运动。(@腾讯研究院)
2、昆仑万维发布 Matrix-Zero 世界模型,开启空间智能新时代
Matrix-Zero 世界模型包含两款子模型:
昆仑万维自研 3D 场景生成大模型,支持将用户输入的图片转化为可自由探索的真实合理的 3D 场景,比 World Labs 生成场景的探索范围更大更自由,而且包括动态物理效果;
-
昆仑万维自研可交互视频生成大模型,提供以用户输入为核心驱动的可交互空间智能视频生成方案,支持根据用户实时输入生成互动视频效果,具备更精准控制的 action model。
昆仑万维 Matrix-Zero 的 3D 场景生成功能,支持将用户输入的图片转化为可自由探索的真实合理的 3D 场景,具备全局一致性、可自由探索、支持不同风格图片输入、支持风格迁移、支持动态场景生成等亮点。(@投资者网)
3、Anthropic 即将发布混合 AI 模型:兼顾速度与深度推理,成本可控
据《The Information》报道,人工智能初创公司 Anthropic 计划在未来几周内推出一款全新的混合 AI 模型。这款模型具备在快速响应和深度推理模式之间灵活切换的能力,为开发者提供了前所未有的控制力和灵活性。
02
有亮点的产品
1、Adobe Firefly :开放 AI 视频生成
Adobe 在近日正式宣布,向公众免费开放 Firefly AI 视频生成器,任意用户都可以轻松创作高清短视频。据介绍,用户只需输入文本描述或上传图像,即可生成 5 秒 1080p 高清视频。值得关注的的是,用户甚至可以使用 Firefly 的「文本转图像」功能生成图像,再将其用作视频生成的起点。
2、WikiTok:维基百科「抖音」版,学知识比刷短视频还上瘾
近日,某位外国网友,用 AI 制作了一个应用,能用刷抖音的方式刷维基百科词条,所以这应用就叫:「WikiTok」。
3、中国电信自研的 AI 智能眼镜将于 5 月面世,三大运营商均已布局该领域
4、浏览器也能禅修?Opera Air 内置正念冥想功能,专治你的「数字焦虑」
Opera 近日宣布推出名为「Opera Air 」的新款网页浏览器 ,标榜以正念为核心设计,将冥想和健康功能直接融入浏览体验,以简约设计、雾透界面呈现,旨在帮助用户在浏览互联网时管理压力并保持专注。
5、FoloUp:用于招聘的智能语音面试官
FoloUp 是一个开源平台,公司可以使用它进行基于人工智能的招聘面试。目前在 GitHub 已获得 249 星。FoloUp 采用 Retell AI+OpenAI 的语音 AI 技术栈。
面试创建:从任何职位描述中即时生成定制化面试问题。
一键分享:几秒钟内生成并分享独特的面试链接给候选人。
AI 语音面试:让 AI 进行自然、对话式的面试,适应候选人的回答。
智能分析:通过先进的人工智能,为每个面试回答提供详细见解和评分。
-
综合仪表盘:跟踪所有候选人的表现和整体统计数据。(@Suveen@X)
6、首款二次元 3D AI 伴侣:打破次元壁,体验可盐可甜的她
※ 多平台内测预约直达(Steam/iOS/Android):
https://c.aiiz.cn/xRYbWs
※ 此为《星夜颂歌》实机画面阶段性展示。
7、百度将继续与苹果合作,宣布文心一言免费,文心大模型 4.5 系列将开源
阿里巴巴联合创始人、董事局主席蔡崇信正式确认了阿里与苹果的合作关系。The Information 消息称,即使苹果国行 AI 确定和阿里合作,但和百度的合作仍然会继续。也就是说,百度和阿里将共同为国行 iPhone 开发 AI 功能。
03
有态度的观点
1、李飞飞:空间智能与具身智能将成为未来发展的新方向
近日,李飞飞在巴黎人工智能峰会上发表开幕式演讲,其表示空间智能与具身智能将成为未来发展的新方向。在谈及人工智能的新阶段时,李飞飞认为,未来视觉感知的应用将扩展到更积极主动的层面。目前,在相机和机器人技术中,人工智能开始在数字或物理的 3D 空间中进行创造、理解、推理和交互,它可以用于与人或物进行互动,李飞飞称之为空间和具身智能。同时她还强调,智能的真正力量不仅仅在于思考,更在于运用思想驱动行动。演讲中,李飞飞还提及现代人工智能崛起的三大支柱,分别是感知算法、认知科学和计算能力的突破。她认为今天所处的现代人工智能时代,是上述三项意义深远且又各具特色的技术和科学进步融合的成果。此外,李飞飞还在演讲中再次强调,AI 应该以人为本,同时李飞飞强调,以人为本的 AI 包含三个朴素而重要的价值观:尊严、能动性和社区规模。李飞飞表示,如果 AI 技术能够帮助保护,甚至帮助所有人重拾这份尊严感,特别是那些弱势群体,那将令她无比欣慰。(@APPSO)
2、百度 CEO 李彦宏:DeepSeek 大获成功,但仍需加大 AI 基建投入
在迪拜举行的世界政府峰会上,百度 CEO 李彦宏强调,对数据中心和云基础设施的投资仍然是必要的,尽管 DeepSeek 在提高 AI 模型效率方面取得了突破,但持续投资 AI 基础设施对于保持竞争力至关重要。
李彦宏表示:「为了开发出比其他人更智能的模型,你必须使用更多的计算资源,云基础设施投资仍然非常重要。」此外,针对 DeepSeek 的崛起,李彦宏称你永远不知道创新会在何时何地出现,他还认为开源技术可能加速 AI 的采用。
04
社区技术分享推荐
1、用 Rokid+Deepseek+TEN.Agent
+fish.audio 技术,来「New」个的 AR 虚拟对象
加入我们的 Voice Agent 社区
RTE 开发者社区持续关注 Voice Agent 和语音驱动的下一代人机交互界面。如果你对此也有浓厚兴趣,也期待和更多开发者交流(每个月都有线上/线下 meetup,以及学习笔记分享),欢迎加入我们的社区微信群,一同探索人和 AI 的实时互动新范式。
加入我们:加微信 Creators2022,备注身份和来意(公司/项目+职位+加群),备注完整者优先加群。
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
对话式 AI 硬件开发者都关心什么?低延迟语音、视觉理解、Always-on、端侧智能、低功耗……丨 RTE Meetup 回顾
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
语音即入口:AI 语音交互如何重塑下一代智能应用
写在最后:

