20250912-AI早报
DartbrainAI Academy 快手推出 AI 视频制作助手 Kwali,轻松一语生成短视频
快手推出AI视频制作助手Kwali,基于云端多智能体(Agent)框架,可将用户简单的创作需求自动拆解为卖点、目标受众和情境标签,并完成脚本生成、素材匹配到剪辑合成的全流程。该技术显著提升创作效率,降低视频制作成本,助力商家快速上线营销内容。

字节跳动推出 USO 模型,打破 AI 图像生成的“风格与主题”对立
字节跳动发布并开源新型图像生成模型USO,通过创新训练方法与大规模数据集,成功解决AI图像生成中风格与主题难以兼顾的问题,实现两者高效融合。该模型显著提升图像生成的精准度与灵活性,已全面开源,有望推动数字艺术与商业设计领域的创新发展。

微软推出全新 Copilot Audio 音频模式,体验更具个性化的语音交互
微软为其Copilot助手新增Copilot Audio音频模式,依托自研MAI-Voice-1模型,提供情感、故事、脚本三种语音表达模式,适配多样化交互场景。用户还可选择不同声音风格,如莎士比亚朗读或体育评论,增强对话表现力与趣味性。此举标志着微软在AI语音领域推进自主化布局的重要进展。

Stability AI 发布 Stable Audio 2.5,专业音频生成技术再升级
Stability AI推出最新音频生成模型Stable Audio 2.5,支持生成最长三分钟、高质量且可定制的复杂音轨。新版本引入“音频修补”(Audio Inpainting)功能,允许用户上传现有音频,由AI完成补全或扩展。同时,Stability AI已与全球广告集团WPP合作,致力于为品牌打造统一的音频识别系统。

阿联酋推出全球最快开源 AI 模型 K2 Think,拥有 320 亿参数
阿联酋穆罕默德·本·扎耶德人工智能大学(MBZUAI)联合G42 AI发布开源大语言模型K2 Think,具备320亿参数,每秒可生成高达2000个token,为当前全球最快的开源AI模型之一。该模型专注于数学、编程与科学推理任务,采用高效架构设计,可在较低算力条件下运行。官方已开放完整训练数据、模型权重及部署工具,支持商业应用。

微信公众号上线智能回复功能:数字分身7×24小时陪聊
微信公众号平台推出智能回复功能,通过AI学习公众号历史文章与语言风格,自动生成个性化留言回复。该功能可实现7×24小时全天候互动,帮助运营者提升粉丝沟通效率,增强用户粘性与参与感。