9月2日丨每日AI简讯丨OpenAI重磅推出GPT-realtime！语音交互革命，人机对话真假难辨- 大数跨境

首页

9月2日丨每日AI简讯丨OpenAI重磅推出GPT-realtime！语音交互革命，人机对话真假难辨

久新数智

2025-09-02

9agent.ai

点击蓝字关注我们

每日AI简讯

2025-09-02

大模型

LLM

阿里通义 | 沙利文:中国企业级大模型市场阿里通义份额第一
国际权威市场调研机构沙利文发布《中国GenAI市场洞察：企业级大模型调用全景研究，2025》，显示2025年上半年中国企业级大模型日均调用量较2024年底增长363%，目前超10万亿Tokens。其中，阿里通义以17.7%的份额位列第一，成为中国企业选择最多的大模型。
GPT-realtime | OpenAI震撼发布GPT-realtime!语音AI革命来了，人机对话真假难辨
OpenAI发布GPT-realtime语音模型，突破传统AI语音生硬局限，能精准模拟人类语调、情感及语速变化，支持多模态信息处理、复杂指令执行和实时情感调整，新增两种语音风格并优化原有模式，将在客服、教育等领域推动人机交互变革。
LongCat | 美团推出开源大模型LongCat:旨在赋能开发者，加速AI应用落地
美团近日发布开源大语言模型LongCat（龙猫），核心版本LongCat-Flash含560亿参数，采用混合专家（MoE）架构优化计算效率，推理时每秒处理超100个标记。模型支持十万加速器规模训练及低延迟推理，上下文长度扩展至128k，多阶段训练提升推理与编码能力，基准测试表现与业界领先模型相当，旨在赋能开发者加速AI应用落地。
书生·万象 InternVL3.5 | 上海AI实验室发布多模态大模型书生·万象 InternVL3.5
上海AI实验室于8月31日开源发布多模态大模型书生·万象InternVL3.5，通过级联式强化学习、动态视觉分辨率路由等技术实现推理能力、部署效率升级。其旗舰模型在多学科推理等多项基准测试中超越GPT-5、Claude-3.7等模型，提供10亿至2410亿参数的全量级版本，并支持单张A100GPU等不同资源场景部署，推动多模态AI发展。
Step-Audio 2 mini | 阶跃发布端到端语音大模型Step-Audio 2 mini
9月1日，阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini，该模型在多个国际基准测试集上获SOTA成绩，支持语音理解、识别、翻译等任务及语音原生Tool Calling能力，架构创新实现原始音频输入到语音输出的直接转换，已上线GitHub等平台供用户试用。
Grok | xAI起诉前工程师窃取机密:Grok核心技术或流入OpenAI
埃隆·马斯克旗下xAI起诉前工程师Xuechen Li窃取公司核心商业机密，指控其在参与开发Grok聊天机器人期间，下载大量Grok项目机密资料并掩盖痕迹，离职后加入竞争对手OpenAI。Li此前出售了持有的700万美元xAI股票。此次诉讼反映AI行业竞争激烈及人才流动中的技术风险，或加剧xAI与OpenAI的竞争。
LongCat-Flash-Chat | 美团发布 LongCat-Flash-Chat:560B 参数模型再创新高，智能体表现惊艳!
美团发布并开源AI大模型LongCat-Flash-Chat，总参数量达560B，激活参数范围18.6B-31.3B，采用混合专家模型架构及跨层通道设计，提升计算效率与并行性。训练30天在H800硬件上实现单用户每秒100token推理速度，智能体任务中VitaBench测试得分第一，通用知识测试ArenaHard-V2、MMLU、CEval分别获86.50、89.71、90.44分，开源为开发者提供研究应用机会。
MiniCPM-V 4.5 | 开源多模态模型MiniCPM-V 4.5发布，8亿参数实现移动端AI部署
近日，开源多模态大语言模型MiniCPM-V 4.5正式发布，其8亿参数规模实现了在智能手机、平板等端侧设备的高效运行。该模型采用轻量化设计，支持单图理解、多图推理等任务，在iPhone16Pro Max上首token延迟约2秒，解码速度超17token/秒，视频处理能力达10FPS，OCR准确率85.7%，支持30多种语言。模型兼容多种推理框架，提供16种量化格式，采用Apache-2.0许可开源，适用于隐私敏感及离线场景。

产品&应用

Product Application

AI就绪检查器 | Firecrawl宣布下周开源AI就绪检查器，助力网站全面优化
领先的网页抓取与数据处理解决方案提供商Firecrawl宣布，将于下周开源AI就绪检查器。该工具可对网站进行全面审计，涵盖LLMs.txt合规性检查、AI可读内容质量评估等核心功能，帮助提升网站在AI驱动搜索环境中的可见性与内容优化能力，旨在推动网站优化领域创新与普及。
Gemini | 谷歌Gemini渐近ChatGPT，谷歌目前有4款AI应用跻身Top50
根据a16z最新报告，AI应用市场趋于稳定，谷歌Gemini在网络和移动领域逐步缩小与ChatGPT的差距。网络应用中，ChatGPT居首，Gemini紧随其后；移动领域，Gemini月活用户近ChatGPT一半，且90%用户来自Android。此外，Grok用户增至2000万，中国公司凭借国内市场在移动AI应用中占主导。
Mobile-Agent-v3和GUI-Owl | 阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl
近日，阿里巴巴Qwen团队推出下一代GUI自动化框架Mobile-Agent-v3和GUI-Owl。其中，GUI-Owl基于Qwen2.5-VL构建，整合感知、推理等能力，适应复杂动态的GUI环境；Mobile-Agent-v3通过多代理协作分解任务，动态更新计划提升执行效率。两款工具在GUI自动化基准测试中表现优异，标志着阿里巴巴在通用GUI自动化领域的重大进展。
AudioStory | 腾讯ARC开源音频模型 AudioStory:用大语言模型生成长音频
腾讯ARC团队近日发布音频模型AudioStory，旨在利用大语言模型生成长篇叙事音频，解决现有技术在长篇音频时间连贯性与组合推理上的挑战。该模型具备统一理解与生成框架，支持视频配音、音频延续等任务，通过去耦合桥接机制和端到端训练提升协同效应，并基于AudioStory-10K数据集验证性能优于传统模型。团队已发布推理代码及演示案例，展示其在长音频生成领域的广泛适用性。
AI点餐系统 | 塔可钟AI点餐系统频频翻车!18000杯水事件后，快餐巨头开始反思AI策略
塔可钟在超500家门店部署AI语音点餐系统后频现问题，如顾客故意订购18000杯水绕过系统，影响品牌形象。公司首席数字官坦言对AI体验喜忧参半，正重新评估广泛部署计划，给予加盟商更多自主权，考虑繁忙时段由人工处理订单，反思AI技术在复杂快餐场景的实际应用效果。
Copilot音频表达 | 微软推出Copilot Labs，首个实验性工具“Copilot音频表达”上线
微软推出实验性AI中心Copilot Labs，首个工具“Copilot音频表达”同步上线。该工具基于语音生成模型，可将文本转化为自然语音旁白，支持调整情感、个性和风格，如柔和语气或激昂语调。目前支持英语，提供情感模式（按风格演绎脚本）和故事模式（结合多声音增强表现力），生成音频可免费下载用于个人项目，适用于现代浏览器（建议桌面端），部分功能需登录Microsoft账户及Copilot Pro订阅。
企业上下文引擎、智能代理网 | Hyland 推出企业级 AI 引擎和智能代理网，助力自动化革新
Hyland公司近日推出企业级AI引擎——企业上下文引擎及智能代理网，依托内容创新云，旨在提升企业自动化与决策能力。企业上下文引擎整合ERP、CRM等系统数据，提供实时运营视角；智能代理网针对医疗、银行等特定行业，实现复杂工作流的智能自动化与优化。Hyland高管表示，两项技术可赋能现有工作流程，释放内容与数据价值，让员工专注高价值工作。
简笔画+实景融合风治愈系萌宠视频制作 | 利用AI制作“简笔画+实景”融合风治愈系萌宠视频变现
文章介绍了利用国产AI工具制作“简笔画+实景”融合风治愈系萌宠视频的变现方法。通过豆包生成图片、即梦图生视频、剪映剪辑等步骤，新手可低门槛创作温馨视频，发布至抖音、小红书等平台，通过平台奖励、广告合作、带货等方式变现，同时需关注平台AI内容政策及竞争优化。

硬件&底层技术

Hardware Technology

颠覆代码智能体评测标准!GitTaskBench 开创全新时代
近日，中科院、北大、港科大等机构联合研发的GitTaskBench正式推出，旨在颠覆现有代码智能体评测标准。该工具首次实现从仓库理解到项目交付的全链路评测，涵盖7大模态、24个子领域及54个真实任务，并引入“性价比”概念量化经济效益，为学术界、业界及创业者提供新评估参考。
宇树科技 | 宇树科技新专利:用数字孪生技术让机器人跳出完美舞步
杭州宇树科技股份有限公司近期公开一项"基于数字孪生的机器人运动控制方法和电子设备"专利，旨在解决机器人舞蹈表演与环境脱节问题。该专利通过数字孪生技术构建包含环境采集、地图处理等六个模块的系统，实现机器人实时感知适应舞台环境，避免动作不协调，支持设计高难度舞蹈动作，提升舞台表现力。
OpenAI | OpenAI即将在印度建造超大型数据中心，或将引领AI技术新潮流
人工智能巨头OpenAI计划在印度建造大型数据中心，作为其"星际之门"AI基础设施在亚洲发展的重要里程碑。该数据中心拟至少容纳1千兆瓦电力，有望成印度最大之一。目前正寻求当地合作伙伴，具体选址和时间未明，但业内认为将很快明确。OpenAI CEO山姆・奥特曼近期访印或宣布计划，若推进将为其亚洲扩展提供基础设施支持，影响印度及亚洲科技生态。

行业动态&政策

Industry Trends Policies

革命性法规:2025年9月起AI生成内容必须标识，影响深远!
中国将于2025年9月1日实施《人工智能生成合成内容标识办法》，要求AI生成的文本、图片等内容需通过显式（如提示语）或隐式（数据嵌入）方式标识，以提升信息透明度和可追溯性。该法规旨在应对假新闻、深度伪造等风险，规范内容创作者合规性，同时可能推动技术创新与行业自律，未来或引领全球AI监管趋势。
AI重大变革!今天，正式实施!
9月1日起，《人工智能生成合成内容标识办法》及强制性国家标准同步施行，要求AI生成的文字、图片等内容“亮明身份”。微信平台发布公告，要求用户发布AI生成内容时主动声明，不得篡改标识或传播虚假信息。该政策旨在规范AI内容传播，促进生成式人工智能健康发展，同时降低平台审核成本。
马斯克承认xAI代码库遭窃，前员工转投 OpenAI!
马斯克创立的xAI公司近日爆料其代码库遭前员工Xuechen Li窃取，xAI已对Li提起诉讼，指控其违反保密协议、侵犯商业秘密等。Li曾为xAI核心成员，辞职前三天将大量数据上传至个人系统，离职后加入OpenAI。xAI要求法院禁止Li在竞争对手工作并归还数据，称被盗技术可能为OpenAI节省数十亿美元研发费用。
巨额投资难解信任危机:Meta与Scale AI合作现裂痕
Meta自今年6月向数据标注公司Scale AI投资143亿美元并引入其高管后，双方合作现裂痕。核心问题在于Meta核心AI部门认为Scale AI数据质量不佳，更倾向与竞争对手Mercor、Surge合作。此外，人事整合受挫，Scale AI前高管加入Meta两月后离职，Meta AI部门也因引入新人才出现混乱，多名核心员工离职，其AI发展前景受影响。
9月1日AI内容新规正式生效!不标识就违法，3400万内容创作者紧急应对
9月1日《人工智能生成合成内容标识办法》正式实施，要求AI生成内容需通过显式（如文字、语音标注）和隐式（元数据嵌入）双重标识，数字水印技术强化溯源。违规者将面临处罚，3400万内容创作者、平台及AI企业需调整生产流程，确保合规。新规旨在规范AI内容生态，提升信息透明度，推动行业规范化发展。
中国企业大模型市场爆发:半年调用量暴增363%，阿里通义居首位
沙利文发布报告显示，2025年上半年中国企业级大模型日均总消耗量达10.2万亿Tokens，较2024年下半年暴增363%。阿里通义以17.7%份额居首，字节豆包、DeepSeek紧随其后。企业部署呈现公有云成主流（七成选择）、开源模型主导增长（预计超80%企业采用）两大趋势，反映企业更注重场景适配与自主定制。
中国AI三巨头入选《时代》周刊2025年度百强榜单
华为任正非、DeepSeek梁文锋、宇树科技王兴兴三位中国AI领域企业家入选《时代》周刊2025年度AI领域最具影响力100人名单，与马斯克、奥尔特曼等国际科技巨头并列。文章还提及中国AI产业规模2024年突破7000亿元，DeepSeek产品用户增速亮眼，宇树科技年营收超10亿且启动IPO辅导，华为持续强化多业务赛道竞争力。
昆仑万维响应《人工智能生成合成内容标识办法》，启动 AI 内容双重标识体系
昆仑万维响应2025年9月1日实施的《人工智能生成合成内容标识办法》，全面启动AI内容双重标识体系。具体措施包括自动嵌入"AI生成"显式水印和隐式元数据标识，要求创作者添加"#AI生成#"话题标签并说明模型版本，同时建立巡查机制，对违规行为采取下架、限流或封禁等处置，以维护透明合规的内容生态。

其他

Other

23岁天才投资人:从OpenAI到华尔街，700%回报率引发热议!
23岁投资人Leopold Aschenbrenner曾任职OpenAI，去年创立"Situational Awareness"基金，管理规模达15亿美元，上半年回报率47%，总回报率700%。其投资聚焦AI半导体、基础设施等领域，吸引Stripe创始人等金融大咖投资。此前因泄露OpenAI安全漏洞被解雇，后将洞察转化为投资行动，凭借对AGI2027年实现的预判，取得亮眼成绩。

⬇️更多AI资讯关注我们⬇️

【声明】内容源于网络

久新数智

重塑生产力，开启人机协作新篇章！

内容 0

粉丝 0

久新数智重塑生产力，开启人机协作新篇章！

总阅读0

粉丝0

内容0