9agent.ai
点击蓝字 关注我们
每日AI简讯
2025-09-02
01
大模型
LLM
阿里通义 | 沙利文:中国企业级大模型市场阿里通义份额第一
国际权威市场调研机构沙利文发布《中国GenAI市场洞察:企业级大模型调用全景研究,2025》,显示2025年上半年中国企业级大模型日均调用量较2024年底增长363%,目前超10万亿Tokens。其中,阿里通义以17.7%的份额位列第一,成为中国企业选择最多的大模型。
GPT-realtime | OpenAI震撼发布GPT-realtime!语音AI革命来了,人机对话真假难辨
OpenAI发布GPT-realtime语音模型,突破传统AI语音生硬局限,能精准模拟人类语调、情感及语速变化,支持多模态信息处理、复杂指令执行和实时情感调整,新增两种语音风格并优化原有模式,将在客服、教育等领域推动人机交互变革。
LongCat | 美团推出开源大模型LongCat:旨在赋能开发者,加速AI应用落地
美团近日发布开源大语言模型LongCat(龙猫),核心版本LongCat-Flash含560亿参数,采用混合专家(MoE)架构优化计算效率,推理时每秒处理超100个标记。模型支持十万加速器规模训练及低延迟推理,上下文长度扩展至128k,多阶段训练提升推理与编码能力,基准测试表现与业界领先模型相当,旨在赋能开发者加速AI应用落地。
书生·万象 InternVL3.5 | 上海AI实验室发布多模态大模型书生·万象 InternVL3.5
上海AI实验室于8月31日开源发布多模态大模型书生·万象InternVL3.5,通过级联式强化学习、动态视觉分辨率路由等技术实现推理能力、部署效率升级。其旗舰模型在多学科推理等多项基准测试中超越GPT-5、Claude-3.7等模型,提供10亿至2410亿参数的全量级版本,并支持单张A100GPU等不同资源场景部署,推动多模态AI发展。
Step-Audio 2 mini | 阶跃发布端到端语音大模型Step-Audio 2 mini
9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,该模型在多个国际基准测试集上获SOTA成绩,支持语音理解、识别、翻译等任务及语音原生Tool Calling能力,架构创新实现原始音频输入到语音输出的直接转换,已上线GitHub等平台供用户试用。
Grok | xAI起诉前工程师窃取机密:Grok核心技术或流入OpenAI
埃隆·马斯克旗下xAI起诉前工程师Xuechen Li窃取公司核心商业机密,指控其在参与开发Grok聊天机器人期间,下载大量Grok项目机密资料并掩盖痕迹,离职后加入竞争对手OpenAI。Li此前出售了持有的700万美元xAI股票。此次诉讼反映AI行业竞争激烈及人才流动中的技术风险,或加剧xAI与OpenAI的竞争。
LongCat-Flash-Chat | 美团发布 LongCat-Flash-Chat:560B 参数模型再创新高,智能体表现惊艳!
美团发布并开源AI大模型LongCat-Flash-Chat,总参数量达560B,激活参数范围18.6B-31.3B,采用混合专家模型架构及跨层通道设计,提升计算效率与并行性。训练30天在H800硬件上实现单用户每秒100token推理速度,智能体任务中VitaBench测试得分第一,通用知识测试ArenaHard-V2、MMLU、CEval分别获86.50、89.71、90.44分,开源为开发者提供研究应用机会。
MiniCPM-V 4.5 | 开源多模态模型MiniCPM-V 4.5发布,8亿参数实现移动端AI部署
近日,开源多模态大语言模型MiniCPM-V 4.5正式发布,其8亿参数规模实现了在智能手机、平板等端侧设备的高效运行。该模型采用轻量化设计,支持单图理解、多图推理等任务,在iPhone16Pro Max上首token延迟约2秒,解码速度超17token/秒,视频处理能力达10FPS,OCR准确率85.7%,支持30多种语言。模型兼容多种推理框架,提供16种量化格式,采用Apache-2.0许可开源,适用于隐私敏感及离线场景。
02
产品&应用
Product Application
AI就绪检查器 | Firecrawl宣布下周开源AI就绪检查器,助力网站全面优化
领先的网页抓取与数据处理解决方案提供商Firecrawl宣布,将于下周开源AI就绪检查器。该工具可对网站进行全面审计,涵盖LLMs.txt合规性检查、AI可读内容质量评估等核心功能,帮助提升网站在AI驱动搜索环境中的可见性与内容优化能力,旨在推动网站优化领域创新与普及。
Gemini | 谷歌Gemini渐近ChatGPT,谷歌目前有4款AI应用跻身Top50
根据a16z最新报告,AI应用市场趋于稳定,谷歌Gemini在网络和移动领域逐步缩小与ChatGPT的差距。网络应用中,ChatGPT居首,Gemini紧随其后;移动领域,Gemini月活用户近ChatGPT一半,且90%用户来自Android。此外,Grok用户增至2000万,中国公司凭借国内市场在移动AI应用中占主导。
Mobile-Agent-v3和GUI-Owl | 阿里巴巴 Qwen 团队发布下一代 GUI 自动化框架 Mobile-Agent-v3 和 GUI-Owl
近日,阿里巴巴Qwen团队推出下一代GUI自动化框架Mobile-Agent-v3和GUI-Owl。其中,GUI-Owl基于Qwen2.5-VL构建,整合感知、推理等能力,适应复杂动态的GUI环境;Mobile-Agent-v3通过多代理协作分解任务,动态更新计划提升执行效率。两款工具在GUI自动化基准测试中表现优异,标志着阿里巴巴在通用GUI自动化领域的重大进展。
AudioStory | 腾讯ARC开源音频模型 AudioStory:用大语言模型生成长音频
腾讯ARC团队近日发布音频模型AudioStory,旨在利用大语言模型生成长篇叙事音频,解决现有技术在长篇音频时间连贯性与组合推理上的挑战。该模型具备统一理解与生成框架,支持视频配音、音频延续等任务,通过去耦合桥接机制和端到端训练提升协同效应,并基于AudioStory-10K数据集验证性能优于传统模型。团队已发布推理代码及演示案例,展示其在长音频生成领域的广泛适用性。
AI点餐系统 | 塔可钟AI点餐系统频频翻车!18000杯水事件后,快餐巨头开始反思AI策略
塔可钟在超500家门店部署AI语音点餐系统后频现问题,如顾客故意订购18000杯水绕过系统,影响品牌形象。公司首席数字官坦言对AI体验喜忧参半,正重新评估广泛部署计划,给予加盟商更多自主权,考虑繁忙时段由人工处理订单,反思AI技术在复杂快餐场景的实际应用效果。
Copilot音频表达 | 微软推出Copilot Labs,首个实验性工具“Copilot音频表达”上线
微软推出实验性AI中心Copilot Labs,首个工具“Copilot音频表达”同步上线。该工具基于语音生成模型,可将文本转化为自然语音旁白,支持调整情感、个性和风格,如柔和语气或激昂语调。目前支持英语,提供情感模式(按风格演绎脚本)和故事模式(结合多声音增强表现力),生成音频可免费下载用于个人项目,适用于现代浏览器(建议桌面端),部分功能需登录Microsoft账户及Copilot Pro订阅。
企业上下文引擎、智能代理网 | Hyland 推出企业级 AI 引擎和智能代理网,助力自动化革新
Hyland公司近日推出企业级AI引擎——企业上下文引擎及智能代理网,依托内容创新云,旨在提升企业自动化与决策能力。企业上下文引擎整合ERP、CRM等系统数据,提供实时运营视角;智能代理网针对医疗、银行等特定行业,实现复杂工作流的智能自动化与优化。Hyland高管表示,两项技术可赋能现有工作流程,释放内容与数据价值,让员工专注高价值工作。
简笔画+实景融合风治愈系萌宠视频制作 | 利用AI制作“简笔画+实景”融合风治愈系萌宠视频变现
文章介绍了利用国产AI工具制作“简笔画+实景”融合风治愈系萌宠视频的变现方法。通过豆包生成图片、即梦图生视频、剪映剪辑等步骤,新手可低门槛创作温馨视频,发布至抖音、小红书等平台,通过平台奖励、广告合作、带货等方式变现,同时需关注平台AI内容政策及竞争优化。
03
硬件&底层技术
Hardware Technology
颠覆代码智能体评测标准!GitTaskBench 开创全新时代
近日,中科院、北大、港科大等机构联合研发的GitTaskBench正式推出,旨在颠覆现有代码智能体评测标准。该工具首次实现从仓库理解到项目交付的全链路评测,涵盖7大模态、24个子领域及54个真实任务,并引入“性价比”概念量化经济效益,为学术界、业界及创业者提供新评估参考。
宇树科技 | 宇树科技新专利:用数字孪生技术让机器人跳出完美舞步
杭州宇树科技股份有限公司近期公开一项"基于数字孪生的机器人运动控制方法和电子设备"专利,旨在解决机器人舞蹈表演与环境脱节问题。该专利通过数字孪生技术构建包含环境采集、地图处理等六个模块的系统,实现机器人实时感知适应舞台环境,避免动作不协调,支持设计高难度舞蹈动作,提升舞台表现力。
OpenAI | OpenAI即将在印度建造超大型数据中心,或将引领AI技术新潮流
人工智能巨头OpenAI计划在印度建造大型数据中心,作为其"星际之门"AI基础设施在亚洲发展的重要里程碑。该数据中心拟至少容纳1千兆瓦电力,有望成印度最大之一。目前正寻求当地合作伙伴,具体选址和时间未明,但业内认为将很快明确。OpenAI CEO山姆・奥特曼近期访印或宣布计划,若推进将为其亚洲扩展提供基础设施支持,影响印度及亚洲科技生态。
04
行业动态&政策
Industry Trends Policies
革命性法规:2025年9月起AI生成内容必须标识,影响深远!
中国将于2025年9月1日实施《人工智能生成合成内容标识办法》,要求AI生成的文本、图片等内容需通过显式(如提示语)或隐式(数据嵌入)方式标识,以提升信息透明度和可追溯性。该法规旨在应对假新闻、深度伪造等风险,规范内容创作者合规性,同时可能推动技术创新与行业自律,未来或引领全球AI监管趋势。
AI重大变革!今天,正式实施!
9月1日起,《人工智能生成合成内容标识办法》及强制性国家标准同步施行,要求AI生成的文字、图片等内容“亮明身份”。微信平台发布公告,要求用户发布AI生成内容时主动声明,不得篡改标识或传播虚假信息。该政策旨在规范AI内容传播,促进生成式人工智能健康发展,同时降低平台审核成本。
马斯克承认xAI代码库遭窃,前员工转投 OpenAI!
马斯克创立的xAI公司近日爆料其代码库遭前员工Xuechen Li窃取,xAI已对Li提起诉讼,指控其违反保密协议、侵犯商业秘密等。Li曾为xAI核心成员,辞职前三天将大量数据上传至个人系统,离职后加入OpenAI。xAI要求法院禁止Li在竞争对手工作并归还数据,称被盗技术可能为OpenAI节省数十亿美元研发费用。
巨额投资难解信任危机:Meta与Scale AI合作现裂痕
Meta自今年6月向数据标注公司Scale AI投资143亿美元并引入其高管后,双方合作现裂痕。核心问题在于Meta核心AI部门认为Scale AI数据质量不佳,更倾向与竞争对手Mercor、Surge合作。此外,人事整合受挫,Scale AI前高管加入Meta两月后离职,Meta AI部门也因引入新人才出现混乱,多名核心员工离职,其AI发展前景受影响。
9月1日AI内容新规正式生效!不标识就违法,3400万内容创作者紧急应对
9月1日《人工智能生成合成内容标识办法》正式实施,要求AI生成内容需通过显式(如文字、语音标注)和隐式(元数据嵌入)双重标识,数字水印技术强化溯源。违规者将面临处罚,3400万内容创作者、平台及AI企业需调整生产流程,确保合规。新规旨在规范AI内容生态,提升信息透明度,推动行业规范化发展。
中国企业大模型市场爆发:半年调用量暴增363%,阿里通义居首位
沙利文发布报告显示,2025年上半年中国企业级大模型日均总消耗量达10.2万亿Tokens,较2024年下半年暴增363%。阿里通义以17.7%份额居首,字节豆包、DeepSeek紧随其后。企业部署呈现公有云成主流(七成选择)、开源模型主导增长(预计超80%企业采用)两大趋势,反映企业更注重场景适配与自主定制。
中国AI三巨头入选《时代》周刊2025年度百强榜单
华为任正非、DeepSeek梁文锋、宇树科技王兴兴三位中国AI领域企业家入选《时代》周刊2025年度AI领域最具影响力100人名单,与马斯克、奥尔特曼等国际科技巨头并列。文章还提及中国AI产业规模2024年突破7000亿元,DeepSeek产品用户增速亮眼,宇树科技年营收超10亿且启动IPO辅导,华为持续强化多业务赛道竞争力。
昆仑万维响应《人工智能生成合成内容标识办法》,启动 AI 内容双重标识体系
昆仑万维响应2025年9月1日实施的《人工智能生成合成内容标识办法》,全面启动AI内容双重标识体系。具体措施包括自动嵌入"AI生成"显式水印和隐式元数据标识,要求创作者添加"#AI生成#"话题标签并说明模型版本,同时建立巡查机制,对违规行为采取下架、限流或封禁等处置,以维护透明合规的内容生态。
05
其他
Other
23岁天才投资人:从OpenAI到华尔街,700%回报率引发热议!
23岁投资人Leopold Aschenbrenner曾任职OpenAI,去年创立"Situational Awareness"基金,管理规模达15亿美元,上半年回报率47%,总回报率700%。其投资聚焦AI半导体、基础设施等领域,吸引Stripe创始人等金融大咖投资。此前因泄露OpenAI安全漏洞被解雇,后将洞察转化为投资行动,凭借对AGI2027年实现的预判,取得亮眼成绩。
⬇️更多AI资讯关注我们⬇️

