10月11日丨每日AI简讯丨700万参数微型模型TRM竟胜过大模型Gemini2.5Pro和Claude3.7！- 大数跨境

首页

10月11日丨每日AI简讯丨700万参数微型模型TRM竟胜过大模型Gemini2.5Pro和Claude3.7！

久新数智

2025-10-11

导读：摘要信息

9agent.ai

点击蓝字关注我们

每日AI简讯

2025-10-11

大模型

LLM

TRM | 700万参数微型模型 TRM，推理能力竟胜过 Gemini2.5Pro 和 Claude3.7
三星SAIL蒙特利尔实验室研究人员推出微型递归模型TRM，仅700万参数却在数独、ARC-AGI测试等结构化推理任务中表现优异，超越Gemini2.5Pro、Claude3.7等大型模型。其在ARC-AGI-1、ARC-AGI-2准确率分别达45%、8%，Sudoku-Extreme准确率提升至87.4%。研究表明小模型在特定推理任务中潜力大，但不适用于通用任务，为推理领域提供新方向。
Gemini | Google 在搜索垄断补救听证会上为 Gemini 辩护，极力争取 AI 业务扩张自由
2025年10月10日，Google在华盛顿特区联邦法院的搜索垄断补救听证会上，为其Gemini AI辩护，争取AI业务扩张自由。法院此前裁定Google非法垄断搜索市场，需缩减激进分销策略，但Google强调不应限制其将Gemini与YouTube、地图等应用捆绑销售。法官担忧此举可能让Gemini获得市场优势，而Google律师辩称AI市场与搜索市场不同，捆绑是常见商业行为，且Google在AI领域未显垄断迹象，听证会焦点在于AI捆绑策略是否受限。
Gemini | Figma牵手Google引入Gemini模型:1300万设计师迎来AI助手，图像生成延迟暴降50%
设计平台Figma与Google合作，为其软件引入Gemini 2.5 Flash、Gemini 2.0和Imagen 4等模型。其中，Gemini 2.5 Flash将整合到图像编辑与生成功能中，1300万月活用户可通过提示词制作及修改AI图像，测试显示图像生成延迟降低50%。此次合作非独家，反映Figma为用户提供多元工具的务实态度。
ChatGPT | OpenAI 证实 ChatGPT 每周活跃用户突破8亿大关
OpenAI在年度DevDay活动上宣布，其开发的ChatGPT每周活跃用户已突破8亿，较2023年11月的1亿周活用户增长700%。此前研究显示，截至7月ChatGPT月活用户达7亿，日处理超25亿条消息，远超Grok、Claude等竞品，巩固了其大语言模型领域的领先地位。
Claude | Anthropic在纽约开设 “Zero Slop Zone”，抵制低质 AI 内容
人工智能公司Anthropic在纽约西村开设名为“Zero Slop Zone”的快闪店，旨在推广其Claude聊天机器人，抵制低质AI生成内容。活动吸引超5000名访客，社交媒体印象超千万次，现场提供免费咖啡和“思考”字样棒球帽，鼓励使用传统工具创作，禁用电子设备。该活动是其“保持思考”宣传的一部分，Anthropic虽亏损但预计2025年收入达50亿美元，最新融资估值1830亿美元，支持者包括亚马逊、谷歌等，近期还推出Claude4.5Sonnet代码模型。
蓝心3B | vivo 蓝心3B 端侧大模型震撼发布:集成五大核心能力，性能超越所有8B 模型
vivo在2025开发者大会上推出蓝心3B端侧多模态推理大模型，该30亿参数模型集成五大核心能力，实现端侧多模态AI能力的本地部署。其在OpenCompass榜单性能超越所有8B模型，SuperCLUE手机端侧评测10B以内总榜第一，并获中国信通院终端智能服务能力L3卓越级认证，展现端侧部署的可靠性与先进性。
GPT-5 | GPT-5偏见测试结果公布:500问验证客观性飞跃，情感化问题仍是挑战
OpenAI发布的GPT-5模型在政治偏见控制上取得突破，较前代偏见水平降低30%。团队通过覆盖100主题、500问题的系统性测试，发现其在中性或轻微倾向性问题中表现客观，仅在情绪化问题中显示适度偏见。为增强透明度，OpenAI已公开"模型规范"，并计划未来发布更全面测试结果。
端侧大模型 | 北京国资助力!面壁智能大模型融资再创佳绩，落地汽车、手机等领域
面壁智能获北京国资等数亿元融资，资金将用于端侧大模型研发及商业化。其端侧大模型强调"知识密度"，以更少参数实现更强智能，可在手机、汽车等资源受限设备运行。目前已与吉利、华为等合作，如吉利银河M9搭载其VLA多模态模型提升人车交互，且终端部署可降低延迟、保护隐私，有望引领端侧AI潮流。

产品&应用

Product Application

ChatGPT电商支付功能 | 印度推出 ChatGPT 电商支付新体验，购物更智能!
印度国家支付公司（NPCI）与Razorpay联手OpenAI，在ChatGPT上推出AI驱动支付功能（试点阶段），用户可在ChatGPT内完成商品信息获取与支付，避免多平台切换。此举提升用户体验，为商家开辟新销售渠道，体现印度在数字支付领域的创新与决心，契合后疫情时代无接触购物需求。
RoboNeo | 美图 RoboNeo 上线首月 MAU 破百万，吴欣鸿倡导“AI 原生”
美图公司旗下AI应用RoboNeo上线首月MAU（月活跃用户）突破百万，并冲进多国应用商店分类榜前10名。创始人吴欣鸿在公司17周年生日会上表示，其成功得益于内部“反惯性”组织尝试与AI工具深度应用，强调“AI原生组织”通过小团队高频学习AI工具，快速完成多环节工作。目前美图已将AI融入研发、设计等场景，并推出“AI创新工作室”机制，推动产品快速落地。
Gaga AI | AI“戏精”上身!一张照片变身电影大片，Gaga AI颠覆影视创作
Gaga AI团队推出全球首个专注人物对话的影视级音画同步模型Gaga AI，可通过静态照片和提示词生成60秒电影级视频，支持情感演绎、双人互动及多语种。其核心亮点是智能分析场景情感，生成细腻表情与肢体语言，操作简单，音画同步无需后期，降低影视制作门槛，适用于短剧等领域，未来将推出升级版加速应用。
AI聊天机器人 | 印度创新试点:AI 聊天机器人助力电子商务购物新方式
印度启动AI聊天机器人购物试点项目，由OpenAI的ChatGPT主导，与谷歌Gemini、Anthropic的Claude合作开发，印度国家支付公司（NPCI）牵头，联合Razorpay等实现ChatGPT内购物支付。项目依托UPI Reserve Pay和UPI Circle技术，用户无需切换应用即可完成支付，Razorpay正全国推广并为商家开发集成层，提升购物便利性与商家销售渠道。
Claude Code插件 | Claude推出测试版Claude Code 插件
Anthropic公司旗下Claude Code上线测试版插件系统及配套插件市场，其插件机制整合Slash命令、Subagents等核心能力，支持代码生成、调试等多样化需求，用户通过/plugin命令可简便安装管理。同步推出的插件市场支持自由上架和获取插件，鼓励协作分享，或催生插件交易平台，标志AI代码工具向“生态协同”转型。
OpenAI Sora | OpenAI Sora 引爆 App Store“山寨潮”:30万次下载!苹果审核机制遭质疑
OpenAI推出仅限邀请的Sora视频生成移动应用后，苹果App Store出现大量假冒应用，这些应用盗用“Sora”或“SSora2”名称，部分早于官方应用存在但更新后蹭热度。据统计，冒牌应用总安装量约30万次，收入超16万美元。尽管苹果下架部分应用，但仍有数款如“PetReels — Sora for Pets”等在运营，苹果未回应相关问询。
可引导场景生成生成式AI工具 | 麻省理工学院推出可调节的生成 AI 工具，助力机器人虚拟训练
麻省理工学院（MIT）计算机科学与人工智能实验室（CSAIL）与丰田研究院合作推出“可引导场景生成”生成式AI工具，旨在通过创建虚拟训练环境（如厨房、客厅等）提升机器人学习能力。该工具基于4400万个3D房间数据训练，利用“蒙特卡洛树搜索”策略生成复杂场景，解决机器人训练中高质量数据匮乏的问题。目前系统处于概念验证阶段，未来计划扩展对象与环境，建立用户社区以支持机器人技能训练。

硬件&底层技术

Hardware Technology

微软 | 微软大力推广 NPU，消费者却难以找到购买理由
微软近期强调神经处理单元（NPU）对提升Windows智能化的重要性，称其可加速本地推理并降低功耗，使设备以更低成本提供复杂AI体验。但当前普通用户未感受到明显实际益处，仅少数操作系统功能需本地处理且未显著提升生产力，如“Recall”“语义搜索”等功能未被强烈需求。市场分析师指出，带NPU的Copilot+ PC份额增长主要依赖营销和降价，未来硬件兼容性及用户购买必要性仍存疑。
Anthropic | Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型
Anthropic联合英国人工智能安全研究所、艾伦图灵研究所发布研究称，仅需250份"中毒"文件即可在大型语言模型（LLM）中植入后门，且攻击有效性与模型大小无关。实验显示，中毒样本仅占数据集0.00016%，触发词"SUDO"会使模型输出乱码，属低风险漏洞。研究旨在帮助防御者提升AI系统保护措施。

行业动态&政策

Industry Trends Policies

中央网信办、国家发展改革委印发《政务领域人工智能大模型部署应用指引》
中央网信办、国家发展改革委联合印发《政务领域人工智能大模型部署应用指引》，旨在安全稳妥推进政务领域大模型部署应用。指引从场景牵引、规范部署、运行管理三方面提供导向，要求政务部门结合实际选择典型场景探索应用，统筹集约部署，建立全周期管理体系，防范“数字形式主义”及泄密等风险。
算力难变现美国AI陷入困境
美国AI产业面临算力难变现困境，2025年AI数据中心支出预计达5200亿美元，微软、谷歌等企业投入巨额资金却回报有限。生成式AI因技术原理难享规模效应，用户增长未带来足够收入；广告变现难、订阅收入杯水车薪；企业云服务95%未盈利，毛利率低。AI商业化滞后于基建与金融化，引发“工业泡沫论”与“金融泡沫论”争议，需从“硬数据”转向“软价值”，渗透传统行业创造价值。
人工智能吸引过半数风投资金流入，华尔街却开始警惕“AI泡沫”
2025年上半年全球货物贸易因AI相关产品需求增长等因素超预期，WTO上调2025年增长预测至2.4%。数据显示，AI初创公司今年已吸引1927亿美元风投，或成过半风投资金流入AI之年。但华尔街人士警惕泡沫，贝佐斯称当前为"工业泡沫"，高盛CEO等警告资本可能无法获回报，市场认为这体现了更审慎的观点。
《时代》2025年度最佳发明榜单出炉:宇树、DeepSeek、华为、比亚迪等中国创新上榜
美国《时代》杂志公布2025年度最佳发明榜单，300款创新产品入选，宇树科技、DeepSeek、华为、比亚迪等中国企业创新成果上榜。其中包括宇树R1人形机器人、DeepSeek R1推理大模型、华为Pura80Ultra手机、比亚迪海鸥纯电动车等，彰显中国企业在AI、机器人、电动汽车等领域的全球创新实力。
Sora 2横扫App Store，中信建投持续看好AI产业链
中信建投发布研报指出，尽管算力板块近期波动，但AI产业链仍值得关注。OpenAI新推视频生成模型Sora2，其驱动的Sora App三天内登顶美国App Store免费榜；Meta的AI智能眼镜Ray-Ban Display市场热销，试戴预约排至两月后。此外，OpenAI与AMD达成6GW算力支持协议，预示算力需求强劲。中信建投认为，从应用到硬件的多重验证表明AI产业链个股仍有发展空间。
前DeepMind大神创业一年估值飙至80亿美元:Reflection AI要做美国版DeepSeek
由前Google DeepMind研究员Misha Laskin和Ioannis Antonoglou创立的Reflection AI，成立仅一年完成20亿美元融资，估值达80亿美元。该公司定位为OpenAI等封闭实验室的开源替代品及美国版DeepSeek，已招募顶尖团队并构建先进训练堆栈，计划明年发布前沿语言模型，商业模式聚焦企业及政府客户，投资者包括英伟达、红杉等。
陕西省规划到2027年建立5个人工智能学院
陕西省教育厅发布《陕西省推进"人工智能+教育"行动计划（2025—2027年）》，计划到2027年建立5个左右人工智能学院，同时在中小学培育20个全国人工智能教育基地，职业院校建设10个"AI+专业群"及虚拟仿真实训基地，高校布局60个优质学科专业，并培养500名骨干教师、打造100所实验学校，推动教育高质量发展。

其他

Other

台积电 Q3 业绩超预期，人工智能需求推动 30% 营收增长
台积电2025年第三季度营收达9899.2亿新台币（约324.7亿美元），同比增长30%，超出市场预期。主要因人工智能应用需求激增，尤其是来自Nvidia和苹果的订单增长，抵消了消费电子芯片销售疲软的影响。公司预计10月16日发布详细季度财报，未来将持续聚焦AI及高性能计算领域需求以保持领先。
清华天才姚顺宇辞职跳槽，携手 DeepMind 开创新纪元!
清华校友姚顺宇近日宣布，已于9月19日从Anthropic离职，并于9月29日加入Google旗下DeepMind。其曾参与推动Claude模型从3.7版升级至4.5版，此次转型源于AI领域更开放的实验探索机会。他将与全球顶尖科研人员共事，推动AI技术发展，其职业转变也反映了中国科研力量在国际AI舞台的崛起。
英国前首相苏纳克获两大科技巨头聘任:将任微软与 Anthropic 高级顾问
英国前首相里希·苏纳克获微软和AI初创公司Anthropic聘任为高级顾问，职位已获相关委员会批准。其职责为提供宏观经济与地缘政治战略视角，协助解决科技服务经济、安全等问题。薪酬将转入其慈善机构，用于促进社会流动性。Anthropic称其经验将助力确保AI造福人类。

⬇️更多AI资讯关注我们⬇️

【声明】内容源于网络

久新数智

重塑生产力，开启人机协作新篇章！

内容 139

粉丝 0

久新数智重塑生产力，开启人机协作新篇章！

总阅读107

粉丝0

内容139