大数跨境

10月11日丨每日AI简讯丨700万参数微型模型TRM竟胜过大模型Gemini2.5Pro和Claude3.7!

10月11日丨每日AI简讯丨700万参数微型模型TRM竟胜过大模型Gemini2.5Pro和Claude3.7! 久新数智
2025-10-11
2
导读:摘要信息



9agent.ai

点击蓝字 关注我们



每日AI简讯

2025-10-11


01

大模型

LLM

图片
  • TRM | 700万参数微型模型 TRM,推理能力竟胜过 Gemini2.5Pro 和 Claude3.7

    三星SAIL蒙特利尔实验室研究人员推出微型递归模型TRM,仅700万参数却在数独、ARC-AGI测试等结构化推理任务中表现优异,超越Gemini2.5Pro、Claude3.7等大型模型。其在ARC-AGI-1、ARC-AGI-2准确率分别达45%、8%,Sudoku-Extreme准确率提升至87.4%。研究表明小模型在特定推理任务中潜力大,但不适用于通用任务,为推理领域提供新方向。

  • Gemini | Google 在搜索垄断补救听证会上为 Gemini 辩护,极力争取 AI 业务扩张自由

    2025年10月10日,Google在华盛顿特区联邦法院的搜索垄断补救听证会上,为其Gemini AI辩护,争取AI业务扩张自由。法院此前裁定Google非法垄断搜索市场,需缩减激进分销策略,但Google强调不应限制其将Gemini与YouTube、地图等应用捆绑销售。法官担忧此举可能让Gemini获得市场优势,而Google律师辩称AI市场与搜索市场不同,捆绑是常见商业行为,且Google在AI领域未显垄断迹象,听证会焦点在于AI捆绑策略是否受限。

  • Gemini | Figma牵手Google引入Gemini模型:1300万设计师迎来AI助手,图像生成延迟暴降50%

    设计平台Figma与Google合作,为其软件引入Gemini 2.5 Flash、Gemini 2.0和Imagen 4等模型。其中,Gemini 2.5 Flash将整合到图像编辑与生成功能中,1300万月活用户可通过提示词制作及修改AI图像,测试显示图像生成延迟降低50%。此次合作非独家,反映Figma为用户提供多元工具的务实态度。

  • ChatGPT | OpenAI 证实 ChatGPT 每周活跃用户突破8亿大关

    OpenAI在年度DevDay活动上宣布,其开发的ChatGPT每周活跃用户已突破8亿,较2023年11月的1亿周活用户增长700%。此前研究显示,截至7月ChatGPT月活用户达7亿,日处理超25亿条消息,远超Grok、Claude等竞品,巩固了其大语言模型领域的领先地位。

  • Claude | Anthropic在纽约开设 “Zero Slop Zone”,抵制低质 AI 内容

    人工智能公司Anthropic在纽约西村开设名为“Zero Slop Zone”的快闪店,旨在推广其Claude聊天机器人,抵制低质AI生成内容。活动吸引超5000名访客,社交媒体印象超千万次,现场提供免费咖啡和“思考”字样棒球帽,鼓励使用传统工具创作,禁用电子设备。该活动是其“保持思考”宣传的一部分,Anthropic虽亏损但预计2025年收入达50亿美元,最新融资估值1830亿美元,支持者包括亚马逊、谷歌等,近期还推出Claude4.5Sonnet代码模型。

  • 蓝心3B | vivo 蓝心3B 端侧大模型震撼发布:集成五大核心能力,性能超越所有8B 模型

    vivo在2025开发者大会上推出蓝心3B端侧多模态推理大模型,该30亿参数模型集成五大核心能力,实现端侧多模态AI能力的本地部署。其在OpenCompass榜单性能超越所有8B模型,SuperCLUE手机端侧评测10B以内总榜第一,并获中国信通院终端智能服务能力L3卓越级认证,展现端侧部署的可靠性与先进性。

  • GPT-5 | GPT-5偏见测试结果公布:500问验证客观性飞跃,情感化问题仍是挑战

    OpenAI发布的GPT-5模型在政治偏见控制上取得突破,较前代偏见水平降低30%。团队通过覆盖100主题、500问题的系统性测试,发现其在中性或轻微倾向性问题中表现客观,仅在情绪化问题中显示适度偏见。为增强透明度,OpenAI已公开"模型规范",并计划未来发布更全面测试结果。

  • 端侧大模型 | 北京国资助力!面壁智能大模型融资再创佳绩,落地汽车、手机等领域

    面壁智能获北京国资等数亿元融资,资金将用于端侧大模型研发及商业化。其端侧大模型强调"知识密度",以更少参数实现更强智能,可在手机、汽车等资源受限设备运行。目前已与吉利、华为等合作,如吉利银河M9搭载其VLA多模态模型提升人车交互,且终端部署可降低延迟、保护隐私,有望引领端侧AI潮流。


02

产品&应用

Product Application

图片
  • ChatGPT电商支付功能 | 印度推出 ChatGPT 电商支付新体验,购物更智能!

    印度国家支付公司(NPCI)与Razorpay联手OpenAI,在ChatGPT上推出AI驱动支付功能(试点阶段),用户可在ChatGPT内完成商品信息获取与支付,避免多平台切换。此举提升用户体验,为商家开辟新销售渠道,体现印度在数字支付领域的创新与决心,契合后疫情时代无接触购物需求。

  • RoboNeo | 美图 RoboNeo 上线首月 MAU 破百万,吴欣鸿倡导“AI 原生”

    美图公司旗下AI应用RoboNeo上线首月MAU(月活跃用户)突破百万,并冲进多国应用商店分类榜前10名。创始人吴欣鸿在公司17周年生日会上表示,其成功得益于内部“反惯性”组织尝试与AI工具深度应用,强调“AI原生组织”通过小团队高频学习AI工具,快速完成多环节工作。目前美图已将AI融入研发、设计等场景,并推出“AI创新工作室”机制,推动产品快速落地。

  • Gaga AI | AI“戏精”上身!一张照片变身电影大片,Gaga AI颠覆影视创作

    Gaga AI团队推出全球首个专注人物对话的影视级音画同步模型Gaga AI,可通过静态照片和提示词生成60秒电影级视频,支持情感演绎、双人互动及多语种。其核心亮点是智能分析场景情感,生成细腻表情与肢体语言,操作简单,音画同步无需后期,降低影视制作门槛,适用于短剧等领域,未来将推出升级版加速应用。

  • AI聊天机器人 | 印度创新试点:AI 聊天机器人助力电子商务购物新方式

    印度启动AI聊天机器人购物试点项目,由OpenAI的ChatGPT主导,与谷歌Gemini、Anthropic的Claude合作开发,印度国家支付公司(NPCI)牵头,联合Razorpay等实现ChatGPT内购物支付。项目依托UPI Reserve Pay和UPI Circle技术,用户无需切换应用即可完成支付,Razorpay正全国推广并为商家开发集成层,提升购物便利性与商家销售渠道。

  • Claude Code插件 | Claude推出测试版Claude Code 插件

    Anthropic公司旗下Claude Code上线测试版插件系统及配套插件市场,其插件机制整合Slash命令、Subagents等核心能力,支持代码生成、调试等多样化需求,用户通过/plugin命令可简便安装管理。同步推出的插件市场支持自由上架和获取插件,鼓励协作分享,或催生插件交易平台,标志AI代码工具向“生态协同”转型。

  • OpenAI Sora | OpenAI Sora 引爆 App Store“山寨潮”:30万次下载!苹果审核机制遭质疑

    OpenAI推出仅限邀请的Sora视频生成移动应用后,苹果App Store出现大量假冒应用,这些应用盗用“Sora”或“SSora2”名称,部分早于官方应用存在但更新后蹭热度。据统计,冒牌应用总安装量约30万次,收入超16万美元。尽管苹果下架部分应用,但仍有数款如“PetReels — Sora for Pets”等在运营,苹果未回应相关问询。

  • 可引导场景生成生成式AI工具 | 麻省理工学院推出可调节的生成 AI 工具,助力机器人虚拟训练

    麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)与丰田研究院合作推出“可引导场景生成”生成式AI工具,旨在通过创建虚拟训练环境(如厨房、客厅等)提升机器人学习能力。该工具基于4400万个3D房间数据训练,利用“蒙特卡洛树搜索”策略生成复杂场景,解决机器人训练中高质量数据匮乏的问题。目前系统处于概念验证阶段,未来计划扩展对象与环境,建立用户社区以支持机器人技能训练。


03

硬件&底层技术

Hardware Technology

图片
  • 微软 | 微软大力推广 NPU,消费者却难以找到购买理由

    微软近期强调神经处理单元(NPU)对提升Windows智能化的重要性,称其可加速本地推理并降低功耗,使设备以更低成本提供复杂AI体验。但当前普通用户未感受到明显实际益处,仅少数操作系统功能需本地处理且未显著提升生产力,如“Recall”“语义搜索”等功能未被强烈需求。市场分析师指出,带NPU的Copilot+ PC份额增长主要依赖营销和降价,未来硬件兼容性及用户购买必要性仍存疑。

  • Anthropic | Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型

    Anthropic联合英国人工智能安全研究所、艾伦图灵研究所发布研究称,仅需250份"中毒"文件即可在大型语言模型(LLM)中植入后门,且攻击有效性与模型大小无关。实验显示,中毒样本仅占数据集0.00016%,触发词"SUDO"会使模型输出乱码,属低风险漏洞。研究旨在帮助防御者提升AI系统保护措施。


04

行业动态&政策

Industry Trends Policies

图片
  • 中央网信办、国家发展改革委印发《政务领域人工智能大模型部署应用指引》

    中央网信办、国家发展改革委联合印发《政务领域人工智能大模型部署应用指引》,旨在安全稳妥推进政务领域大模型部署应用。指引从场景牵引、规范部署、运行管理三方面提供导向,要求政务部门结合实际选择典型场景探索应用,统筹集约部署,建立全周期管理体系,防范“数字形式主义”及泄密等风险。

  • 算力难变现 美国AI陷入困境

    美国AI产业面临算力难变现困境,2025年AI数据中心支出预计达5200亿美元,微软、谷歌等企业投入巨额资金却回报有限。生成式AI因技术原理难享规模效应,用户增长未带来足够收入;广告变现难、订阅收入杯水车薪;企业云服务95%未盈利,毛利率低。AI商业化滞后于基建与金融化,引发“工业泡沫论”与“金融泡沫论”争议,需从“硬数据”转向“软价值”,渗透传统行业创造价值。

  • 人工智能吸引过半数风投资金流入,华尔街却开始警惕“AI泡沫”

    2025年上半年全球货物贸易因AI相关产品需求增长等因素超预期,WTO上调2025年增长预测至2.4%。数据显示,AI初创公司今年已吸引1927亿美元风投,或成过半风投资金流入AI之年。但华尔街人士警惕泡沫,贝佐斯称当前为"工业泡沫",高盛CEO等警告资本可能无法获回报,市场认为这体现了更审慎的观点。

  • 《时代》2025年度最佳发明榜单出炉:宇树、DeepSeek、华为、比亚迪等中国创新上榜

    美国《时代》杂志公布2025年度最佳发明榜单,300款创新产品入选,宇树科技、DeepSeek、华为、比亚迪等中国企业创新成果上榜。其中包括宇树R1人形机器人、DeepSeek R1推理大模型、华为Pura80Ultra手机、比亚迪海鸥纯电动车等,彰显中国企业在AI、机器人、电动汽车等领域的全球创新实力。

  • Sora 2横扫App Store,中信建投持续看好AI产业链

    中信建投发布研报指出,尽管算力板块近期波动,但AI产业链仍值得关注。OpenAI新推视频生成模型Sora2,其驱动的Sora App三天内登顶美国App Store免费榜;Meta的AI智能眼镜Ray-Ban Display市场热销,试戴预约排至两月后。此外,OpenAI与AMD达成6GW算力支持协议,预示算力需求强劲。中信建投认为,从应用到硬件的多重验证表明AI产业链个股仍有发展空间。

  • 前DeepMind大神创业一年估值飙至80亿美元:Reflection AI要做美国版DeepSeek

    由前Google DeepMind研究员Misha Laskin和Ioannis Antonoglou创立的Reflection AI,成立仅一年完成20亿美元融资,估值达80亿美元。该公司定位为OpenAI等封闭实验室的开源替代品及美国版DeepSeek,已招募顶尖团队并构建先进训练堆栈,计划明年发布前沿语言模型,商业模式聚焦企业及政府客户,投资者包括英伟达、红杉等。

  • 陕西省规划到2027年建立5个人工智能学院

    陕西省教育厅发布《陕西省推进"人工智能+教育"行动计划(2025—2027年)》,计划到2027年建立5个左右人工智能学院,同时在中小学培育20个全国人工智能教育基地,职业院校建设10个"AI+专业群"及虚拟仿真实训基地,高校布局60个优质学科专业,并培养500名骨干教师、打造100所实验学校,推动教育高质量发展。


05

其他

Other

图片
  • 台积电 Q3 业绩超预期,人工智能需求推动 30% 营收增长

    台积电2025年第三季度营收达9899.2亿新台币(约324.7亿美元),同比增长30%,超出市场预期。主要因人工智能应用需求激增,尤其是来自Nvidia和苹果的订单增长,抵消了消费电子芯片销售疲软的影响。公司预计10月16日发布详细季度财报,未来将持续聚焦AI及高性能计算领域需求以保持领先。

  • 清华天才姚顺宇辞职跳槽,携手 DeepMind 开创新纪元!

    清华校友姚顺宇近日宣布,已于9月19日从Anthropic离职,并于9月29日加入Google旗下DeepMind。其曾参与推动Claude模型从3.7版升级至4.5版,此次转型源于AI领域更开放的实验探索机会。他将与全球顶尖科研人员共事,推动AI技术发展,其职业转变也反映了中国科研力量在国际AI舞台的崛起。

  • 英国前首相苏纳克获两大科技巨头聘任:将任微软与 Anthropic 高级顾问

    英国前首相里希·苏纳克获微软和AI初创公司Anthropic聘任为高级顾问,职位已获相关委员会批准。其职责为提供宏观经济与地缘政治战略视角,协助解决科技服务经济、安全等问题。薪酬将转入其慈善机构,用于促进社会流动性。Anthropic称其经验将助力确保AI造福人类。


图片


⬇️更多AI资讯关注我们⬇️



【声明】内容源于网络
0
0
久新数智
重塑生产力,开启人机协作新篇章!
内容 139
粉丝 0
久新数智 重塑生产力,开启人机协作新篇章!
总阅读107
粉丝0
内容139