9agent.ai
点击蓝字 关注我们
每日AI简讯
2025.06.09
01
大模型
LLM
6大模型决战高考数学新一卷:豆包、元宝并列第一,OpenAI o3惨败垫底
2025年高考数学新课标Ⅰ卷测试显示,豆包、元宝以68分并列榜首,DeepSeek和通义分获63/62分,文心X1 Turbo得51分,OpenAI o3仅34分垫底。测试采用14道客观题(8单选+3多选+3填空),模型通过截图输入独立作答。国产模型在计算步骤完整性和得分率上表现突出,而o3在多选题策略、图文结合题处理上严重水土不服。评测揭示大模型在符号识别、题型敏感度方面仍需改进,但相较往年已展现显著进步。
原文链接:https://www.jiqizhixin.com/articles/2025-06-08
告别「失忆」AI!首个大模型记忆操作系统开源框架来了!
北京邮电大学团队推出首个大模型记忆操作系统MemoryOS,通过融合计算机操作系统原理与人脑分层记忆机制,构建段页式三级存储架构及存储、更新、检索、生成四大模块。该框架有效解决大模型长期对话中的记忆断裂问题,在LoCoMo基准测试中F1和BLEU-1指标分别提升49.11%和46.18%,同时显著降低计算资源消耗,支持本地部署实现个性化交互。项目已开源,推动AI从被动应答向持续学习的认知智能演进。
原文链接:https://www.jiqizhixin.com/articles/2025-06-08-2
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
中国人民大学与腾讯的研究发现,语言模型对强化学习的奖励噪声具有强鲁棒性,即使50%奖励值反转(正确得0分/错误得1分),下游任务表现仍稳定。关键在于模型通过奖励机制学会优化思考路径而非获取新知识——当输出包含解题关键词(如"First, I need to")时,即便答案错误也能获得奖励。研究提出的Reasoning Pattern Reward(RPR)机制,仅根据思考词频分配奖励即可使模型准确率从5%跃升至70%。实验表明强化学习主要通过调整输出风格提升表现,而非突破预训练能力上限,故预训练质量仍决定任务瓶颈。该发现为奖励模型优化提供新思路,即无需过度追求精准奖励,可通过RPR校准突破低质奖励模型限制。
原文链接:https://www.jiqizhixin.com/articles/2025-06-08-3
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
琶洲实验室与华南理工大学联合提出关键上下文感知注意力机制CCA-Attention,通过全局池化与局部保留模块协同实现长文本高效处理。该机制在128K序列任务中推理速度达标准自注意力7.9倍,显存占用降低93%,支持直接替换现有模型自注意力模块而无需结构修改。实验显示其在长文档问答任务中EM得分超越标准方法,综合性能优于DeepSeek NSA和Kimi MoBA等方案,为LLM长文本建模提供突破性解决方案。
原文链接:https://www.jiqizhixin.com/articles/2025-06-08-5
面壁智能推出MiniCPM 4.0端侧大模型 可实现220倍速度提升
面壁智能发布MiniCPM4.0系列端侧大模型,包含8B稀疏版和0.5B轻量版两款产品。该模型通过系统级稀疏创新技术,在极限场景下实现220倍速度提升,常规使用可达5倍加速,采用双频换挡技术自动切换注意力机制优化长文本处理。0.5B版本以2.7%训练开销达成性能翻倍,8B版训练成本仅为22%却可对标Qwen3及Gemma312B等大模型。通过自研CPM.cu推理框架实现模型体积缩减90%,目前已适配Intel、高通、华为昇腾等主流芯片平台并支持多框架部署。
原文链接:https://www.aibase.com/zh/news/18720
02
产品应用
Product Application
全国首个人工智能辅助执行系统在深启用 推动大数据、人工智能等科技创新成果同司法工作深度融合
龙华区人民法院上线全国首个全流程大模型AI执行系统“龙藤”,该系统贯通执行立案、财产查控等54个办案节点,整合21个平台数据实现功能集约化,并运用生成式AI技术精准定位被执行人财产及行踪。通过“财产一本通”界面和一键处置功能提升执行效率,试运行期间已处理7847宗案件,2025年前4月案件平均办理时长缩短28.9天。
原文链接:https://k.sina.com.cn/article_2090512390_7c9ab00602002vn24.html
从“人驱动”到“模型驱动”:聊聊 Agent 在 2025 年的爆发与挑战
阿里巴巴技术专家解析2025年Agent技术发展,指出多模态模型和推理能力突破推动Agent从“人驱动”到“模型驱动”转变。以Devin通用Agent为例,阐述其任务规划、环境交互等机制,同时揭示工程层面的挑战。
原文链接:http://m.toutiao.com/group/7490038339228172863/
全球AI Agent技术突破性进展:从理论探索到产业落地的范式革命
2025年AI Agent领域突破,智谱AI发布AutoGLM模型效率提升8倍,微软LLM-Modulo框架突破规划推理局限。应用涵盖企业决策、教育革新,ZAKER与DeepSeek合作推动决策自动化。
原文链接:http://m.toutiao.com/group/7504487799165338122/
03
上市公司动态
Listed Company Updates
“2025太湖对话·AI for Science”活动在无锡滨湖举行
清华大学与无锡市政府联合发布首个AI药物虚拟筛选平台“DrugCLIP”,签约自动驾驶平台ApolloFM 2.0等项目,政校企协同推动成果转化。
原文链接:http://m.toutiao.com/group/7513558211203465728/
04
其他
Other
数学宇宙二维破壁成功!四人组230页证明阿贝尔曲面镜像通道,大一统要实现了?
四位数学家通过230页论文证明普通阿贝尔曲面与模形式的对应关系,将费马大定理的椭圆曲线模性定理拓展至二维领域。这一突破为朗兰兹纲领的数学统一理论注入新动能,揭示了高维曲面与对称函数间的深层联系,使得解决贝赫-斯维讷通猜想等难题成为可能。研究团队结合Lue Pan的模形式技术,首次构建起阿贝尔曲面与模形式在"时钟算术"体系下的匹配通道,未来有望拓展至非普通曲面,为数学各领域架设统一研究桥梁。
原文链接:https://www.quantamagazine.org/the-core-of-fermats-last-theorem-just-got-superpowered-20250602/
⬇️更多AI资讯关注我们⬇️

