

元以AI早报-2025年11月13日

元以科技集团

2025-11-13

导读：元以AI早报-2025年11月13日

1.商汤发布SenseNova-SI系列空间智能大模型，性能超越GPT-5

2.上海人工智能实验室发布三大安全评估榜单，全面评估大模型安全性

3.蚂蚁国际开源“鹰序”AI预测大模型，赋能多行业精准预测

元以AI早报

商汤发布SenseNova-SI系列空间智能大模型，性能超越GPT-5

📢商汤发布开源SenseNova-SI系列空间智能大模型，涵盖2B与8B版本🚀SenseNova-SI-8B在4核心任务平均60.99，领先多模型🌱突破空间智能短板，开源推动空间智能生态发展

商汤科技正式发布并开源了SenseNova-SI系列空间智能大模型，涵盖2B与8B两个版本。该系列模型在多个空间智能基准测试中表现突出，其中SenseNova-SI-8B模型在VSI-Bench、MMSI-Bench、MindCube-Tiny与ViewSpatial四个核心任务上获得60.99的平均成绩，不仅大幅领先Qwen3-VL-8B（40.16）、BAGEL-7B（35.01）等同级别开源通用模型，以及SpatialMLLM（35.05）、ViLaSR-7B（36.41）等专注空间理解的模型，而且在保持8B参数规模的前提下，平均成绩已领先GPT-5（49.68）与Gemini-2.5-Pro（48.81）。这一技术突破回应了当前多模态大模型面临的核心挑战之一：空间智能短板仍未补齐。SenseNova-SI系列模型的发布，为大模型在空间智能方向上的能力优化提供了新的样本，并且其开源也推动了空间智能生态的发展。

信息来源：https://mp.weixin.qq.com/s/lrx8rUjsRsKvzgycWTulvg

上海人工智能实验室发布三大安全评估榜单，全面评估大模型安全性

🔬上海AI实验室评测国内外主流大模型，公布三大安全评估榜单📊榜单覆盖96个主流大模型，含48海外48国内，涉及文本与多模态🏆Phi-4以96.81分获综合安全榜首，Claude-Sonnet-4多模态居首

上海人工智能实验室基于多维度安全测试基准，针对国内外主流大模型开展了系统性评测，公布了三大安全评估榜单：安全综合性评估榜单、中文价值观对齐评估榜单和多模态大模型安全榜单。这些榜单覆盖96个国内外主流大模型，涉及文本和多模态数据，包括48个海外模型和48个国内模型。Phi-4在综合性安全评估中以96.81分位居榜首，Claude-4和Phi-4-Mini-Instruct紧随其后。Qwen3系列在国内模型中实现了最高的安全性，但与最先进的模型仍有差距。Claude-Sonnet-4-20250514在多模态安全榜单中以97.53分拔得头筹，显示出其在各个安全维度上的均衡防护能力。本次评测为行业提供了一个客观、可靠的安全性能参考，有助于推动大模型在实际应用中的安全性和合规性。

信息来源：https://mp.weixin.qq.com/s/-u5rNYYS1I7HkO8TZ852nw

蚂蚁国际开源“鹰序”AI预测大模型，赋能多行业精准预测

📢蚂蚁国际开源‘鹰序’AI预测大模型🔬首个多分段+混合专家架构时序预测模型，参数超25亿💼用于内部预测准确率超90%，降外汇成本最高60%，多领域适用

蚂蚁国际在新加坡金融科技节上宣布开源其自主研发的“鹰序”（Falcon TST, Time-Series Transformer）AI预测大模型。该模型是业内首个基于多分段模式（Patch）并采用“混合专家”（Mixture of Experts, MoE）架构的大规模时序预测基础模型，参数规模超过25亿，在多个权威基准评测中取得最优的性能表现。该模型最初用于蚂蚁国际内部的现金流和外汇风险预测，准确率超过90%，可帮助企业将外汇成本降低最高到60%。此外，“鹰序”模型还可用于预测天气变化、节假日消费、金融市场波动、跨境人流等具有时间序列特征的数据。蚂蚁国际表示，开源“鹰序”模型旨在赋能更多行业，并携手学界和产业界共同推进AI技术的迭代升级，推动AI在实体经济中的应用。

信息来源：https://mp.weixin.qq.com/s/xUL2OFsQvklgR1dlvq7EhQ

医疗AI质变时刻来临！国产大模型MedGPT全球登顶临床能力测评

📊全球首个医疗AI临床适用性评估标准CSEDB完成全球主流模型测评🏆中国MedGPT医疗大模型测评总分0.895第一，领先第二名超15个百分点🚀MedGPT与主治医师诊疗建议一致性96%，每周超万医生交互，每月准确率提升1.2%-1.5%

由32位来自北京协和医院、中国医学科学院肿瘤医院、北京大学口腔医院等23家顶尖医疗机构的一线临床专家联合制定的全球首个医疗AI临床适用性评估标准——临床安全-有效性双轨基准（CSEDB），已完成对全球主流AI模型的系统性测评。该标准构建了2069个开放式问答条目，覆盖26个临床专科，打破传统考试式评估模式，首次引入“安全性”与“有效性”双轨评价体系，并按临床风险等级对30项核心指标进行加权评分，5分为潜在致命错误，如误判危重症或开具禁忌药物。在此严苛测试中，中国企业研发的医疗大模型MedGPT以总分0.895位居第一，领先第二名超15个百分点，成为唯一安全性评分超过有效性的模型，且在“致命药物相互作用”“绝对禁忌用药”等高风险场景中几乎全线达标。早在2023年，MedGPT就在四川大学华西医院参与的真实患者义诊中，与主治医师诊疗建议达成96%的一致性。两年来，每周超一万名医生与其交互，沉淀两万条反馈，推动模型每月准确率提升1.2%-1.5%，形成“反馈即迭代”的进化机制。基于此能力，团队推出‘未来医生’平台，实现L3级人机协作，让顶级专家经验通过AI规模化复制，真正迈向‘继绝学、开太平’的医疗AI愿景。

信息来源：https://mp.weixin.qq.com/s/7Xy7O9EX8CYW349n_mwoYw

CoRT框架突破大模型推理瓶颈：精度提升显著，token消耗降低50%

🔬中科大等团队提出CoRT框架，解决数学推理效率低、计算错误问题🧩CoRT通过提示工程数据合成和SFT+RFT+RL多阶段训练，教模型高效调用代码工具📈CoRT数学推理32B精度提4%、1.5B提8%，token降30%-50%，泛化至化学调用RDKit 81.3%

中国科学技术大学、香港中文大学（深圳）与通义千问的联合研究团队提出了一种全新的后训练框架CoRT（Code-Optimized Reasoning Training），旨在解决大型语言模型在数学推理中效率低下、计算错误频发的问题。该框架通过创新的‘提示工程’数据合成策略和多阶段训练流程（SFT+RFT+RL），教会模型高效调用代码工具进行精确计算，而非仅用于事后验证。实验表明，CoRT在多个数学推理基准上表现卓越：在DeepSeek-R1-32B模型上实现了4%的绝对精度提升，而在更小的1.5B模型上竟带来高达8%的提升，效果远超同等规模模型。同时，推理过程的token消耗大幅下降，32B模型减少约30%，1.5B模型更是降低了惊人的50%，实现性能与效率的双重飞跃。尤为亮眼的是，CoRT展现出强大的泛化能力，能在未见过的化学任务中自发调用专业工具库RDKit，使用率高达81.3%。这项被NeurIPS 2025接收的工作，为AI在科学计算、教育辅助等高精度需求领域的应用开辟了高效、可靠的路径。

信息来源：https://mp.weixin.qq.com/s/x6by1SmX1uYAcxdbZR_Zcg

TypeScript 登顶 GitHub：AI 驱动的类型化革命

📊 2025年8月TypeScript以263.6万开发者首次超越Python，领先4.2万🤖 Python在AI领域主导，260万贡献者，近60万新增AI仓库🚀 AI辅助开发普及推动TypeScript崛起，主流框架降低门槛

GitHub 最新发布的《Octoverse 2025》报告显示，TypeScript 在 2025 年 8 月以约 263.6 万名月度贡献者首次超越 Python，成为平台上使用最广泛的语言，领先后者约 4.2 万人。这一里程碑标志着类型化语言的全面崛起，背后主要推手是 AI 辅助开发的普及——TypeScript 更严格的类型系统能有效减少 LLM 生成代码的模糊性与错误，研究显示 94% 的 AI 生成编译错误源于类型问题。与此同时，主流前端框架如 Next.js、Angular 和 SvelteKit 等均已默认支持 TypeScript，大幅降低入门门槛。尽管如此，Python 仍在 AI 领域牢牢占据主导地位，拥有高达 260 万贡献者，并驱动了近 60 万个新增 AI 仓库；Jupyter Notebook 相关项目达 40.3 万个，同比增长 17.8%，凸显其在模型训练与实验中的核心地位。此外，Shell 脚本增长惊人（+324%），C++ 和 C 也因性能需求稳步上升。印度成为新增开发者最多的国家，贡献超 520 万新人。整体来看，AI 不仅加速编码，更在重塑技术栈选择。

信息来源：https://mp.weixin.qq.com/s/JoiWmZbqPSp0ES1Nv6u6HQ

银行科技 | 大模型如何重塑信贷业务：效率革命与安全博弈

📊麦肯锡报告：全球超60%银行布局大模型研发或试点🚀国有银行贷款审批时效压缩至8小时，城商行风险响应分钟级⚠️存在安全漏洞（如SQL注入）及模型“黑箱”监管问题

大模型正掀起银行信贷领域的效率革命。麦肯锡《2024银行业AI应用报告》显示，全球超60%的银行已布局大模型研发或试点。在实际应用中，某国有银行借助大模型将贷款审批时效从7天压缩至8小时，人工干预率低于10%；某城商行通过实时监控企业经营数据，将风险响应速度提升至分钟级，实现潜在损失的有效规避。然而，技术红利背后暗藏挑战：2024年某城商行因未做参数化处理遭SQL注入攻击，导致31万条客户信息泄露；某互联网银行更因对抗样本攻击，被黑产团伙骗取超8000万元贷款。此外，模型“黑箱”问题也引发监管关注，如某国有银行因无法解释拒贷逻辑被法院判赔。为应对这些风险，行业正推进隐私计算深化、合规规则嵌入模型架构，并构建红蓝军对抗等全链路防御体系。未来，唯有技术、制度与生态协同进化，才能实现智能信贷的安全落地与普惠延伸。

信息来源：https://mp.weixin.qq.com/s/L3SjkENVy13GH1_WpzUlGw

四川新增4款已备案大模型！总数居全国第6

📊国家网信办新增73款AI服务备案，四川4款大模型入选🏆四川已有16款大模型完成国家备案，数量全国第六🚀省科技厅将支持细分领域大模型研发，打造AI集群

近日，国家互联网信息办公室公布最新一批生成式人工智能服务备案信息，新增73款AI服务，其中四川有4款大模型成功入选，分别为悠然产业通用大模型、华栖云华生智媒大模型、天绛·诸葛大模型和观观智媒体大模型。这四款模型由成都考拉悠然科技、天府绛溪实验室、成都华栖云科技及四川观察合创新媒体发展有限公司研发，覆盖企业服务、媒体内容生产、金融办公、智慧家居等多个垂直领域。例如，华栖云华生智媒大模型已服务于北京广播电视台、河北广播电视台，具备AIGC创作、智能审核与传播洞察等能力；天绛·诸葛大模型则在金融投资、辅助办公场景实现落地，并计划拓展至无人机与人形机器人等前沿智能设备。悠然大模型擅长多轮对话与因果推理，观观智媒体聚焦智能写作与剪辑，推动内容生产向人机协同转型。截至目前，四川已有16款大模型完成国家备案，数量位居全国第六。省科技厅表示，下一步将依托本地资源优势，支持更多细分领域大模型研发，打造具有全国影响力的人工智能集群。

信息来源：https://mp.weixin.qq.com/s/b9YdoZjZH5MagPCI6om5Ag

多视图视觉语言大模型EchoPrime实现超声心动图全自动评估

🔬基于多视图视觉语言AI，覆盖58种标准视图，支持全自动心脏功能分析📊国际医疗中心测试，多项指标超现有AI，与医生一致性89%🚀有望应用于基层筛查等，推动心脏影像分析标准化

2025年11月，《Nature》通过加速刊登通道发布了一项重要研究成果——EchoPrime，一种基于多视图视觉语言人工智能的超声心动图评估系统。该模型利用超过1200万个超声视频与配对临床报告进行对比学习，覆盖58种标准视图，支持全自动心脏功能分析。在五个国际医疗中心的测试中，EchoPrime表现出卓越性能：左心室射血分数评估的平均绝对误差低至4.79%，主动脉瓣狭窄检测AUC达0.98，二尖瓣反流检测AUC为0.92，多项指标超越现有AI模型。尤为突出的是，在4607项研究中，其判断与专科医生的一致性高达89%，媲美医生间82%的相互一致性。通过解剖注意力机制整合多视图信息，EchoPrime不仅提升了评估精度，还展现出零样本学习能力，如对心脏淀粉样变的检测AUC达0.95。该系统有望广泛应用于基层筛查、医学教育、远程医疗和临床研究，推动心脏影像分析的标准化与智能化。

信息来源：https://mp.weixin.qq.com/s/ev2XAiHr6s0JyC6v2nedbA

微软打造首个AI超级工厂，万卡GPU集群引领行业军备竞赛

🔗微软推出首个AI“超级工厂”，AI-WAN连接两地数据中心形成超级计算集群💻双层架构配数十万块NVIDIA GPU及液冷系统，降低延迟提升算力利用率💰服务OpenAI及微软自研大模型，上季资本支出超34亿美元用于数据中心与GPU采购

微软正式推出其首个AI“超级工厂”，标志着AI基础设施进入全新阶段。这一创新性设施并非传统数据中心，而是通过高速AI广域网（AI-WAN）将位于威斯康星州和亚特兰大的两座数据中心连接成一个统一的超级计算集群，实现跨区域资源协同。每个站点均采用双层架构设计，密集部署数十万块NVIDIA GPU，并配备闭合式液冷系统以应对高热负荷，显著降低延迟、提升算力利用率。该超级工厂专为AI训练与推理优化，将服务于OpenAI及微软自研大模型如Copilot等关键项目。为支撑此等庞大规模，微软上季度资本支出超34亿美元，主要用于数据中心与GPU采购。此举也呼应了科技巨头间的AI基建热潮——亚马逊、Meta、谷歌、Anthropic等公司同样投入巨资建设专属AI设施。尽管存在产能过剩担忧，但长期合约显示市场需求坚实。微软正以“算力即服务”的模式，重构全球AI竞争格局。

信息来源：https://www.geekwire.com/2025/what-is-an-ai-superfactory-microsoft-unveils-new-approach-to-building-and-linking-datacenters/

早报内容及素材均来自网络公开渠道，版权归原作者所有，仅作信息分享使用。

—— END ——

【声明】内容源于网络

元以科技集团

1234

内容 118

粉丝 0

元以科技集团 1234

总阅读1.3k

粉丝0

内容118