大数跨境
0
0

元以AI早报-2025年11月04日

元以AI早报-2025年11月04日 元以科技集团
2025-11-04
0
导读:元以AI早报-2025年11月04日

1.美团王兴杀入大模型!开源5600亿参数“全能”龙猫模型,上线首款AI通用助手App
2.寒武纪发布Cambricon NeuWare:全面支持大模型与搜广推场景的软硬协同平台
3.AI推理黑箱终于被打开!Meta新方法让大模型学会自查与纠错

元以AI早报


01
美团王兴杀入大模型!开源5600亿参数“全能”龙猫模型,上线首款AI通用助手App


📊美团开源全模态大模型LongCat-Flash-Omni,总参5600亿、激活270亿,业界首个全模态融合开源模型🌟模型在文本、图像等单模态任务表现优异,实现‘全模态不降智’🔄预训练用超2.5万亿词元语料库,支持128K tokens上下文及8分钟连续音视频交互
美团正式开源全模态大模型LongCat-Flash-Omni,总参数量达5600亿,激活参数量为270亿,成为业界首个实现全模态覆盖、端到端架构与高效推理融合的开源大模型。该模型在文本、图像、视频理解及语音感知与生成等单模态任务中表现优异,真正做到‘全模态不降智’。基于LongCat-Flash的高性能Shortcut连接MoE架构,LongCat-Flash-Omni集成了轻量级多模态感知模块和语音重建能力,支持高达128K tokens上下文窗口,并可实现超过8分钟的连续音视频交互。预训练阶段使用超2.5万亿词元的多模态语料库,采用渐进式五阶段训练策略,逐步融合语音、图像与视频数据,确保跨模态深度理解。在多项基准测试中,其图像转文本、视频理解性能媲美Gemini-2.5-Pro,语音识别与翻译能力更是领先所有开源模型。LongCat-Flash-Omni不仅标志着美团在AI领域的全面发力,也为下一代人机交互提供了开源新范本。
信息来源:https://mp.weixin.qq.com/s/6cSAms7LmD5O-GhBWfEBTg

02
寒武纪发布Cambricon NeuWare:全面支持大模型与搜广推场景的软硬协同平台


🔧 寒武纪构建自研芯片架构到软件平台的完整AI算力支撑体系🧩 Cambricon NeuWare兼容主流框架,支持MoE类模型训练及低比特推理优化📊 配套工具链覆盖开发全流程,集群管理工具实现万卡级智能运维
寒武纪致力于为人工智能大爆发提供底层算力支撑,构建了从自研芯片架构到高性能软件平台的完整体系。其基础软件平台Cambricon NeuWare实现了计算架构、编译优化与算法调度的深度融合,硬件提供极致并行性能与能效比,软件则通过优化策略充分释放每一份算力。该平台已全面兼容最新PyTorch版本及Triton算子开发语言,支持用户模型和自定义算子快速迁移,并在多项指标上达到业界领先水平。特别是在大模型训练方面,支持DeepSeek、Qwen、GLM等主流MoE类模型,新增FP8训练支持;在推理侧,探索W4A4、MX-FP8等低比特数据类型,优化注意力机制,显著提升解码效率。针对搜索、广告、推荐(搜广推)场景,平台已完成大规模技术验证,支持流式训练长期稳定运行。通过vLLM引擎优化、通算并行、PD分离部署等技术,实现大模型端到端加速。配套工具链如CNPerf-GUI、CNSanitizer、CNAdvisor等,覆盖性能剖析、调试调优、异常定位全流程,大幅提升开发效率。集群管理工具CntrainKit-Monitor、CNCE等实现万卡级任务可观测性与智能运维,推动AI训练从人工干预迈向自治。凭借成熟的软硬一体方案,寒武纪正加速赋能千行百业的智能化转型。
信息来源:https://mp.weixin.qq.com/s/GI_yGuwbcfHmVJMTDjqvxw

03
AI推理黑箱终于被打开!Meta新方法让大模型学会自查与纠错


🔬 Meta FAIR团队联合爱丁堡大学提出CRV,首次实现大模型推理过程可视化与调试🔍 CRV引入转码器结构替换模型层,使中间计算稀疏且可解释🚀 实验显示CRV能定位错误电路模块,未来可局部修复降低部署风险
Meta FAIR团队联合爱丁堡大学提出了一种突破性方法——基于电路的推理验证(CRV),首次实现了对大模型内部推理过程的可视化与调试。不同于传统依赖输出结果或神经激活推测的黑箱、灰箱方式,CRV通过引入‘转码器’结构替换原有模型层,使中间计算变得稀疏且可解释,相当于在AI大脑中安装了‘透明窗口’。研究团队进一步构建归因图和结构指纹,训练诊断模型实时判断推理正确性。实验显示,CRV不仅能精准识别错误,还能定位到具体出错的‘电路模块’,如某次因乘法模块提前激活导致运算顺序错误,研究人员通过抑制该特征便成功修复问题。这一技术标志着AI从‘盲目推理’迈向‘可调试、可理解’的新阶段,开启了‘理性自治’的可能性。未来,开发者或将无需重新训练整个模型,只需像修电路一样修复局部逻辑缺陷,极大降低部署风险。这不仅是技术升级,更是AI认知能力演进的关键一步。
信息来源:https://mp.weixin.qq.com/s/wrPXCLFV3tovfWq1VHQM4g

04
智元机器人真机强化学习落地工业产线,开启具身智能规模化应用新阶段


🚀智元机器人真机强化学习技术落地龙旗产线,首次学术走向工业应用🔧真机强化学习实现自主学习优化,新技能训练部署仅需数十分钟且性能不降级💡技术三大优势:极速部署、超高适配、柔性换型,为精密制造提供智能升级方案
智元机器人成功将真机强化学习技术落地于与龙旗科技的合作验证产线,标志着该技术首次从学术论文走向工业应用。真机强化学习方案实现了革命性突破:机器人可在真实产线中自主学习、持续优化作业策略,新技能训练与稳定部署仅需数十分钟,且性能全程不降级。该技术展现三大核心优势:极速部署、超高适配、柔性换型,为消费电子等精密制造领域带来“即插即用”的智能升级方案。
信息来源:https://mp.weixin.qq.com/s/NqGC0hYu9IQ19C73VRo1Zw

05
最具争议性研究:大模型中间层输出可 100% 反推原始输入


🔄主流Transformer语言模型信息无损具备单射性与可逆性📊六种模型超50亿次实验无隐藏状态“碰撞”,输入对应唯一内部表示🔍SIPIT算法以100%准确率重构原始输入(自然语言/代码)
一项来自意大利罗马第一大学 GLADIA Research Lab 的研究引发学术圈热议。论文《Language Models are Injective and Hence Invertible》提出,主流 Transformer 语言模型在处理文本时几乎不会丢失任何输入信息,具备数学意义上的单射性与可逆性。研究团队在 GPT-2、LLaMA-3.1、Mistral 等六种模型上进行了超过 50 亿次对比实验,未发现任何隐藏状态“碰撞”现象,证明不同输入始终对应唯一内部表示。更惊人的是,他们提出的 SIPIT 算法能从隐藏状态以 100% 准确率重构原始输入,无论是自然语言还是代码均无误还原。这一结果挑战了传统认为模型会压缩语义的假设,揭示其本质是信息无损的重编码过程。该发现不仅为理解大模型内部机制提供了新视角,也对隐私安全敲响警钟——中间层输出等同于变相暴露用户输入,可能带来数据泄露风险。尽管部分学者质疑实际应用中的数值误差会影响严格可逆性,但研究团队强调其目的在于推动理论认知与安全设计升级,而非提供攻击手段。这项工作也展示了 GLADIA 实验室在模型结构创新方面的前沿实力。
信息来源:https://mp.weixin.qq.com/s/FgN68FtK3DCztp5MezybcA

06
大模型如何准确读懂图表?微软亚研院教它“看、动手、推理”


📊 PixelCraft核心思路为“看准-动手-讨论式推理”三步走策略🚀 在多个专业图表基准测试中大幅超越GPT-4o等强baseline💡 提升AI读图准确性、鲁棒性及可解释性,提供新范式
你有没有遇到过这种情况:让AI看一张复杂的折线图,它却把横纵坐标搞混,答非所问?问题出在,传统多模态大模型虽然能‘看’图,但面对图表、几何图这类结构化图像时,往往‘眼花缭乱’,细节一错,推理全崩。为此,微软亚洲研究院联合清华大学、香港科技大学推出PixelCraft,给AI上了一堂‘精准读图课’。它的核心思路很像人类解题:先‘看准’——通过微调Qwen2.5-VL-3B-Instruct模型,实现像素级定位,把文字描述和图像区域精准对齐;再‘动手’——调用裁剪、放大、画辅助线等标准化CV工具,像拿尺子量图一样一步步处理;最后‘讨论式推理’——多个智能体像开小组会一样,轮流发言、互相检查,还能回看之前的步骤,及时纠错。这种‘高保真+可操作+可回溯’的三步走策略,在CharXiv、ChartQAPro等多个专业图表基准测试中大幅超越GPT-4o等强 baseline。实验表明,简单的‘把所有中间图都塞进上下文’并不奏效,而PixelCraft的选择性记忆与动态回溯机制才是制胜关键。这不仅提升了AI读图的准确性和鲁棒性,更让整个推理过程清晰可解释,为科研、教育等领域的自动化分析提供了新范式。
信息来源:https://mp.weixin.qq.com/s/B13a_VhUe_RRwY9drScQBQ

07
AI大模型平台需对用户的侵权行为承担责任?


⚖️法院判决AI平台删除侵权模型图片、停止服务并赔偿3万元⚠️明确AI平台具备三要素时负有合理注意义务🚫平台不能以技术中立逃避责任,需建立版权合规机制
2025年,杭州互联网法院一审、杭州中院终审的一起典型案例揭示了AIGC时代平台责任的边界。某AI平台因提供可生成奥特曼形象的LoRA模型服务,被拥有奥特曼版权的文化公司起诉。法院认定,虽然平台未直接制作或传播侵权内容,但其作为生成式AI服务提供者,明知用户上传训练数据存在高度侵权风险,仍将相关模型置于首页推荐位,并从中获取经济利益,却未采取必要技术措施防范侵权,构成帮助侵权。因此判决其删除侵权模型与图片、停止相关服务,并赔偿3万元。该案明确了AI平台在具备可识别性、可干预性和经济利益关联时,负有合理注意义务。值得注意的是,法院驳回了不正当竞争的主张,认为模型技术本身具有中立性,不应一概否定其创新价值。这一判决为行业划出清晰红线:平台不能以‘技术中立’为由逃避责任,在享受AI红利的同时,必须建立有效的版权合规机制,平衡技术创新与权利保护。
信息来源:https://mp.weixin.qq.com/s/YAZw_YDXM2HKjHa10nAkMQ

08
袁佛玉:AI超级周期已来,Agent与Physical AI将重塑产业未来


🔄大模型未来将持续提升智能能力、降低成本,落地形态聚焦Agent AI和Physical AI⚠️当前AI落地面临算力成本高(需平衡有限算力与创新)和Agent不懂业务(需多工程协同突破)两大挑战🚀百度推出自研昆仑芯,结合百舸平台实现百万Tokens级处理能力,成本降低50%以上
在2025金融街论坛年会上,百度集团副总裁袁佛玉指出,我们正站在由AI驱动的超级周期起点,智能经济蕴藏无限机遇。他预测,大模型未来将朝着智能能力持续提升和成本不断降低两大方向发展,最终落地形态将聚焦于Agent AI(智能代理)和Physical AI(物理世界AI)。当前,AI落地面临两大核心挑战:一是算力成本高昂,企业需在‘有限算力’与‘无限创新’之间取得平衡;二是Agent普遍‘不懂业务’,需通过模型工程、数据工程和应用工程协同突破。为此,百度推出自研昆仑芯,支持满血版DeepSeek单机推理与32机全参训练,并结合百舸AI计算平台实现百万Tokens级处理能力,成本降低50%以上。袁佛玉强调,技术必须扎根实际场景才能持续创造价值。目前,百度智能云已服务800多家金融机构,覆盖全部系统重要性银行,在生成式AI领域市场份额领跑行业。未来,百度将持续推动‘人工智能+’基础设施建设,与企业共创智能新时代。
信息来源:https://mp.weixin.qq.com/s/o42Fvdagdeek0j0tIgQjqw

09
AWS砸380亿美元为OpenAI提供超强算力支持


💰AWS与OpenAI达成380亿美元多年战略合作,提供云计算基础设施💻OpenAI将启用AWS EC2 UltraServers,获数十万个NVIDIA GPU(含GB200/GB300),2026年底前部署🌐此次合作或重塑AI基础设施竞争格局,云厂商与AI企业深度绑定
科技圈炸锅了!AWS与OpenAI正式宣布达成一项价值高达380亿美元的多年战略合作,瞬间点燃AI行业热情。根据协议,AWS将为OpenAI提供顶级云计算基础设施,助力其运行和扩展核心AI工作负载。OpenAI将立即启用AWS的Amazon EC2 UltraServers,获得数十万个最先进的NVIDIA GPU(包括GB200和GB300芯片),并可灵活扩展至数千万个CPU,所有算力资源计划在2026年底前部署完成,未来还可继续延展。这套超强算力集群专为AI优化设计,具备低延迟、高吞吐的特点,既能支撑ChatGPT的日常推理服务,也能承担下一代大模型的庞大数据训练任务。AWS方面强调,他们在管理超大规模、高安全性AI系统方面拥有无可比拟的经验,曾成功运营超过50万芯片的巨型集群。而OpenAI CEO萨姆·阿尔特曼也表示,可靠算力是推动前沿AI发展的关键,此次合作将进一步丰富全球AI生态。此前,OpenAI的开源模型已入驻Amazon Bedrock平台,吸引包括Comscore、Peloton、汤森路透等上千家企业用于智能代理、编程辅助和科研分析。这次‘钱’所未有的强强联手,不仅标志着云厂商与AI明星企业的深度绑定,更可能重塑未来AI基础设施的竞争格局。
信息来源:https://www.aboutamazon.com/news/aws/aws-open-ai-workloads-compute-infrastructure

10
Hippocratic AI获1.26亿美元C轮融资,加速患者端AI代理扩张与并购布局


💰完成1.26亿美元C轮融资,估值3500万美元,累计融资4.04亿美元📊应用于患者初筛、慢性病管理等场景,全球六国共1.15亿次临床互动无安全事件🔬核心技术‘星座架构’,7000+持证医护50万次测试,语音识别词错率6%优于行业
Hippocratic AI近期完成1.26亿美元C轮融资,估值升至3500万美元,累计融资达4.04亿美元,投资方包括Avenir Growth、CapitalG、General Catalyst、a16z等顶级机构,以及多家大型医疗系统。该公司专注于开发安全、可信赖的患者-facing生成式AI代理,不用于诊断或处方,而是应用于患者初筛、慢性病管理、术后随访、药物依从性提醒等高频场景,已在全球六个国家完成超1.15亿次临床互动且无安全事件。其核心技术采用近30个LLM构成的‘星座架构’,并雇佣7000多名持证医护人员进行50万次测试通话,确保AI输出的安全性与临床合规性。公司自研语音识别系统词错率仅6%,优于行业平均水平。实际应用中,AI曾用于纽约市高温天气下的大规模健康巡查,并可联动Uber接送高危人群至降温中心,成本远低于人工操作。客户如OhioHealth、WellSpan Health等均对其安全性与临床协同能力给予高度评价。本轮资金将用于拓展国际市场、丰富应用场景,并探索非竞争性标的的并购机会。尽管医疗AI赛道竞争激烈,Hippocratic AI凭借对安全、共情与临床对齐的极致追求,已建立起显著壁垒,成为该领域增长最快的企业之一。
信息来源:https://www.fiercehealthcare.com/ai-and-machine-learning/hippocratic-ai-lands-126m-series-c-expand-patient-facing-ai-agents-fuel-ma


早报内容及素材均来自网络公开渠道,版权归原作者所有,仅作信息分享使用。


—— END ——



【声明】内容源于网络
0
0
元以科技集团
1234
内容 118
粉丝 0
元以科技集团 1234
总阅读1.2k
粉丝0
内容118