

元以AI早报-2025年11月19日

元以科技集团

2025-11-19

导读：元以AI早报-2025年11月19日

1.马斯克发布Grok 4.1，霸榜大模型竞技场

2.阿里千问APP上线，国内大模型“四强争霸”正式开启

3.谷歌发布Gemini 3：性能登顶、用户破6.5亿，AI商业化全面提速

元以AI早报

马斯克发布Grok 4.1，霸榜大模型竞技场

🏆Grok 4.1思考模式1483Elo分霸榜第一，领先非xAI模型31分💡Grok 4.1创造性、情感性等互动显著改进，善捕捉细微意图🌐Grok 4.1已在多平台向所有用户开放，默认自动模式推出

马斯克的人工智能公司xAI发布了最新模型Grok 4.1，迅速霸榜大模型竞技场的第一和第二。Grok 4.1思考模式以1483的Elo分数稳居榜首，领先非xAI模型中的最高分整整31分。Grok 4.1非思考模式以1465分拿下第二名，超越了公开排行榜上所有其他模型的完整推理模式。Grok 4.1在创造性、情感性和协作性互动方面带来了显著改进，模型变得更加善于捕捉细微的意图，对话更有吸引力，个性表现更加连贯。xAI表示，Grok 4.1的后训练阶段专注于减少信息检索提示中出现的事实性幻觉，显著降低了幻觉发生率。Grok 4.1已在grok.com、X平台以及iOS和Android应用上向所有用户开放，默认以自动模式推出，用户也可以在模型选择器中手动选择Grok 4.1。

信息来源：https://mp.weixin.qq.com/s/2MirLjyPGd_PjmvuNuR7dw

阿里千问APP上线，国内大模型“四强争霸”正式开启

📱11月17日阿里千问APP公测上线，vivo下载量近2000万次🔬千问基于自研Qwen大模型，系全球第一大开源模型且性能全球领先🌐阿里AI战略转向C端，国内大模型“四强争霸”局面形成

11月16日，阿里千问APP在各大应用商店悄然上线，次日阿里巴巴官方正式宣布“千问APP公测上线”，主打“免费开放，人人可用”，目标是打造最佳个人AI助手。截至17日下午5点，该APP在安卓和iOS平台均已上架，vivo应用商店显示下载量接近2000万次，势头迅猛。千问APP基于阿里巴巴自研的通义千问Qwen大模型打造，该模型不仅是全球第一大开源模型，还在本月初的AlphaArena AI投资比赛中力压群雄夺冠，性能达到全球领先水平。爱彼迎联合创始人兼CEO Brian Chesky和英伟达CEO黄仁勋均曾公开赞誉Qwen模型，称其高效、快速且成本优势明显。此次APP发布标志着阿里AI战略从B端全面迈向C端市场，也成为继百度文心一言、字节豆包、腾讯元宝之后，BAT格局下又一重磅玩家入局，国内大模型‘四强争霸’局面正式形成。沙利文报告显示，2025年上半年国内大模型日均调用量达101865亿tokens，较2024年下半年增长363%，算力与应用场景正加速重构。阿里表示，未来将通过千问APP打通办公、地图、健康、购物等多场景，真正成为用户随叫随到的生活入口。

信息来源：https://mp.weixin.qq.com/s/l80ZoE6CDAfd2KcBDiFvrg

谷歌发布Gemini 3：性能登顶、用户破6.5亿，AI商业化全面提速

📊 谷歌Gemini 3创LMArena 1501分历史纪录，多测试超GPT-5 Pro等竞品👥 Gemini App月活超6.5亿，70%谷歌云客户及1300万开发者在用🚀 谷歌整合Gemini 3至多平台，推动AI向智能体协作演进

美东时间11月18日，谷歌正式推出其迄今为止最强大的AI模型Gemini 3，并在发布当日即全面整合至谷歌搜索、Gemini应用程序及多个开发者平台，标志着公司AI技术商业化进程的重大跃进。此次发布的Gemini 3在全球AI模型排行榜LMArena以1501分创下历史最高纪录，在Humanity's Last Exam测试中取得37.5%的高分，超越GPT-5 Pro的31.64%，并在博士级学术挑战GPQA Diamond中斩获91.9%的优异成绩。数学能力方面，MathArena Apex测试达23.4%，事实准确率在SimpleQA Verified中高达72.1%。多模态表现同样突出，MMMU-Pro和Video-MMMU分别获得81%和87.6%的高分。谷歌还推出增强推理模式Gemini 3 Deep Think，在多项测试中进一步提升性能，如Humanity's Last Exam达41.0%，GPQA Diamond达93.8%。目前，Gemini App月活用户已超6.5亿，AI Overview功能服务每月20亿用户，超过70%的谷歌云客户正在使用其AI产品，1300万开发者基于谷歌生成式模型进行开发。通过Google Antigravity等新平台，Gemini 3正推动AI从辅助工具向智能体协作演进，开启真正的AI应用新时代。

信息来源：https://mp.weixin.qq.com/s/dir4DvNQBF-EVks2ugG60g

Google推出File Search工具，提升大模型知识更新效率

🔧 Gemini API File Search为全托管RAG系统，开发者上传文件即可自动处理，无需搭建向量数据库等💰 索引$0.15/百万tokens，查询免费，1GB免费存储至1TB付费📊 Gemini 2.5 Pro 1M+ token上下文窗口，支持海量文件分析

Google DeepMind推出了全新的Gemini API：File Search工具，这是一种全托管傻瓜式RAG系统，直接内置Gemini API中。开发者只需上传文件（PDF、DOCX、TXT、JSON、代码文件），系统自动处理存储、分块、嵌入和检索，无需搭建向量数据库、无需纠结chunking策略、无需维护复杂管道。索引费用仅$0.15/百万tokens，查询时存储和嵌入生成全免费，支持1GB免费存储（付费阶梯至1TB）。Gemini 2.5 Pro的1M+ token上下文窗口，让它能吞下海量文件，一次性分析整个知识库。File Search的上线大幅提升了任务效率，开发者反馈任务效率提升5x。该工具的推出为大模型提供了实时知识更新的能力，解决了传统RAG方法效果差、准确率低、开发周期长等问题，推动了大模型在实际应用场景中的落地。

信息来源：https://mp.weixin.qq.com/s/nHFx4NLEAFsqm30XBcfIXg

上海东方医院发布医学大模型Med-Go，推动医疗智能化

📢同济大学等联合开源医学大模型Med-Go 32B🔬临床医生主导研发，数据由医生定标准，融合教材指南等🚀打破技术壁垒，推动医疗服务创新，为基层提供低门槛AI平台

11月18日，同济大学、上海市浦东新区人民政府、上海市卫生健康委员会共同主办的人工智能医学大模型Med-Go开源仪式举行。同济大学、同济大学附属东方医院宣布面向全球开源通用医学基座模型Med-Go 32B，为专病专科模型与临床智能体提供坚实“地基”。Med-Go由临床医生主导研发，数据由医生定标准，数据治理、标注与质控由临床专家把关，融合了教材、指南与多源资料，对罕见病、边界病例做人工合成与针对性增强。此次开源旨在打破技术壁垒，实现从单点创新到生态共享的关键跨越，推动医疗服务质量的提升和医疗服务模式的创新。Med-Go的发布将为基层和专科医院的智能化医疗服务带来契机，通过开源提供一个低门槛、工程化的医学AI平台，偏远地区和基层医疗机构无需投入高昂成本即可引入先进的人工智能助手。

信息来源：https://mp.weixin.qq.com/s/6Gc4LKznzOvK8iwRJCtplQ

FlagEval发布安全与价值观榜单，评估大模型安全性

📊FlagEval发布安全与价值观榜单，量化AI安全边界🏆18家主流大语言模型参与，Claude Sonnet 4以86.76%居首📈头部模型有成熟技术体系，但厂商间存在明显技术差距

FlagEval评测体系正式发布全新「安全与价值观榜单」，深度量化AI的安全边界。榜单涵盖了18家主流厂商的大语言模型，评估模型在风险防控、内容合规、社会责任感、偏见控制与价值观一致性等维度的表现。Claude Sonnet 4以86.76%的成绩位居榜首，GPT-4.1和百度ERNIE-4.5-300B-A47B分别排名第二和第三。榜单结果显示，头部模型在安全防护上已经建立了相对成熟的技术体系，但不同厂商之间仍存在明显的技术差距。例如，Mistral AI的Magiqstral Medium在客观题上的表现异常突出，达到80.16%，远超其他所有模型，但在主观题上的合格率却较低。该榜单为行业提供了透明参考，共筑安全、可靠、负责任的AI生态。

信息来源：https://mp.weixin.qq.com/s/ZV25pvaPycJkloW_pQUFPw

法律垂域大模型的发展与挑战

📊法律垂域大模型在专业化、定制化和数据安全方面具优势🔑法律垂域大模型在法律领域具有不可替代性🚀法律垂域大模型未来应注重通专结合，推动技术迭代

随着大模型技术的快速发展，法律垂域大模型在全球范围内蓬勃发展，展现出赋能法律行业变革的潜力。然而，有观点认为，基于大模型的“规模法则”可能在未来被通用人工智能取代。文章探讨了法律垂域大模型的存废之争，分析了法律领域的模型功能需求、规模法则衰减以及通用与专用科技的周期规律。研究指出，法律垂域大模型在专业化、定制化和数据安全方面具有优势，能够满足法律行业的特殊需求。同时，文章也讨论了法律垂域大模型的能力之辨，包括缓解法律知识幻觉、提升形式可解释性、强化法律价值对齐以及优化内容一致性。尽管存在内生性局限，法律垂域大模型仍具有不可替代性，未来应注重通专结合，推动技术迭代。

信息来源：https://mp.weixin.qq.com/s/O0b7KErS5gpY2ZFqgUfwSg

湖南出台人工智能大模型认定管理办法

📄湖南发布AI大模型认定办法，推动研发与落地应用🏢适用在湘注册满两年企事业单位，涵盖基础与垂直领域大模型📊申报模型需8亿以上参数，数据合规并提交第三方测评等材料

湖南省近日发布《湖南省人工智能大模型认定管理办法》，旨在贯彻落实国家‘人工智能+’行动和本省‘智赋万企’战略，推动人工智能大模型的研发与落地应用。该办法适用于在湘注册满两年、管理规范、财务状况良好的企事业单位，认定工作坚持自愿申报、择优认定、程序规范的原则，确保公开、公平、公正。认定范围涵盖基础通用大模型（如文本、语音、图像等）和垂直领域大模型（如制造、医疗、教育、金融等）。申报模型需具备8亿以上参数规模，训练数据合法合规，并配备脱敏、加密等安全措施。申报单位须提交第三方测评报告、专项审计报告、知识产权证明及实际应用案例等材料，证明其技术先进性和市场价值。经认定的大模型将获得政策支持和资金奖励，而弄虚作假者将被取消资格并追责。该办法有效期三年，每年认定一次，由省工信厅组织实施，有望加速湖南AI产业规范化与高质量发展。

信息来源：https://mp.weixin.qq.com/s/k2p8UV4dwAZcMOLEpOnyUA

商汤科技牵头制定我国首个客服型虚拟数字人国家标准

📜商汤主导制定我国虚拟数字人首项国标，联合30余家单位定义技术规范🚀商汤如影平台符合标准，规模化落地多领域，'图片数字人'技术突破🎭商汤打造文化IP，推动AI赋能文化遗产与科普，标志产业规范化发展

商汤科技作为牵头单位，主导完成了我国虚拟数字人领域首项国家标准——《信息技术客服型虚拟数字人通用技术要求》（GB/T 46483-2025）的起草与制定工作。该标准历时两年筹备，联合三十余家产学研用单位共同完成，首次系统性定义了客服型虚拟数字人在产品形态、功能边界和性能指标方面的技术规范，涵盖2D/3D形象生成、语音交互、情感交互、视觉交互及运营维护等核心环节，为行业提供从设计开发到应用维护的全流程技术指南。依托六年多的技术积累与多模态AI优势，商汤如影数字人平台已全面符合标准要求，并在金融、通信、教育、电商等领域实现规模化落地，服务中国银行、工商银行、中国移动、清华大学等众多头部客户。尤其在直播带货场景中，其数字人已覆盖淘宝、美团、京东上千个直播间，助力商家高效运营；创新推出的‘图片数字人’技术更实现突破——用户仅需一张图片和一段音频，即可生成长达3分钟以上的高质量、多语言动态视频，口型对准精准到Rap级别，人物ID与背景风格保持高度一致，广泛应用于商业营销与文化传播。此外，商汤还打造了‘老子数字人’‘钱学森AI数字人’等文化IP，推动AI技术赋能文化遗产与科普教育。此次标准发布标志着我国虚拟数字人产业正式迈入规范化、高质量发展新阶段。

信息来源：https://mp.weixin.qq.com/s/um-NuiCHSVPLpsw0Yh01Jg

政务大模型发展研究报告（2025年）发布，助力政府治理现代化

📜中央网信办与发改委联合印发《指引》为政务大模型应用提供权威指导📊清华大学与信通院发布我国首部系统性政务大模型年度报告🚀截至2025年6月，320地区部门接入主流大模型，政务服务类占比64%，提升效率

为安全稳妥有序推进人工智能在政务领域的应用，中央网信办与国家发展改革委联合印发《政务领域人工智能大模型部署应用指引》，为各级政府部门提供权威指导。2025年11月15日，清华大学计算社会科学与国家治理实验室联合中国信息通信研究院在‘2025年数字政府清华论坛’上正式发布《政务大模型发展研究报告（2025年）》，这是我国学界首部系统性聚焦政务大模型的年度报告。报告显示，截至2025年6月，全国已有320个地区和部门接入DeepSeek等主流大模型，广泛应用于政务服务、社会治理、机关办公和辅助决策四大类16个场景，其中政务服务类占比达64%。大模型通过‘文本+机器人’方式分流近三分之一人工服务，智能派单与预审替代近半人工流程，显著提升效率。报告构建了涵盖构成、支撑与场景的总体框架，提出场景驱动、集约建设、特色发展、辅助定位等五大原则，并明确了从数据集构建、模型训练到安全保障的实施路径及四种部署模式。同时指出当前存在技术迭代快、模型‘幻觉’、数据质量不一等挑战，强调需坚持辅助性定位，健全安全体系。报告建议强化需求导向、推进数据共享、统筹算力资源、完善制度规范，推动形成政产学研用协同创新格局，助力数字政府高质量发展。

信息来源：https://mp.weixin.qq.com/s/gLW4OfRzaP88fACMpJQD8g

早报内容及素材均来自网络公开渠道，版权归原作者所有，仅作信息分享使用。

—— END ——

【声明】内容源于网络

元以科技集团

1234

内容 118

粉丝 0

元以科技集团 1234

总阅读1.3k

粉丝0

内容118