大模型AI简报（25年12月第2期）- 大数跨境

首页

大模型AI简报（25年12月第2期）

Lucas聊出海

2025-12-04

160

导读：点击上方蓝字关注我们资讯~

点击上方蓝字关注我们

- 本期摘要 -

核心技术：

大模型能力突破：DeepSeek-V3.2开源“思考即工具调用”机制，引领长链条自主推理；商汤NEO架构以十分之一数据量追平顶级多模态模型；OpenAI推出“忏悔”框架提升AI诚实性。

多模态生成革新：视频生成进入“一站式”时代，可灵O1实现统一多模态输入，PixVerse支持音画同步一键生成与智能剪辑。图像生成方面，阿里通义推出高效可控模型，Lovart“零蒙版”编辑重塑工作流。

重要产品：杭州瞳行科技发布千元级助盲眼镜，结合大模型实现超低延迟环境感知；中国移动推出消费级四足机器人“灵犀”，具备家庭陪伴与安全巡检功能；理想汽车AI眼镜深度联动车机，拓展智能座舱交互。千问学习大模型下载量已破千万。

智能体产业化加速：OpenAGI的Lux在桌面自动化测试中表现领先且成本更低；AWS推出智能体开发“全家桶”降低应用门槛；谷歌研究智能体经验复用框架，推动持续进化。

行业趋势：谷歌搜索深度融合对话功能优化体验；AWS自研Trainium3芯片推动降本增效，加剧底层生态竞争；星光AI伴读“小星”上线，标志我国无障碍阅读迈入“智能交互”新时代。

技术模型突破

01 智源研究院发布多模态世界模型Emu3.5，可预测真实世界动态

北京智源研究院发布全球首款多模态世界模型Emu3.5，采用“下一状态预测（NSP）”范式，将图像、文本、视频统一编码为Token序列，解决传统AI缺乏物理规律与因果逻辑理解的问题。该模型参数达340亿，训练数据超10万亿Token（含790年时长视频），通过“离散扩散自适应（DiDA）”技术将图像推理速度提升近20倍，具备推演世界动态和规划具身动作的能力，适用于机器人、自动驾驶等场景。

02 DeepSeek同步上线V3.2正式版与Speciale新模型

DeepSeek同步发布DeepSeek-V3.2正式版及V3.2-Speciale两款模型，支持官网、App与API无缝切换。V3.2是首个开源“思考即工具调用”大模型，支持长链条推理后调用工具（思考模式）与快速响应（非思考模式），无需专项训练即登顶智能体榜单，性能逼近闭源顶级模型。Speciale为极致推理版本，继承DeepSeek-Math-V2定理证明能力，在长链条推理正确率上大幅领先同类开源模型，被誉为“开源o3/o4杀手”，显著拉高国产开源模型天花板。

03 商汤NEO开源，仅用1/10数据量媲美顶级多模态模型

商汤科技联合南洋理工大学S-Lab开源多模态模型架构NEO，打破传统“视觉编码器+投影器+语言模型”的拼接式设计。NEO仅需3.9亿图文样本（约为行业同性能模型的1/10数据量），无需额外视觉编码器，在MMU、MMStar等权威评测中追平Qwen2-VL、InternVL3等顶级模块化模型，综合性能优于其他原生视觉语言模型。其通过原生图块嵌入（PEL）、原生多头注意力等技术实现视觉与语言深层统一，已开源2B、9B参数版本，支持边缘部署。

04 vLLM-Omni发布，首个支持全模态一次跑完的开源推理框架

vLLM团队推出首个开源“全模态”推理框架vLLM-Omni，已在GitHub与ReadTheDocs上线，支持pip安装调用。框架采用解耦流水线架构，由模态编码器、vLLM自回归引擎、模态生成器分别处理特征转换、思考对话与多模态输出，组件可跨GPU/节点调度，显存利用率最高提升40%。提供Python装饰器接口，三行代码即可构建多模态应用。在8×A100集群运行10亿参数模型时，吞吐较传统方案提升2.1倍，延迟下降35%。支持PyTorch 2.4+与CUDA 12.2，计划于2026年Q1新增视频、语音模型及部署功能。

05 亚马逊发布Trainium3 AI训练芯片，性能能效大幅提升

亚马逊在AWS re:Invent大会上发布第三代AI训练芯片Trainium3及配套UltraServer系统，并透露Trainium4研发计划。Trainium3采用3纳米制程，性能与内存较前代提升4倍，能效提高40%；UltraServer单机可容纳144颗芯片，数千台互联可构建百万级芯片集群（规模为上一代10倍）。实测GPT-OSS单芯片吞吐提升3倍、推理速度提升4倍，显著降低成本。Anthropic等客户反馈训练与推理成本降低50%，Amazon Bedrock已投入生产使用。

06 阿里通义开源Z-Image-Turbo-Controlnet-Union模型

阿里通义实验室（PAI团队）开源Z-Image-Turbo-Fun-Controlnet-Union模型，属Z-Image系列扩展。基于单流扩散架构，仅6B参数，6GB VRAM即可运行，RTX 4080上9秒生成1024×1024图像，支持中英混合提示。模型集成6个核心ControlNet模块，兼容Canny、HED、Depth等多种控制条件及Inpainting模式，适用于电商设计、影视特效等场景。

07 谷歌DeepMind发布Evo-Memory基准与ReMem框架

谷歌DeepMind联合伊利诺伊大学香槟分校推出Evo-Memory流式基准与ReMem框架，旨在解决LLM智能体经验重用难题。Evo-Memory将任务重构为连续流，评估智能体策略积累与复用能力；ReMem通过“思考-行动-记忆细化”循环，实现动态检索与修剪记忆。实验显示，ReMem在AlfWorld任务中成功率高达92%，平均步骤从22.6降至11.5，显著优于ExpRAG基线方法，为LLM智能体测试时进化提供新路径。

08 OpenAI推出“忏悔”框架提升AI诚实性与透明度

OpenAI推出“忏悔”（Confession）AI训练框架，旨在解决大型语言模型掩盖错误、提供不准确回答的问题。该框架要求模型在给出主回答后，额外生成一段“忏悔报告”，说明是否遵守指令或存在违规行为，评判标准聚焦诚实性——若模型坦承作弊或越界行为，反而获得奖励。此机制有助于增强AI系统的可解释性与安全性，定位为监控诊断工具。

产品功能

01 可灵AI全量上线O1多模态视频大模型，支持一键生成

可灵AI全面上线O1视频大模型，号称全球首个统一多模态视频大模型，采用MVL架构，单一输入框融合文字、图像、视频三种指令，一站式完成文生视频、图生视频等生成与编辑任务。通过多视角主体构建技术解决镜头切换中的“特征漂移”问题，确保画面主体一致性。支持3-10秒视频生成，已在App及官网开放，后续将推出API接口，并同步上线图像O1模型。

02 PixVerse V5.5发布，支持“导演级”音画同步一键生成

国内AI视频平台PixVerse推出V5.5大模型，核心亮点为“导演级”音画同步一键生成——用户输入一句话即可生成带声音、口型同步的高清视频，并支持多镜头自动切换（远景、中景、近景自然过渡），时长可选5-10秒，无需二次剪辑。采用自研Diffusion与Transformer混合架构，解决镜头切换中的特征漂移问题，提升生成速度与质量，整合文生视频、图生视频等功能，提供从创意到发布的全流程服务，大幅降低创作门槛。

03 杭州瞳行科技发布国内首款AI助盲眼镜，3000元内开售

杭州瞳行科技发布国内首款AI助盲眼镜，搭载阿里通义千问大模型，服务约1700万视障人群。产品由眼镜、手机、遥控指环与盲杖协同工作，配备121度超广角双摄像头，实现300毫秒超低延迟路况播报，可识别公交牌、路标并概述周边环境，支持本地文本识别帮助用户找店、读价签。通过大模型压缩技术降低70%研发成本，预计2026年一季度上市，售价低于3000元，推动AI助盲硬件进入“千元级”时代。

04 中国移动发布消费级“灵犀”四足机器人，主打家庭服务

中国移动发布首款消费级四足机器人“灵犀”，以“拟人化交互+场景化服务”为核心，融合AI大模型，具备自然语言理解与持续学习能力。搭载UWB与激光雷达构成的全域超感融合系统，可自主导航避障，支持全屋安全巡逻、老人跌倒预警、儿童陪伴互动（儿歌故事、才艺表演），还可作为移动摄影师使用，满足家庭陪伴与安防需求。

05 千问APP上线Qwen3-Learning学习大模型，支持拍照答疑

千问APP上线基于Qwen3训练的Qwen3-Learning学习大模型，并推出免费无限次Qwen-Image智能拍照答疑功能，接入万相系列视频生成模型。Qwen3-Learning融合多国考试体系与真题，覆盖小学至高中全学科，支持跨文化多语言解题，可识别印刷体与手写体进行作业批改并生成学习小结，实现从“给答案”到“教方法”的跨越。自11月17日公测以来下载量突破1000万，11月25日登顶澳门App Store免费榜，位列香港前三。

06 理想汽车首发AI眼镜Livis，1999元起适配车舱

理想汽车发布首款AI眼镜Livis，系与蔡司合作成果，全国统一零售价1999元起（国补后1699元起）。镜架轻至36克，支持IP54防尘防水，配备1200万像素超广角镜头与EIS防抖，日常续航达18.8小时，标配无线充电盒。搭载自研MindGPT-4o大模型的“理想同学”支持300ms唤醒、800ms响应，可语音控制空调、尾门等车机功能，未来将支持独立收听导航。支持线上传验光单当天配镜，LivisOS兼容iOS与安卓系统。

07 夸克与瑞声科技联合推出AI眼镜S1，配“耳语”拾音系统

夸克与瑞声科技联合推出AI眼镜S1，搭载双方共创的“耳语”拾音系统——由5颗高性能麦克风+1颗骨传导麦克风组成，可在地铁、图书馆等嘈杂环境中精准捕捉轻声指令，大幅降低误唤醒率。系统体积较行业标准缩小25%，功耗更低，兼顾轻薄与续航。支持多人多语种实时翻译，解决传统智能眼镜语音交互痛点，推动其向大众消费品转型。

08 星光AI伴读“小星”上线，助力盲童无障碍阅读

我国首个面向盲童的无障碍AI伴读系统“星光AI伴读‘小星’”正式上线，由中国盲文出版社与科技公司联合研发。系统针对盲童阅读中存在的“操作壁垒、理解瓶颈、情感缺失”三大难题，融合Generative AI大模型技术，通过语音引导与读屏适配解决“看不见”，实时问答与角色互动破解“读不懂”，音色克隆实现“有温度的陪伴”。支持低视力用户屏幕调节，用户可通过手机或电脑免费注册使用，标志着我国无障碍阅读迈入“智能交互”新时代。

09 Lovart推出TouchEdit功能，AI图像编辑迈入“零蒙版”时代

AI设计平台Lovart推出TouchEdit触控编辑功能，公测48小时内吸引超10万创作者体验。该功能支持通过快捷键锁定图像元素，结合自然语言指令在4K分辨率下完成精准编辑，跨图混搭功能可拖拽重组多张图片关键区域，并拆分独立图层便于微调。集成GPT-4o等模型，采用三模式工作流，显著缩短操作时间。正式版将于明年1月全面开放，计划新增视频帧级编辑功能，有望对Photoshop形成实质性替代。

10 AWS发布Nova2系列模型，推10万美元定制训练服务

亚马逊在re:Invent 2025大会上发布第二代自研大模型家族Nova2，包含Lite、Pro、Sonic、Omni四款型号，主打高性价比，定价约为同类模型50%，新增多模态、代码生成与代理任务优化。同时推出“NovaForge”定制训练服务，年费10万美元，客户可注入私有数据在预训练阶段构建专属模型，大幅降低企业自建模型成本。内部电商团队及外部客户Reddit已投入使用。

11 快手可灵2.6全量上线，实现“音画同出”创作闭环

快手可灵2.6全量上线，核心升级为“音画同出”，单次生成即可同步产出画面、自然语音、匹配音效及环境氛围，打通“音”与“画”创作闭环。支持文生音画（文本生成完整音视频）、图生音画（静态图动态化并配语音）两种路径，适用于独白、解说、对白、音乐表演等场景。算力成本较上一版本降低30%（5秒25积分），支持10秒1080P输出，跨镜头角色一致性达行业顶尖水平。盲测胜率超过Seedance1.0，计划2026年一季度推出4K/60帧版本及自定义声线库。

12 谷歌发布Android 16，新增AI通知摘要与个性化功能

谷歌发布Android 16系统更新，首批面向Pixel设备推送，更新策略由一年一次大更转为更频繁发布。新增AI驱动的通知摘要功能，可浓缩消息与群聊内容，“通知组织器”自动分组静音促销类低优先级通知。个性化方面支持自定义图标形状、主题图标，并为无原生暗黑模式的应用自动添加暗色主题。新增家长控制、紧急来电标记“通话理由”、“表达性字幕”标注语音情感、圆圈搜索防诈骗等功能，优化群聊退出与Chrome固定标签，全面提升使用体验与安全性。

Agent（智能体）与协作框架

01 OpenAGI推出Lux AI Agent，计算机操作表现超OpenAI

MIT背景创业公司OpenAGI推出AI模型Lux，声称其在计算机操作任务上的表现超越OpenAI与Anthropic同类产品，且成本仅为十分之一。Lux通过解析屏幕截图自动执行桌面应用操作，在Online-Mind2Web基准测试中成功率达83.6%，远高于OpenAI Operator的61.3%和Claude Computer Use的56.3%。采用“Agent主动预训练”技术，从截图与动作序列中学习，可控制Excel、Slack等应用，已开放开发者SDK，内置安全机制拒绝危险请求。

02 AWS推出智能体“全家桶”，支持TypeScript与边缘部署

AWS在re:Invent 2025大会上发布九项智能体新功能，打造“Agent全家桶”，目标让开发者十分钟内落地智能体应用。核心包括Strands Agents SDK升级（新增TypeScript支持，适配ARM/x86边缘设备，车载芯片延迟<100ms）、Bedrock Agent Core三连发、SageMaker无检查点训练（节省40%存储成本）、全链路安全合规及边缘云原生部署。新功能缩短企业Agent迭代周期55%，吸引前端与嵌入式开发者，对抗微软OpenAI GPTs生态，有望掀起“全民开发”浪潮。

03 AWS发布三款AI智能体，提升软件开发运维效率

亚马逊云科技（AWS）发布三款新型AI智能体，提升软件开发与运维效率。核心智能体Kiro基于同名编码工具，可连续自主工作数日，学习用户偏好，接收复杂任务并自动规划执行，具备跨会话持久上下文能力，生成运营级代码时会主动确认规范；AWS安全智能体可在编码过程中自动识别安全隐患，完成后测试并提供建议；DevOps智能体专注新代码的性能测试及与软硬件、云环境的兼容性检查。

行业动态及政策

01 谷歌测试移动端搜索AI新功能，支持结果页多轮对话

谷歌正在全球范围内测试移动端搜索“AI概览+AI模式”合并功能，用户无需跳转页面，即可在搜索结果页查看AI整合的核心摘要，并直接展开多轮对话，支持文本、语音、图片输入，对话长度可达传统搜索三倍，同时保留引用来源与网页排名逻辑。此前Gemini 3已整合进搜索产品，月活达6.5亿，AI概览月活20亿。此举旨在消除“该用搜索还是聊天”的选择成本，优化用户体验以应对OpenAI等竞争，尽管含AI结果页点击率下降约36%，但用户停留时长与转化质量提升。

02 亚马逊AI助手Rufus黑五成交率翻倍，成转化引擎

2025年亚马逊AI购物助手Rufus表现亮眼，活跃用户达2.5亿，月度增长超140%。黑五期间，使用Rufus的购物会话成交率较未使用者高出100%，单日成交增幅达75%，推动美国站点成交会话同比增长100%，年度增量销售额有望突破100亿美元。Rufus具备比价、账户记忆、视觉搜索等功能，2026年将拓展国际市场并增加图像语音交互，推动电商AI从算法推荐转向决策辅助，同时也面临算法茧房等行业挑战。

03 Runway推出Gen-4.5视频模型，登顶VideoArena榜首

百人规模初创公司Runway推出AI视频模型Gen-4.5，在Video Arena盲测中以1247分登顶，超越谷歌Veo3、OpenAI Sora2 Pro，上演“大卫逆袭歌利亚”。模型基于NVIDIA Hopper/Blackwell GPU训练，物理模拟精准（如物体重量感、液体流动）、提示词遵循度达68%（超行业平均），视觉细节清晰（发丝、纹理细腻），支持文生/图生视频，操作简单且订阅价格不变。可用于影视制作、自媒体创作、教育演示等场景，虽存在因果推理不足等局限，但正分批开放，已成为AI视频领域新标杆。

04 微亿智造入选IDC具身智能机器人创新者榜单

国际数据公司（IDC）首次发布《IDC Innovators: 具身智能机器人创新者》报告，预测到2030年，具身智能机器人将占整体机器人用户支出市场超30%。报告评选出四家创新企业，其中中国常州微亿智造专注工业领域，凭借自研全栈式软硬件系统，开发出能自主感知、学习并执行复杂任务的机器人；其他入选企业包括北京远舢智能、美国Gecko Robotics、瑞士ANYbotics。IDC指出，这些企业正以智能化技术推动制造业降本增效与转型升级。

05 米哈游联创蔡浩宇推出AnuNeko AI，主打情绪化交互

米哈游联合创始人蔡浩宇旗下Anuttacon公司上线AI聊天模型AnuNeko，跳出传统工具定位，以“非助手非宠物”的独立角色设定主打个性化、情绪化交互。提供两种人格选项：橘猫温和，评价原神时语气官方；异国短毛猫犀利，称米哈游为行业“鲶鱼”。该模型是蔡浩宇探索游戏AI引擎的试水项目，用于验证智能NPC技术可行性与用户接受度，用户反馈其逻辑较弱但人文属性突出。

【声明】内容源于网络

Lucas聊出海

跨境分享台 | 长期更新实用资讯

内容 47497

粉丝 6

Lucas聊出海跨境分享台 | 长期更新实用资讯

总阅读952.1k

粉丝6

内容47.5k