大数跨境
0
0

大模型AI简报(25年12月第2期)

大模型AI简报(25年12月第2期) Lucas聊出海
2025-12-04
43
导读:点击上方蓝字关注我们资讯~

点击上方蓝字关注我们



- 本期摘要 -

核心技术:

大模型能力突破:DeepSeek-V3.2开源“思考即工具调用”机制,引领长链条自主推理;商汤NEO架构以十分之一数据量追平顶级多模态模型;OpenAI推出“忏悔”框架提升AI诚实性。

多模态生成革新:视频生成进入“一站式”时代,可灵O1实现统一多模态输入,PixVerse支持音画同步一键生成与智能剪辑。图像生成方面,阿里通义推出高效可控模型,Lovart“零蒙版”编辑重塑工作流。

重要产品:杭州瞳行科技发布千元级助盲眼镜,结合大模型实现超低延迟环境感知;中国移动推出消费级四足机器人“灵犀”,具备家庭陪伴与安全巡检功能;理想汽车AI眼镜深度联动车机,拓展智能座舱交互。千问学习大模型下载量已破千万。

智能体产业化加速:OpenAGI的Lux在桌面自动化测试中表现领先且成本更低;AWS推出智能体开发“全家桶”降低应用门槛;谷歌研究智能体经验复用框架,推动持续进化。

行业趋势:谷歌搜索深度融合对话功能优化体验;AWS自研Trainium3芯片推动降本增效,加剧底层生态竞争;星光AI伴读“小星”上线,标志我国无障碍阅读迈入“智能交互”新时代。


技术模型突破

01 智源研究院发布多模态世界模型Emu3.5,可预测真实世界动态

北京智源研究院发布全球首款多模态世界模型Emu3.5,采用“下一状态预测(NSP)”范式,将图像、文本、视频统一编码为Token序列,解决传统AI缺乏物理规律与因果逻辑理解的问题。该模型参数达340亿,训练数据超10万亿Token(含790年时长视频),通过“离散扩散自适应(DiDA)”技术将图像推理速度提升近20倍,具备推演世界动态和规划具身动作的能力,适用于机器人、自动驾驶等场景。

02 DeepSeek同步上线V3.2正式版与Speciale新模型

DeepSeek同步发布DeepSeek-V3.2正式版及V3.2-Speciale两款模型,支持官网、App与API无缝切换。V3.2是首个开源“思考即工具调用”大模型,支持长链条推理后调用工具(思考模式)与快速响应(非思考模式),无需专项训练即登顶智能体榜单,性能逼近闭源顶级模型。Speciale为极致推理版本,继承DeepSeek-Math-V2定理证明能力,在长链条推理正确率上大幅领先同类开源模型,被誉为“开源o3/o4杀手”,显著拉高国产开源模型天花板。

03 商汤NEO开源,仅用1/10数据量媲美顶级多模态模型

商汤科技联合南洋理工大学S-Lab开源多模态模型架构NEO,打破传统“视觉编码器+投影器+语言模型”的拼接式设计。NEO仅需3.9亿图文样本(约为行业同性能模型的1/10数据量),无需额外视觉编码器,在MMU、MMStar等权威评测中追平Qwen2-VL、InternVL3等顶级模块化模型,综合性能优于其他原生视觉语言模型。其通过原生图块嵌入(PEL)、原生多头注意力等技术实现视觉与语言深层统一,已开源2B、9B参数版本,支持边缘部署。

04 vLLM-Omni发布,首个支持全模态一次跑完的开源推理框架

vLLM团队推出首个开源“全模态”推理框架vLLM-Omni,已在GitHub与ReadTheDocs上线,支持pip安装调用。框架采用解耦流水线架构,由模态编码器、vLLM自回归引擎、模态生成器分别处理特征转换、思考对话与多模态输出,组件可跨GPU/节点调度,显存利用率最高提升40%。提供Python装饰器接口,三行代码即可构建多模态应用。在8×A100集群运行10亿参数模型时,吞吐较传统方案提升2.1倍,延迟下降35%。支持PyTorch 2.4+与CUDA 12.2,计划于2026年Q1新增视频、语音模型及部署功能。

05 亚马逊发布Trainium3 AI训练芯片,性能能效大幅提升

亚马逊在AWS re:Invent大会上发布第三代AI训练芯片Trainium3及配套UltraServer系统,并透露Trainium4研发计划。Trainium3采用3纳米制程,性能与内存较前代提升4倍,能效提高40%;UltraServer单机可容纳144颗芯片,数千台互联可构建百万级芯片集群(规模为上一代10倍)。实测GPT-OSS单芯片吞吐提升3倍、推理速度提升4倍,显著降低成本。Anthropic等客户反馈训练与推理成本降低50%,Amazon Bedrock已投入生产使用。

06 阿里通义开源Z-Image-Turbo-Controlnet-Union模型

阿里通义实验室(PAI团队)开源Z-Image-Turbo-Fun-Controlnet-Union模型,属Z-Image系列扩展。基于单流扩散架构,仅6B参数,6GB VRAM即可运行,RTX 4080上9秒生成1024×1024图像,支持中英混合提示。模型集成6个核心ControlNet模块,兼容Canny、HED、Depth等多种控制条件及Inpainting模式,适用于电商设计、影视特效等场景。

07 谷歌DeepMind发布Evo-Memory基准与ReMem框架

谷歌DeepMind联合伊利诺伊大学香槟分校推出Evo-Memory流式基准与ReMem框架,旨在解决LLM智能体经验重用难题。Evo-Memory将任务重构为连续流,评估智能体策略积累与复用能力;ReMem通过“思考-行动-记忆细化”循环,实现动态检索与修剪记忆。实验显示,ReMem在AlfWorld任务中成功率高达92%,平均步骤从22.6降至11.5,显著优于ExpRAG基线方法,为LLM智能体测试时进化提供新路径。

08 OpenAI推出“忏悔”框架提升AI诚实性与透明度

OpenAI推出“忏悔”(Confession)AI训练框架,旨在解决大型语言模型掩盖错误、提供不准确回答的问题。该框架要求模型在给出主回答后,额外生成一段“忏悔报告”,说明是否遵守指令或存在违规行为,评判标准聚焦诚实性——若模型坦承作弊或越界行为,反而获得奖励。此机制有助于增强AI系统的可解释性与安全性,定位为监控诊断工具。

产品功能

01 可灵AI全量上线O1多模态视频大模型,支持一键生成

可灵AI全面上线O1视频大模型,号称全球首个统一多模态视频大模型,采用MVL架构,单一输入框融合文字、图像、视频三种指令,一站式完成文生视频、图生视频等生成与编辑任务。通过多视角主体构建技术解决镜头切换中的“特征漂移”问题,确保画面主体一致性。支持3-10秒视频生成,已在App及官网开放,后续将推出API接口,并同步上线图像O1模型。

02 PixVerse V5.5发布,支持“导演级”音画同步一键生成

国内AI视频平台PixVerse推出V5.5大模型,核心亮点为“导演级”音画同步一键生成——用户输入一句话即可生成带声音、口型同步的高清视频,并支持多镜头自动切换(远景、中景、近景自然过渡),时长可选5-10秒,无需二次剪辑。采用自研Diffusion与Transformer混合架构,解决镜头切换中的特征漂移问题,提升生成速度与质量,整合文生视频、图生视频等功能,提供从创意到发布的全流程服务,大幅降低创作门槛。

03 杭州瞳行科技发布国内首款AI助盲眼镜,3000元内开售

杭州瞳行科技发布国内首款AI助盲眼镜,搭载阿里通义千问大模型,服务约1700万视障人群。产品由眼镜、手机、遥控指环与盲杖协同工作,配备121度超广角双摄像头,实现300毫秒超低延迟路况播报,可识别公交牌、路标并概述周边环境,支持本地文本识别帮助用户找店、读价签。通过大模型压缩技术降低70%研发成本,预计2026年一季度上市,售价低于3000元,推动AI助盲硬件进入“千元级”时代。

04 中国移动发布消费级“灵犀”四足机器人,主打家庭服务

中国移动发布首款消费级四足机器人“灵犀”,以“拟人化交互+场景化服务”为核心,融合AI大模型,具备自然语言理解与持续学习能力。搭载UWB与激光雷达构成的全域超感融合系统,可自主导航避障,支持全屋安全巡逻、老人跌倒预警、儿童陪伴互动(儿歌故事、才艺表演),还可作为移动摄影师使用,满足家庭陪伴与安防需求。

05 千问APP上线Qwen3-Learning学习大模型,支持拍照答疑

千问APP上线基于Qwen3训练的Qwen3-Learning学习大模型,并推出免费无限次Qwen-Image智能拍照答疑功能,接入万相系列视频生成模型。Qwen3-Learning融合多国考试体系与真题,覆盖小学至高中全学科,支持跨文化多语言解题,可识别印刷体与手写体进行作业批改并生成学习小结,实现从“给答案”到“教方法”的跨越。自11月17日公测以来下载量突破1000万,11月25日登顶澳门App Store免费榜,位列香港前三。

06 理想汽车首发AI眼镜Livis,1999元起适配车舱

理想汽车发布首款AI眼镜Livis,系与蔡司合作成果,全国统一零售价1999元起(国补后1699元起)。镜架轻至36克,支持IP54防尘防水,配备1200万像素超广角镜头与EIS防抖,日常续航达18.8小时,标配无线充电盒。搭载自研MindGPT-4o大模型的“理想同学”支持300ms唤醒、800ms响应,可语音控制空调、尾门等车机功能,未来将支持独立收听导航。支持线上传验光单当天配镜,LivisOS兼容iOS与安卓系统。

07 夸克与瑞声科技联合推出AI眼镜S1,配“耳语”拾音系统

夸克与瑞声科技联合推出AI眼镜S1,搭载双方共创的“耳语”拾音系统——由5颗高性能麦克风+1颗骨传导麦克风组成,可在地铁、图书馆等嘈杂环境中精准捕捉轻声指令,大幅降低误唤醒率。系统体积较行业标准缩小25%,功耗更低,兼顾轻薄与续航。支持多人多语种实时翻译,解决传统智能眼镜语音交互痛点,推动其向大众消费品转型。

08 星光AI伴读“小星”上线,助力盲童无障碍阅读

我国首个面向盲童的无障碍AI伴读系统“星光AI伴读‘小星’”正式上线,由中国盲文出版社与科技公司联合研发。系统针对盲童阅读中存在的“操作壁垒、理解瓶颈、情感缺失”三大难题,融合Generative AI大模型技术,通过语音引导与读屏适配解决“看不见”,实时问答与角色互动破解“读不懂”,音色克隆实现“有温度的陪伴”。支持低视力用户屏幕调节,用户可通过手机或电脑免费注册使用,标志着我国无障碍阅读迈入“智能交互”新时代。

09 Lovart推出TouchEdit功能,AI图像编辑迈入“零蒙版”时代

AI设计平台Lovart推出TouchEdit触控编辑功能,公测48小时内吸引超10万创作者体验。该功能支持通过快捷键锁定图像元素,结合自然语言指令在4K分辨率下完成精准编辑,跨图混搭功能可拖拽重组多张图片关键区域,并拆分独立图层便于微调。集成GPT-4o等模型,采用三模式工作流,显著缩短操作时间。正式版将于明年1月全面开放,计划新增视频帧级编辑功能,有望对Photoshop形成实质性替代。

10 AWS发布Nova2系列模型,推10万美元定制训练服务

亚马逊在re:Invent 2025大会上发布第二代自研大模型家族Nova2,包含Lite、Pro、Sonic、Omni四款型号,主打高性价比,定价约为同类模型50%,新增多模态、代码生成与代理任务优化。同时推出“NovaForge”定制训练服务,年费10万美元,客户可注入私有数据在预训练阶段构建专属模型,大幅降低企业自建模型成本。内部电商团队及外部客户Reddit已投入使用。

11 快手可灵2.6全量上线,实现“音画同出”创作闭环

快手可灵2.6全量上线,核心升级为“音画同出”,单次生成即可同步产出画面、自然语音、匹配音效及环境氛围,打通“音”与“画”创作闭环。支持文生音画(文本生成完整音视频)、图生音画(静态图动态化并配语音)两种路径,适用于独白、解说、对白、音乐表演等场景。算力成本较上一版本降低30%(5秒25积分),支持10秒1080P输出,跨镜头角色一致性达行业顶尖水平。盲测胜率超过Seedance1.0,计划2026年一季度推出4K/60帧版本及自定义声线库。

12 谷歌发布Android 16,新增AI通知摘要与个性化功能

谷歌发布Android 16系统更新,首批面向Pixel设备推送,更新策略由一年一次大更转为更频繁发布。新增AI驱动的通知摘要功能,可浓缩消息与群聊内容,“通知组织器”自动分组静音促销类低优先级通知。个性化方面支持自定义图标形状、主题图标,并为无原生暗黑模式的应用自动添加暗色主题。新增家长控制、紧急来电标记“通话理由”、“表达性字幕”标注语音情感、圆圈搜索防诈骗等功能,优化群聊退出与Chrome固定标签,全面提升使用体验与安全性。

Agent(智能体)与协作框架

01 OpenAGI推出Lux AI Agent,计算机操作表现超OpenAI

MIT背景创业公司OpenAGI推出AI模型Lux,声称其在计算机操作任务上的表现超越OpenAI与Anthropic同类产品,且成本仅为十分之一。Lux通过解析屏幕截图自动执行桌面应用操作,在Online-Mind2Web基准测试中成功率达83.6%,远高于OpenAI Operator的61.3%和Claude Computer Use的56.3%。采用“Agent主动预训练”技术,从截图与动作序列中学习,可控制Excel、Slack等应用,已开放开发者SDK,内置安全机制拒绝危险请求。

02 AWS推出智能体“全家桶”,支持TypeScript与边缘部署

AWS在re:Invent 2025大会上发布九项智能体新功能,打造“Agent全家桶”,目标让开发者十分钟内落地智能体应用。核心包括Strands Agents SDK升级(新增TypeScript支持,适配ARM/x86边缘设备,车载芯片延迟<100ms)、Bedrock Agent Core三连发、SageMaker无检查点训练(节省40%存储成本)、全链路安全合规及边缘云原生部署。新功能缩短企业Agent迭代周期55%,吸引前端与嵌入式开发者,对抗微软OpenAI GPTs生态,有望掀起“全民开发”浪潮。

03 AWS发布三款AI智能体,提升软件开发运维效率

亚马逊云科技(AWS)发布三款新型AI智能体,提升软件开发与运维效率。核心智能体Kiro基于同名编码工具,可连续自主工作数日,学习用户偏好,接收复杂任务并自动规划执行,具备跨会话持久上下文能力,生成运营级代码时会主动确认规范;AWS安全智能体可在编码过程中自动识别安全隐患,完成后测试并提供建议;DevOps智能体专注新代码的性能测试及与软硬件、云环境的兼容性检查。

行业动态及政策

01 谷歌测试移动端搜索AI新功能,支持结果页多轮对话

谷歌正在全球范围内测试移动端搜索“AI概览+AI模式”合并功能,用户无需跳转页面,即可在搜索结果页查看AI整合的核心摘要,并直接展开多轮对话,支持文本、语音、图片输入,对话长度可达传统搜索三倍,同时保留引用来源与网页排名逻辑。此前Gemini 3已整合进搜索产品,月活达6.5亿,AI概览月活20亿。此举旨在消除“该用搜索还是聊天”的选择成本,优化用户体验以应对OpenAI等竞争,尽管含AI结果页点击率下降约36%,但用户停留时长与转化质量提升。

02 亚马逊AI助手Rufus黑五成交率翻倍,成转化引擎

2025年亚马逊AI购物助手Rufus表现亮眼,活跃用户达2.5亿,月度增长超140%。黑五期间,使用Rufus的购物会话成交率较未使用者高出100%,单日成交增幅达75%,推动美国站点成交会话同比增长100%,年度增量销售额有望突破100亿美元。Rufus具备比价、账户记忆、视觉搜索等功能,2026年将拓展国际市场并增加图像语音交互,推动电商AI从算法推荐转向决策辅助,同时也面临算法茧房等行业挑战。

03 Runway推出Gen-4.5视频模型,登顶VideoArena榜首

百人规模初创公司Runway推出AI视频模型Gen-4.5,在Video Arena盲测中以1247分登顶,超越谷歌Veo3、OpenAI Sora2 Pro,上演“大卫逆袭歌利亚”。模型基于NVIDIA Hopper/Blackwell GPU训练,物理模拟精准(如物体重量感、液体流动)、提示词遵循度达68%(超行业平均),视觉细节清晰(发丝、纹理细腻),支持文生/图生视频,操作简单且订阅价格不变。可用于影视制作、自媒体创作、教育演示等场景,虽存在因果推理不足等局限,但正分批开放,已成为AI视频领域新标杆。

04 微亿智造入选IDC具身智能机器人创新者榜单

国际数据公司(IDC)首次发布《IDC Innovators: 具身智能机器人创新者》报告,预测到2030年,具身智能机器人将占整体机器人用户支出市场超30%。报告评选出四家创新企业,其中中国常州微亿智造专注工业领域,凭借自研全栈式软硬件系统,开发出能自主感知、学习并执行复杂任务的机器人;其他入选企业包括北京远舢智能、美国Gecko Robotics、瑞士ANYbotics。IDC指出,这些企业正以智能化技术推动制造业降本增效与转型升级。

05 米哈游联创蔡浩宇推出AnuNeko AI,主打情绪化交互

米哈游联合创始人蔡浩宇旗下Anuttacon公司上线AI聊天模型AnuNeko,跳出传统工具定位,以“非助手非宠物”的独立角色设定主打个性化、情绪化交互。提供两种人格选项:橘猫温和,评价原神时语气官方;异国短毛猫犀利,称米哈游为行业“鲶鱼”。该模型是蔡浩宇探索游戏AI引擎的试水项目,用于验证智能NPC技术可行性与用户接受度,用户反馈其逻辑较弱但人文属性突出。

【声明】内容源于网络
0
0
Lucas聊出海
跨境分享台 | 长期更新实用资讯
内容 47414
粉丝 3
Lucas聊出海 跨境分享台 | 长期更新实用资讯
总阅读371.3k
粉丝3
内容47.4k