12月3日丨每日AI简讯丨阿里王炸！6B参数Z-Image模型开源，秒杀Flux引爆全球开发者热议- 大数跨境

首页

12月3日丨每日AI简讯丨阿里王炸！6B参数Z-Image模型开源，秒杀Flux引爆全球开发者热议

久新数智

2025-12-03

导读：摘要信息

9agent.ai

点击蓝字关注我们

每日AI简讯

2025-12-03

大模型

LLM

Gemini 3 | 谷歌搜索迎来 AI 新革命:Gemini 3 与 Nano Banana Pro 正式登陆 120 国，先向 Pro/Ultra 订阅者开放
谷歌宣布将最新大模型Gemini 3接入搜索“AI模式”，首批覆盖近120个国家和地区，面向AI Pro与Ultra订阅用户开放。同时，配套的生成式图像模型Nano Banana Pro同步上线，支持2K/4K分辨率等功能，已集成至Gemini应用等平台，预计下月向更多免费用户开放。Gemini 3采用原生多模态架构，可生成动态搜索内容，谷歌视其为“智能总线”布局的第一步。
DeepSeek-V3.2 | DeepSeek-V3.2 正式发布:引入创新稀疏注意力架构，API 成本腰斩，性能比肩顶尖闭源模型
中国人工智能初创公司深度求索（DeepSeek AI）发布DeepSeek-V3.2系列模型，包含标准版和高计算增强版DeepSeek-V3.2-Speciale。新模型引入创新稀疏注意力机制（DSA），提升长文本推理速度2-3倍，API成本降低超50%，强化Agent能力并支持“思考模式”提升任务准确性。其中增强版在高难度推理任务中超越GPT-5，获国际竞赛金牌级成绩，模型权重已在Hugging Face开源。
O1视频大模型 | 可灵AI今日全量上线O1 视频大模型:统一多模态架构支持一句话生成视频
可灵AI宣布自主研发的O1视频大模型于今日全量开放，该模型采用MVL统一多模态架构，支持文字、图像、视频指令融合输入，并引入Chain-of-Thought推理链路，可一次性完成文生视频、图生视频等任务，解决镜头切换特征漂移问题，现于可灵App及官网开放体验，后续将开放API接口。
Gen-4.5 | 120 人团队把万亿巨头拉下马:Runway Gen-4.5 盲测夺冠，正式宣战谷歌与 OpenAI
视频生成初创公司Runway的最新模型Gen-4.5在第三方盲测平台Video Arena登顶，击败谷歌Veo3与OpenAI Sora2Pro。该模型采用自研时空混合Transformer，支持1080p、24fps、最长18秒输出，优化了运动幅度等复杂指令处理能力。Runway计划本周开放Gen-4.5，并将于明年一季度推出企业级方案，扩大市场份额。
Gen-4.5 | Runway 发布全新 Gen-4.5视频生成模型，提升创作与视觉质量
生成式AI公司Runway推出全新视频生成模型Gen-4.5，该模型在视觉准确性和创意控制上显著提升，支持通过文本提示生成高清动态视频，涵盖复杂场景与人物角色。其主要针对社交媒体短视频创作，与谷歌Veo3.1等长视频模型形成差异化。但模型存在因果推理不足、时间连贯性问题，同时AI内容真实性争议引发行业关于标注声明的讨论。
PixVerse V5.5 | 爱诗科技发布PixVerse V5.5:国内首个“导演级”多镜头叙事视频大模型落地
爱诗科技发布国内首个“导演级”多镜头叙事视频大模型PixVerse V5.5（拍我AI V5.5），支持“多镜头+音画同步一键直出”，标志AI生成视频迈入完整叙事短片阶段。该模型依托自研MVL架构，5-10秒内可完成脚本拆解、分镜调度及音画生成，用户输入提示即可输出起承转合的初版成片，解决了特征漂移问题，面向社交短视频等场景，已开放免费体验及企业API接入。
Gemini3Pro | 谷歌 AI 搜索体验“提速”:新设计实现无缝对话，Gemini3Pro 杀入120国市场!
谷歌优化AI搜索体验，测试新设计实现用户从AI概览到AI模式的无缝过渡，点击“显示更多”可直达对话界面。同时，Gemini3Pro及Nano Banana Pro模型向近120个国家和地区的英语用户推出，集成于Google搜索，仅限AI Pro和Ultra订阅用户使用，支持生成动态可视化布局等功能。
Z-Image-Turbo-Fun-Controlnet-Union | 阿里通义实验室再出王炸!Z-Image-Turbo-Fun-Controlnet-Union 开源，6B 参数秒杀 Flux
阿里通义实验室正式开源Z-Image-Turbo-Fun-Controlnet-Union模型，该模型是Z-Image系列图像生成生态的重大扩展，集成ControlNet结构，兼容多模态控制条件，适用于复杂场景生成。模型仅6亿参数，支持低硬件门槛运行，已在Hugging Face上线并支持商用，引发全球开发者与创作者热议，强化了阿里在开源AI领域的竞争力。

产品&应用

Product Application

ChatGPT Enterprise | OpenAI 牵手埃森哲推出企业级 AI 旗舰计划，数万名顾问率先部署 ChatGPT Enterprise
OpenAI与埃森哲联合宣布达成多年战略联盟，推出全球企业一站式AI转型方案，首批为7万名专业顾问配备ChatGPT Enterprise，并共同构建行业专用大模型与数据平台。双方将整合OpenAI模型与埃森哲行业方法论，提供全链路服务，首批方案预计2025年二季度交付客户，此举加速AI应用商业化，推动企业级AI赛道进入生态竞争阶段。
PixVerse V5.5 | 国内拍我AI（PixVerse）推出V5.5版本:支持「导演级」音画同步一键生成
国内拍我AI（PixVerse）推出V5.5版本，核心功能为用户输入一句话即可生成带声音和口型同步的高清视频，支持智能多镜头自动切换。该版本采用自研Diffusion与Transformer混合架构，提升视频生成速度与质量，整合文生视频、图生视频等功能，实现一站式创作，显著降低视频制作门槛，新手也能轻松使用。
AI搜索 | 谷歌高管揭示 AI 搜索的“最大机遇”与隐私边界的模糊化
谷歌搜索产品副总裁罗比·斯坦近日表示，谷歌在AI领域的最大机遇之一是通过更好了解用户实现个性化响应，尤其针对建议或推荐类查询。谷歌利用Gmail等服务数据，将个人数据导入Gemini Deep Research并集成至Workspace应用，以提供更精准推荐。但深度收集用户数据（如邮件、位置等）导致实用与侵入界限模糊，谷歌声称将标明AI回复的个性化属性，并允许用户在Gemini设置中控制数据使用，同时提醒用户注意数据隐私。
灵光闪应用 | 自然语言构建AI应用成风潮，灵光涌现330万个闪应用
蚂蚁集团开发的通用AI助手“灵光”上线两周，其核心功能“闪应用”已被用户创建330万个。这些闪应用多为日常生活工具，覆盖娱乐、日常工具、教育、健康管理、生活类场景，用户通过自然语言最快30秒即可生成可交互小应用，无需编程知识。用户参与度高，部分应用修改超100轮，甚至尝试创建“支付宝”等应用，展现大众利用AI解决碎片化需求的潜力。
千问APP | 千问APP接入万相Wan2.5，视频能力全新升级
千问APP接入万相系列最新模型Wan2.5，视频创作能力升级，支持音视频同步输出，动作精度和肢体协调性提升。用户通过上传照片和输入文字即可生成高清唱跳视频，支持多种形象类型，进一步降低创作门槛，激发用户创意，上线后社交平台涌现大量创意内容。
谷歌搜索AI模式 | 谷歌搜索“AI模式”全量上线:结果页内一键对话，跳转步骤成为历史
谷歌移动端搜索“AI模式”于12月2日全球全量上线，用户使用AI概览时无需离开结果页，可通过底部输入框与Gemini模型直接对话，实现即时追问与多轮交互。该模式采用“查询扇出”机制，拆解问题并抓取多源数据合成答案，支持文字、语音及图片输入，已覆盖近120个国家和地区。功能上线后，结果页点击率虽降约36%，但停留时长与转化质量提升，未来或重写移动搜索商业链路。
AI 涨乐 | 华泰证券与火山引擎合作推出国内首款 AI 原生交易APP“AI 涨乐”
华泰证券联合火山引擎推出国内首款AI原生交易APP“AI 涨乐”，该应用全AI驱动，将AI深度融入选股、分析、交易等核心环节。火山引擎提供算力、大模型等技术支持，用户可通过AI投资助手完成选股、盯盘、下单等操作，支持语音指令交易，并优化了数据分析与信息质量，旨在为投资者提供更智能的服务体验。
Lovart Touch Edit | Lovart Touch Edit 上线:轻点即改，AI 图像编辑进入“零蒙版”时代
AI设计平台Lovart推出Touch Edit触控功能，公测48小时吸引超10万创作者体验。该功能支持"Mark & Edit"操作，通过快捷键自动识别元素，结合自然语言输入完成图像编辑，无需手动蒙版；还支持跨图混搭与图层拆分。其集成多模型提供三模式工作流，大幅缩短编辑耗时，正式版将于2026年1月全面开放，并计划扩展视频、3D编辑功能。

硬件&底层技术

Hardware Technology

英伟达 | 英伟达发布首个自动驾驶推理模型，押注下一代 AI 大脑
英伟达在NeurIPS大会上发布首个专用于自动驾驶的推理视觉语言模型Alpamayo-R1，基于Cosmos-Reason模型，能处理文本和图像并辅助驾驶决策，助力L4级自动驾驶实现“常识”判断，已开放GitHub和Hugging Face。同时上线Cosmos Cookbook指南，涵盖数据整理等流程，帮助开发者应用模型，推进物理AI领域发展。
vLLM-Omni 发布:可以处理文本、图像、音频和视频
vLLM团队近日推出全模态推理框架vLLM-Omni，支持处理文本、图像、音频和视频等多模态输入输出。该框架采用解耦流水线架构，通过模态编码器、LLM核心和模态生成器等组件协调推理任务，可优化资源分配并提高效率，是首批支持全模态推理的开源框架之一，代码已上线GitHub。
英伟达 | 英伟达斥资 20 亿美元与 Synopsys 达成战略合作，推动工程设计变革
近日，英伟达与电子设计自动化公司Synopsys宣布建立长期战略合作伙伴关系，英伟达以20亿美元投资购买Synopsys普通股。双方将整合GPU加速计算、智能代理AI和数字双胞胎技术，提升半导体、航空航天等行业的工程设计效率，应对复杂工作流程及开发成本压力，合作内容包括加速计算密集型应用、集成智能代理AI等。
vLLM团队 | vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线，多模态推理一次跑完
vLLM团队发布全模态推理框架vLLM-Omni，将文本、图像等多模态生成从概念转为可落地代码。该框架采用解耦流水线架构，包含模态编码器、LLM核心和模态生成器，支持资源弹性调度，显存利用率最高提升40%。其提供Python装饰器简化多模态应用拼装，性能优于传统方案，已开源并计划后续功能更新。

行业动态&政策

Industry Trends Policies

苹果 AI 负责人将于2026年退休，接任者来自微软
苹果AI负责人约翰・贾南德里亚将于2026年春季退休，期间任顾问。其职务由前微软高管阿马尔・苏布拉马尼亚接任，负责苹果基础模型、机器学习研究等领域。此前因Siri升级延迟致团队人员流失，苹果正与谷歌洽谈引入Gemini技术推动AI功能升级。
OpenAI 拿技术换股权:零现金入股 Thrive Holdings，锁定 AI 改造赛道的“循环交易”
12月1日，OpenAI宣布以派驻员工、开放模型与产品接口的方式零现金入股私募平台Thrive Holdings，获取其股权并分享未来投资收益。双方协议中，OpenAI将在会计与IT服务领域嵌入团队助力企业降本，同时调用业务数据训练模型。此举缓解了OpenAI的现金流压力并拓展企业客户，但也引发对AI泡沫风险的担忧。
AI助力下，数据中心建设工人薪资暴涨，部分年薪超 20 万美元
随着AI技术发展，大型数据中心建设需求攀升，推动相关建筑工人薪资暴涨。报道显示，工人薪资普遍上涨25%-30%，部分岗位年薪超20万美元，如俄勒冈州电气安全专家年薪22.5万、北弗吉尼亚电工年收入超20万。企业通过取暖休息帐篷、免费午餐、每日奖金等福利吸引人才。背后主因是亚马逊等科技巨头新建数据中心需求激增，叠加美国建筑行业43.9万熟练工人短缺，加剧薪资上涨。
苹果AI换帅:Gemini旧将Subramanya接掌帅印，Giannandrea春季离场
苹果公司确认首席AI官约翰·贾南德里亚将于春季卸任，由前谷歌Gemini工程负责人阿马尔·苏布拉曼亚接任。此次变动与"Apple Intelligence"项目失误有关，该系统因摘要功能虚假标题、Siri升级推迟等问题受质疑。苏布拉曼亚曾主导Gemini Assistant工程，苹果希望其加速追赶，计划在新一代Siri引入Gemini模型，同时坚持设备端优先战略，其上任后需提升智能化水平以扭转颓势。
有警告称，人工智能技术将消耗澳大利亚12%的电力
澳大利亚联邦政府考虑要求大型AI公司为高耗能数据中心配套建设可再生能源电厂，以应对AI技术带来的电力消耗压力。监管机构警告，到2050年AI相关设施或消耗全国12%电力，2024年数据中心已占2%。政府拟2026年初推出数据中心投资原则，要求配套可再生能源与水资源方案，或催生绿色基建浪潮。

⬇️更多AI资讯关注我们⬇️

【声明】内容源于网络

久新数智

重塑生产力，开启人机协作新篇章！

内容 0

粉丝 0

久新数智重塑生产力，开启人机协作新篇章！

总阅读0

粉丝0

内容0