9agent.ai
点击蓝字 关注我们
每日AI简讯
2025-12-03
01
大模型
LLM
Gemini 3 | 谷歌搜索迎来 AI 新革命:Gemini 3 与 Nano Banana Pro 正式登陆 120 国,先向 Pro/Ultra 订阅者开放
谷歌宣布将最新大模型Gemini 3接入搜索“AI模式”,首批覆盖近120个国家和地区,面向AI Pro与Ultra订阅用户开放。同时,配套的生成式图像模型Nano Banana Pro同步上线,支持2K/4K分辨率等功能,已集成至Gemini应用等平台,预计下月向更多免费用户开放。Gemini 3采用原生多模态架构,可生成动态搜索内容,谷歌视其为“智能总线”布局的第一步。
DeepSeek-V3.2 | DeepSeek-V3.2 正式发布:引入创新稀疏注意力架构,API 成本腰斩,性能比肩顶尖闭源模型
中国人工智能初创公司深度求索(DeepSeek AI)发布DeepSeek-V3.2系列模型,包含标准版和高计算增强版DeepSeek-V3.2-Speciale。新模型引入创新稀疏注意力机制(DSA),提升长文本推理速度2-3倍,API成本降低超50%,强化Agent能力并支持“思考模式”提升任务准确性。其中增强版在高难度推理任务中超越GPT-5,获国际竞赛金牌级成绩,模型权重已在Hugging Face开源。
O1视频大模型 | 可灵AI今日全量上线O1 视频大模型:统一多模态架构 支持一句话生成视频
可灵AI宣布自主研发的O1视频大模型于今日全量开放,该模型采用MVL统一多模态架构,支持文字、图像、视频指令融合输入,并引入Chain-of-Thought推理链路,可一次性完成文生视频、图生视频等任务,解决镜头切换特征漂移问题,现于可灵App及官网开放体验,后续将开放API接口。
Gen-4.5 | 120 人团队把万亿巨头拉下马:Runway Gen-4.5 盲测夺冠,正式宣战谷歌与 OpenAI
视频生成初创公司Runway的最新模型Gen-4.5在第三方盲测平台Video Arena登顶,击败谷歌Veo3与OpenAI Sora2Pro。该模型采用自研时空混合Transformer,支持1080p、24fps、最长18秒输出,优化了运动幅度等复杂指令处理能力。Runway计划本周开放Gen-4.5,并将于明年一季度推出企业级方案,扩大市场份额。
Gen-4.5 | Runway 发布全新 Gen-4.5视频生成模型,提升创作与视觉质量
生成式AI公司Runway推出全新视频生成模型Gen-4.5,该模型在视觉准确性和创意控制上显著提升,支持通过文本提示生成高清动态视频,涵盖复杂场景与人物角色。其主要针对社交媒体短视频创作,与谷歌Veo3.1等长视频模型形成差异化。但模型存在因果推理不足、时间连贯性问题,同时AI内容真实性争议引发行业关于标注声明的讨论。
PixVerse V5.5 | 爱诗科技发布PixVerse V5.5:国内首个“导演级”多镜头叙事视频大模型落地
爱诗科技发布国内首个“导演级”多镜头叙事视频大模型PixVerse V5.5(拍我AI V5.5),支持“多镜头+音画同步一键直出”,标志AI生成视频迈入完整叙事短片阶段。该模型依托自研MVL架构,5-10秒内可完成脚本拆解、分镜调度及音画生成,用户输入提示即可输出起承转合的初版成片,解决了特征漂移问题,面向社交短视频等场景,已开放免费体验及企业API接入。
Gemini3Pro | 谷歌 AI 搜索体验“提速”:新设计实现无缝对话,Gemini3Pro 杀入120国市场!
谷歌优化AI搜索体验,测试新设计实现用户从AI概览到AI模式的无缝过渡,点击“显示更多”可直达对话界面。同时,Gemini3Pro及Nano Banana Pro模型向近120个国家和地区的英语用户推出,集成于Google搜索,仅限AI Pro和Ultra订阅用户使用,支持生成动态可视化布局等功能。
Z-Image-Turbo-Fun-Controlnet-Union | 阿里通义实验室再出王炸!Z-Image-Turbo-Fun-Controlnet-Union 开源,6B 参数秒杀 Flux
阿里通义实验室正式开源Z-Image-Turbo-Fun-Controlnet-Union模型,该模型是Z-Image系列图像生成生态的重大扩展,集成ControlNet结构,兼容多模态控制条件,适用于复杂场景生成。模型仅6亿参数,支持低硬件门槛运行,已在Hugging Face上线并支持商用,引发全球开发者与创作者热议,强化了阿里在开源AI领域的竞争力。
02
产品&应用
Product Application
ChatGPT Enterprise | OpenAI 牵手埃森哲推出企业级 AI 旗舰计划,数万名顾问率先部署 ChatGPT Enterprise
OpenAI与埃森哲联合宣布达成多年战略联盟,推出全球企业一站式AI转型方案,首批为7万名专业顾问配备ChatGPT Enterprise,并共同构建行业专用大模型与数据平台。双方将整合OpenAI模型与埃森哲行业方法论,提供全链路服务,首批方案预计2025年二季度交付客户,此举加速AI应用商业化,推动企业级AI赛道进入生态竞争阶段。
PixVerse V5.5 | 国内拍我AI(PixVerse)推出V5.5版本:支持「导演级」音画同步一键生成
国内拍我AI(PixVerse)推出V5.5版本,核心功能为用户输入一句话即可生成带声音和口型同步的高清视频,支持智能多镜头自动切换。该版本采用自研Diffusion与Transformer混合架构,提升视频生成速度与质量,整合文生视频、图生视频等功能,实现一站式创作,显著降低视频制作门槛,新手也能轻松使用。
AI搜索 | 谷歌高管揭示 AI 搜索的“最大机遇”与隐私边界的模糊化
谷歌搜索产品副总裁罗比·斯坦近日表示,谷歌在AI领域的最大机遇之一是通过更好了解用户实现个性化响应,尤其针对建议或推荐类查询。谷歌利用Gmail等服务数据,将个人数据导入Gemini Deep Research并集成至Workspace应用,以提供更精准推荐。但深度收集用户数据(如邮件、位置等)导致实用与侵入界限模糊,谷歌声称将标明AI回复的个性化属性,并允许用户在Gemini设置中控制数据使用,同时提醒用户注意数据隐私。
灵光闪应用 | 自然语言构建AI应用成风潮,灵光涌现330万个闪应用
蚂蚁集团开发的通用AI助手“灵光”上线两周,其核心功能“闪应用”已被用户创建330万个。这些闪应用多为日常生活工具,覆盖娱乐、日常工具、教育、健康管理、生活类场景,用户通过自然语言最快30秒即可生成可交互小应用,无需编程知识。用户参与度高,部分应用修改超100轮,甚至尝试创建“支付宝”等应用,展现大众利用AI解决碎片化需求的潜力。
千问APP | 千问APP接入万相Wan2.5,视频能力全新升级
千问APP接入万相系列最新模型Wan2.5,视频创作能力升级,支持音视频同步输出,动作精度和肢体协调性提升。用户通过上传照片和输入文字即可生成高清唱跳视频,支持多种形象类型,进一步降低创作门槛,激发用户创意,上线后社交平台涌现大量创意内容。
谷歌搜索AI模式 | 谷歌搜索“AI模式”全量上线:结果页内一键对话,跳转步骤成为历史
谷歌移动端搜索“AI模式”于12月2日全球全量上线,用户使用AI概览时无需离开结果页,可通过底部输入框与Gemini模型直接对话,实现即时追问与多轮交互。该模式采用“查询扇出”机制,拆解问题并抓取多源数据合成答案,支持文字、语音及图片输入,已覆盖近120个国家和地区。功能上线后,结果页点击率虽降约36%,但停留时长与转化质量提升,未来或重写移动搜索商业链路。
AI 涨乐 | 华泰证券与火山引擎合作推出国内首款 AI 原生交易APP“AI 涨乐”
华泰证券联合火山引擎推出国内首款AI原生交易APP“AI 涨乐”,该应用全AI驱动,将AI深度融入选股、分析、交易等核心环节。火山引擎提供算力、大模型等技术支持,用户可通过AI投资助手完成选股、盯盘、下单等操作,支持语音指令交易,并优化了数据分析与信息质量,旨在为投资者提供更智能的服务体验。
Lovart Touch Edit | Lovart Touch Edit 上线:轻点即改,AI 图像编辑进入“零蒙版”时代
AI设计平台Lovart推出Touch Edit触控功能,公测48小时吸引超10万创作者体验。该功能支持"Mark & Edit"操作,通过快捷键自动识别元素,结合自然语言输入完成图像编辑,无需手动蒙版;还支持跨图混搭与图层拆分。其集成多模型提供三模式工作流,大幅缩短编辑耗时,正式版将于2026年1月全面开放,并计划扩展视频、3D编辑功能。
03
硬件&底层技术
Hardware Technology
英伟达 | 英伟达发布首个自动驾驶推理模型,押注下一代 AI 大脑
英伟达在NeurIPS大会上发布首个专用于自动驾驶的推理视觉语言模型Alpamayo-R1,基于Cosmos-Reason模型,能处理文本和图像并辅助驾驶决策,助力L4级自动驾驶实现“常识”判断,已开放GitHub和Hugging Face。同时上线Cosmos Cookbook指南,涵盖数据整理等流程,帮助开发者应用模型,推进物理AI领域发展。
vLLM-Omni 发布:可以处理文本、图像、音频和视频
vLLM团队近日推出全模态推理框架vLLM-Omni,支持处理文本、图像、音频和视频等多模态输入输出。该框架采用解耦流水线架构,通过模态编码器、LLM核心和模态生成器等组件协调推理任务,可优化资源分配并提高效率,是首批支持全模态推理的开源框架之一,代码已上线GitHub。
英伟达 | 英伟达斥资 20 亿美元与 Synopsys 达成战略合作,推动工程设计变革
近日,英伟达与电子设计自动化公司Synopsys宣布建立长期战略合作伙伴关系,英伟达以20亿美元投资购买Synopsys普通股。双方将整合GPU加速计算、智能代理AI和数字双胞胎技术,提升半导体、航空航天等行业的工程设计效率,应对复杂工作流程及开发成本压力,合作内容包括加速计算密集型应用、集成智能代理AI等。
vLLM团队 | vLLM-Omni开源:把扩散模型、ViT、LLM塞进一条流水线,多模态推理一次跑完
vLLM团队发布全模态推理框架vLLM-Omni,将文本、图像等多模态生成从概念转为可落地代码。该框架采用解耦流水线架构,包含模态编码器、LLM核心和模态生成器,支持资源弹性调度,显存利用率最高提升40%。其提供Python装饰器简化多模态应用拼装,性能优于传统方案,已开源并计划后续功能更新。
04
行业动态&政策
Industry Trends Policies
苹果 AI 负责人将于2026年退休,接任者来自微软
苹果AI负责人约翰・贾南德里亚将于2026年春季退休,期间任顾问。其职务由前微软高管阿马尔・苏布拉马尼亚接任,负责苹果基础模型、机器学习研究等领域。此前因Siri升级延迟致团队人员流失,苹果正与谷歌洽谈引入Gemini技术推动AI功能升级。
OpenAI 拿技术换股权:零现金入股 Thrive Holdings,锁定 AI 改造赛道的“循环交易”
12月1日,OpenAI宣布以派驻员工、开放模型与产品接口的方式零现金入股私募平台Thrive Holdings,获取其股权并分享未来投资收益。双方协议中,OpenAI将在会计与IT服务领域嵌入团队助力企业降本,同时调用业务数据训练模型。此举缓解了OpenAI的现金流压力并拓展企业客户,但也引发对AI泡沫风险的担忧。
AI助力下,数据中心建设工人薪资暴涨,部分年薪超 20 万美元
随着AI技术发展,大型数据中心建设需求攀升,推动相关建筑工人薪资暴涨。报道显示,工人薪资普遍上涨25%-30%,部分岗位年薪超20万美元,如俄勒冈州电气安全专家年薪22.5万、北弗吉尼亚电工年收入超20万。企业通过取暖休息帐篷、免费午餐、每日奖金等福利吸引人才。背后主因是亚马逊等科技巨头新建数据中心需求激增,叠加美国建筑行业43.9万熟练工人短缺,加剧薪资上涨。
苹果AI换帅:Gemini旧将Subramanya接掌帅印,Giannandrea春季离场
苹果公司确认首席AI官约翰·贾南德里亚将于春季卸任,由前谷歌Gemini工程负责人阿马尔·苏布拉曼亚接任。此次变动与"Apple Intelligence"项目失误有关,该系统因摘要功能虚假标题、Siri升级推迟等问题受质疑。苏布拉曼亚曾主导Gemini Assistant工程,苹果希望其加速追赶,计划在新一代Siri引入Gemini模型,同时坚持设备端优先战略,其上任后需提升智能化水平以扭转颓势。
有警告称,人工智能技术将消耗澳大利亚12%的电力
澳大利亚联邦政府考虑要求大型AI公司为高耗能数据中心配套建设可再生能源电厂,以应对AI技术带来的电力消耗压力。监管机构警告,到2050年AI相关设施或消耗全国12%电力,2024年数据中心已占2%。政府拟2026年初推出数据中心投资原则,要求配套可再生能源与水资源方案,或催生绿色基建浪潮。
⬇️更多AI资讯关注我们⬇️

