

AiWeekly | 每周AI热点精选 12.08-12.14

南京新一代人工智能研究院

2025-12-15

导读：每周一17:00见。

技术动态

OpenAI：发布circuit-sparsity模型和工具包

12月14日，OpenAI发布circuit-sparsity模型和工具包。

circuit-sparsity模型是一种新型AI模型训练方法，通过强制模型权重极度稀疏化（99.9%为零），使神经网络的计算过程像电路图一样可拆解和理解。该方法基于GPT-2架构，通过人为约束L0范数让模型形成解耦的"电路"模块。circuit-sparsity工具包提供了"激活桥"技术，能在稀疏模型和标准密集模型之间建立连接。

开源地址：

https://github.com/openai/circuit_sparsity

模型下载：

https://huggingface.co/openai/circuit-sparsity

原文链接>> OpenAI悄悄发布circuit-sparsity工具包，首次公开权重稀疏Transformer模型

智谱：开源四项视频生成核心技术

过去一周，智谱GLM先后开源了多模态模型家族：从「眼睛看得见」的视觉理解模型GLM‑4.6V，到「手能动起来」的AutoGLM，再到「语音听得懂」的GLM‑ASR，与「话能说出口」的GLM‑TTS。

12月12日，智谱再开源四项面向视频生成的核心技术成果：SCAIL、RealVideo、Kaleido与SSVAE。它们对准当前视频生成领域的三大难点：精细化可控生成、复杂时空结构建模，以及大规模训练成本控制。

原文链接>> 智谱多模态开源周收官：四项视频生成核心技术开源

Mistral AI：发布代码模型系列Devstral 2和原生CLI-Mistral Vibe

12月10日，Mistral AI发布代码模型系列Devstral 2，包含两个尺寸：Devstral 2 (123B) 和 Devstral Small 2 (24B)。此外，Mistral AI 还发布了原生CLI：Mistral Vibe。

Devstral 2 是一个Transformer模型，支持探索代码库并在多个文件中编排变更，同时保持架构级的上下文理解。它能追踪框架依赖关系、检测故障并尝试修正重试——从而解决错误修复和遗留系统现代化等挑战。

Mistral Vibe CLI 是一款由 Devstral 驱动的开源命令行编码助手。它能让用户在终端中使用自然语言，或通过智能体通信协议（Agent Communication Protocol）集成到用户的 IDE 中，来探索、修改和执行整个代码库的变更。它依据 Apache 2.0 许可证发布。

Devstral 2模型地址：

https://huggingface.co/collections/mistralai/devstral-2

Mistral Vibe CLI 开源地址：

https://github.com/mistralai/mistral-vibe

原文链接>> Mistral再开源！发布代码模型Devstral 2及原生CLI，但大公司被限制商用

阿里通义实验室：推出图片生成工具Qwen-Image-i2L

12月10日，阿里通义实验室推出图片生成工具Qwen-Image-i2L，仅需单张样本即可训练LoRA实现个性化风格迁移。

Qwen-Image-i2L提供四款模型变体，包括风格模式（2.4B）、粗粒度模式（7.9B）、精细模式（7.6B）和偏见模式（30M），分别针对不同应用场景优化。模型基于Apache2.0许可开源，但从单张2D图提炼3D逻辑仍存在局限。

模型地址：

https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L

HuggingFace：

https://huggingface.co/DiffSynth-Studio/Qwen-Image-i2L

原文链接>> Qwen-Image-i2L开源：仅需单张样本即可训练LoRA，降低AI风格定制门槛

商汤科技：推出实时语音驱动数字人技术SekoTalk

12月9日，商汤科技推出实时语音驱动数字人技术SekoTalk，提升了数字人视频的生成效率，还能支持多人、多语言的口型精准匹配，和超长时的稳定生成。

SekoTalk通过模型蒸馏，模型结构优化，以及模型与系统的协同设计，在保证生成质量的前提下，实现推理效率的跨越式提升。研究团队提出Phased DMD技术，把去噪过程建模为多阶段的MoE模型。在生成长视频时，SekoTalk提出混合参考图注入等方案，有效平衡动作多样性与画面稳定性。

免费在线体验平台：https://sekotalk.com

相关产品链接：https://seko.sensetime.com

Github：https://github.com/OpenSenseNova/SekoTalk

LightX2V试用：https://github.com/ModelTC/LightX2V

原文链接>> 推理速度25fps，首帧延迟3.5s！商汤SekoTalk：让实时语音数字人更近一步

美团：发布图像生成模型LongCat-Image

12月8日，美团LongCat团队正式发布并开源 LongCat-Image 模型。

LongCat-Image 采用文生图与图像编辑同源的架构设计，并结合渐进式学习策略，在仅 6B 的紧凑参数规模下，实现了指令遵循精准度、生图质量与文字渲染能力的高效协同提升，尤其在单图编辑的可控性和文字生成的汉字覆盖度方面独具优势。

HuggingFace：

https://huggingface.co/meituan-longcat/LongCat-Image

GitHub：

https://github.com/meituan-longcat/LongCat-Image

原文链接>> 美团发布 LongCat-Image 图像生成模型，编辑能力登顶开源SOTA

NatureSelect（自然选择）：发布情感大模型Echo-N1

近日，NatureSelect（自然选择）的研究团队Team Echo 发布情感大模型 Echo-N1。

Echo-N1模型仅32B参数，通过创新的情感模型训练方法（含生成式奖励模型、EPM情感物理模型、拟人化认知沙盒等核心技术），解决了传统模型在情感领域无法量化、易出现Reward Hacking、评测失真等问题，成功将RL用在了不可验证的主观情感领域。

论文链接：

https://arxiv.org/pdf/2512.00344v1

原文链接>> 大模型「有心了」：首个情感大模型Echo-N1，32B胜过200B

微软：开源轻量级实时 TTS模型VibeVoice-Realtime-0.5B

近日，微软开源了一款0.5B参数的轻量级实时 TTS模型VibeVoice-Realtime-0.5B。

该模型实现了多数巨型模型难以实现的实时发声能力：首包延迟仅约300毫秒，支持边输入文本边朗读，长文本处理无卡顿，还能实现多角色自然对话，真正让AI语音走向实时流式对话形态。

GitHub：

https://github.com/microsoft/VibeVoice

项目官网：

https://microsoft.github.io/VibeVoice

原文链接>> 微软开源轻量级实时TTS模型！VibeVoice-Realtime-0.5B：实现多角色自然对话！

行业动态

灵初智能：发布具身原生人类数据采集方案Psi-SynEngine

12月11日，灵初智能发布具身原生人类数据采集方案 Psi-SynEngine。

该方案由灵初智能全栈自研，包含便携式外骨骼触觉手套数采套装、大规模 in the wild 数采数据管线、基于世界模型和强化学习的跨本体数据迁移模型，并已率先将采集到的人类数据应用于物流等真实场景。同时，灵初智能同步发布覆盖视觉、语言、触觉、动作的大规模真实世界多模态数据集 Psi-SynNet-v0。

原文链接>> 灵初智能发布灵巧手真实世界具身数采引擎 Psi-SynEngine

Linux基金会：宣布推出智能体AI基金会AAIF

12月10日，Linux基金会正式宣布推出智能体AI基金会（Agentic AI Foundation，简称AAIF）。

据公告披露，AAIF定位为AI智能体（AI agents）相关开源项目的中立托管平台，Anthropic、OpenAI 与 Block 三家公司作为联合创始成员，三者协同以实现AI智能体与外部工具交互标准化，推动跨系统运行能力的统一。

目前，AAIF 基金会的成员名单包括亚马逊云科技、Anthropic、Block、Cloudflare、谷歌、微软、OpenAI、思科（Cisco）、IBM、甲骨文（Oracle）、Salesforce、SAP、Snowflake、Hugging Face 等。他们将首次携手，共同制定AI智能体的开放标准。

项目地址：https://agents.md