作者信息

作者头像

小兵的AI视界

专注 AI 领域：AI前沿资讯/开源精品/实用工具，大模型应用开发/部署推理/微调实践，助你领航 AI。

460

内容
0

粉丝
50

曝光量

DeepSeek-Math-V2：数学推理的“智能突破”，开启AI深度推理新纪元！

DeepSeek-Math-V2：数学推理的“智能突破”，开启AI深度推理新纪元！

DeepSeek-Math-V2 是一个专注于数学推理的开源大语言模型，由 DeepSeek 团队开发。它基于 DeepSeek-V3.2-Exp-Base 构建，采用验证器 - 生成器协同进化的训练

Depth Anything 3：字节跳动推出的高效视觉空间重建模型

Depth Anything 3：字节跳动推出的高效视觉空间重建模型

Depth Anything 3（DA3）是字节跳动Seed团队推出的一种视觉空间重建模型，能够从任意数量的视觉输入（包括单张图片、多视角图像或视频流）中恢复出三维空间的几何结构。该模型采用单一的Tr

Z-Image：阿里通义的6B图像生成神器，高效、双语、低资源的AI新突破

Z-Image：阿里通义的6B图像生成神器，高效、双语、低资源的AI新突破

Z-Image是一个具有60亿参数的高效图像生成基础模型，通过系统优化，在照片级真实感图像生成和中英双语文本渲染方面表现出色，其性能可与顶级商业模型相媲美。

ViMax：香港大学开源AI视频生成的全能选手，创意、剧本、视频一键搞定

ViMax：香港大学开源AI视频生成的全能选手，创意、剧本、视频一键搞定

ViMax 是一个端到端的多智能体视频生成框架，整合了导演、编剧、制片人和视频生成器的功能。它支持 Idea2Video、Novel2Video、Script2Video 和 AutoCameo 等模

微软Fara-7B：70 亿参数小模型，大能量！计算机任务自动化新突破

微软Fara-7B：70 亿参数小模型，大能量！计算机任务自动化新突破

Fara-7B 是微软推出的一款专注于计算机使用的代理型小语言模型（SLM），拥有 70 亿参数。它通过视觉感知网页内容，直接操作鼠标、键盘等界面元素来帮助用户完成任务。该模型基于 Qwen2.5-V

Olmo 3：AI 领域的多面能手，对话、推理、生成一网打尽

Olmo 3：AI 领域的多面能手，对话、推理、生成一网打尽

Olmo 3是一系列开源大型语言模型，由AI2开发，旨在通过提供完整的模型开发流程，推动AI的可解释性、协作创新和负责任的发展。该系列模型包括多个版本，如Olmo 3-Base（基础模型，7B和32B

Supertonic：轻量级、多语言的离线TTS，隐私与效率的完美平衡

Supertonic：轻量级、多语言的离线TTS，隐私与效率的完美平衡

Supertonic是由Supertone公司开源的一款高性能、极速离线的文本转语音（TTS）系统，专为极致性能和隐私保护而设计。它采用轻量级神经网络架构，仅包含66M参数，生成语音的速度可达167倍

小米MiMo-Embodied：如何实现自动驾驶与具身智能的无缝衔接？

小米MiMo-Embodied：如何实现自动驾驶与具身智能的无缝衔接？

MiMo-Embodied是由小米具身智能团队开发的开创性跨领域具身基础模型，是首个成功整合自动驾驶和具身智能两大领域的开源视觉语言模型（VLM）。该模型在环境感知、任务规划、空间理解等多方面展现出卓

Meta SAM 3：多模态引领视觉分割新纪元，图像视频一键精准分割

Meta SAM 3：多模态引领视觉分割新纪元，图像视频一键精准分割

Segment Anything Model 3（SAM 3）是由 Meta 开发的最新一代视觉分割模型，能够基于文本、图像示例或视觉提示（如点、框）在图像和视频中检测、分割和跟踪对象。与前代模型相比

Meta SAM 3D：从单图到3D世界的神奇钥匙

Meta SAM 3D：从单图到3D世界的神奇钥匙

SAM 3D是Meta公司基于SAM系列推出的一款先进的3D重建模型，包含SAM 3D Objects和SAM 3D Body两个子模型。SAM 3D Objects能够从单张图像重建出物体和场景的详

<

1

2

3

...

46

>