搜索
首页
大数快讯
大数活动
服务超市
文章专题
出海平台
流量密码
出海蓝图
产业赛道
物流仓储
跨境支付
选品策略
实操手册
报告
跨企查
百科
导航
知识体系
工具箱
更多
找货源
跨境招聘
DeepSeek
分享
通义实验室开源首款思维链音频生成模型ThinkSound,实现AI“听懂画面”
2025-07-06 07:59 星期日
7月5日,阿里巴巴旗下的“通义大模型”公众号宣布,通义实验室推出了首个音频生成模型ThinkSound,并已正式开源。该模型打破了传统图像无法发声的局限,首次在音频生成领域引入CoT(思维链)技术,使AI能逐步理解画面与声音之间的关系,从而生成高质量、高度同步的空间音频。这不仅是简单的“看图配音”,而是实现了真正意义上的“听懂画面”。
新闻推荐
查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群
查看更多
2025-07-06 07:59 星期日
通义实验室开源首款思维链音频生成模型ThinkSound,实现AI“听懂画面”
7月5日,阿里巴巴旗下的“通义大模型”公众号宣布,通义实验室推出了首个音频生成模型ThinkSound,并已正式开源。该模型打破了传统图像无法发声的局限,首次在音频生成领域引入CoT(思维链)技术,使AI能逐步理解画面与声音之间的关系,从而生成高质量、高度同步的空间音频。这不仅是简单的“看图配音”,而是实现了真正意义上的“听懂画面”。
下载