腾讯发布并开源语音驱动数字人模型

2025-05-28 14:28 星期三

5月28日，腾讯推出并开源了一款语音数字人模型HunyuanVideo-Avatar。该模型由腾讯混元视频大模型与腾讯音乐天琴实验室的MuseV技术共同研发，能够支持头肩、半身和全身等多种画面比例，并适用于多种风格、不同角色以及双人互动场景，为视频创作者提供更稳定、更具动态效果的视频生成能力。用户只需上传人物图片和音频，模型便可自动分析图像和声音内容，比如识别出人物所处环境和音频中的情绪等，从而让图片中的人物“开口说话”或“唱歌”，生成带有自然表情、准确唇形和全身动作的视频。