1、英伟达开源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5,仅次于 OpenAI o1
2、OpenAI 开放 ChatGPT Windows 版本,可像 Office 那样使用了
3、端侧 AI 崛起:Mistral 发布 Ministral 3B / 8B,「全球最好的边缘模型」
4、微软将终止中国个人 Azure OpenAI 服务,仅企业客户可用
5、Hallo 2:根据单张图像和音频输入能够生成长达一小时的 4K 分辨率人像视频
根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态的模型 Hallo 发布了更新版本 Hallo 2。
生成视频时长:最多支持生成 1 小时 的连续人像视频,且保持视觉一致性。
分辨率支持:最高支持 4K 分辨率 视频输出,生成的人像动画在细节和清晰度方面表现出色。
表情和风格控制:通过语音和文本标签的结合,生成的内容表现出高水平的可控性,能够根据不同输入生成情感丰富的多样化内容。
-
视觉一致性与时间连贯性:实验表明,Hallo2 通过补丁丢弃和噪声增强技术,在生成长时视频时极大程度上减少了表情抖动和外观漂移等问题。
6、OpenAI 发布新的支持音频的 Chat 模型 "gpt-4o-audio-preview"
OpenAI 发布了新的支持音频的 Chat 模型 "gpt-4o-audio-preview"
生成文本内容的语音摘要(输入文本,输出音频)
对录音进行情感分析(输入音频,输出文本)
-
与模型进行异步的语音对话(输入音频,输出音频)
来源:
1、LeCun:AGI「至少还需要几年甚至十年的时间」

