

阿里开源 Qwen2.5，可灵AI视频推出1080P高清模式、和笔刷运动控制

杭州文创数字科技研究院

2024-09-22

导读：阿里开源 Qwen2.5，可灵AI视频推出1080P高清模式、和笔刷运动控制

阿里巴巴集团最近开源了Qwen2.5系列模型

包括：Qwen2.5：提供0.5B、1.5B、3B、7B、14B、32B和72B等不同规模的版本；

Qwen2.5-Coder：包括1.5B和7B版本，以及即将推出的32B版本；

Qwen2.5-Math：涵盖1.5B、7B和72B版本；

同时，还提供了Qwen-Plus、Qwen-Turbo和Qwen-VL-Max的API接口。

这些更新带来了以下主要改进：

Qwen2.5在知识储备、编程和数学能力方面都有显著增强。

在执行指令、生成长文本、理解结构化数据和生成结构化输出方面实现了显著提升。

对系统提示的适应性更强，提升了角色扮演和聊天机器人的条件设置功能。

Qwen2.5-Coder使得即使是较小规模的编程专用模型也能在编程评估基准测试中与大型语言模型相媲美。

Qwen2.5-Math支持中文和英文，并集成了多种推理技术，包括CoT、PoT和TIR。

开源地址：https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Github：https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file

在线demo：https://huggingface.co/spaces/Qwen/Qwen2.5

API地址：https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm

可灵AI视频推出1080P高清模式、和笔刷运动控制

今天，可灵又来大招了，升级为可灵1.5模型，画面效果、可控性进一步升级。

1、画质升级

在高表现模式下，可灵1.5模型生成的视频，画质提升至1080P，灵感消耗值不变，加量不加价。

2、新增运动笔刷

AI视频的缺点，其中一项就是可控性差，想让视频中人/物等元素按照自己的想法运动，仅通过提示词优化，往往难以达到目的。

而笔刷，就可以像视频版的PS一样，选中元素，设置想要的运动轨迹。

这是一个非常实用的功能，想要实现个性化画面运动效果，没它还真不行。

3、其他一些升级

①每次生成视频升级到4条，抽卡效率更高了

②图生视频模式下，生成视频时长可达到10秒，高性能模式下支持添加尾帧。

这一波升级可为精准，画质和可控性，是影响AI视频质量的两大关键因素，升级1.5版本后，可灵做AI视频的实用性、商业价值都提升不少。

演示效果如下：

1）画面质量显著提升:画面构图更美观、大幅提升视频清晰度

创意描述:

一个中国女孩缓慢看向镜头,背景是模糊的城市夜景,主角被正前方的人工光源照亮,强调出面部轮廓,镜头缓慢的移动到主角的面部上

可灵1.0模型效果

可灵1.5模型效果

2）动态质量显著提升:提升了部分运动的合理性

图生视频

创意描述:

3D动画,一个狐狸和一个恐龙在树下跳舞

可灵1.0模型效果

可灵1.5模型效果

Groq 搞了个开源的 Open AI o1

Groq公司开源了名为Open AI o1的项目，这是一个利用Llama-3.1 70b模型和Groq硬件的推理链，旨在提升大型语言模型（LLM）的逻辑推理能力。

与o1模型不同，g1项目展示了所有的推理标记，并且使用了开源模型

在处理简单逻辑问题时，g1的准确率能够达到60-80%。

这个项目通过动态推理链和多方法验证，显著提高了模型在逻辑问题解决上的能力，并且在GitHub上有详细的项目介绍和代码。

Kyutai 开源 Moshi，一个可以进行实时语音对话的文本语音模型

期待类似的开源中文实时语音模型。而且发了技术报告，里面有一些实现细节。

Moshi 采用多流架构，能够同时处理用户和系统的语音输入，并生成相应的语音输出。

Moshi 的理论延迟为160ms，实际为200ms，远低于自然对话中的几秒钟延迟。

Moshi 能够同时处理语音和文本信息，支持复杂的对话动态，包括同时说话和打断。

Moshi 支持实时流式推理，能够在生成语音的同时进行语音识别和文本到语音的转换。

项目地址：https://huggingface.co/kyutai/moshiko-pytorch-bf16

DrawingSpinUp: 开源 3D 动画生成系统

DrawingSpinUp 能将 2D 角色结合骨骼动画生成为 3D 动画，这个技术能更好的还原原角色的画风和细节。

项目地址：https://github.com/LordLiang/DrawingSpinUp

END

【声明】内容源于网络

杭州文创数字科技研究院

杭州文创数字科技研究院以“数字科技+文化创意”深度融合为核心，依托人工智能生成内容、数字孪生、区块链、元宇宙等前沿技术，构建“技术研发—场景应用—产业赋能—国际协作”全链路生态，打造长三角地区数字文创领域的技术创新引擎与产业孵化标杆。

内容 473

粉丝 0

杭州文创数字科技研究院杭州文创数字科技研究院以“数字科技+文化创意”深度融合为核心，依托人工智能生成内容、数字孪生、区块链、元宇宙等前沿技术，构建“技术研发—场景应用—产业赋能—国际协作”全链路生态，打造长三角地区数字文创领域的技术创新引擎与产业孵化标杆。

总阅读555

粉丝0

内容473