今日,Qwen系列模型迎来了从Qwen1.5 到Qwen2 的飞跃式升级。
这一升级带来了以下革新:1. 五个不同规模的预训练和指令微调模型,从小型的0.5B到庞大的72B参数量,为不同需求提供了多样化的选择。2. 在中英双语基础上,新增27种语言的高质量数据,极大丰富了模型的多语言处理能力;3. 在多个评测基准上展现出的卓越性能,特别是在代码和数学领域的显著进步;4. 上下文长度的显著增加,Qwen2-72B-Instruct模型支持最高达128K tokens的上下文。
Qwen2系列涵盖了从小型到超大型的五个尺寸模型,每个模型都采用了GQA技术(GQA技术具有推理加速和显存占用降低的优势),并根据模型规模的不同,提供了不同长度的上下文支持。小型模型特别采用了tie embedding技术,以优化参数效率。

Qwen2的多语言能力进行了重点增强,覆盖了西欧、东欧及中欧、中东、东亚、东南亚和南亚的27种语言。此外,针对多语言场景中常见的语言转换问题,Qwen2进行了优化,显著降低了模型发生语言转换的概率。
Qwen2-72B在自然语言理解、知识、代码、数学及多语言等多项能力上均展现出超越当前领先模型的实力。微调过程进一步提升了模型的各项能力,使其在遵循指令、多语言理解等方面更加精准。

两项亮点:
● 代码 & 数学:Qwen2在代码编写和数学问题解决方面的能力得到了显著提升。

● 长文本处理:Qwen2系列模型在长文本处理方面表现出色,特别是Qwen2-72B-Instruct,能够处理长达128k的上下文长度。

在多语言不安全查询类别的测试中,Qwen2-72B-Instruct展现出与GPT-4相当的安全性,并且在某些语言上的表现更优。

Qwen2系列模型许可方面,除了Qwen2-72B继续使用Qianwen License外,其他模型均采用Apache 2.0许可,以促进更广泛的应用和研究。
Qwen2的下一步将致力于训练更大规模的模型,并探索将Qwen2扩展为多模态模型,整合视觉及语音理解能力。

