字节跳动 Seed 开源
Seed-OSS 系列模型
含三版本
经12T tokens训练
Apache-2.0 许可
具长上下文等特性
在当下开源大模型赛道愈发火热的态势中,字节跳动 Seed 团队的一则动态引发了行业内外的广泛关注。就在不久前的深夜,该团队正式发布并开源了 Seed-OSS 系列模型,一下子为热闹的开源领域再添浓墨重彩的一笔。这一系列模型包含三个版本,分别是 Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)以及 Seed-OSS-36B-Instruct(指令微调版)。其 Hugging Face 地址与项目地址也同步公布,方便研究人员和开发者获取相关资源。
在当下开源大模型赛道愈发火热的态势中,字节跳动 Seed 团队的一则动态引发了行业内外的广泛关注。就在不久前的深夜,该团队正式发布并开源了 Seed-OSS 系列模型,一下子为热闹的开源领域再添浓墨重彩的一笔。这一系列模型包含三个版本,分别是 Seed-OSS-36B-Base(含合成数据)、Seed-OSS-36B-Base(不含合成数据)以及 Seed-OSS-36B-Instruct(指令微调版)。其 Hugging Face 地址与项目地址也同步公布,方便研究人员和开发者获取相关资源。
Seed-OSS 系列模型的训练投入相当可观,足足使用了 12 万亿(12T)tokens 进行训练,这般庞大的训练数据量为模型的出色表现奠定了坚实基础。而实际情况也确实如此,在多个主流开源基准测试中,该系列模型都交出了令人惊艳的答卷。更值得一提的是,这三个模型均以 Apache-2.0 许可证发布,这就意味着研究人员和企业开发者可以自由地对其进行使用、修改和再分发,极大地降低了行业内外探索和应用大模型的门槛。
Seed-OSS 系列模型有着诸多亮眼的特性。灵活的推理预算控制便是其中之一,它允许用户根据自身的实际需要,灵活调整推理长度。这种对推理长度的动态控制能力,在实际应用场景中能有效提升推理效率,毕竟不同的任务对推理过程的需求各不相同,有的需要简短直接的响应,有的则需要深入细致的推导,这种灵活性让模型在多样化的场景中都能更好地适配。增强的推理能力也不容忽视,在保持平衡且优秀的通用能力的同时,模型针对推理任务进行了特别优化,这使得它在面对各类需要逻辑推导的问题时,表现得更为出色。
在智能体能力方面,Seed-OSS 系列模型在涉及工具使用和问题解决等智能体任务中表现突出,这为其在更复杂的人机交互场景中发挥作用提供了可能。同时,它还十分注重对研究的友好性,考虑到在预训练中加入合成指令数据可能会影响后续研究,字节跳动同时发布了含有与不含指令数据的预训练模型,为研究社区提供了更多样化的选择,这种做法无疑会推动相关领域研究的进一步发展。原生长上下文则是该系列模型的另一大优势,在训练中原生支持最长 512K 的上下文窗口,这意味着模型能够处理更长篇幅的文本信息,对于处理超长文档和复杂推理链来说至关重要。
从模型架构来看,Seed-OSS-36B 的架构融合了多种常见的设计选择,其中包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置编码。每个模型包含 360 亿参数,这些参数分布在 64 层网络中,并且支持 15.5 万词表。其最具代表性的特性之一便是前面提到的原生长上下文能力,最大上下文长度可达 512k tokens,能够在不损失性能的情况下处理超长文档和推理链。这一长度更是达到了 OpenAI 最新 GPT-5 模型系列的两倍,大约相当于 1600 页文本,这样的处理能力在处理大型报告、学术论文等超长文本时,优势极为明显。
另一个显著的特性是引入了推理预算,它允许开发者在模型给出答案之前,指定模型应执行多少推理过程。这一设计在近期其他一些开源模型中也有所体现,例如 Nvidia 新推出的 Nemotron-Nano-9B-v2。在实际应用中,这意味着团队可以根据任务的复杂性和部署的效率需求来调节性能。字节跳动方面推荐的预算值为 512 tokens 的倍数,其中 0 表示直接输出答案的模式,这种设计让开发者能够根据实际场景对模型的运行方式进行精准调控,在保证结果质量的同时,尽可能地提高效率或降低资源消耗。
基准测试结果显示,Seed-OSS-36B 无疑位列当前性能较强的开源大模型之列。其中,含合成数据版本的 Seed-OSS-36B-Base 模型在 MMLU-Pro 上取得 65.1 的得分,在 MATH 上取得 81.7 的得分,这样的成绩在同类模型中处于上游水平。非合成基础版本虽然在许多方面略微落后,但也并非毫无竞争力,在一些特定场景下仍能发挥出不错的效用。
而 Seed-OSS-36B-Instruct 版本的表现则更为抢眼,在多个领域都取得了 SOTA(State-of-the-Art)成绩。在数学与推理方面,Seed-OSS-36B-Instruct 在 AIME24 上取得 91.7% 的成绩,在 BeyondAIME 上取得 65 分,均代表了开源领域的最新 SOTA 水平,这充分证明了该模型在复杂数学问题和逻辑推理方面的强大能力。在代码能力上,在 LiveCodeBench v6 上,Instruct 模型得分 67.4,同样刷新了 SOTA 纪录,这对于需要代码生成和辅助开发的场景来说,无疑是一个重大的好消息。在长上下文处理上,在 RULER(128K 上下文长度)测试中,该模型达到 94.6 的高分,创下了开源模型的最高分,再次印证了其在处理长文本方面的卓越表现。
关于思考预算,用户可以灵活指定模型的推理预算。从相关图表中能清晰地看到,在不同任务中,随着推理预算变化会产生不同的性能曲线。对于较简单的任务(如 IFEval),模型的思维链较短,随着推理预算的增加,分数会出现一定波动,这是因为对于简单任务而言,过多的推理步骤反而可能引入不必要的干扰。而在更具挑战性的任务(如 AIME 和 LiveCodeBench)中,模型的思维链较长,分数则会随着推理预算的增加而提升,这也说明在面对复杂任务时,给予模型足够的推理空间,能够让它更好地梳理思路,从而得出更优的结果。
模型在运行过程中,还会及时提醒用户 token 的使用情况。比如会出现类似这样的提示:seed:thinkGot it, let's try to solve this problem step by step. The problem says ... ...seed:cot_budget_reflectI have used 129 tokens, and there are 383 tokens remaining for use.</seed:cot_budget_reflect>Using the power rule, ... ...seed:cot_budget_reflectI have used 258 tokens, and there are 254 tokens remaining for use.</seed:cot_budget_reflect>Alternatively, remember that ... ...seed:cot_budget_reflectI have used 393 tokens, and there are 119 tokens remaining for use.</seed:cot_budget_reflect>Because if ... ...seed:cot_budget_reflectI have exhausted my token budget, and now I will start answering the question.</seed:cot_budget_reflect></seed:think>To solve the problem, we start by using the properties of logarithms to simplify the given equations: (full answer omitted)。这种实时反馈机制让用户能够清楚地了解模型的推理进度和资源消耗情况,方便进行后续的调整和优化。
如果未设置推理预算(默认模式),Seed-OSS 将以无限长度启动推理,这种模式下模型可以不受限制地进行深入推理,适合那些需要全面、细致分析的任务。如果指定了推理预算,字节跳动建议用户优先选择 512 的整数倍数(如 512、1K、2K、4K、8K 或 16K),因为模型已在这些区间上进行了大量训练,能够在这些预算设置下表现出更稳定、更优的性能。当推理预算为 0 时,模型会被指示直接输出答案;对于低于 512 的预算,字节跳动也建议统一设为 0,这是基于模型性能和资源利用效率的综合考量,能够帮助用户更好地发挥模型的效用。
Seed-OSS 系列模型的推出,不仅仅是字节跳动在大模型领域的一次重要尝试,更对整个开源大模型生态产生了深远的影响。其强大的性能和丰富的特性,为研究人员提供了新的研究对象和工具,有助于推动大模型相关技术的进一步突破。对于企业开发者而言,Apache-2.0 许可证下的自由使用权限,让他们能够以更低的成本将大模型技术应用到实际的业务场景中,开发出更具创新性的产品和服务。
比如在教育领域,借助 Seed-OSS-36B-Instruct 版本出色的推理能力和长上下文处理能力,开发者可以开发出更智能的辅导系统。该系统能够深入理解学生提出的复杂问题,结合大量的教学资源进行详细解答,甚至可以根据学生的学习情况生成个性化的学习方案。在长文本处理方面,它能够轻松应对学生提交的长篇作文或论文,进行细致的批改和点评,指出其中的优点和不足,为学生的学习提供针对性的指导。
在金融领域,模型的代码能力和推理能力也能发挥重要作用。金融机构往往需要处理大量的交易数据、市场报告等信息,Seed-OSS 系列模型可以帮助开发者构建自动化的数据分析工具,快速从海量数据中提取有价值的信息,为投资决策提供支持。同时,其精准的推理能力能够帮助识别金融风险,比如在分析贷款申请人的资料时,能够更全面地评估申请人的信用状况,降低贷款违约的风险。
在科研领域,原生长上下文能力更是大有用武之地。科研人员经常需要处理长篇的学术论文、实验数据报告等,Seed-OSS 模型能够高效地对这些文本进行处理,帮助科研人员快速梳理研究脉络、总结研究成果,甚至可以辅助进行文献综述的撰写。其对复杂推理任务的优化,也能在科研问题的求解过程中提供帮助,为科研人员提供新的思路和方向。
当然,Seed-OSS 系列模型的发展之路还在继续。随着技术的不断进步和应用场景的不断拓展,相信字节跳动 Seed 团队会对模型进行持续的优化和升级,进一步提升其性能和稳定性。同时,在开源社区的共同努力下,围绕该系列模型可能会涌现出更多的创新应用和解决方案,推动整个大模型领域朝着更加开放、更加高效的方向发展。
总的来说,Seed-OSS 系列模型的发布是开源大模型领域的一个重要里程碑,它以其强大的性能、灵活的特性和开放的姿态,为行业带来了新的活力和机遇。无论是对于研究人员还是企业开发者,都具有极高的价值和意义,值得我们持续关注和深入探索。
END

