允中 发自 凹非寺
量子位 | 公众号 QbitAI
大模型下半场的焦点,已从“暴力预训练”转向“后训练”,尤其是强化学习(RL)成为决定模型实用价值的关键战场。
OpenAI o1的推理突破、DeepSeek-R1通过RL在AIME数学基准上将pass@1从15.6%提升至77.9%,印证了RL在低数据量下即可实现显著能力跃升——它正快速成为后训练新范式。
决定模型天花板的,不再只是算力堆砌,而是更精准的微调与RL迭代。
然而,分布式基建复杂、显卡租金高昂、架构调优繁琐,长期阻碍算法工程师落地RL。如今,这一障碍正在被打破。
潞晨云微调SDK正式上线——国内首个全面开放、兼容Tinker范式的Serverless微调平台,基于Thinking Machine Lab开源的Tinker SDK构建,核心目标是为强化学习提供更具成本优势的工业级解法。
拥抱后训练与RL:算法层与底层算力架构解耦
大模型能力突破已不依赖预训练阶段的参数堆砌,后训练(Post-Training),特别是强化学习,正成为决定模型实用价值的核心战场。
但RL涉及多模型协同优化、数据与权重动态传递,工程门槛高,对基础设施要求严苛。Tinker的出现,正是为将繁杂训练封装为标准易用的API。
潞晨云将该范式写入底层设计:算法设计与基础设施解耦——开发者只需定义数据与Loss函数;异构集群调度、并行策略优化、容错运维等全部由平台封装为全托管服务,实现无感支持。
潞晨云微调SDK兼容Tinker接口,在零代码微调与裸机全手写之间取得最佳平衡,还原研究精力与算力成本至算法本身,提供“本地写码、云端计算”的训练即服务(Training as a Service)体验。
颠覆性人力效能比:1名算法工程师顶替原庞大Infra团队
核心理念明确:算法工程师定义逻辑,潞晨云搞定Infra。
传统开发需大量投入于算力租赁、环境配置、框架调试与集群运维。潞晨云将其拆解为一组标准函数原语,打通从SFT到RL的全链路:
- Forward & Backward:处理前向传播与梯度计算;
- Optimizer Step:执行权重更新策略;
- Sample (Rollout):完成推理生成与评估,轻松构建PPO、GRPO、DPO等RLHF/RLAIF训练流;
- Save State:管理模型检查点与状态保存。
用户可在本地Jupyter Notebook或IDE中,用标准Python语法像搭积木一样自由组合,掌控训练细节。
这种模式带来颠覆性的人力效能提升:将原本需运维、Infra、平台与算法工程师协同的庞大团队,简化为单名算法工程师的独立闭环——不再被底层基建拖累,不再背负多职能枷锁,真正成为大规模训练流的主动设计师。
为保障极致流畅体验,潞晨云采用控制面与计算面分离架构,通过统一API Server管理跨地域GPU集群,支持多云部署;核心基于Future模式的异步API,所有操作均支持非阻塞调用。
平台配备智能队列系统:资源洪峰期任务自动进入持久化队列(Persistence Queue),资源可用后毫秒级启动;队列等待期间0计费,仅对prefill、sample、train产生的有效Token量收费,杜绝闲置浪费。
模型微调的算力零售革命:从“包机租赁”到“按Token计费”
“易用性”是入场券,“成本结构”才是长期竞争力。
传统云主机按小时/实例计费,用户需为加载数据、调试代码、思考Loss等“无产出时间”持续付费,超半数预算常被浪费。
潞晨云引入Serverless架构,推行“按Token计费”,将算力服务颗粒度切至最细:
- 为价值付费:仅对Prefill(输入)、Sample(推理输出)、Train(训练)产生的有效计算Tokens量计费;
- 其他环节全免费:本地调试、环境配置、数据预处理、Checkpoint保存等传统高成本环节,在潞晨云全部免费;
- 极致性价比:实测基于官方Cookbook的math_rl recipe,跑通含Rollout采样、Reward评分和PPO更新的完整RL流程(约300 steps),总算力成本仅8.61元,个体开发者亦可低成本复现RLHF/RLAIF探索。
技术落地的三个场景:SFT与RL同时“开箱即用”
1、科研场景:告别资源焦虑
学术界面临集群运维(Slurm/Docker)繁琐、实验复现成本高昂等痛点。潞晨云微调SDK全面兼容Tinker API,支持白盒级科研探索——研究人员可自定义Evaluation逻辑,通过Forward/Backward、Sample等原语精确控制后训练与RL Pipeline,无需关注底层分布式实现,大幅降低复现成本。
2、创业与独立开发:极速验证MVP
初创团队追求“快”。依托Serverless特性,无需排队等待资源;配合极低Token成本,实测从pip install到跑通千条样本的SFT或RL微调实验,仅需数分钟。极致边际成本支撑“低成本试错”,加速Reward模型迭代。
3、工业级落地:复杂架构突围
金融、医疗等垂直领域常需应对异构架构及复杂RLHF/RLAIF需求。潞晨云微调SDK支持通过train_step自由定义Loss逻辑与奖励函数,开发者拥有对模型权重与训练细节的完整控制权,实现端到端定制化落地。
极简实战:三步上手
无需集群配置,无需Docker构建。训练大模型如写普通Python脚本般简单:
1、Install & Import:
Bash
pip install hpcai
2、Initialize Client:已支持Qwen3系列(4B–32B),更多模型持续上线
Python
import hpcai
# 初始化 LoRA 训练客户端,无需配置复杂的分布式参数
training_client = service_client.create_lora_training_client(
base_model="Qwen/Qwen3-4B",
rank=32
)
3、Define Training Loop & Run:完全可控的训练循环,如本地PyTorch开发:
Python
# 训练循环:完全可控
for step in range(target_steps):
# 前向与反向传播
fwd_bwd = training_client.forward_backward(batch, "cross_entropy")
# 优化器步进
optim = training_client.optim_step(adam_params)
# 实时获取 Loss 进行监控
loss = fwd_bwd.result().metrics.get("loss:mean")
目前,SDK已覆盖Qwen3全量模型(4B/8B/14B/32B),支持监督微调(SFT)与强化学习(RL);同步提供HPC-AI Cookbook,内含DeepSeek-R1 GRPO算法、Verifier驱动的数学推理、自定义Reward函数等复杂RL场景完整代码实现。开发者只需复制“配方”,运行轻量级train.py,即可驱动云端分布式RL训练流,复现具备复杂逻辑推理能力的SOTA模型。
从“能训”到“可持续训”
后训练正从学术支线升级为工程主线。AI基础设施的终极形态应是“零认知负荷”——开发者只需描述数据与算法,租卡、配环境、并行策略、运维调度、故障自愈及RL工程化工作,全部下沉为无感服务。
当GPU闲置成本趋近于0、环境配置时间趋近于0、长序列RLHF亦可按Token即时计费,应用创新效率将直接逼近算力上限。
潞晨云微调SDK今日起全量开放:
- 无需白名单,无需预约;
- 前150名注册即得30元使用额度。
立即体验:
https://cloud.luchentech.com/fine-tuning
使用文档:
https://cloud.luchentech.com/doc/docs/finetune-sdk/
Reference
Tinker SDK: https://github.com/thinking-machines-lab/tinker
[2] DeepSeek-R1: https://arxiv.org/pdf/2501.12948

