|极市线上分享第114期 |
一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过100位技术大咖嘉宾,并完成了113期极市线上直播分享。
往期分享请前往bbs.cvmart.net/topics/149或直接阅读原文,也欢迎各位小伙伴自荐或推荐更多优秀的技术嘉宾到极市进行技术分享,与大家一起交流学习~~
01
直播信息
时间
2023年6月1日(周四):20:00-21:00
主题
B站也将同步进行
http://live.bilibili.com/3344545
02
嘉宾介绍

刁诗哲
03
关于分享
1.大模型微调常见方法和步骤
2.低成本微调大模型的全流程框架 LMFlow
3.一种全自动可扩展的模型评测基准 LMFlow Benchmark
4.一种全新、高效、稳定的对齐算法 RAFT
➤论文
LMFlow: An Extensible Toolkit for Finetuning and Inference of Large Foundation Models.
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment
paper:https://readpaper.com/paper/4745517392856104961?channel=OpenMMLab
https://arxiv.org/abs/2304.06767
code:https://github.com/OptimalScale/LMFlow
本次分享将介绍如何低成本微调一个垂直领域专属 ChatGPT,来满足个人和中小企业的需求。
首先,我们会介绍当前大模型发展的现状,包括其在现实领域中的广泛应用。
接下来会重点介绍我们最近研发的一个低成本微调全流程框架 LMFlow,支持用户方便地进行多种微调操作。典型案例包括仅需一张消费级显卡(例如 3090),即可在五个小时的时间内完成个性化指令微调。不仅如此,在特定的专家领域(以医疗为例),只需微调 6 个 A100 * 天,就能够获得和 ChatGPT 相当甚至更好的效果。
值得注意的是,ChatGPT 则具有 1750 亿的参数量,而这里性能相当的最小模型规模只有不到二十分之一,大大节约计算资源。同时我们会介绍最新的一个自动化评测基准 LMFlow Benchmark,基于 negative log likelihood 自动对微调模型进行评估,具有完全透明、自动化和灵活可扩展的优势。
LMFlow 的最终目的是帮助每个人都可以用尽量少的资源来训练一个专有领域的、个性化的大模型,以此来推进大模型的研究和应用落地。我们也欢迎更多开源爱好者、研究人员加入我们一起推动大模型微调的工作。
此外,我们还会介绍一种全新、高效、稳定的对齐算法——RAFT。PPO 等强化学习算法高度依赖反向梯度计算,导致训练代价较高,并且由于强化学习通常具有较多的超参数, 导致其训练过程具有较高的不稳定性。相比之下,RAFT 算法通过使用奖励模型对大规模生成模型的生成样本进行排序,筛选得到符合用户偏好和价值的样本,并基于这些样本微调一个对人类更友好的 AI 模型。
具体而言,RAFT 分为三个核心步骤:
数据收集:数据收集可以利用正在训练的生成模型作为生成器,也可以利用预训练模型(例如 LLaMA、ChatGPT,甚至人类)和训练模型的混合模型作为生成器,有利于提升数据生成的多样性和质量。
数据排序:一般在 RLHF 中我们都拥有一个与目标需求对齐的分类器或者回归器,从而筛选出最符合人类需求的样本。
模型微调:利用最符合人类需求的样本来实现模型的微调,使得训练之后的模型能够与人类需求相匹配。
在 RAFT 算法中,模型利用了更多次采样(当下采样后用以精调的样本一定时),和更少次梯度计算(因为大部分低质量数据被 reward 函数筛选掉了),让模型更加稳定和鲁棒。
同时,在某些情况下, 由于有监督微调本身对于超参数敏感性更低, 有更稳健的收敛性, 在相同 reward 情况下,RAFT可以拥有更好的困惑度(perplexity, 对应其生成多样性和流畅性更好)。
04
参与方式

05
往期回顾
ECCV2022 Oral-吴俊峰:视频实例分割新SOTA:SeqFormer&IDOL
田柯宇:卷积网络上如何做BERT/MAE预训练,ResNet也能用
CVPR2023-石鼎丰:高效时序动作检测网络TriDet
潘梓正:模型部署新范式—可缝合神经网络(CVPR 2023)
阿里达摩院:兼顾速度与精度的高效目标检测框架DAMO-YOLO
ECCV2022-李钢-PseCo:FPN错位对齐,实现高效半监督目标检测
范琦-SSP: 自支持匹配的小样本分割任务新思想(ECCV2022)
CVPR 2022-南开大学郑兆晖:目标检测定位蒸馏
NeurIPS 2022 Spotlight-童湛:基于掩码和重建视频自监督预训练
NTIRE 2022 冠军方案:用于轻量级图像超分辨率的蓝图可分离残差网络
严彬-Unicorn:走向目标跟踪的大一统(ECCV2022 Oral)
CVPR 2022-唐业辉:量子启发的新型视觉主干模型WaveMLP
港科大陈启峰:图像处理与复原中的可逆性问题
陈使明:零样本学习的关键问题研究
郑哲东丨从行人重识别到无人机定位
陈鑫:CVPR 2021-TransT: 基于Transformer的高性能单目标跟踪算法
更多往期分享请浏览:极市计算机视觉技术分享集锦

