概述
【AI问爱答】是阿里云首档AI问答栏目,由AI专家答疑团回答网友提问,不论是对AI产品技术、模型使用、应用开发、落地实践有疑惑,或者对栏目探讨的话题有补充,欢迎你们来提问!
每周四晚7点,阿里云官方媒体平台、量子位视频号将发布问答短片。
第二期由栏目围绕端侧智能和模型训练推理的内容:大模型落地到端上最大的挑战是哪些?模型训练需要昂贵的成本支撑,那么在训练或微调过程中,如何提升训练性能,以节约训练成本?模型推理,最新的技术方向是怎样的?更多内容请解锁原片。
快问快答1:如何评估模型训练所需要的GPU资源?
首先要参考scalinglaw,在不同的模型架构下,scaling law需要对公式和系数进行修正。scaling law还是能在多数场景中指导我们一个多大的模型需要多少的计算量,从而评估GPU资源的总使用量。在模型训练中,对于吞吐和迭代速度也存在一定的要求,这能够指导我们需要构建多大的训练规模。GPU资源在真实训练过程中的使用量,也取决于实际的资源利用率。
快问快答2:在魔搭当中,基于Swift的微调能在华为的NPU上跑吗?
可以,我们魔搭是一个开源开放的平台。参考链接:
https://github.com/modelscope/swift/blob/main/docs/source/LLM/NPU%E6%8E%A8%E7%90%86%E4%B8%8E%E5%BE%AE%E8%B0%83%E6%9C%80%E4%BD%B3%E5%AE%9E%E8%B7%B5.md
快问快答3:千卡以上级别的大型训练任务如何保障其稳定性?
首先是故障检测,包括了底层的GPU服务器,网络监控等等,运行过程当中需要进行hang检测、降速检测、瓶颈分析、精准度检测等等,阿里云提供了C4D、EasyTracker等工具。任务失败时需要及时进行模型跟保存恢复。PAI的EasyCheckpoint产品提供了高性能模型保存和恢复能力。PAI的AIMaster产品提供任务时的自动容错重启,结合一些这样的工具来保证千卡训练的稳定性。
快问快答4:如何提高大模型线上服务的推理速度?
首先根据场景需求选择合适规模的模型,并基于实际的负载特性分析性能瓶颈。例如典型的输入输出长度、并发数、预期的延迟和吞吐指标等等。然后,针对性能瓶颈,选择应用合适的推理优化技术。例如瓶颈在并发数,可以应用模型或KVCache压缩,瓶颈在上输入和首token延迟的,可以应用量化加速计算,瓶颈在长输出的生成速度的,可以应用高效解码技术等。
最后,【AI问爱答】第4-6期问题正在火热征集中,我们将围绕基础模型、开源模型、多模态、Multi-Agent、应用开发工具等回答大家的提问。
点击文末【阅读原文】即刻登录栏目官网提问,参与者将收到精美礼品一份,欢迎参与,欢迎讨论!

