ACL 杰出论文作者罗旸：面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME-罗旸谷简介

2023-08-09 06:17:02

「AI 新青年讲座」由智东西公开课出品，致力于邀请青年学者，主讲他们在生成式 AI、LLM、计算机视觉、机器学习等人工智能领域的最新重要研究成果。

AI 新青年是加速人工智能前沿研究的新生力量。AI 新青年的视频讲解和直播答疑，将可以帮助大家增进对人工智能前沿研究的理解，相应领域的专业知识也能够得以积累加深。同时，通过与 AI 新青年的直接交流，大家在 AI 学习和应用 AI 的过程中遇到的问题，也能够尽快解决。

7 月起，AI 新青年讲座开辟推出「大型语言模型专场」。

随着大型语言模型参数量的不断增加，模型训练时优化器占用的内存也越来越大。像 Adam 和 LAMB 这种自适应梯度优化算法，虽然可以在大规模语言模型训练中表现出出色的训练性能，但传统优化算法对自适应的需求需要保存每个参数梯度的二阶矩估计，会导致额外的内存开销。

针对这个问题，研究者们提出了内存节约优化器，例如 Adafactor ，以大幅减少额外内存的使用，但通常会损失部分训练性能。来自新加坡国立大学、华为诺亚方舟实验室的研究者设计了一种置信度引导策略来解决现有内存节约优化器的训练不稳定性。基于这一策略，他们进一步提出了 CAME 优化器，旨在同时实现两个目标：传统自适应方法的快速收敛和内存节约方法的低内存占用。该成果已经获得了 ACL 的 Outstanding Paper。

大量实验证明了 CAME 在 BERT、GPT-2 等语言模型训练任务中的训练稳定性和出色性能。在批量大小为 32k 的大批量 BERT 预训练场景下，CAME 比 Adam 优化器实现了更快的收敛速度和更高的收敛精度，这是对现有内存节约优化器的重要扩展。

8 月 7 日 19 点，CAME 一作、新加坡国立大学 HPC-AI 实验室在读硕士生罗旸，将参与到「AI 新青年讲座 · 大型语言模型专场」中，主讲《面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME》。

第五讲

主题

《面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME》

提纲

1、大型语言模型训练的内存消耗问题

2、常见的内存节约优化器 Adafactor

3、内存节约与性能高效并存的 CAME 优化器

4、在 BERT、GPT-2 和 T5 模型上的训练效果及对比

主讲人

罗旸，新加坡国立大学 HPC-AI 实验室在读硕士生，导师为尤洋教授；研究兴趣包含机器学习和高性能计算，当前研究重点为大模型高效训练以及训练稳定性；硕士期间以一作身份获得了 ACL2023 会议的杰出论文奖。

直播时间

8 月 7 日 19:00

以上就是关于《ACL 杰出论文作者罗旸：面向大 Batch 预训练场景的大型语言模型训练内存节约优化器 CAME-罗旸谷简介》的全部内容，本文网址：https://www.7ca.cn/baike/61640.shtml，如对您有帮助可以分享给好友，谢谢。

标签:

声明