斯坦福发布优化器Sophia:大模型花费减半!

斯坦福发布优化器Sophia:大模型花费减半!

简介:斯坦福发布了二阶优化器Sophia,可以将模型训练成本减半,将极大节省大模型训练费用。代码也已开源,即插即用!

背景:对于Transformer类模型,Adam优化器及其变体多年来一直占主导地位,而二阶优化器(基于Hessian矩阵)往往因为计算量太大而不够实用。
:test_tube: 方法:在本文中,作者提出了一个二阶剪切随机优化器Sophia。这是一个简单可扩展的二阶优化器,使用了对角Hessian矩阵的轻量级估计作为Pre-conditioner,另外还使用了剪切机制来控制最坏情况下的更新大小。Sophia仅在少数迭代中计算对角Hessian矩阵,因此每步平均时间和内存开销几乎没有影响。

效果:作者使用了大小从125M到770M的GPT-2模型进行实验,发现与Adam相比,Sophia实现了2倍的加速。

1 个赞