伯克利大学发布论文,对Alpaca等蒸馏微调方法进行了批判性分析。这是一篇相当重要的反思和方向指引之作。
背景:最近通过在更强的模型(例如ChatGPT)的输出上进行微调来廉价地改进较弱的语言模型的方法非常流行,例如Alpaca、Self-Instruct等。这种方法旨在使用较弱的开源模型廉价地模仿专有模型的能力。
实验:作者对这种蒸馏微调方法进行了批判性分析。作者首先微调了一系列模型,这些模型使用不同的基础模型大小(1.5B-13B)、数据来源和模仿数据量(0.3M-150M token)来模仿ChatGPT。然后,作者使用众包评估和规范的NLP基准来评估这些模型。最初,作者的模仿模型的输出质量感到惊讶,众包工人评价它们的输出与ChatGPT相当。然而,当进行更有针对性的自动评估时,却发现在不受模仿数据大力支持的任务上,模仿模型几乎没有缩小从基础模型到ChatGPT的差距,甚至在其他方面开始退步。这些性能差异可能会逃过人类评估者的注意,因为模仿模型擅长模仿ChatGPT的风格(例如列表的输出形式、语气等等),但不擅长模仿其真实能力。
结论:当前的模型模仿机制是一种虚假的承诺:开源和闭源大模型之间存在实质性的能力差距,只能通过大量的模仿数据或使用更有能力的基础大模型来弥合这个差距,但前者只能学到表面。改进开源模型的最好方向是开发更好的基座模型,而不是走蒸馏ChatGPT的捷径。