作者提出了LaMini-LM,这是一组比大多数现有的指令调整模型更小的语言模型,在同等效果下,模型小了10倍,非常惊艳!作者还同时发布了当前最大规模的2.58M指令微调数据集。
探索了从大模型中提取知识到各种更小、更高效的模型架构的方法。揭示了从LLMs中提取知识到更小的模型架构中的潜力,并展示了训练高效而有效的语言模型的可能性。
知识蒸馏:知识蒸馏是一种通过从一个较大的模型(称为教师模型)中学习,来训练一个较小的模型(称为学生)的过程。
常用的蒸馏方法为使用教师模型的logits、输出概率、或其他中间层参数去指导学生模型。而本文使用序列级蒸馏方法,它只需要运行通常较大的教师模型一次就可以达到目标,因此更有效率。具体而言,本文使用gpt-3.5-turbo作为教师模型进行输出。
数据集:作者首先从各种现存数据集中收集指令,然后使用了ChatGPT(gpt-3.5-turbo)自动生成指令进行补充。为了进一步增加生成文本的多样性,还引入了主题引导指令生成方法(Topic-Guided Instruction Generation method)。随后,我们使用gpt-3.5-turbo为每个指令生成答案,得到训练数据。
效果:在15个NLP基准测试中进行评估,与竞争基线相当,但体积小10倍。尤其是一个基于GPT2(1.5B)的版本,能够超出LLaMa和Alpaca(7B)的效果。但人工评测的效果不如LLaMa和Alpaca等模型。
太专业了