摘要:
基于 Transformer 的语言模型 (LM) 在每一层创建其输入的隐藏表示,但仅使用最后一层表示进行预测。 这掩盖了模型的内部决策过程及其中间表示的效用
阐明这一点的一种方法是将隐藏表示转换为最终表示,绕过中间的转换器计算。
1.在这项工作中,我们通过使用线性变换提出了一种用于此类转换的简单方法。
2.我们表明,与检查最后一层空间中所有层的隐藏表示的普遍做法相比,我们的方法产生了更准确的近似值。
3.此外,在语言建模的背景下,我们的方法允许“窥视”GPT-2 和 BERT 的早期层表示,表明 LM 通常已经预测了早期层的最终输出。
4.然后,我们展示了我们的方法对最近的早期退出策略的实用性,表明当以保持 95% 的准确度为目标时,我们的方法为 GPT-2 节省了额外的 7.9% 层,为 BERT 节省了 5.4% 层,在 原始方法的节省。
5.最后,我们将我们的方法扩展到线性近似子模块,发现注意力最能容忍这种变化。