摘要:
大型预训练语言模型 (LLM) 已被证明在各个领域的小样本学习中具有巨大潜力,即使训练数据最少也是如此。 然而,他们在更复杂的领域(例如生物学)中推广到看不见的任务的能力尚未得到充分评估。 LLM 可以通过从文本语料库中提取先验知识,为生物推理提供一种有前途的替代方法,特别是在结构化数据和样本量有限的情况下。 我们提出的少样本学习方法使用 LLM 来预测药物对在缺乏结构化数据和特征的稀有组织中的协同作用。 我们的实验涉及来自不同癌症类型的七种稀有组织,表明基于 LLM 的预测模型在极少或零样本的情况下实现了显着的准确性。 我们提出的模型 CancerGPT(具有约 124M 参数)甚至可以与更大的微调 GPT-3 模型(具有约 175B 参数)相媲美。 我们的研究首次解决了数据有限的稀有组织中药物对协同作用的预测问题。 我们也是第一个将基于 LLM 的预测模型用于生物反应预测任务的人。
1 个赞