Nature Communications | 北京大学深圳研究生院陈语谦在生成式大语言模型抗体从头设计研究中取得重大进展
北京大学深圳研究生院研究员、科学智能(AI for Science,AI4S)中心主任陈语谦与腾讯AI Lab、及西京医院合作,在Nature Communications发表了题为De novo generation of SARS-CoV-2 antibody CDRH3 with a pre-trained generative large language model的研究论文。该研究开发了一种新型的预训练大语言人工智能模型,能够从零开始生成针对特定抗原的抗体,这一成果有望改变抗体药物的研发流程。
尽管人工智能技术在辅助抗体设计方面取得了巨大进展,但目前的抗体设计仍然高度依赖从血清中分离特异性抗体的传统方法。这一过程不仅耗时长,而且资源需求大,严重制约了抗体药物的开发效率。针对这一关键难题,作者设计了PALM-H3,这是一种基于Transformer架构的预训练抗体生成大语言模型。PALM-H3采用编码器-解码器结构,其中编码器利用ESM2模型处理抗原序列信息,解码器则采用经过预训练的Antibody Roformer模型生成抗体CDRH3序列。
这一模型能够从零开始生成具有所需抗原结合特异性的人工抗体重链互补决定区3(CDRH3),大大减少了对天然抗体的依赖。除了PALM-H3模型,作者还开发了一个高精度的抗原-抗体结合预测模型A2binder。该模型能够将抗原表位序列与抗体序列配对,预测它们的结合特异性和亲和力。这两个模型的结合,为抗体设计提供了一个完整的AI解决方案。
图1:模型架构和工作流程
通过体外实验验证了PALM-H3生成的抗体对SARS-CoV-2及其变体的有效性。对野生型、Alpha和Delta变体的测试表明,人工生成的抗体在结合亲和力和中和能力方面表现出与天然抗体相当或更优的效果。特别是,针对未经训练的新型Omicron变体XBB,PALM-H3生成的抗体展现出优于天然抗体的结合亲和力和中和效力,证明了该模型在应对新型变体方面的潜力。这些结果不仅验证了PALM-H3生成高效抗体的能力,还突显了其在应对已知和新兴病毒变体方面的优势。
在这项研究中,作者介绍了PALM-H3,一种产生针对特定抗原的高亲和力抗体CDRH3序列的神经网络模型,以及A2binder,一种将抗原表位序列与抗体序列配对以预测它们之间结合特异性和亲和力的方法。总的来说,本论文所提出的PALM-H3整合了大规模抗体预训练的能力和全局特征融合的有效性,从而具有优异的亲和力预测性能和设计高亲和力抗体的能力。此外,直接序列生成和可解释的权重可视化使其成为设计高亲和力抗体的有效且可解释的工具。
相关成果以“De novo generation of SARS-CoV-2 antibody CDRH3 with a pre-trained generative large language model”为题,发表于《自然-通讯》(Nature Communications)。北京大学深圳研究生院研究员、科学智能(AI for Science,AI4S)中心主任陈语谦与腾讯AI lab姚建华博士、何冰博士,西京医院研究员李婷博士为共同通讯作者;中山大学智能工程学院研究生何昊淮、騰訊AI Lab何冰博士与西京医院管磊博士为共同第一作者。
论文链接:https://www.nature.com/articles/s41467-024-50903-y