BindCraft————功能性蛋白质binder的设计

2024-10-06T15:18:49+08:00 | 6 分钟阅读 | 更新于 2024-10-06T15:18:49+08:00

Pepper
Pepper
BindCraft————功能性蛋白质binder的设计

一个用于从头蛋白质结合剂设计的开源自动化流程,实验成功率号称10-100%。BindCraft利用 AlphaFold2经过训练的深度学习权重来生成纳摩尔结合剂,而无需高通量筛选或实验优化,即使在没有已知结合位点的情况下也是如此。成功地针对多种具有挑战性的靶标设计了结合剂,包括细胞表面受体、常见过敏原、从头设计的蛋白质和多域核酸酶,例如CRISPR-Cas9。

Principle content

基于物理的方法(如Rosetta)通过支架和侧链优化在早期结合剂设计中发挥了重要作用。然而,这种方法的实验成功率非常低(通常不到0.1%),并且需要生成和采样大量的设计,范围从数十万到数百万。此外,由于这种方法通常需要将预定义的支架对接到固定的靶标结构上,因此靶标和结合剂表面之间的不兼容性可能导致结合相互作用不理想,甚至会阻碍某些表位的靶向性。在大型蛋白质结构和序列数据集上训练的模型,AlphaFold2 (AF2)和RoseTTAFold2 (RF2),在准确预测蛋白质结构和建模复杂PPI 方面表现出了卓越的能力。事实上,AF2过滤已被证明可以通过评估预测复合物的合理性来显著提高结合剂设计的成功率。

本文假设可以利用其训练的权重和学习到的蛋白质结构模式直接用于蛋白质结合剂的设计提出BindCraft,用于从头设计蛋白质结合剂。本文利用通过AF2网络的反向传播来有效地产生新的结合剂和界面,而无需进行大量采样。在十个不同、具有挑战性和治疗相关的蛋白质靶标上展示了我们的流程的效率,并确了几种高亲和力结合剂,而无需通过实验对数百到数千个设计进行高通量筛选。AF2 网络可以通过识别最有效满足损失函数的热点来自动选择最佳结合位点。

通过训练后的AF2权重反向传播结合剂序列并计算误差梯度。该误差梯度用于更新和优化结合剂序列以适应指定的损失函数和设计标准。这些包括AF2置信度得分、分子内和分子间接触、螺旋含量和回转半径。通过在网络上进行迭代,可以生成高质量的设计。 生物层干涉法 (BLI)以二价Fc融合形式纯化和筛选了53种结合设计。观察到13种结合剂的结合信号,其中最佳结合剂显示出低于1 nM的表观解离常数 (Kd)。与特征明确的抗PD-1单克隆抗体pembrolizumab进行了竞争试验,该抗体应该与相同的结合位点结合。针对PD-L1的最佳结合剂4显示出615 nM的Kd和通过圆二色性(CD)测量的预期α螺旋特征。

BindCraft design protocol

  • 最小和最大结合体长度 根据用户定义。
  • 设计损失函数的权重
    • pLDDT:0.1
    • i_pTM:0.05
    • pAE(结合体内):0.4
    • pAE(结合体与目标之间):0.1
    • 结合体内残基接触损失:1.0
    • 结合体与目标残基接触损失:1.0
    • 回转半径:0.3
    • 螺旋损失:-0.3
  • 优化阶段
    • 第一阶段:50次迭代后终止置信度低的路径,额外进行25次迭代。
    • 第二阶段:45次迭代。
    • 第三阶段:5次迭代。
    • 第四阶段:15次迭代,X=0.05*结合体长度。
  • 筛选条件
    • pLDDT>0.8
    • i_pTM>0.5
    • i_pAE>0.35
    • 界面形状互补性>0.55
    • 未饱和氢键<3
    • 结合体表面疏水性<35%
    • RMSD<3.5Å

BindCraft设计流程的步骤总结

  1. 输入文件与设计设置

    • 设计过程通过用户友好的JSON文件配置,要求指定目标PDB格式的结构、期望的最小和最大结合体长度、以及最终筛选的设计数量。
    • 可以选择指定目标热点(可为特定残基或整个链),或者不指定,由设计损失函数选择结合位点。
  2. 结合体生成过程

    • 结合体生成通过ColabDesign的AF2实现,初始结合体使用随机序列并预测结构。
    • 通过AF2网络获取结构预测并计算设计损失。
  3. 设计损失函数的组成(默认权重在括号中):

    • 结合体置信度pLDDT(权重:0.1)
    • 界面置信度i_pTM(权重:0.05)
    • 结合体内的归一化预测对齐误差pAE(权重:0.4)
    • 结合体与目标之间的归一化预测对齐误差pAE(权重:0.1)
    • 结合体内的残基接触损失(权重:1.0)
    • 结合体和目标之间的残基接触损失(权重:1.0)
    • 结合体的回转半径(权重:0.3)
    • “螺旋损失” (促进或惩罚3个残基偏移的骨架接触,以促进螺旋或非螺旋结构)(权重:-0.3)
  4. 优化过程

    • 损失函数用于计算位置特定的误差,然后通过AF2网络反向传播生成Lx20的误差梯度,其中L为序列长度。
    • 使用随机梯度下降优化,每次迭代重新计算误差梯度,生成下一个迭代的结合体序列以最小化损失。
  5. 四个优化阶段

    • 第一阶段:在连续序列空间中优化结合体序列,50次迭代后终止置信度较低的路径。如果检测到β片段结构,增加迭代次数至3次循环。此阶段再进行25次迭代。
    • 第二阶段:使用softmax函数将序列logit归一化为序列概率,持续45次迭代,温度参数根据迭代次数递减。
    • 第三阶段:使用straight-through估计器,允许模型看到one-hot表示,进行5次迭代。
    • 第四阶段:将序列输入转换为one-hot离散编码,执行15次迭代,每步测试并固定X次随机突变,X=0.05*结合体长度。
  6. 结合体设计筛选

    • 设计路径中pLDDT低于0.7、界面接触少于7个、或出现显著骨架碰撞的将被拒绝。
  7. MPNNsol序列优化

    • 使用MPNNsol优化序列,保留目标界面4Å范围内的结合体残基,使用ProteinMPNN的可溶性权重为其余结合体核心和表面残基设计20个新序列。
    • 优化后的序列通过AF2单体模型进行重新预测(3次循环和2个基于模板的模型)。
    • 使用Rosetta的FastRelax协议进行200次迭代的能量最小化,并使用InterfaceAnalyzer计算界面评分。
  8. 设计筛选过滤条件

    • AF2置信度pLDDT>0.8
    • AF2界面置信度i_pTM>0.5
    • AF2界面对齐误差i_pAE>0.35
    • Rosetta界面形状互补性>0.55
    • 界面未饱和氢键数<3
    • 结合体表面疏水性<35%
    • 结合体在结合与未结合形式中的RMSD<3.5Å
  9. 设计多样性

    • 每条AF2设计路径仅允许2个MPNNsol生成的序列通过筛选,以促进结合体设计的界面多样性。
  10. 最终选择

  • 设计流程继续运行直到至少有100个设计通过筛选。最终通常从排名前20的设计中挑选10个进行实验测试。

Design settings for individual target proteins

Target Input PDB Hotspots Binder length
PD-1 AF2 prediction, trimmed to 32-146 64, 126, 129, 133 80-150
PD-L1 AF2 prediction, trimmed to 18-132 54, 56, 66, 115 65-155
IFNAR2 2LAG45, trimmed to 8-110 52, 80, 82, 84, 96, 98 60-175
CD45 AF2 prediction of 5FMV46, split by extracellular fibronectin domains d1, d2, d3, d4, d1-d2, d2-d3, d3-d4 80-200
BBF-14 Crystal structure (in preparation) none 70-250
CrSAS-6 AF2 prediction, trimmed to 15-160 none 90-200
Der f7 AF2 prediction with 3UV1 template47, trimmed to 18-213 132 or 178 or 201 70-185
Der f21 AF2 dimer prediction with 5YNY template26, trimmed to 25-136 34 or 52 or 87 or 105 or 116 70-185
Bet v1 AF2 prediction 24 70-185
SpCas9 AF2 prediction with 4ZT033 template, trimmed to 96-174 + 306-446 360 70-150

示例代码

sbatch bindcraft.slurm --settings 'path/to/settings_target/.json' --filters 'path/to/settings_filters/.json' --advanced 'path/to/settings_advanced/.json'

if your machine does not support SLURM, try ⬇️

python -u /work/lpdi/users/mpacesa/Pipelines/BindCraft/bindcraft.py --settings 'path/to/settings_target/.json' --filters 'path/to/settings_filters/.json' --advanced 'path/to/settings_advanced/.json'

note

  • 迭代次数、设计权重或过滤器可能需要调整。目标位点选择也很重要,但如果未指定热点,AF2非常擅长检测良好的结合位点。
  • AF2 在预测/设计亲水性方面比在疏水性界面方面更差。
  • 有时轨迹最终会变形或“被压扁”。这对于AF2多聚体设计来说是正常的,因为它对序列输入非常敏感,如果不重新训练模型,这是无法避免的。然而,这些轨迹很快就会被检测到并丢弃。
comments powered by Disqus

© 2024 Pepper的博客

🌱 Powered by Hugo with theme Dream.

Zheng Shuang
Tsinghua University

Incoming PhD student at School of Pharamaceutical Sciences

📖 Educations

2019.09 - now, PhD of Science in Structural Biology, School of Pharmacy of Tsinghua University, Beijing, China

Supervised by Dr. Xiangyu Liu

2015.09 - 2019.07, Bachelor of Biology, Wuhan University, Wuhan, China

关于博客

The content covered includes but is not limited to:

🧬Structure Biology

I will write conclusion about my GPCRs work.

🧪Protein generation design

I will update my protein design learning process.

💻AI4S/ Deep Learing

I will share about some interesting journals or tools about it.

💻 Internships
Securities

德邦证券医药组

Department · Biopharmaceuticals · Intern Analyst | Industry Research Report · Securities Daily

  • Advised by Mrs. Yan Wang
  • Mar. 2023 - July. 2023
  • Health CRO

    IQVIA Consumer Health

    Department · Drug Access · Management Consulting Online Intern| Write Meeting Minutes · private reserch

  • Advised by Mrs. Zhe Yang
  • July. 2023 - Dec. 2023