科学家以数亿氨基酸序列训练AI模型,成功设计出全新人工溶菌酶
蛋白质示意图
Profluent、Salesforce研究院和UCSF的科学家,以类似生成文字人工智慧的方法,使用模型ProGen设计百万种蛋白质,并且成功找出具有杀菌效果的蛋白质。这个研究实际应用人工智慧设计蛋白质,并经测试和证明其具有特定效果,也就是説,同样的方法将能够被用於加速新药制造。
这项研究使用一个由Salesforce研究院所开发的ProGen模型,该模型能够预测人造蛋白质的氨基酸序列。ProGen的运作方式和生成文字的人工智慧相似,研究人员将来自19,000个家族的2.8亿种蛋白质的氨基酸序列输入到模型中,并添加蛋白质特性控制标签,经过数周的训练,ProGen便学会生成新蛋白质的方法。
研究人员使用5个溶菌酶家族的56,000个氨基酸序列,以及有关这些蛋白质的上下文资讯微调ProGen後,该模型迅速产生一百万个氨基酸序列,研究人员根据与天然蛋白质序列相似程度,和潜在氨基酸语法和语义的自然程度,筛选出100个序列并在细胞中实验进行实验,其中有66个和蛋白、唾液里的溶菌酶一样,能够杀死细菌。
研究人员筛选这66个氨基酸序列,制作出5种活性最强的人工酶,将这些酶添加到大肠杆菌样本中,并且和溶菌酶HEWL相比较,发现其中两种人工酶,能够以和HEWL相当的活性分解细菌细胞壁,而这两个人工酶序列仅有18%的相似程度,和已知蛋白质序列的相似度各别为90%和70%。
天然蛋白质的功能很大程度受组成影响,只要有一个突变就会使蛋白质失去作用,而在另外一轮的筛选中,研究人员找出一个只与天然蛋白质序列有31.4%相似的蛋白质,但是该蛋白质仍然具有活性。
要产生特定功能的蛋白质,不只是需要生成对的氨基酸序列,蛋白质更需要折叠成特定的三维结构,才能具有功能性,研究人员以X光来量测蛋白质形状,发现人造蛋白质即便在氨基序列上,与现有蛋白质差异高达30%,但仍可以呈现与天然蛋白质相符的形状。研究人员提到,他们现在仍不清楚人工智慧究竟如何在变更氨基酸序列的同时,仍产生正确的形状。
这些人工智慧所生成的蛋白质要被用於药物,还需要在实验室中进行长时间的测试,但是研究人员提到,这种蛋白质设计方法比蛋白质设计技术定向演化(Directed Evolution)更强大,能够加速所有用途的新蛋白质开发。