> 文章列表 > NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

科学家们创建了一个能够从头合成人工酶的人工智能系统。实验测试发现,一些酶与自然界中发现的酶具有相同的功效,即使人工生成的氨基酸序列与任何已知的天然蛋白质明显不同。

实验表明,尽管自然语言处理是为了阅读和编写语言文本而开发的,但它也可以学习生物学的一些基本原理。Salesforce Research开发了名为ProGen的AI程序,该程序使用next-token预测将氨基酸序列组装成人工蛋白质。

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

科学家们表示,这项新技术可能会比获得诺贝尔奖的定向进化蛋白质设计技术更强大,它将通过促进新蛋白质的开发来为拥有50年历史的蛋白质工程领域注入活力,这些蛋白质将被广泛应用于医学治疗甚至塑料降解等地方。

“人工设计比受进化过程启发的设计具备更好的优势,”加州大学旧金山分校药学院生物工程和治疗科学的教授James Fraser博士说,他是这项工作的作者之一,该工作于2023年1月26日发表在《Nature Biotechnology》杂志。

“语言模型可学习进化的各个方面的知识,但它与正常的进化过程不同,”Fraser说。“我们现在有能力调整这些属性的生成以获得特定效果。例如,可以合成一种非常耐热或耐酸性环境或不与其他蛋白质相互作用的酶。

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

为了创建该模型,科学家们需将28亿种不同蛋白质的氨基酸序列输入机器学习模型,花几周的时间学习蛋白质的相关信息。然后,他们通过用来自五个溶菌酶家族的56000条序列以及有关这些蛋白质的特征信息对模型进行微调。

该模型会迅速生成一百万条序列,研究小组根据这些序列与天然蛋白质序列的相似程度以及AI蛋白质的氨基酸“语法”和“语义”,选择100条序列进行测试。(注:这里的选择就有很大随机性了??)

利用Tierra Biosciences体外筛选的第一批100种蛋白质,研究小组合成了五种人工蛋白质并在细胞中进行试验,将其活性与鸡蛋蛋白中发现的母蛋清溶菌酶(HEWL)进行了比较。在人类的眼泪、唾液和牛奶中也发现了类似的溶菌酶,它们可以抵御细菌和真菌。

其中两种人工酶能够分解细菌的细胞壁,其活性与HEWL相当,但它们的序列仅有18%是相同的。这两个序列与任何已知蛋白质的相似度分别约为90%和70%。

天然蛋白质中存在一个突变即可使其失活,但在另一轮筛选中,研究小组发现,尽管仅有31.4%的序列与任何已知的天然蛋白质相同,AI生成的酶依然表现出活性。

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

人工智能甚至能够通过研究原始序列数据来学习酶的晶体结构。用X射线晶体学测量发现,人造蛋白质的原子结构看起来就像它们本来的样子,尽管序列是以前从未见过的。

Salesforce Research 基于他们的研究人员最初开发的一种自然语言编程 于2020 年开发了英语版本的ProGen。

依据他们先前的工作经验,人工智能系统可以自学语法和单词的含义,以及其他润色写作的基本规则。

“当你用大量数据训练基于序列的模型时,它们在结构和规则学习方面非常强大,”Salesforce Research人工智能研究总监、该论文的资深作者Nikhil Naik博士说。“他们学会了哪些单词可以同时出现,并且符合语义。

对于蛋白质,设计方案几乎是无限的。溶菌酶和蛋白质一样小,最多约300个氨基酸。但是如果有 20 种可能的氨基酸,就会有有大量的 (20300) 可能的组合方式。这比把所有生活在古往今来的人类乘以地球上的沙粒数,再乘以宇宙中的原子数还要大。

鉴于无限的可能性,该模型可以如此容易地产生活性酶是非常了不起的。

“从头合成功能蛋白质的能力表明我们正在进入蛋白质设计的新时代,”Profluent Bio创始人,Salesforce Research前研究科学家,该论文的第一作者Ali Madani博士说。“这是蛋白质工程师可以使用的多功能新工具,我们期待看到它在治疗领域的应用。

AI模型详情参见: https://github.com/salesforce/progen

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

深度学习语言模型在各种生物技术应用中表现出很大的潜力,包括蛋白质设计和工程领域。本文描述了一个语言模型ProGen,利用该模型可以生成蛋白质家族中具有可预测功能的蛋白质序列,类似于在不同主题上生成语法和语义正确的自然语言句子。该模型利用了超过19,000个家族的2.8亿个蛋白质序列进行训练,采用蛋白质特异性控制标签加强了模型的准确性。通过对ProGen的训练序列集和标签进行微调,可进一步改善具有充足同源样本家族蛋白质的可控生成性能。尽管微调后的人造蛋白质与天然蛋白质的序列相似性低至31.4%,但在五个不同的溶菌酶家族中均显示出类似于天然溶菌酶的催化效率。正如我们在分支酸变异酶(chorismate mutase)和苹果酸脱氢酶(malate dehydrogenase)中所演示的那样,ProGen可以轻松合成不同蛋白质家族中成员。

点击阅读原文

https://www.sciencedaily.com/releases/2023/01/230126124330.htm

查看原文信息

http://dx.doi.org/10.1038/s41587-022-01618-2

往期精品(点击图片直达文字对应教程)

c2facec3f4dfce2696b8c1358eb4d91c.jpeg

cef50ccaec24635d32e26d089546a143.jpeg

7b1e1538132c03cef2ffdb8f1f1a6d66.jpeg

fa12a9b85dbe1090fb5ab6fb7616d678.jpeg

b44037fa6c2f598149f5412796ab0555.jpeg

358e91cb5db2265fa4f48a70a796e85b.jpeg

c4609eca1c16587095fb391f88e8b5ba.jpeg

bdc5dce22d1f2ef1a9883c707f02deb8.jpeg

c3a8b2ff1bbad10b842966dff0a88eb7.jpeg

b4656db675ab04e714a2c0794667830a.jpeg

e503336bc773c8f1fe316ad0b42eaf8b.jpeg

3dc8b658893a183ae702ba32b9d2b764.jpeg

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

d405fd4bdcd8a188d8f37649c2ee116f.jpeg

99b1b21263ab7d020e42b122b072b9a3.jpeg

aaf7777c2b90da3e3c8c6aea8f66db98.jpeg

9e386a5de596a5908477def43aae798e.jpeg

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

2cb8a7572e54a2a3d1c37c8075f5fbb2.jpeg

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

12fbb607553dba3935890d72f1e620af.jpeg

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

2a1a1d4b0239452263066cb076af3480.jpeg

c05b1f4ee51b62a4481c35d80895089d.jpeg

NBT - 生成式蛋白设计,AI带来的蛋白质工程飞跃