十多(duō)年来,德国马克斯普(pǔ)朗克生物物理(lǐ)研究所分子生(shēng)物(wù)学家马丁·贝克(kè)及其(qí)同事一(yī)直试图拼凑出世界上(shàng)最难的拼图游戏(xì)之一(yī):人(rén)类细胞中最大(dà)分子机器的(de)详(xiáng)细模型。这个庞然大物被(bèi)称为核孔复合体,控(kòng)制着分(fèn)子进出细胞核的流(liú)动,而(ér)细胞核正是(shì)基因组所(suǒ)在之处。每个细胞中都存在数百个这样的(de)复合物,每个都由超过1000种蛋白组成,它们形成(chéng)一(yī)个(gè)环(huán),镶(xiāng)嵌(qiàn)在核膜上。
这(zhè)1000块拼图由(yóu)30多(duō)种蛋白质(zhì)构(gòu)建块组成,它们以多种方式交织(zhī)在一起。让拼图(tú)更难(nán)的是(shì),实验确(què)定的这些构(gòu)建块的三维结构(gòu)是来自许(xǔ)多(duō)物种的(de)结构大(dà)杂烩,并(bìng)不(bú)能总是很好地融(róng)合在一起。而且(qiě),拼(pīn)图(tú)的终极目(mù)标(biāo),即(jí)核孔复合体的低分辨率三维视图(tú)缺(quē)乏(fá)足够的细节(jiē),人(rén)们无法知道(dào)需要有多少(shǎo)块能精确地拼在一起(qǐ)。
2016年,贝(bèi)克团(tuán)队(duì)报告了一(yī)个模型,它覆盖了核孔复合体约30%以及(jí)30个构建块的约(yuē)一半,称(chēng)为Nup蛋白。2021年7月,深(shēn)度思维公司公开了一款名为阿尔法折叠2的人工智能(AI)工(gōng)具(jù)。该软(ruǎn)件可从蛋白质的(de)基因序列(liè)中预测(cè)其三维(wéi)结构(gòu),并且大部(bù)分(fèn)情况(kuàng)下是(shì)精确的。这改变了贝克的任务(wù),以及成千上万其他生物(wù)学家的研究。
在某些情况下,AI为科学家们节省了(le)时间;在(zài)其他(tā)情况(kuàng)下,它使以(yǐ)前(qián)难以想(xiǎng)象或极不现实(shí)的(de)研究成为(wéi)可能。尽管它有局限性,但它的发展已经不可阻挡。
“一(yī)鸣(míng)惊(jīng)人”的成功
2020年(nián)12月,阿尔(ěr)法折叠引(yǐn)起(qǐ)了轰动。当时(shí),它(tā)在一(yī)场名为“蛋白质结构预测关键(jiàn)评估”的比赛中大(dà)放异彩。而阿尔法(fǎ)折叠2的预测平均而言已与大多数实验(yàn)数据不相(xiàng)上下。
在阿(ā)尔(ěr)法折叠算法广泛(fàn)开源之前,美国华(huá)盛顿大学(xué)医学院蛋白质设计研究所研究人(rén)员开发(fā)了(le)AI工具RoseTTAFold,其拥有可(kě)媲(pì)美阿尔法折(shé)叠2的蛋白质结(jié)构预测超高准确度,而且(qiě)速度更快、所(suǒ)需计算机(jī)处理能力更低。
2021年7月15日,深度思维宣布,它已经使用阿尔(ěr)法折叠预测(cè)了几乎(hū)每一种人类(lèi)制造的(de)蛋(dàn)白质的结构,以及其(qí)他20种被广(guǎng)泛研究的生物的整个(gè)蛋白质组(比如小鼠和大肠杆菌),共计超过36.5万个结构(gòu)。深度(dù)思维(wéi)还将这(zhè)些数据公开发布到欧洲生物信息学研究所维护的数(shù)据库中,这个数据库已扩展到(dào)近(jìn)100万个(gè)结(jié)构。
今年,深(shēn)度思维计划发布(bù)总计(jì)超过1亿个结(jié)构预测。这几(jǐ)乎占所有(yǒu)已知蛋白质的一半(bàn),是蛋白质数据库(kù)(PDB)结构库中实验(yàn)确定的蛋白(bái)质数量的数(shù)百倍。阿尔法折叠还部署(shǔ)了深度学习神经(jīng)网络,目前(qián)已经接(jiē)受了(le)PDB和其他(tā)数据库中的数十万个实验确定(dìng)的蛋白质结构(gòu)和序列(liè)的训(xùn)练。
从(cóng)结(jié)构(gòu)角度解答新(xīn)科学问题
阿尔法折叠(dié)解(jiě)决(jué)结构的能(néng)力给生物学家们留(liú)下了深刻(kè)的(de)印象。“只要一种蛋白质(zhì)卷曲成单(dān)一的明确的三维结构,阿尔法折叠的预测就很难被推翻。”瑞(ruì)典斯德哥尔摩(mó)大(dà)学(xué)蛋白质生物信息学家阿恩(ēn)·埃洛夫松说,“这是一种一键式解决(jué)方案(àn),你可能会得到(dào)最佳模型。”
英国(guó)伦敦大学学院计算生物学家(jiā)克(kè)里斯汀·奥(ào)伦戈团队(duì)正在利用其确定新的蛋白质种类,并发现(xiàn)了数百、甚至数千个潜在的新蛋(dàn)白质家(jiā)族(zú),扩大了科学家(jiā)对蛋白质外观(guān)和功能的(de)了解。在另一项工作中,该团队正在(zài)搜(sōu)索从海洋和废水中收集的DNA序列数据库,试图识别新的分(fèn)解塑料的酶。
美国(guó)哈佛大(dà)学进化生物学(xué)家谢尔盖·奥夫钦(qīn)尼科夫(fū)表示(shì),将(jiāng)任何蛋白质(zhì)编码的基因序列转化为可靠(kào)结构的(de)能力都非常可贵(guì)。研(yán)究人员通过比(bǐ)较基因序列(liè),以(yǐ)确定生物及其(qí)基因在不(bú)同物种之(zhī)间的关系。但对于(yú)远(yuǎn)亲基(jī)因,仅通过比较,可能(néng)找不到进化上的近亲,因(yīn)为序列发生(shēng)了太大的变(biàn)化。而通过比较蛋白质结构,其(qí)变化速度往(wǎng)往不如基因序列(liè)那么(me)快(kuài),研究人员或能揭示被忽视的古(gǔ)老关系(xì)。这(zhè)为研(yán)究蛋白(bái)质的进化和生命起源提供了一(yī)个绝(jué)佳的(de)机会。
存(cún)在一定局限(xiàn)性
目前已有尝试证明,阿尔法(fǎ)折叠不(bú)具备(bèi)预测(cè)蛋白(bái)质新突变(biàn)后果的能(néng)力,因为没(méi)有与进化(huà)相关的序列(liè)来检(jiǎn)验。
研究(jiū)人员表示,许多蛋白(bái)质具有多种构象,并(bìng)与(yǔ)DNA和RNA等配体、脂肪分子和铁(tiě)等矿物质一起发(fā)挥(huī)作(zuò)用,但阿(ā)尔法折叠的预测是针对孤立结构,它不(bú)能真(zhēn)正处理那些可在不(bú)同构象中(zhōng)采用不同结构的蛋白(bái)质。
美国哥伦比亚(yà)大学的(de)计(jì)算生物学家穆罕默德·库雷希说,开发(fā)下一代神(shén)经网络将是一个(gè)巨大的(de)挑战。目前还无法(fǎ)获得(dé)大量的数据来捕捉蛋白质动力(lì)学,或者蛋白质可能与之相互作用的数万亿个较小(xiǎo)分(fèn)子的形状。
欧洲(zhōu)生物信息学研究所计算生物学家珍妮特·桑顿认为,阿尔法折叠最大的影响之一可能只是说服生物学家(jiā)对计(jì)算和理论方法的见解持更开放的态度。“对我来说,这场革(gé)命就是观念(niàn)的改变”。
但阿尔法(fǎ)折叠(dié)革命(mìng)激发了欧洲分子生物学实验室(shì)结(jié)构建模师扬·科辛斯基的(de)远大梦想。他设想,受阿尔法折叠启发的工具(jù)不仅可用来对单个(gè)蛋白(bái)质(zhì)和(hé)复合体进行(háng)建模,还可用来对整个细胞器甚至细胞进(jìn)行建模,直(zhí)到完整单个蛋白质分(fèn)子,“这是(shì)我(wǒ)们在接下(xià)来(lái)的几十(shí)年(nián)里(lǐ)要追寻的梦想”。