

化学奖:诺贝尔化学奖背后的科研范式转变
作者:袁越
这两个成果都非常新,但目的都是解决一个非常古老的问题,那就是如何从蛋白质的一维结构预测其三维结构。蛋白质的三维难题
科学家们很早就知道,蛋白质是生命体内最重要的化学物质,从身体结构到生化功能都是蛋白质在发挥主要作用。化学家们也很早就知道蛋白质是由氨基酸首尾相连组成的一条线性分子,并很快就掌握了如何测量蛋白质氨基酸序列的方法。可问题在于,生命是三维的,蛋白质要想发挥作用,必须先从一维的氨基酸链条转变成三维的立体结构。不同的蛋白质之所以有着不同的功能,主要原因就是它们的三维结构有所不同。
打个比方,同样的一盒乐高积木既可以搭成一幢房子又可以搭成一辆汽车,这盒积木对于玩家的价值取决于最终的结果。
美国科学家克里斯蒂安·安芬森(Christian Anfinsen)于上世纪50年代完成的一项研究证明,一个蛋白质的三维结构是由它的一维结构,即氨基酸序列所决定的。当时曾经有人猜测蛋白质是在某个外力的帮助下折叠成特定的三维结构的,但很快就有人发现蛋白质完全不需要借助任何外力的帮助就可以在合适的溶液里瞬间折叠成特定结构,整个过程用不了一秒钟的时间。这就好比说你把一个乐高房子拆散,那些木块可以在一瞬间迅速自我搭建成原来那幢房子,模样丝毫不差。
这个过程貌似神奇,但其原理倒是一点都不复杂。众所周知,氨基酸是由碳氢氧氮等原子组成的小分子,这些原子依靠化学键彼此相连,构成了或亲水或疏水或中性的各种基团。当蛋白质分子溶于水中时,亲水基团很自然地会暴露在外,疏水基团则倾向于躲在内部。除此之外,氨基酸的各个基团有的带正电,有的带负电,彼此之间也会发生或吸引或排斥的反应。如果这些基团的位置不当,蛋白质内部会有一种紧张感,只有当每个氨基酸都恰好坐落在最合适的位置上时,这个蛋白质才算安定下来,达到能量最低的稳定状态。
蛋白质折叠的原理虽然很容易理解,但从一维结构推测三维结构却难上加难,因为蛋白质是由成百上千个氨基酸组成的,需要计算的变量太多了。
具体来说,复杂的蛋白质是由一条或者多条肽链组成的。单独的一条肽链的氨基酸序列被称为蛋白质的初级结构,这是一维的;之后,某些肽链会先折叠成简单的三维结构,比如螺旋线或者梯子,科学术语称之为二级结构;这些简单的二级结构会再叠加成更加复杂的三维构象,这就是蛋白质的三级结构;最后,不同的蛋白质还会和一些化学元素组合成更加复杂的蛋白质复合物,这才是最终起作用的蛋白质四级结构。
科学家们忙乎了半天,发现他们只能从氨基酸序列推测出蛋白质的二级结构,再往下就走不动了,因为实在是太过复杂,计算量太大了。
X射线晶体衍射技术的出现部分地解决了这个问题。简单来说,科学家先把要研究的蛋白质进行提纯,然后让它在合适的条件下结晶,之后就可以利用X射线的衍射作用对它进行拍照,从中推测出这个蛋白质的三维结构了。事实上,这个技术可以适用于任何具备结晶能力的有机大分子,当初DNA双螺旋结构就是这么被画出来的。
除此之外,冷冻电镜技术、核磁共振成像技术和双偏振干涉测量技术等新开发的成像技术也都可以用于推测有机大分子的三维结构,大家熟悉的中国科学家颜宁就是用冷冻电镜技术推测蛋白质结构这个领域的国际知名专家,发表过数十篇论文。
可问题在于,任何大分子成像技术首先都需要获得蛋白质的结晶,这并不是一件很容易完成的任务,需要耗费大量的时间精力,成本也极其高昂。更何况很多蛋白质很难在自然条件下结晶,一些跨膜蛋白甚至不可能按照这个方法来研究,所以说这个技术路线只能解决一部分问题。
有没有办法直接从氨基酸序列推测出蛋白质的三维结构呢?理论上是有可能的,但因为数据量太大,计算过程实在是太复杂,很多科学家前仆后继地投入这个领域,却均铩羽而归。在这个领域最先取得决定性突破的就是美国西雅图华盛顿大学的贝克,他于1993年进入这个领域,一开始也是困难重重。后来他意识到从零开始计算蛋白质折叠太过复杂,不如从局部的肽链二级结构入手,然后再像搭积木一样拼接出整个蛋白质的三维结构。
最终,贝克和他领导的一个研究团队开发出了一系列能够根据氨基酸序列预测蛋白质结构的软件,取名罗塞塔(Rosetta)。这套软件在2004年举办的第六届蛋白质结构预测大赛(CASP)上拿到冠军,并保持了多年的领先优势,是这个领域最早的明星。
更可贵的是,贝克没有试图垄断这个具有很大盈利潜力的技术,而是建立了一个罗塞塔社区,让所有感兴趣的人都可以下载这套软件并参与开发,这种开源精神在当今这个盲目追求金钱的时代显得极其难能可贵。
2018年的CASP大赛出现了一位神秘的参赛者,这就是大名鼎鼎的DeepMind团队,这个团队曾经因为开发出了围棋程序阿尔法狗(AlphaGo)而享誉全世界。首战告捷之后,团队领导人哈萨比斯很快就把注意力转向了蛋白质结构预测这个“生物学领域的珠穆朗玛峰”,并雇用了一批生物学家和计算机科学家一起组成了一个团队集体攻关,于2018年开发出了第一代基于人工智能技术的蛋白质三维结构预测软件AlphaFold。最终AlphaFold力压参赛的其他97名选手,成为当年的CASP大赛冠军。
AlphaFold团队的领导者就是和哈萨比斯分享另一半奖金的江珀,他是芝加哥大学理论化学专业的博士,毕业后不久就加入了DeepMind团队,负责AlphaFold项目。在他的领导下,这个团队又于2020年开发出了AlphaFold2,彻底碾压了此前所有的预测软件,其中就包括罗塞塔。2021年,AlphaFold2已经能够成功预测98.5%的人类蛋白质结构,其准确性和实验结果相差无几。
就在这一年,DeepMind决定效仿贝克的做法,将AlphaFold程序开源。而贝克也借鉴了DeepMind开创的神经网络和深度学习算法,提高了罗塞塔的预测精确度。
2024年5月,DeepMind团队又推出了AlphaFold 3,以前所未有的精确度预测了几乎所有的生命分子,包括蛋白质、DNA和RNA的三维结构,以及它们之间的相互作用模式。
随后,DeepMind顺势推出了AlphaFold Server平台,来自全世界的科学家都可以免费使用(非商业)这个预测工具,帮助他们研究蛋白质的功能。而商业化的项目也可以付费使用这个平台,因为这可以帮助各大制药公司的新药研发团队事先设计出新的药物结构,再也不需要费劲地从大自然里筛选新药了。
困扰科学家们很多年的蛋白质三维结构问题算是基本得到了解决。科研范式的转变
读到这里,肯定有读者认为今后是不是不再需要人类科学家了?起码从目前看来,答案是否定的。因为人工智能尚不具备从复杂现象中总结出普遍规律的能力,或者说人工智能在这方面的能力尚未达到顶尖人类大脑的水平。
就拿蛋白质来说,科学家们发现很多蛋白质和某个目标物结合后会改变其三维结构和化学性质,科学术语称之为别构调节(allosteric regulation)。比如人体内有大约一半的蛋白质有被磷酸化的潜力,而蛋白质的磷酸化不是0和1的差别,而是线性的,计算机在研究这种线性变化时会显得无能为力。
除此之外,科学家们还发现了很多无序蛋白,它们在天然条件下没有确定的三维结构,但却具有相当广泛的功能。事实上,无序蛋白的结构灵活性恰恰是很多生物功能所必需的,因为自然环境千变万化,蛋白质也必须随时进行线性的微调才能跟得上,这又是目前的人工智能技术难以驾驭的领域,仍然需要人类科学家的参与。
因此,当本届诺贝尔化学奖公布之后,很多人笑称获奖者是人工智能,这是很不公平的。无论是罗塞塔还是AlphaFold,本质上都是科研工具,仅此而已。你会认为曾经在化学领域做出过重大贡献的电子显微镜是诺贝尔奖获得者吗?
同理,哈萨比斯虽然不是化学家,但他开发的算法帮助化学研究迈上了一个新的台阶,获得诺贝尔化学奖当之无愧。
如果说本届化学奖有什么值得总结的地方,那一定是科研范式的转变,而且这一转变在很多方面都有体现。
首先,三位获奖人当中有两人都在商业公司里工作,另外一位贝克也是一家制药公司Xaira Therapeutics的联合创始人,这说明学术研究和商业开发之间的关系正在变得模糊不清。事实上,如果没有商业公司的支持,DeepMind是不可能获得足够多的算力开发出AlphaFold的。这是科学的胜利,同时也是商业的胜利。
其次,哈萨比斯是个相当纯粹的计算机专家,本职工作和化学毫不沾边。他的获奖预示着未来的科学门类边界将被打破,不同领域的专家跨界合作将会成为主流。
与此类似,今年的诺贝尔物理学奖同样授予了一位计算机专家杰弗里·辛顿(Geoffrey Hinton),再次证明交叉科学将是未来的发展方向。
再次,也是最重要的一点,那就是科学研究的范式将从过去的推导因果关系转变为研究因果关系不明确的复杂系统。事实上,正是因为复杂系统涉及的面太广,我们才会如此迫切地需要交叉科学人才。
就拿今年的诺贝尔化学奖来说,蛋白质折叠的科学原理早就研究得非常透彻了,但却无法被拿来预测蛋白质的三维结构,原因就是蛋白质的原子数量太过庞大,原子之间的相互排列方式是个天文数字,即使科学家们了解了每一个原子的行为逻辑,也无法从整体上判断整个蛋白质将会如何行事,这是个典型的复杂系统问题。
同理,获得今年诺贝尔生理学或医学奖的microRNA虽然本身属于传统科学的范畴,但它背后所代表的基因调控网络是一个庞杂到无以复加的复杂系统。即使你了解了基因调控的基本原理,当你面对真实世界的基因调控时仍然会觉得自己一无所知,因为简单的因果链条在面对复杂系统时是无能为力的。
今年的诺贝尔物理学奖和复杂系统的关系就更大了。其中年纪较大的那位获奖者约翰·霍普菲尔德(John Hopfield)早在上世纪80年代就提出认知是一种涌现行为,是神经元微观机制的一种自然体现,而这个极富远见卓识的想法很可能就是受到了70年代发展起来的复杂系统理论的影响。年纪较小的那位获奖者辛顿也是从人脑神经元的复杂结构中获得灵感,将神经网络引入了机器学习算法,这才获得了成功。
所以,与其说今年的诺贝尔奖是人工智能的胜利,不如说是复杂系统的胜利。科学研究的范式正在从过去的确定性研究进化到现在的不确定性研究,这正是复杂系统的典型特征。重点关注自然世界因果关系的传统物理学在今年诺奖的缺失也从另一个侧面说明科学的范式转变已经来临,物理学必须与时俱进,主动拥抱这种不确定性。结语
为了更好地应对科学研究的范式转变,我们需要在科研体制、奖惩机制、合作机制和人才培养机制等诸多领域对原来的科研系统进行改革,中国做好准备了吗? 化学奖诺贝尔奖