

生理学或医学奖:基因调控才是王道
作者:袁越
1953年4月25日,著名的科学期刊《自然》(Nature)刊登了一篇论文,首次揭示了DNA的双螺旋结构。之后,科学家们只用了大约10年的时间就搞清了遗传学的基本原理和关键步骤的细节,其中每一步都是如此的合情合理,有一种非此不可的设计感。这个结果甚至连宗教界人士都感到欣慰,他们再次确信生命肯定是由一位高明的设计师精心创造出来的。
对于很多生物学家来说,这个结果预示着生物学的大厦也已经基本建成,就差人类的脑神经系统了。半个多世纪后的今天,科学家们却不得不痛苦地承认,不但人类大脑的运作方式仍然是个谜,就连经典遗传学也出现了太多无法解释的谜团。大家想象中的那座生物学大厦就像100多年前开尔文心目中的物理学大厦一样残破不堪,四处漏风。
今年的这个诺贝尔生理学或医学奖,就是击垮生物学大厦的一枚重磅炸弹。要想讲好这个故事,必须先从遗传学的基本法则开始说起。遗传学法则
众所周知,DNA是绝大部分生物的遗传物质。细胞必须先以DNA序列为模板,合成出一段信使RNA(mRNA),这一步被称为转录(transcription)。然后这条mRNA再指导核糖体把氨基酸连接成相应的蛋白质,这一步被称为翻译(translation)。从DNA到蛋白质的整个过程被称为基因表达(gene expression),个中细节虽然复杂,但每一步都合情合理,有一种非此不可的感觉,具有很强的设计感。
比如,生命之所以选择DNA作为遗传物质,是因为DNA分子极其稳定,不容易和其他分子发生化学反应。相比之下,RNA分子虽然不够稳定,但胜在化学性质相对活泼,既可以和DNA相结合,又可以和组成蛋白质的氨基酸发生化学反应,正好适合作为传递信息的使者。
再比如,蛋白质虽然无法直接读取DNA分子储存的信息,但胜在结构复杂多样,更适合作为生化反应的催化剂或者细胞结构的组成单元,所以蛋白质被选中,成为生命体最重要的建筑材料,以及细胞内几乎所有的生化反应的催化剂。
如果我们把生命体比作一幢房子的话,那么这幢房子的总设计图就是DNA,平时锁在保险柜里,不轻易拿出来。RNA就是从保险柜里复印出来的一张张施工图,用来指导建筑工人的日常工作。而氨基酸就是这幢房子的建筑材料,建筑工人的职责就是按照施工图上的规定,把每一块砖头码放在正确的位置上。
接下来一个很自然的问题就是:建筑工人是怎么知道自己应该在什么时候去看哪张施工图的呢?换用专业的术语:细胞到底是如何决定哪个基因在哪个时候被表达?
这个问题的重要性一点也不亚于基因本身,因为这是细胞应对环境变化的主要手段,也是像人类这样的多细胞生物之所以能够发育长大的根本原因。想想看,人体内有那么多细胞,每个细胞内的DNA都是一样的,但这些细胞全都各司其职,行使着不同的功能,这是一项多么细致而又繁杂的任务啊!而所有这一切都是从一枚小小的受精卵开始的,这枚受精卵的每一次细胞分裂都伴随着细胞功能的分化,整个分化过程既无比复杂又高度有序,完成这一切所需的信息量同样不会亚于基因本身。
这一切都是如何实现的呢?答案就是基因调控(gene regulation),也就是让正确的基因在正确的时间地点被正确地表达。早年间科学家们相信基因调控一定像遗传本身一样,是被一个简单而又完整的法则所控制的,只有这样才能保证系统内的所有组件各司其职。而这个法则一定会像遗传法则那样具有很强的设计感,否则无法解释这个系统为什么会表现得如此完美。
第一个被发现的基因调控系统是在大肠杆菌里发现的乳糖操纵子(lactose operon),它控制了乳糖酶的合成。大肠杆菌最喜欢的食物是葡萄糖,当环境里充满了葡萄糖时,大肠杆菌就不必耗费能量去合成乳糖酶了。但当环境中缺乏葡萄糖,却含有乳糖时,大肠杆菌便在这个操纵子的指导下开始合成乳糖酶,从“吃葡萄糖者”变为“吃乳糖者”。
乳糖操纵子的核心是一种蛋白质,这一点非常符合当时的科学家们对基因调控的想象。事实上,此后科学家们又陆续发现了很多具有基因调控功能的蛋白质,而且这些蛋白质大都是在基因表达的第一阶段,也就是基因转录这一步起作用的。这个选择合情合理,同样具有很强的设计感,因为这就省却了mRNA合成这一步,为细胞节约了能量。
科学家们将这种具备基因调控功能的蛋白质命名为“转录因子”(transcription factors),相信这就是基因调控的主角。发现第一个转录因子(即乳糖操纵子)的科学家很快就于做出那个发现的4年之后,也就是1965年拿到了诺贝尔生理学或医学奖。这个发现让遗传学界充满了乐观的气氛,大家普遍相信即使生物学大厦尚未成型,但遗传学大厦应该已经基本建成,所剩的就只是一些边边角角的修补工作了。正是在这种乐观的气氛中,安布罗斯和鲁夫昆先后来到麻省理工学院(MIT),成为著名遗传学家罗伯特·霍维茨(Robert Horvitz)实验室的博士后研究员。霍维茨实验室的研究对象是秀丽隐杆线虫(Caenorhabditis elegans),这是遗传学和发育生物学研究者们最喜欢的模式生物,因为它的体长只有1毫米,基因组相对简单,生命周期也很短,非常适合研究遗传对发育的影响。霍维茨本人正是因为对线虫的发育调控和细胞凋亡的研究,获得了2002年的诺贝尔生理学或医学奖。
在霍维茨实验室工作期间,安布罗斯和鲁夫昆都对影响线虫发育的两个基因产生了兴趣:一个名叫lin-4,该基因的突变体会让线虫体形变大;另一个名叫lin-14,其突变体会让线虫体形变小。安布罗斯发现,lin-4基因对lin-14基因有抑制作用,似乎这个lin-4基因编码了一个负责调控lin-14的转录因子。但还没等他找到这个想象中的调控蛋白,哈佛大学就给了他一份教职,于是他离开了麻省理工学院,在哈佛大学建立了自己的实验室。
同年,鲁夫昆也接受了哈佛大学医学院提供的一份工作,在那里建立了属于自己的实验室。但是,两人都没有忘记那两个神秘的线虫发育基因,决定继续研究下去。正是这种对未知世界的好奇心,以及执着坚韧的态度,让他俩最终获得了成功。发现微小RNA
去了哈佛大学的安布罗斯率先取得了进展,发现那个神秘的lin-4基因并不编码任何蛋白质,因为它的产物只是一段包含22个核苷酸(即大家熟悉的ATGC这4个字母,只不过在RNA分子里U代替了T)的单链RNA,实在是太短了!这个发现让安布罗斯百思不得其解,他不明白这么一小段RNA究竟是如何行使基因调控功能的。
去了哈佛大学医学院的鲁夫昆则把注意力放到了lin-14上。他发现这个基因确实编码了一种蛋白质,能够控制线虫的发育。在线虫发育的早期阶段这个蛋白的表达水平很高,但之后就必须快速下降,否则线虫发育就没法顺利地进入下一个阶段,而lin-4就是那个让lin-14蛋白表达水平快速下降的调控因子。
有意思的是,鲁夫昆发现lin-4基因并不会减少Lin-14 mRNA的含量,而是只影响该mRNA的翻译过程,这就颠覆了此前的认知。前文说过,此前发现的几乎所有的蛋白质调控因子全都作用于基因表达的第一阶段,这是最节约的方法。换句话说,lin-4这个调控因子既不是蛋白质,也没有作用于基因表达的第一阶段,和此前发现的基因调控规则完全相反。
为了解释这一现象,安布罗斯和鲁夫昆决定把两人各自的发现放在一起做个对比,这才意识到那个只有22个核苷酸的单链RNA恰好可以和lin-14的mRNA的非翻译区相结合!两人立刻就明白了那个单链RNA正是通过和目标mRNA相结合来阻止它被翻译成蛋白质的。
这个例子再次说明交流合作对于科学创新来说有多么重要。
1993年,两人将这个发现联名写成论文发表,并将他俩新发现的这段只有22个核苷酸长的单链RNA命名为microRNA,正是这篇论文让他俩最终获得了今年的诺贝尔奖。不过,当年那篇论文发表后其实并没有引起太大的反响,甚至安布罗斯和鲁夫昆自己也没有把那篇论文太当回事,而是在发表完之后就研究别的课题去了。很多人因此而质疑当年的科学界不识货,这是没有道理的,因为当时全世界就只发现了这么一个microRNA,包括安布罗斯和鲁夫昆在内的所有人都认为这是线虫独有的特征,不具有普遍意义,因此也就不值得再浪费时间了。
这个例子恰好说明了科研圈的一个普世法则,那就是大家都希望自己的研究课题属于自然界的普世规律,一个罕见的特例无论多么奇特也不会有人关心。但是,科学突破往往就发生在这些特例上,只不过在突破发生之前,谁也不知道自己的研究目标到底是特例还是普世规律。
转机出现在1998年,美国卡内基华盛顿研究所(Carnegie Institution of Washington)的两位研究员克雷格·梅洛(Craig Mello)和安德鲁·法厄(Andrew Fire)联名发表了一篇重磅论文,向全世界报告了一种后来被命名为“RNA干扰”(RNA interference,简称RNAi)的奇特现象。他俩发现一种极短的双链RNA(通常只有20~24个核苷酸)能够干扰基因的正常表达,两人将其命名为“小干扰RNA”(small interfering RNA,简称siRNA)。
这个发现启发了安布罗斯和鲁夫昆,他俩意识到RNA真的有可能具备基因调控功能,这么重要的工作并不一定非得是蛋白质的专利。不过,siRNA是双链RNA,和他俩此前发现的那个单链microRNA很不一样,所以两人必须想办法找出更多的microRNA才能证明这也是一个普遍现象。
这一次轮到鲁夫昆率先出结果,他在线虫中又发现了一个新的microRNA,名叫let-7。和lin-4只能控制一个基因(lin-14)不同的是,这个let-7至少可以调控5个基因的活性。不但如此,鲁夫昆运用刚刚发展成熟的基因序列搜索技术在全球基因库里搜了一遍,发现包括哺乳动物、爬行动物和昆虫在内的几乎所有动物的基因组内都有和let-7类似的同源基因。进一步分析表明这个基因相当古老,至少已有6亿年的历史了,说明这个基因是在动物进化的早期就出现了。
鲁夫昆将这个结果写成论文,发表在2000年2月出版的《自然》(Nature)杂志上。这篇论文引发的反响远大于他和安布罗斯合写的那篇1993年的论文,因为鲁夫昆证明他俩当年发现的那个microRNA并不是线虫特有的,而是普遍存在于动物界。不但如此,大家意识到这个小分子的历史如此悠久,一定进化出了很多同类,值得大家去寻找。
于是,全世界的遗传学实验室都被动员了起来。迄今为止大家已经在人类的基因组里找到了大约2000个microRNA,其他物种中发现的microRNA更是不计其数。这些microRNA大部分都在细胞内发挥作用,但有些生物甚至学会了用它来影响其他物种的基因表达。比如最近发现的一种共生真菌会向外分泌microRNA,以帮助它更好地定植在植物的根系之中。
制药公司也闻风而动,投入了大笔金钱试图开发microRNA药物,可惜迄今为止尚未有任何一种基于这种分子的新药获得批准。基于其他类型的RNAi技术的新药倒是有几个已经获批,但都很小众,主要原因在于RNA分子性能不够稳定,很容易被人体内的RNA酶所降解。次要原因在于这类RNA分子大都很短,其目标精准性不能令人满意。第三个原因在于很多短链RNA都会被细胞当成是病毒加以攻击,所以必须事先对它们进行保护性修饰。2023年的诺贝尔生理学或医学奖就是颁给了RNA修饰,如果没有这项技术的话,基于RNA的新冠疫苗就没法起作用。
正是因为RNA药物所面临的这些困难难以克服,RNAi在风靡了若干年之后逐渐沉寂了下来,相关论文数量自2021年达到顶峰之后开始逐年下降。今年的这个诺贝尔奖让RNAi重新回到了大众视野之中,诺奖委员会似乎在用这个奖再次提醒我们,科学研究的最终目的绝不仅仅是为了造福人类,而更应该是为了探究宇宙的运行规律。一项研究成果即使短期的盈利能力有限,只要它能揭示大自然的真相,就值得被大家铭记。说到大自然的真相,RNA具有基因调控功能这件事其实早在2006年就已被大众知晓了,因为发现siRNA的梅洛和法厄正是在那一年获得了RNAi领域的第一个诺贝尔奖。他俩的发现就像一颗炸雷,不但炸醒了安布罗斯和鲁夫昆,也炸蒙了整个遗传学界,此前被大家认为已经基本建成的遗传学大厦因为这颗炸雷而轰然倒塌。
让我们从2001年开始说起。那一年人类基因组计划宣告完成,包含30亿个碱基对(即ATGC)的人类基因组全序列草图被画了出来。大家原以为人类的秘密从此就可以大白于天下了,谁知基因序列分析表明人类基因组当中只有1%~2%是传统意义上的编码蛋白质的基因,其余部分全都不知道是干什么的。于是有人认为剩下的这98%都是进化中的搭便车者,甚至将其称为垃圾DNA。这个说法倒也不违反遗传学法则,因为搭便车是被生物进化所允许的。
2003年,美国国家人类基因组研究所发起了一项旨在找出人类基因组中所有功能组件的公共联合研究计划,称为ENCODE。2012年,参与ENCODE计划的几家实验室在《自然》杂志发表了一系列论文,证明人类基因组当中至少有75%的部分会被转录成RNA。
这一系列论文震惊了整个生物学界,因为按照当时公认的遗传学基本法则,RNA只是DNA和蛋白质之间的通信员,RNA的主要功能就是帮助细胞合成出生命所需的蛋白质。如果人类基因组中最多只有2%编码蛋白质的话,为什么要耗费那么多能量去转录这些“没用”的RNA呢?
于是,那一系列论文遭到了遗传学家们的广泛质疑,大家认为这些转录很可能只是细胞的误操作,属于生命活动中的噪音。但是,此后又有很多实验室运用不同的方法得出了类似的结论,甚至有家实验室发现人体内很可能存在高达9万个不编码任何蛋白质的基因。也就是说,这些基因只是转录成了RNA而已,没有下文了。要知道,人类基因组中只有大约1.9万个负责编码蛋白质的基因,新的发现表明这些所谓的“传统基因”只占人类基因组的很小一部分,大部分人类基因都是用来编码那些不负责生产蛋白质的RNA的,科学术语称之为“非编码RNA”(ncRNA)。
现在我们知道,这些ncRNA并不是“没用”的RNA,它们才是基因调控的主角,前文提到的microRNA和siRNA都是这个大家族中的成员。除此之外,科学家们还发现了好几种不同类型的ncRNA。其中一种名为“长链非编码RNA”(lncRNA),其长度超过了200个核苷酸。lncRNA可以通过缠绕的方式让整条染色体失去活性,比如关闭雌性哺乳动物基因组内两条X染色体中的一条,使之暂时失去活性。
还有一种ncRNA名叫piRNA,它必须先和一种蛋白质相结合才能发挥作用。这种piRNA大约有26~31个核苷酸那么长,比microRNA长一些。当它和蛋白质结合起来之后,就能把基因组内的转座子(transposable elements)消灭掉。顾名思义,转座子可以任意地在基因组内自由移动,这么做会严重扰乱基因组的正常功能,所以piRNA被认为是基因组自带的免疫系统,它的主要功能就是对付这些自私的基因片段。
类似这样的“RNA怪咖”还有很多,比如“小核仁RNA”(small nucleolar RNA)专门负责调节核糖体内的RNA分子;“穹窿体RNA”(vault RNA)专门负责在细胞内和细胞间运输其他具有基因调节功能的小分子;“小卡哈尔体RNA”(small Cajal-body-specific RNA)则专门负责调控其他ncRNA分子的合成过程;甚至还有一些lncRNA会自发构建成一个类似脚手架的结构,把其他ncRNA组织到一起,共同完成基因调节的任务。
这一系列新发现开启了一场RNA革命(RNA revolution),传统的遗传学大厦被这场革命彻底击垮了。
举例来说,ncRNA参与的基因调控绝不像此前认为的那样只有开和关这两种方式,还可以对基因功能进行细致的微调。而microRNA更是表现出明显的冗余特征,即单个microRNA往往可以调节多个基因,而单个基因则往往受到多个microRNA的调控。
如果我们再把同样具有基因调控功能的蛋白质考虑进来的话,就会发现基因调控系统根本不像遗传学法则描述的那样是一个相对简单的线性过程,而是一张无比复杂的网,每个节点的微小变动都能影响到整张网的形状和功能。于是,遗传法则的那种完美的设计感消失了,科学家们终于意识到生命本质上就是一个乱七八糟的复杂系统,没办法用简单的因果关系加以解释。
换句话说,如果生命真有个设计师的话,这位设计师一定是喝多了。
如果我们再用盖房子做个比喻的话,就会发现生命这幢房子不但外形完全不固定,其内部功能也可以随时改变。这幢房子的设计图纸不仅涵盖了这幢房子所有可能的外形和结构,还包括了对建筑工人的行为指令。哪个工人在哪个时间和地点开工,以及开工时需要参考哪张施工图等等所有指令也都被写进了DNA这张总设计图里。更奇怪的是,这些指令写得非常混乱,很多指令本身又需要新的指令来解读,一层套一层,无穷无尽。
房子是用来住人的,有人住的房子一定要有物业,而这幢房子的物业也是按照设计图纸来工作的。比如下水道堵住了,或者窗户坏了需要修理,物业就会根据DNA图纸上事先写好的规程进行处理,而这些规程是用好几种不同的语言写出来的,规程本身也有另外的一些规程加以限制,其复杂程度超出了所有人的想象。
如果你是经典科学范式的拥趸的话,你肯定会觉得基因调控的这种复杂性是毫无必要或者毫无价值的。但是,如果你从复杂系统的角度来理解这件事的话,就会发现基因调控的这种复杂性恰好为生命提供了必要的灵活性,因为环境的变化是随机而又无法预测的,单靠一个简单的中控系统很难控制如此复杂的局面,只有具备高度灵活性的复杂系统才能从容应对。
更重要的是,类似基因调控这样的复杂系统是不可能被事先设计出来的,只能用进化加以解释。尤其是RNA参与的基因调控,我们完全可以想象这是由最早用来对付RNA病毒的那套系统演化而来的。事实上,这套系统在进化过程中产生的各种复制错误,以及这些错误的各种随机组合都被用来调控基因功能了,只有这样才能解释这样一个看似毫无章法的基因调控系统究竟是如何成型的。
根据最新的研究,生命从简单到复杂的进化过程很可能就是通过基因调控的复杂化而完成的。举例来说,细菌基因组内负责编码蛋白质的基因占比高达90%,线虫的这个比例就降到了50%,而人类仅占2%。也就是说,人类之所以比细菌更复杂,原因不是人类的基因数量更多,而是人类基因组的调控方式更加复杂多样。
总之一句话:基因和蛋白质只是生命的表象,基因调控才是王道。结语
这是诺贝尔生理学或医学奖连续第二年颁给RNA,再次说明RNA分子的重要性。有证据显示,基于RNA 的基因调控具有非常久远的历史,早在生命出现后不久就存在了,这一点再次说明RNA很可能就是生命最初的形态,地球上的所有生命很可能都是从一段RNA开始的。
RNA虽然不如DNA那么稳定,也不如蛋白质那么复杂多样,但它胜在两者兼备,这才终于把新陈代谢和遗传这两个生命最核心的要素组合到了一起,生命从此诞生。这个过程恰好证明了创造的本质,那就是旧事物的新组合。RNA就是这种组合的黏结剂,生命这个宇宙间最伟大的创造由此而来。 RNA生理学或医学奖诺贝尔奖