人类基因组计划的过去、现在和未来

作者:袁越

(文 / 袁越)

人类基因组计划的过去、现在和未来0( “冰人奥兹”模型 )

“11年前的今天,《科学》和《自然》这两本全世界最具分量的科学期刊几乎同时刊登封面文章,报道了人类基因组计划完成的消息。”美国伊利诺伊大学的威廉·贝克(William Beck)教授开门见山地说:“在我看来,这是与当年沃森和克里克发现DNA双螺旋结构具有同等价值的重大发现,甚至可以和达尔文发表《物种起源》相媲美。”

贝克教授是在美国科学促进会(AAAS)年会上说这番话的。AAAS是全世界最大的非营利性科学组织,现有265个分支机构和超过1000万名成员,著名的科学专业期刊《科学》(Science)就是由AAAS负责出版发行的。AAAS年会是全世界最大的科学盛会,人类基因组计划无疑是本次大会的热点之一。贝克教授负责组织了一个关于人类基因组的专题讲座,请来几位专家为听众介绍这个领域的现状,并展望未来。

11年前的那场革命

让我们先从1953年开始讲起。詹姆斯·沃森(James Watson)和弗朗西斯·克里克(Francis Crick)在那一年构建了DNA分子的双螺旋结构,组成双螺旋的每条DNA单链由4种核苷酸按顺序排列而成,分别用A、T、C、G这4个字母来代表。每3个字母对应于1个氨基酸,而蛋白质是由20种氨基酸首尾相连而成的,也就是说,DNA的字母顺序直接决定了蛋白质的氨基酸顺序,从而决定了蛋白质的化学性质,DNA就是以这种间接的方式控制了生命体,并赋予每个生命体独特的个性。

人类基因组计划的构思始于上世纪80年代中期。经过短暂的酝酿,美国能源部和卫生部于1990年共同投资30亿美元成立了“国立人类基因组研究中心”,正式开始了测量人类基因组全序列的工作。有趣的是,该研究中心的前两位主任分别是沃森和克里克,足见这个机构的地位是多么的重要。

该中心原计划花15年时间完成测序工作,但到了2000年6月,当时的美国总统克林顿和英国首相布莱尔就迫不及待地召开联合新闻发布会,向全世界公布了人类基因组草图,比《自然》和《科学》杂志刊登经过同行评议的正规论文提前了8个月,可见此事的政治意义有多大。

当时亲自参与测序工作的埃里克·兰德(Eric Lander)教授去年在《自然》杂志上发表过一篇文章,回忆了当时的情况。据兰德教授透露,由于人类基因组存在大量的高度重复顺序,给测序工作带来了很多意想不到的困难,因此即使是2001年《自然》与《科学》杂志公布的数据也只涵盖了人类基因组的90%左右,很多重复顺序并没有完全测出,并留有大约25万个缺口,已测出的那部分顺序错误率也很高。科学家们又经过了3年努力,直到2004年才又发布了一个更加精确的人类基因组顺序,涵盖了99.7%的人类基因组,只剩下大约300个缺口没有填上,错误率也降到了十万分之一以下。

由此看来,美国能源部和卫生部当年的估计还是很正确的。事实上,1990年时的DNA测序技术还非常原始,需要依靠技术人员亲手制作一块电泳凝胶,每跑一次电泳只能测几百个字母,而人类基因组一共有大约30亿个字母,要想把它全部测出来几乎是一件不可能完成的任务。90年代中期,科学家发明了第二代DNA自动测序仪,不但大大提高了DNA测序速度,而且把成本也降了下来。到2001年人类基因组计划宣告完成时,这种机器的效率已经提高到每台每天测100万个字母的水平了。

肯定有很多人还记得11年前那场媒体的狂欢。当科学家宣告人类基因组计划终于完成后,全世界的报纸杂志纷纷发表文章,高度赞扬这一事件的伟大意义,并预言大部分疑难杂症都将被攻克,人类的寿命将大大延长,甚至还有人宣布人造超人即将诞生。但是,11年后的今天,一提起人类基因组计划,几乎所有媒体都是一片哀号。不明真相的读者们肯定纳闷,科学家们当初夸下的海口,为何迟迟没有兑现?

事实上,科学家们并没有夸下海口,盲目乐观的都是那些不明真相的记者们。真正的科学家们都深知生命的复杂程度远超人类的想象,如果把基因组序列当做设计图,科学家只是刚刚看到了图纸的样子而已,还没有学会如何解读它。况且科学家们拿到的只是其中一幢房子的设计图纸,整个人类社区的每一幢房子,甚至每幢房子的每间房间的设计图纸都不一样,任何建筑师都不可能凭借一张通用的草图去修理每一个房间。

话虽如此,科学家们并没有被困难吓住。人类基因组学在这11年里取得了长足的进步,下面就让我们来简单梳理一下该领域已经取得的成就。

人类基因组的秘密

2001年之前,科学家们只测出了果蝇、线虫、拟南芥,以及包括大肠杆菌在内的38种细菌的基因组,人类基因组的长度比它们加起来的总量还要大一个数量级。但是,自2001年到现在,科学家们已经测出了小鼠、大鼠、狗、牛、袋鼠、鸟、大猩猩和黑猩猩等一大批高等动物的基因组,甚至还测出了尼安德特人的基因组(生活在距今20万至4万年前),以及一位死于5300年前的“冰人奥兹”(Otzi the Iceman)的基因组。截止到去年为止,已有大约3万个人类基因组顺序,以及4000种细菌和病毒,250种真核生物的基因组顺序被测了出来,这就为进化学家们进行横向和纵向的比较提供了充足的素材。

分析结果表明,哺乳动物和鱼类有着共同的祖先,这进一步证明人类祖先确实是从水里登岸的。人类和黑猩猩之间的基因差异出奇的小,而且科学家们已经找到了从猿到人的几个关键基因,比如语言基因和拇指基因(使得人类拇指和其他四指相对,便于使用工具)等,这说明人类的出现并不神秘,不需要上帝的帮助,只要改变几个基因就可以做到。

通过对不同人群基因组的比较,科学家们还修正了人类走出非洲后的迁徙路线。过去的人类学家相信人类离开非洲后走的是一条单方向的路线,通过不断分叉,逐渐遍布整个地球。但新的数据表明,人类在这一过程中经历了很多次回流和杂交,人类90%的基因变异发生在人群内部,只有10%发生在群间,人种之间的差别远没有过去想象的那么大。这一发现对于人类社会消除种族偏见、打击“优生学”等伪科学起到了决定性的作用。

更让人惊奇的是,最新研究显示,欧洲人和亚洲人很有可能和尼安德特人进行过杂交,并从对方身上获得了1%~4%不等的遗传物质,没有走出过非洲的黑人则没有进行过这种杂交,这件事的文化意义尚待研究。

不久前刚刚完成的“冰人奥兹”基因组测序结果表明,这位死于5300年前的欧洲人尚未进化出乳糖酶,说明这个酶的出现发生在畜牧业进入欧洲之后。通过对人类基因组的分析,科学家已经掌握了这个酶在人类演进史上的全部进化过程,并从中推断出了畜牧业在各地的出现时间。与此类似的还有西藏人的耐高原基因等,也都可以帮助历史学家追踪人类进化的脚步。我们有理由相信,在不久的将来,科学家将可以通过人类基因组序列的分析,构建出每个基因,乃至每个家族的全部进化史,为人类撰写一部更新、更准确的家谱。

不过,大家之所以关注人类基因组计划,更多的原因在于人们非常急切地想要了解自己的身体,并在这一过程中提高医疗健康水平。虽然后者暂时没有看到太多有效的结果,但前者却已有很多让人惊奇的案例。比如,2001年前科学家们一直高估了人类基因组中的基因数量,他们预测的数值从3.5万到10万不等。可是等到2001年后,科学家们惊讶地发现,人类基因组当中只有不到2.1万个基因,只占人类基因组总长度的1.5%左右,剩下的除了一些高度重复的“垃圾DNA”外,都是负责调节基因功能的片段。换句话说,人类基因组中真正有用的DNA大部分不是用来编码蛋白质的(这是基因的传统定义),而是影响基因功能的调控因子,后者的作用一直被严重低估了,它们才是决定生命体特征的关键因素。事实上,通过和黑猩猩等哺乳动物的基因组进行对比,科学家发现,从猿到人这一关键步骤中,大部分进化过程发生在调控因子这部分,基因本身进化得很慢。

知道了上述事实,对于科学家们研究疾病和遗传的关系有着决定性的影响。科学家早就知道,只有极少数人类遗传病是由某一个单独的基因突变造成的,这类病严格遵从孟德尔遗传规律,因此被叫做“孟德尔病”。除此之外,绝大多数人类疾病都是由很多遗传因素合力造成的,它们中有很多都是在基因调控的层面出了问题。这里面的道理其实很好理解,单个突变造成的孟德尔病在进化上处于绝对劣势,很容易被自然选择所淘汰,但如果某个突变只有微小的影响,甚至在某种情况下是有利的,则很容易遗传下去。这就是为什么大多数看似相同的疾病其实有着不同的遗传因子,很难发明出某个包打天下的特效药,必须根据具体情况区别对待的原因,而这就是个人化治疗的理论基础。

这个思路说起来容易做起来难。2001年前,科学家只找到了十几个与疾病有关的致病基因,如今这个数字已经达到了1100多个,对应于165种疾病,这其中绝大部分都是在2007年之后发现的,这要得益于总部位于美国加州圣地亚哥市的Illumina公司发明的第三代DNA测序法,此法一举将以前的DNA测序效率提高了6~8个数量级,这个提升速度超过了计算机领域的摩尔定律。

此项发明对于生物学研究的影响是极其深远的。以前人们一直拿计算机领域的飞速发展反衬生命科学领域的落后,如今这两个新兴行业第一次联手就打破了摩尔定律,从根本上改变了生物学家获取数据的渠道和方式。如今任何一位研究基因的生物学家都必须学会如何利用电脑来分析庞大的DNA数据,生物学正在变得越来越像数学。以前那种提出假说,再设计实验证明假说的研究模式也许很快就要过时了,代之以大规模收集数据,从中发现生命规律的全新时代。

癌症的治疗,靠的就是这种新的思路。 生物技术dna科学科普计划现在过去未来基因组科技新闻人类基因组人类