灵长类动物基因全家福

作者:袁越
灵长类动物基因全家福0随着DNA测序的成本变得越来越低,全世界恐怕已有数百万人测过自己的基因组序列了。但是,假设测试结果显示你有若干个基因位点和标准版不一样,导致你体内的某个蛋白质和标准版有细微差异,你并不会知道这件事到底意味着什么,因为科学家们对蛋白质的氨基酸序列和该蛋白的生理功能之间的关系缺乏了解,不太可能仅凭某个基因突变就预判出你的健康状况将会受到怎样的影响。

为了解决这个问题,著名的DNA测序仪制造商因美纳(Illumina)公司的一位名叫凯尔·法赫(Kyle Farh)的人工智能专家想出了一个绝妙的方案。他认为人类和灵长类动物在进化树上的位置最为接近,所以人类身体里的蛋白质应该和灵长类动物体内的蛋白质几近同源。因此,如果发生在人类身上的某个氨基酸变异能够在其他灵长类动物的身体里找到,就说明这个变异经受住了进化的考验,极有可能是良性的。按照这个逻辑,如果我们能够把世界上现存的灵长类动物的基因组全都测出来,再和人类基因组做对比,就能构建出一个庞大的数据库,包含所有和人类相同或者不同的基因突变位点。只要把这个数据库输入人工智能神经网络,再结合相应的基因病理数据和蛋白质三维结构数据,就能借助神经网络强大的学习能力,推算出某个新发现的基因突变到底是良性的还是恶性的。

法赫是在2018年提出这一设想的,当时仅有不到10%的灵长类基因组序列被测了出来,数据量达不到要求。但法赫仍然决定试试这个思路的可行性,便联系了西班牙庞佩乌·法布拉大学(University of Pompeu Fabra)的遗传学家托马斯·马奎斯·波奈特(Tomàs Marquès Bonet),后者是比较基因组学研究领域的先驱,手里积攒了不少灵长类基因组序列。波奈特为法赫提供了6个这样的基因组序列,后者利用这些数据对自己的设想进行了初步研究,并将结果写成论文,发表在2018年7月23日出版的《自然·遗传学》(Nature Genetics)杂志上。

这篇论文证明这个思路是可行的,唯一的缺点就是数据量还不够大。于是,波奈特向全世界的同行发出号召,很快就从来自24个国家的数十位遗传学家那里征集到233种不同灵长类动物的基因组序列。这个数字虽然仅占全球已知灵长类动物总数的一半左右,但却涵盖了灵长目的所有16个科,基本上可以算作灵长类动物的基因全家福了。

有了这个基因全家福,科学家们就可以拿它来做很多此前做不了的事情。2023年6月2日出版的《科学》(Science)杂志刊登了来自世界各国的遗传学家撰写的8篇论文,借助这个灵长类基因组探讨了与人类有关的8个问题。其中的一篇核心论文就是由波奈特和法赫的团队合作完成的,科学家们找出了人类和灵长类共有的430万个常见的错义突变(Missense,即改变了氨基酸序列的基因突变),再和现有的基因病理学数据库(ClinVar)做对比,发现其中有98.7%是良性的,重合度非常之高。

总之,这项研究为人工智能学习系统提供了一套高质量的基因标注数据库,其数据量比原有的数据库增加了50多倍。科学家们相信,未来的遗传学家只要把这个改进过的数据库和相应的蛋白质三维结构数据结合起来输入神经网络,就可以相当准确地判断出任何一个新的基因突变究竟是良性的还是恶性的。

上一篇: 驾驭时间
下一篇: 漫长的赛季