众所周知,这世上有已知的已知,也就是那些我们意识到我们知道的事物;还有已知的未知,即我们知道有些东西我们还不知道;殊不知,这世上还有未知的未知—有些事,我们不知道自己不知道。

—唐纳德·拉姆斯菲尔德

唐纳德·拉姆斯菲尔德当年的这番言论招致了不少冷嘲热讽,但我始终觉得他说的也并非毫无道理,抛开政治立场等因素不谈,这段话的确道出了世界的真谛。世界之大,充满了未知,而驱使我们不断前进的,不是已知的世界,而是那更广阔的未知世界。世界如此,医学亦如是。在我看来,拉姆斯菲尔德最后提到的“未知的未知”还可以进一步细分为两类:我们完全闻所未闻的事物,和我们以为自己知道但其实不然的事物。医学的世界里,这样的“未知的未知”到底还有多少呢?每每想到这儿,我就彻夜难眠。

2011年对我来说是特别的一年,不知不觉间,临床遗传学家这一身份已陪伴我走过了十余载。那年的某一天,我和迈克尔·巴克利(Michael Buckley)像往常一样闲聊,他是我的良师,也是益友。我怎么也没有想到,那次再平常不过的闲聊,竟会成为我职业生涯的重要转折点。迈克尔是澳大利亚最顶尖的遗传病理学家之一。他的实验室,也就是我现在工作的地方,是澳大利亚重要的罕见遗传病诊断中心。记得那天聊着聊着,我提到有时很希望自己也是一名遗传病理学家,迈克尔听罢,笑着对我说现在成为一名遗传病理学家也未尝不可。说者无心,听者有意,是啊,未尝不可!这句朋友间的玩笑话一下子将我点醒,我与遗传病理学的故事就这样开始了。但要成为一名合格的遗传病理学家绝不只是说说而已,此后数年间,我一边接受检验医学专业培训,一边兼顾本职工作,同时还参加了大大小小的考试,只为早日实现这一目标。现在,我既是一名临床遗传学家,也是一名遗传病理学家,每日往返于医院和实验室之间,一边为我的病人安排基因检测,一边还要为外院送检样本撰写检测报告[81]。

我与遗传病理学结缘实属偶然,却可谓恰逢其时。在我刚开始接受专业培训的时候,一种全新的基因检测技术就已经在酝酿之中。接下来的几年里,这一愿景终于成了现实,遗传病理学步入了全新的时代。能够成为这场变革的亲历者和见证者,我何其有幸。

你应该还记得人类全基因组测序成本的大幅下降吧?当年需要耗费数十亿美元的全基因组测序,如今只需要不到1 000美元。从遥不可及到触手可及,全基因组测序究竟经历了什么?詹姆斯·沃森和克雷格·文特尔是最早的两位接受全基因组测序的人。第三位则是一位名叫丹·斯多埃塞斯库(Dan Stoicescu)的瑞士富商。医药化学博士出身的斯多埃塞斯库创办自己的生物技术公司取得了巨大成功,相比于把挣来的钱花在购买豪车或私人飞机上,他选择了测序自己的全基因组。为斯多埃塞斯库测序的是美国生物技术公司Knome,当时这项服务的报价是35万美元。这在当时看来性价比极高,毕竟就在前一年,测序沃森基因组所花费的成本几乎是它的三倍。不想到了第二年,Knome这项全基因组测序服务的价格就跌到了10万美元。这也就意味着,在那段时间购买基因检测服务要有极大的勇气或完全不在乎钱的心态才行。

相较于全基因组测序,Knome公司的外显子组测序服务可能没有那么引人注目,但论重要性,它其实更胜一筹。外显子是真核生物基因组中参与编码蛋白质的片段,基因组中全部外显子的总和即为外显子组(exome)。在人类基因组中,外显子组序列仅占1%—2%,因而与需要读取全部序列的全基因组测序相比,外显子组测序的成本要低得多。此外,鉴于目前已知的大部分致病突变都集中在外显子组中,只对外显子组进行测序也可以达到诊断疾病的目的。

2009年10月5日,一位叫丹尼尔·麦克阿瑟(Daniel MacArthur)的美国科学家在《连线》(WIRED)杂志上发表了一篇关于Knome推出价格24 500美元的个人外显子组测序服务的文章。仅仅5年后,麦克阿瑟就以其主导的人类外显子组整合数据库(the Exome Aggregation Consortium, ExAC)项目在遗传学界名声大噪。人类外显子组整合数据库收集了超过6万人的外显子组数据,两年后的2016年,人类外显子组整合数据库的升级版—基因组整合数据库(Gnome Aggregation Database, gnomAD)问世,它整合了超过125 000份人类外显子组数据和15 000份全基因组数据并面向全世界免费开放,可以说是解读基因检测结果最不可或缺的一大工具。

回望2009年,外显子组测序的临床应用似乎遥不可及。它高昂的价格让一般人望而却步,因而仍是富人和极少数资金雄厚的研究实验室的专利。即使随着时间的推移,人们意识到这种测序方法应用于临床诊断只是时间早晚的问题,但到底还要等多久还很难说。

今天,外显子组测序已不再是遥不可及的梦想,技术进步是最大的“幕后功臣”。这要从人类基因组计划说起,当年该计划所使用的是第一代测序技术—桑格法测序,这种方法须先将待测序的DNA片段进行扩增,再通过一系列测序反应得到可以读取的短小DNA片段,通常一次可以读取几百个碱基。如果你的测序量不是很大,桑格测序法不失为一种很有效的测序方法。一般情况下,一个基因大约包含10—20个外显子。如果用这种方法进行外显子组测序,你需要将这10—20条DNA片段进行扩增、测序,再将测得的序列与已知基因组序列进行比对,工作量很大,但不是不可以完成。这有点像给了你一本体量浩大的书,但只要求你校对各章节的标题。你甚至可以用这种方法对整个基因组进行测序(即校对整本书),毕竟人类基因组计划最早采用的就是这种测序方法,但这是一项耗资数十亿美元、历时数年的浩大工程,哪怕在今天也是如此。且不说用第一代测序技术测序整个人类基因组,即使测序一个人的外显子组都是令人望而生畏的挑战—你要扩增、测序并读取30万条DNA片段。

由此可以看出,如果想让这种大规模测序真正变得触手可及,须另辟蹊径。目前,至少有六种技术可以实现大规模测序,其原理都是化学反应。尽管不同技术所利用的化学反应不尽相同,但它们的核心是一样的:一次读取尽可能多的DNA片段。这类测序技术被称为大规模平行测序(massively parallel sequencing, MPS),又称下一代测序(next-generation sequencing , NGS)、第二代测序。开创这一代测序技术先河的是现已不复存在的454生命科学公司(454 Life Science,以下简称454公司)[82]。这个名字的由来是个谜,有传言称该公司最初所在的街道号是454号,还有一种说法提到454华氏度是金钱燃烧的温度。

言归正传,454公司的创立者是乔纳森·罗斯伯格(Jonathan Rothberg),生物科技领域的史蒂夫·乔布斯。1993年,还是一名学生的罗斯伯格创办了他的第一家基因组公司CuraGen,也就是454公司的母公司。其后,他又创立了多家基因科技公司,其中最有影响力的两家当数RainDance(这个名字起得好多了)和Ion Torrent。

罗斯伯格步履不停,加速基因测序技术创新的背后,是一个父亲对孩子深沉的爱。他的大女儿患有一种罕见遗传病,二儿子诺亚在出生后不久就出现了呼吸困难的症状,他的医生却找不到原因。尽管后来孩子没有大碍,但这件事一直让罗斯伯格耿耿于怀:如果儿子的医生当时能做快速基因检测,就能在第一时间判断像他儿子这样的孩子是否患有遗传病了。从那时起,探寻快速基因检测的方法就成了罗斯伯格的心愿。他也确实实现了这一目标—我工作的实验室里就有一台Ion Torrent研发的Ion Proton测序仪,可以通过快速外显子组测序诊断婴儿是否患有遗传疾病。

在其他更先进、更快速及更便宜的测序仪问世之前,454公司的产品一直是新一代基因测序技术的领军者。詹姆斯·沃森的基因组测序就是由该公司完成的。此外,进化遗传学家斯万特·帕博[83]绘制出第一份尼安德特人(Neanderthal)[84]基因组草图,用的也是454公司的测序仪。这份基因组草图表明,在某种程度上,尼安德特人并没有完全灭绝—由于杂交繁殖,大多数人类都或多或少带有尼安德特血统,约五分之一的尼安德特人基因组在现代人的基因组中“存活”了下来。[85]

要对尼安德特人的基因组进行测序并不容易,因为可供检测的DNA十分有限—经过数万年历史残存的少量珍贵DNA。此外,这些DNA样本已经支离破碎且已发生降解,极少量现代人的DNA都可能对其造成污染。要对这样的基因组进行测序,其难度可想而知。

说到这里,就不得不提到现代遗传学最伟大的无名英雄之一—没错,我所说的正是NA12878。它听上去可能不像个人名,但在检验遗传学领域却无人不知、无人不晓。它确实不是一个真正意义上的“人”,而是一个“瓶子里的基因组”。事实上,这样的“瓶子里的基因组”有很多,NA12878只是其中之一,但它无疑最有名且使用最广泛。这瓶基因组的主人是1980年生活在美国犹他州的一位女性。关于她,我们知道的并不多,只知道那时她的父母都还健在,以及她是11个孩子的母亲(6个儿子和5个女儿)。她和父母同意将他们的DNA广泛应用于科学研究,也同意研究人员采集和使用她孩子们的DNA(至于他们当时是否到了可以自己做决定的年龄,我们尚不清楚)。研究人员在实验室中培养了一些从她身上采集的细胞,以此得到了“取之不尽、用之不竭”的细胞,并从中提取了大量DNA。

研究人员对这些DNA样本进行了一遍又一遍的测序,可以说,我们所了解的关于一个人基因组的一切都源自NA12878。就这样,它成了遗传学的黄金标准。正如世界上所有的“千克”和“米”,最早都以密封存放于法国巴黎国际计量局总部的国际千克原器和国际米原器为基准那样,几乎世界上所有的基因组实验室都以这位女性的基因组作为参考标准。你可以购买成管的NA12878DNA样本(所谓“瓶子里的基因组”就是这么来的),作为标准参照物。以我们实验室为例,我们每月都会对她的外显子组进行两次测序,作为评估测序质量的标准,以保证我们测序的高准确性。之所以选择以NA12878为样本进行测序,是因为我们对其基因组的每一个区域都了如指掌,一旦测得的结果与已知序列有任何出入,我们就知道一定是测序出了差错。如果说沃森、文特尔和斯多埃塞斯库分别是全世界第一、第二和第三位完成基因组测序的人,那NA12878样本的主人无疑是世界上被测序次数最多的人,在这一点上,她以极大的优势获胜。一个人,一个决定,一管血液样本,40年过去了,NA12878,每每有人提起她的“名字”,我都会想她是否还在。如果她还健在,她又是否知道,自己40年前的一个无私之举,改变了多少人的命运?

过去十年间,新一代测序技术已从科幻小说中才有的高科技变成触手可及的现实,如今又步入了临床时代,其对遗传学的影响无疑是颠覆性的—能亲眼见证这一切的喜悦之情无以言表。当我还只是一名临床医生的时候,我见过太多患有智力障碍或其他复杂并发症的孩子,尽管我们怀疑这可能是由遗传导致的,但囿于当时有限的检测手段,我们很难做出准确诊断。偶尔运气好的话,我们能根据孩子表现出的症状做出诊断。但大多数情况下,他们的症状并不典型,我们只能把能做的检查都做一遍,绞尽脑汁把各种可能的病因都想一遍,如果还找不出病因,我们还会查询各大数据库,甚至求助于“畸形学俱乐部”(详见第七章)……但即便是这样,我们仍然一无所获。

为了解决这一难题,遗传学的一个全新研究分支应运而生—经验再发风险(empiric recurrence risks)。原理其实很简单,就是着重观察那些患有某种遗传病的孩子的家族,看这些家族中的其他孩子有没有相同的情况—通过统计患病和未患病孩子的数量得到一个比值。这样,如果今后再接诊患有这种遗传病的孩子,我们就能够利用该数值估计他(她)未来的弟弟或妹妹患病的可能性。以遗传性智力障碍为例,各研究得到的数值不尽相同,但多集中在5%—10%之间。如果下一个孩子有10%的概率出现智力障碍,大多数考虑要不要再生一个孩子的夫妇都会面临两难选择,毕竟10%的概率说高不高,说低也不低。如果是你,你会冒这个险吗?即使你选择冒这个险,你可能也要过很久才能知道这个孩子是否也有智力障碍。

如今,我们的诊断能力有了显著提高—这倒不是因为我们的业务水平有了多大的提升,而要归功于更为先进的检测手段。以染色体检查为例,我们过去用旧的方法检测遗传性智力障碍,检出率可能只有5%,现在即使是更为严重的疾病,检出率也能达到50%左右,而对于一些特定群体,这一比例甚至可能更高。此外,我们还发现很多儿童的遗传病都是基因的新生突变(de novo mutations, DNMs)导致的,即这种突变是孩子新发的,其父母并不携带该突变。这是个好消息,因为它意味着孩子将来的弟弟妹妹患上相同疾病的可能性很小。

这种可能性并非为零,这与一种叫镶嵌性嵌合(mosaicism)的现象有关。如果这个概念对你而言有些抽象,你不妨想象一下由不同颜色的瓷砖镶嵌而成的地板是什么样子。所谓的镶嵌性嵌合与之类似,如果一个人携带某种基因突变,而这种突变仅存在于他的一部分体细胞中,另一些细胞中并没有,这种现象就是镶嵌性嵌合,这样的人就被称为镶嵌体(mosaic)。正如第三章所述,从某种意义上说,我们每一个人都是镶嵌体,因为细胞分裂过程不可避免地会出错。通常情况下,除了很小一部分错误可能会引发癌症外,这些错误几乎不会对我们产生影响。然而,如果这种突变是在受精卵形成之初的几次细胞分裂中发生的,它最终可能存在于一个人体内相当一部分细胞中,有时甚至可能导致遗传病的发生。相比之下,如果一个人的每一个体细胞都带有这种突变(即非镶嵌性嵌合),其表现出的症状往往较轻,而且可能只累及身体的某一部位。以皮肤症状为例,镶嵌性嵌合导致的皮肤病临床特征非常显著,通常肉眼就可以判断。这类患者的皮损比较特别,往往有沿布拉什科线(lines of Blaschko)呈旋涡状分布的特点。所谓的布拉什科线与皮肤的形成有关,反映了胚胎发育过程中表皮细胞迁移和增殖的路径,在正常的体表并不显现[86]。

上面我们说到了突变发生在体细胞中的情况,如果是生殖细胞突变,且突变发生在配子发生的较晚阶段,情况又会有所不同:这种突变最终可能只会影响一小部分细胞。如果父母一方的睾丸或卵巢中有少量携带这种突变的细胞,他(她)就会产生不止一个携带该突变的配子,尽管基因检测并没有检出这种致病基因突变,其多个子代都可能因继承该突变基因而发病。这种生殖腺(睾丸和卵巢)中仅部分细胞携带突变基因的嵌合状态,被称为生殖腺嵌合(gonadal mosaicism)。如果父母生殖腺中的大部分细胞都有两个正常的基因拷贝,那他们生出第二个患病孩子的概率很低,但如果这种突变存在于父母的每一个体细胞中,这一概率就会大大提升。

实际上,这种由生殖腺嵌合导致的一个家庭中不止一个孩子患遗传病的情况十分少见—我只碰到过几例—但这也意味着我们无法完全排除这种可能性,即使我们没有在父母身上检测到导致第一个孩子患病的基因突变,我们也不能保证他们的下一个孩子就一定健康。

读到这里,你可能会有这样的疑问:既然有这么多已知的遗传病,为什么我们以前诊断不出来呢?原因其实是多方面的。首先,有一些遗传病确实是近几年才发现的,借助外显子组测序技术,我们得以发现很多过去没有发现的遗传病,而且发现的步伐日益加快。举个例子,如果我们做了外显子组测序却仍没有找到答案,最好的办法之一就是先把它“搁置一旁”,等过个一年半载再回过头来重新对原始数据进行分析。这时,我们经常会欣喜地发现那些曾经令我们一头雾水的数据都变得清晰明朗起来,做出诊断自然也就不在话下了。

还有一个原因是,很多我们过去认为十分罕见的遗传病,其实远比我们想象的常见,但也更复杂多变,加大了诊断的难度。当然,也不乏确实极其罕见的遗传病,不仅任何医生都不可能对所有这些遗传病了然于胸,我们日常使用的诊断数据库也并不完善。

现在,我们主要利用新一代测序技术进行外显子测序,或者同时对多个特定基因进行检测—后者叫作基因检测组合(gene panel)。利用这种基因组合进行检测的原理很简单:如果你知道与某种遗传病相关的基因只有10个,似乎就没有必要测序2万多个基因。我们有时就会采用这种检测方法:我们对每一个基因进行了测序,但只分析我们感兴趣的那部分基因,其他都忽略不计(我会在第十章分享我们做这一检测的经历)。不过相信过不了几年,等测序成本再降一点,我们就会彻底抛弃外显子组测序,甚至抛弃基于基因组合的测序,直接做全基因组测序。毕竟目前来看,与外显子组测序相比,全基因组测序更有助于我们诊断疾病,且未来随着技术进步,还可能发挥更大的作用。那时,很多我们现在所做的染色体检查可能也失去了存在的意义,因为基因组里有我们所需的一切信息,且更为详细。

那岂不是万事俱备,只欠东风了吗?未来,借助全基因组测序,一切问题都将迎刃而解。但是—你也猜到会有一个“但是”了吧?事情并没有这么简单,我们还面临诸多挑战,其中最大的挑战就是应对未知。

何以见得?这还要从2008年发表在《自然》杂志上的“DNA之父”詹姆斯·沃森的全基因组图谱说起。当时,研究沃森基因组的研究人员发现了所谓的“异常”,并尝试解释这一发现。现在再回过头看,我可以很负责任地说他们的解读完全错误。

事情的来龙去脉是这样的:当时,研究人员发现沃森携带了10种已知的常染色体隐性遗传病的致病变异。这类遗传病的致病基因是位于常染色体(即第1—22号染色体)上的一对等位基因,且基因性状为隐性,只有在纯合状态(两个基因同时发生变异)时才会发病。像沃森那样只有其中一个基因发生变异的个体不会发病,只是该致病基因的携带者。此外,除了这10种当时已知的常染色体隐性遗传病的致病变异,沃森很可能还携带了其他不为我们所知的变异。长期以来,基于对一代堂表亲及其他近亲婚配生子可能产生后果的研究,科学家们推测,我们每个人其实都携带了一两种隐性遗传病的致病基因。有趣的是,对鱼类的研究也得出了非常相似的结论[87]。所以问题就在于,为何沃森会携带多达10种的隐性致病基因呢?说那篇论文的作者尝试“解释”这一发现或许有些夸张了,因为他们的原话其实是:“他(沃森)可能只是碰巧携带了这么多……或许其他人也是如此。”

在接下来的几年里,这一问题的答案才慢慢浮出水面。原来,沃森携带的那10种基因变异虽然在当时被科学界视作致病突变,但随着研究的不断深入,研究人员发现它们中的大多数其实与遗传病并无关联。以今天的标准来看,那10种所谓的致病变异中只有1种真正致病[88],其余9种其实都是“无辜躺枪”的无害变异。

这到底是怎么回事呢?人类基因组高度变异的特性是问题的根源。如果把你的基因组与我的进行比较,你会发现两者的不同之处多达300万个,同样的,我们每一个人的基因组与“参考”基因组相比,也有数百万个不同之处。从这种意义上说,世上根本不存在“标准”人类基因组—如果说当今世界有77亿人口,那么可能就有76.5亿不同的人类基因组(要考虑同卵双胞胎基因组相同的情况)。所谓的“参考”基因组固然可以作为参考依据,但并非唯一标准。换言之,与它有出入未必就异常—事实上,我们基因组中的变异几乎都无害,只有很少一部分可能会导致遗传病。很多变异都位于基因与基因之间,有的变异虽然发生在基因内部,但因为不在基因的编码区,所以也不会影响蛋白质的合成。当我们对一个人的外显子组进行测序时,往往会发现40 000个位于基因编码区的变异。其中一些变异十分常见,也有一些很罕见,甚至还有一些独一无二。即使在今天,如果我们对你的外显子组进行测序,我们也会发现大量从未见过的变异,这点几乎可以肯定,除非你的家族成员(尤其是你的父母)此前做过外显子组测序。

假如你要为一个可能患有某种单基因遗传病(即由一个基因突变导致的遗传病)的人做外显子组测序,你首先要做的,就是在那40 000个可引起蛋白质功能改变的基因突变中,筛选出那一两个你认为可能的致病突变作为重点分析的对象。说这是大海捞针一点也不为过。

当年454公司为詹姆斯·沃森做全基因组测序的时候,很多人连外显子组测序都还没做过,更不可能有可供参考的大型外显子组和基因组数据库。研究人员在沃森基因组中找到的那10种隐性突变,此前都在患有遗传病的人身上发现过,并且在过去十多年发表的论文中都有报告。恕我直言,由于种种原因,这些报告无一例外都是错误的。例如,研究人员发现沃森的RPGRIP1基因上有一处突变,而该基因与一种严重的遗传性眼病密切相关。他的RPGRIP1基因的一个拷贝发生了突变,导致氨基酸序列第547位的丙氨酸(alanine)变为丝氨酸(serine),另一个拷贝则完全正常。

其实早在2003年,一组来自巴基斯坦的研究人员就曾报告过这种基因突变。当时,这些研究人员注意到当地一个家族中有8个来自同一大家庭的成员都患有一种退行性眼病,基因检测结果显示,他们RPGRIP1基因的两个拷贝都发生了突变。此外,该研究团队还在该家族另外两个小一点的家庭中发现了同样的情况。那时,要证实某种新发现的变异确实与疾病相关,而不是正常的变异,最标准的方法就是随机选取100个来自相同族群的健康人进行基因检测(相当于“族群对照组”),看他们是否也携带这种变异。这种检验方法的原理很简单,以该研究涉及的RPGRIP1基因为例,对100位受试者的这一基因进行测序,就能得到200份该基因的拷贝,如果发现这些健康的受试者普遍携带这种变异,就有理由认为这种变异与疾病并无关联。当时,这些研究人员为节约成本,没有直接读取RPGRIP1基因的序列,而是使用了一种廉价的筛查检测—现在看来,该筛查检测肯定无效,因为研究人员没有在对照组的任何一个受试者中检测到这种变异。

除了选用了错误的检测方法,该巴基斯坦研究小组得出这一结论也无可厚非。毕竟丙氨酸和丝氨酸虽说谈不上天差地别,但两者的化学性质还是有所不同。何况能在12个(来自三个不同家庭的)患有相同疾病的人中找到同样的基因突变,通常可以充分表明这种突变与疾病间存在关联。

到2005年,一个荷兰的研究小组发布了关于该突变的最新研究报告,表明该突变属于一种十分常见的变异,因而不可能与罕见遗传性眼病有关,但显然测序沃森基因组的团队当时并没有注意到这一信息。多亏了丹尼尔·麦克阿瑟和他的团队,如今我们知道这种变异其实在世界大部分地区都很常见:基因组整合数据库中近一半的欧洲族裔携带一个或两个这种变异基因的拷贝,(在该数据库包含的140 000份各种族裔的基因组样本中)RPGRIP1基因的两个拷贝都存在这种突变的有近7 000份。如此常见的变异显然不可能引发某种罕见遗传病,如果你测序的对象是像沃森那样的欧洲族裔,发现这种变异就更不足为奇了。

然而在过去的十年间,诸如此类的错误似乎成了遗传学领域不得不面对的严峻现实。诚然,巴基斯坦研究小组选用的检测方法考量不足(南亚人携带这种变异的概率几乎和欧洲人一样高,所以如果该研究小组当时选对了检测方法,肯定会在那100位对照组受试者中检测到这种变异),但综观这段时期遗传学领域公开发表的文献便不难发现,这其实是个普遍存在的问题。对遗传学研究而言,族群数据固然重要,但它并不代表一切—无害而常见的变异常有,无害却罕见的变异也不少。

说到这种误将无害的遗传变异归为致病突变的现象,心脏病遗传学领域可谓“重灾区”。2012年和2013年,由丹麦Rigshospitalet医院的莫滕·奥勒森(Morten Olesen)教授领导的研究小组梳理了遗传性心肌病及遗传性心律失常相关的医学文献,并将这些文献中涉及的致病变异与外显子组变异数据库(the Exome Variant Server, EVS)中的相关数据进行比对。致病变异与外显子组变异数据库是世界首个公共外显子组数据库,尽管它只包含6 500个外显子组样本,但在2011年首次发布的时候无疑是个信息宝库。一番比对研究之后,奥勒森团队发现这些心脏病遗传学文献错漏百出,里面很多所谓的“致病突变”都是人群中再常见不过的变异。他们计算了一下,如果所有的这些“致病突变”都属实,就意味着有1/4的人会患上肥厚型心肌病,1/6的人会患上扩张型心肌病,1/30的人会患上长QT综合征。事实真的如此吗?答案显而易见:很多所谓的有害变异,其实都无关痛痒。

这可能还不是最糟的,因为不仅很多变异都被错误地贴上了“致病”的标签,大量的基因也未能幸免。如果只有偶尔的一两份研究报告将某个基因与某种不相干的疾病联系在一起可能还好,但问题在于它们无处不在。在缺乏科学依据的情况下,这些基因就被冠以“某某疾病致病基因”频频出现在文献中,甚至应用于各类疾病的基因检测中。就这一问题而言,心脏病遗传学也深受其害,CACNB2 和 KCNQ1基因就是两个很好的例子。肥厚型心肌病的基因检测包中通常都会包含这两个基因,殊不知,它们与这种疾病的联系其实微乎其微。这也就意味着,那些想要通过这一检测寻找病因的人,最终得到的答案很可能是:他们携带的CACNB2或KCNQ1突变就是导致他们心脏病的根源。噩梦也许才刚刚开始,这个家族很多人的命运也可能因为这一基因检测而改变,对于那些目前没有任何心脏不适的人而言尤其如此。他们中的一些人其实也有患这种遗传性心脏病的风险,却可能因为没有查出这两种“致病基因”而放松警惕;另一些人明明没有患病风险,却可能因查出“致病基因”而担惊受怕。

其实一直以来,犯错都是遗传学领域的常态,因为关于基因,关于遗传病,我们还有太多的未知。受此影响,世界范围内人们对基因检测的态度也发生了转变,开始变得慎之又慎。虽说分析基因检测数据时谨慎点总没错,但有时过于谨慎也未必是件好事。解读基因检测数据可能犯的错误无非两大类:误把无害变异当成有害变异,误把有害变异当成无害变异。不同错误产生的后果自然也不同。先说第一种情况,如果我们因误诊告诉一对父母他们还未出世的孩子患有某种遗传病,就可能造成严重后果。胎儿可能会接受不必要的治疗,我们对其父母下一个孩子患病概率的判断可能也是错的。这样一来,这对父母做下一胎产前基因诊断的时候,就可能因查出了相同的变异而不得不放弃腹中健康的孩子,或者可能因为该变异的检测结果呈阴性,而未能及时发现胎儿真正存在的问题。而如果我们没能在第一时间辨别出致病的变异,就属于第二种情况。这会让那些真正有需要的胎儿错失接受干预治疗的机会。此外,对于那些被医生告知“再生出一个患严重遗传病的孩子的概率很低”的父母而言,这意味着这颗“定心丸”失效了,他们的下一个孩子可能还会患病。所以,不论是第一种还是第二种错误,其后果都不堪设想。如果读到这里的你也不由得开始担心起来,对要不要再生一个孩子多了几分顾虑,就代表你正在丧失所谓的“生育信心”,而这又意味着你可能失去再拥有一个健康孩子的机会。

因此,对于我们遗传学家而言,把握好“度”至关重要:判断一种变异是否与疾病相关时,既不能操之过急,也不能畏首畏尾。从这种意义上说,遗传学就是恰到好处的科学。

要准确把握好这个“度”并不容易,有时甚至可以说十分困难。假如有足够的族群数据可以证明某一变异确实十分常见,做出判断也许不难。同样的,如果某种变异频频发生在患有疾病的人身上,却从未发生在一般人群之中,那么答案也显而易见。

最难把握的恰恰是介于这两种情况之间的变异。

你也许会想,何不把这一难题交由计算机来解决呢?你不是第一个这么想的人。思索片刻,脑中突然灵光一现:“有了!编写一个能辨别变异好坏的计算机程序不就解决了吗?”一直以来,有这种想法的人比比皆是。目前已有多种可用于基因变异有害性预测的计算机程序,其中大多数都是针对错义突变(missense mutation)研发的。所谓错义突变,指编码某种氨基酸的密码子发生碱基替换,导致其编码的氨基酸种类发生改变。这种氨基酸的替换可能会影响蛋白质的功能,但有时又不会产生任何影响或者影响甚微,因而很难判断它们是致病性突变还是无害突变。(相比之下,密码子发生碱基替换变成终止密码子的突变,辨别起来一般要容易得多。[89])为了开发出能准确预测错义突变的程序,设计者们可谓各显神通,采用的算法有的是利用化学变化,有的则是基于氨基酸序列的进化保守性[90]进行评估。到目前为止,我们已掌握了很多生物的基因组数据。因此,以丙氨酸变为丝氨酸的错义突变为例,如果你对这种错义突变感兴趣,想检验一下亲手设计的程序,不妨用你那灿然一新的程序看一看与人类的相似度由高到低的生物相关蛋白质的同一位置对应的是什么,或者看看(人和其他动物)功能类似的蛋白质的同一区域。

如果你用这种方法分析沃森携带的RPGRIP1变异,那么得到的仍会是一个模棱两可的答案:类人猿和猴子在该位点对应的氨基酸都是丙氨酸,此外,大部分啮齿动物,以及骆驼、奶牛、虎鲸、大象、蝙蝠、土豚和犰狳等都是如此。松鼠、金毛鼹鼠、虎皮鹦鹉和鸭子在该位点对应的氨基酸却有所不同,甚至星鼻鼹在该位点的氨基酸竟然是沃森“同款”的丝氨酸!这可以算是除了同为温血、体表有毛的四肢动物,它与沃森的又一共同点了。当然,能获得诺贝尔奖的星鼻鼹可不多。言归正传,总的来说,沃森RPGRIP1蛋白序列上的这一突变氨基酸在物种进化上并不具有明显的保守性,因而不足以证明这种错义突变会破坏RPGRIP1蛋白的功能(虽然没有相关族群数据做支撑,但也不影响)。

有的时候,这种利用氨基酸进化保守性进行判断的方法非常好用。例如,我们曾在一位患有严重癫痫的儿童体内发现了一种蛋白质变异,令人惊异的是,该蛋白序列上的突变氨基酸(本应为脯氨酸)在所有我们测序过的生物中都一样,从哺乳动物一直向前追溯至牡蛎和变形虫都是如此。由此看来,这一切都是自然使然。从变形虫为代表的原生动物开始,历经腔肠动物、扁形动物……最终到我们人类的出现,是一段跨越了数亿年的进化之旅。既然在如此漫长的时光里,大自然都认为这种蛋白质的这一特定位点上的氨基酸只能是脯氨酸,这个位置可能就非脯氨酸莫属。

一不小心又扯远了,还是回到设计你的计算机程序上来。其实,你不必非要在利用化学原理和利用进化保守性之间选一个,完全可以将两者结合起来。或者你也可以换个思路,从他人设计的程序上汲取灵感,打造一款集众家之长于一身的程序[91]。第一步大功告成,接下来就是用大量已知的有害或无害变异来校准你的新程序,校准完成后再用另一批已知变异进行验证。剩下的就是给你的程序起个响亮的名字,并以论文的形式把它介绍给大家……

付出了这么多努力之后,你设计出了一款比现有程序稍微好那么一点的程序。当然了,你肯定不会这么写,但这似乎是你能期望的最好情况了。而且“稍微好那么一点”其实真的不算什么。就拿市面上那20多款预测变异有害性的程序来说,随便哪一款都能在一个人身上找出数百甚至数千种可能有害的变异,其准确性可想而知。相比之下,这些程序在识别无害变异上的表现尚可,但别忘了一点,人类基因组中大部分的变异都无害,反倒是那一小部分有害变异难以辨别,所以这也算不上什么了不起的成就。

到目前为止,还没有一款程序能准确预测突变的有害性,其背后的原因归根结底还是这一任务本身的复杂性。说得形象点,你需要做的就是把变异分成两大类,装进两个不同容器中:一个巨大的集装箱里装满了无害或轻度有害的变异,还有一个精致的黄金蛋杯用来装那一两个有害的变异。假如你有39 999个苹果和1个橙子,要从这40 000个水果中挑出那唯一的橙子并不难。但要从40 000个变异中找出有害变异就完全是另一个概念了,这40 000个变异毫无规律可循,你根本想象不到一个氨基酸的改变究竟可能引发什么样的问题。

所以,我们现在有族群数据—很实用,但并不全面[92];有预测软件—比没有强一点;还有医学文献可以参考—里面漏洞百出。怎么看起来好像都不堪重用?

好在天无绝人之路,一些从其他渠道获取的信息有时也可以派上用场。其中最有参考价值的要数从一线医生口中得到的信息。或者,如果你想通过基因检测找出某个人患严重癫痫的原因,你在他的某个基因中发现了一个变异,但这个基因只与一种皮肤病有关,那这一变异很可能就不是你要找的答案。除此之外,某种变异在一个特定家族中的传递情况如何、是否会影响蛋白质关键功能的发挥,也是可供参考的信息。

把所有这些可用的信息拼凑在一起,你就应该能够得出一个比较合理的答案了[93]。对基因变异进行分类可以说是我日常工作中最具挑战性又最有趣的部分,尽管碰到那种生死在此一举的选择时要背负极大的压力。和世界上大多数实验室一样,我们也会将评估的变异分为五大类:第一类是无害变异(Benign),这类变异通常十分常见(如沃森携带的RPGRIP1变异),我们可以肯定它们无害。第二类是可能无害的变异(Likely Benign),虽然有大量证据表明这些变异无害,但又不能完全排除它们有害的可能,所以归为第二类。第五类是致病变异(Pathogenic),即那些我们几乎可以确定会导致疾病的变异。第四类是可能致病的变异(Likely Pathogenic),有足够的证据表明这类变异可以致病,但又不足以将它们归为第五类。对“可能无害”和“可能致病”这两类变异而言,它们与我们的判断相反的概率很高(理论上高达10%)。

位于中间的就是第三类,意义不明的变异(Variants of Uncertain Significance, VUS),顾名思义,就是那些我们无法确定好坏的变异。这类变异一直以来都被形象地称为“遗传学的两难境地”。如果没有足够的证据表明某种变异“可能致病”或“可能无害”,或者证据之间相互矛盾,那这种变异就属于意义不明的变异。最重要(往往也最难判断)的,是那些在“意义不明”和“可能致病”之间徘徊不定的变异。不管是把前者错判为后者,还是反过来,其结果都不堪设想。夜深人静的时候,我时常会陷入自我怀疑:“我有没有误把哪个意义不明的变异判断成了可能致病的变异,误导了病人和她的医生?”“我是不是把哪个可能致病的变异当成了意义不明的变异,让原本还有其他选择的病人和医生变得束手无策?”又是一个不眠夜。

[81]  你为自己安排的复杂检测撰写检测报告可能失之偏颇,因为你的主观偏见可能会影响你的判断,导致你遗漏意料之外的发现,或是让你过分看重符合你预想的检测结果。

[82]  454生命科学公司已于2007年被罗氏集团(Roche)收购。—译者注

[83]  斯万特·帕博(Svante P??bo,1955— ),又译为施温提·柏保,瑞典著名生物学家、进化遗传学家,古遗传学领域的开创者之一。—译者注

[84]  尼安德特人是大约12万— 3万年前居住在欧亚大陆的古人类,属于晚期智人,因其化石发现于德国尼安德河谷而得名。—译者注

[85]  从那以后我们才知道,原来我们的基因组中还有其他古代人类的痕迹,包括丹尼索瓦人(Denisovans)。2008年,研究人员在俄罗斯丹尼索瓦洞穴中发现了他们的一根指骨和一颗牙齿,故将他们命名为丹尼索瓦人。

[86]  你也可以把每一个拥有两条X染色体的人(包括大多数女性)都看作镶嵌体,因为两条X染色体中任意一条上的某个基因变异都只会在那条特定X染色体处于激活状态的细胞中表现出来。因此,患有一些X连锁遗传性皮肤病的女性,其皮损就会呈现沿布拉什科线分布的特点。这样的皮肤病包括戈尔茨综合征(Goltz syndrome)及名字极富画面感的色素失禁症(incontinentia pigmenti)。

[87]  为了开展这一研究,研究人员将从野外捕获的鱼放在一起,让它们进行近亲**繁殖。这样的研究在人类遗传学领域是不被允许的。

[88]  所谓“致病”是只有在该基因的另一个拷贝也携带这种变异的情况下才会致病。如果一个人只有一个基因拷贝携带这种变异,另一个拷贝完全正常,那么他就不会发病。

[89]  这种编码某种氨基酸的密码子变成了不编码任何氨基酸的终止密码子的突变称为无义突变(nonsense mutation),其结果是肽链合成提前终止,产生过短、通常没有功能的蛋白质,进而可能导致肿瘤及多种遗传病。因此,无义突变大多为致病性突变。—译者注

[90]  在探究某种蛋白质的功能时,通常会分析构成这种蛋白质的各个氨基酸在不同物种间是否保持一致,这就是所谓的“进化保守性”。一般而言,一种氨基酸的进化保守性越高,说明其对蛋白质的功能越重要,这些氨基酸的突变具有致病性的可能性也更高。—译者注

[91]  或者,为什么不呢?你也可以将这种氨基酸的改变与假设的人类和大猩猩的共同祖先进行比较。这可不是我编的,目前市面上最为成功的变异有害性预测程序之一—CADD就是以此为基础设计的。

[93]  现在,我们有各种各样的评估体系可供参考。其中最受欢迎、使用最广的当数由美国医学遗传学与基因组学学会(American College of Medical Genetics and Genomics, ACMG)于2015年发布的新版指南,它虽称不上完美,却无比实用。一提起这份指南,整个遗传学领域无人不知、无人不晓,即便那些没有亲自用过的人,也一定听过它的大名。