第二章 DNA晚宴《基因宇宙》全文阅读

不过也有一些人能够登上天国，触摸那把开启永恒殿堂的金钥匙。

—约翰·弥尔顿

看着面前两杯半满的烈酒，我陷入了沉思。它们被精致地码放在一个小巧的木质托盘上，紧挨着我的甜点勺。每个人的桌前都有这样的标配。我的餐前酒还有大半杯：一方面，我并不是很想跳过它直接喝烈酒；另

一方面，此刻空气里弥漫着的欢庆气氛，又让我对这两小杯酒有些心动。

幸好，不论是我，还是其他坐在这个偌大而又拥挤的酒店舞厅里的人，终究还是抵挡住了**。毕竟，在庆祝DNA双螺旋结构发现50周年这样一个极具纪念意义的场合，如果有来宾在晚宴上“中毒”可就不好办了。

这场DNA晚宴是2003年在澳大利亚墨尔本召开的第19届国际遗传学大会的一大亮点。会议的组织者是一群从善如流而又勇敢无畏的人。虽然可能有那么一点危险性，但今晚绝对是令人难忘的一晚。估计你也能猜到，会场肯定少不了各种巨大的螺旋形气球，但有点出人意料的是，这些气球看上去有些特别。虽然不知道是谁，但负责设计它们的人一定是想让这些“双螺旋”看起来“瘦”一点；所以我们最终看到的成品看上去更像“三螺旋”[30]。会上，人类基因组计划的总协调人弗朗西斯·柯林斯[31]拿起了吉他，对着人类基因组演唱《祝你生日快乐》。

紧接着， “毒药”重磅登场了。

平心而论，抛开潜在的危险性不谈，这是个绝妙的主意。其中一个杯子里装着几近完成的某种植物DNA的提取物，另一个杯子里装的则是完成提取所需的最后一种原料。在夜幕刚刚降临的时候（也许就在天黑前的最后一刻），司仪让我们把其中一个杯子里的东西倒进另一个杯子里，然后神奇的一幕上演了，DNA真的分离出来了。今夜我们都为它而来，而此刻它就这么真真切切地呈现在了我们面前。

你在家里也完全可以做这个神奇的实验，用的都是一些再普通不过的原料（其中只有一种带有毒性）。听说烹饪书很畅销，这不，食谱来了：

原料：草莓适量（一般两三颗就够了，主要看草莓的大小），水，食用盐，洗洁精，消毒酒精（异丙醇，没有的话也可以用甲基化酒精代替）。

具体步骤：

1.在半杯温水中加入一小茶匙食用盐，搅拌直至其完全溶解。

2.在盐水中加入两茶匙洗洁精并轻轻搅拌（不要产生泡沫）。

3.把草莓放入装三明治用的密封塑料袋中并将封口封闭，再用手将草莓完全捣碎。

4.把备好的含洗洁精的盐水倒入装有草莓的密封袋中。

5.充分搅拌，但动作务必要轻，避免混合液产生泡沫。

6.用一张咖啡滤纸将混合液过滤至玻璃杯中，杯中**的量一定不能过少。为了便于后续操作，最好不要选用细长形的杯子。

7.将消毒酒精沿杯壁缓缓地注入杯中，与草莓提取液的比例控制在1∶1左右。此时酒精会悬浮在最上层。

8.杯中的溶液已具有毒性，请勿饮用。

9.现在，你只需要把一切交给时间，静静地等待黏稠的白色絮状物从溶液中析出，那便是你要的DNA。

如果你有兴趣的话，不妨用一根木棍把析出的DNA从玻璃杯里挑出来仔细观察，你会发现它有很多有趣的地方。首先，用木棍挑起絮状的DNA在杯壁上轻拍几下，团块的体积就变小了。这时，再小心翼翼地将它从溶液中提起，你就能得到一根细长的丝状物。DNA具有黏性，可以松散或紧密地盘绕在一起，所以你所看到的团块体积的减小，实际上是处于松散状态的DNA更加紧密地盘绕在了一起。你从溶液中提取出的那根细丝状DNA则是一长串独立的DNA链，只不过从容器里提出来的时候黏在了一起。

你一定要亲手尝试一下。要知道，这种手握生命密码的感觉十分绝妙，虽然它不管看上去还是摸起来都像极了鼻涕[32]。

弗朗西斯·柯林斯无疑是那天DNA晚宴上的焦点，不是因为他的吉他弹唱（虽然确实好听），而是因为他在人类基因组计划中所发挥的引领作用。三年前，也就是2000年的6月26日，时任美国总统克林顿在白宫举行的记者会上郑重宣布，人类基因组计划草图绘制完成，时任英国首相托尼·布莱尔也以卫星视频的形式参会。招待会上，备受瞩目的除了柯林斯和他领导的由国际公共基金资助的人类基因组计划，还有一家名为塞雷拉[33]的私人公司。1998年是国际人类基因组计划启动的第8年，同年，塞雷拉公司成立并宣布其将利用最新技术在3年内完成人类基因组的测序工作，一场人类基因组测序的公私对决就此打响。克雷格·文特尔[34]率领下的塞雷拉与人类基因组计划国际公共团队势均力敌，最终打成了平手—双方同时宣布人类基因组工作草图绘制完成。

一些人可能会说，此时庆祝还为时过早，毕竟这一基因组序列中还有很多的裂口—不少于150 000个，而且还有至少10%的序列缺失。事实上，2003年4月14日，中、美、日、德、法、英6国科学家才联合宣布，人类基因组计划的测序工作全部完成；然而，即使那时的基因组序列仍有许多裂口。到2004年，情况有了很大的改善，但仍有341个裂口亟待填补。时至今日，这项庞大的工程也没有完全完成。

尽管如此，在2000年首次宣布的时候，一份较为完善的工作草图已经诞生了。说句公道话，这也确实符合当时宣布的“人类基因组计划草图绘制完成”。对大多数研究人员来说，这份草图的意义在于，他们可以通过查阅这些数据获取某个他们感兴趣区域的详细信息，并且大多数情况下都能找到答案。那确实是一个激动人心的时刻，但对于我们这些临床一线的医务工作者来说，这份基因序列的意义似乎还不得而知。

那要从2001年末的一天说起，那天，我们部门收到了一份包裹。塞雷拉公司为我们免费寄来了一张存有人类基因组的光盘。我们兴冲冲地拆开包裹，将光盘放入电脑，准备一探究竟。但是，很快我们便放弃了，因为我们根本无法解读这些信息，更不用说将其与我们的病人联系起来了。事实证明，人类基因组数据从产生到普遍应用于遗传病的诊断和临床治疗，耗费了十多年的时间。如今，我每周都要访问无数次由加州大学圣克鲁兹分校创立和维护的基因组数据库（UCSC Genome Browser）。可以说，没有它我就无法工作。

那么，基因组里有什么？我频频浏览加州大学圣克鲁兹分校的数据库又到底是为了找什么呢[35]？

你还记得从草莓里提取出来的白色黏稠物吗？它由四种不同的化学物质组成，分别是腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶，首字母分别是A、C、G、T，它们被统称为“碱基”。碱基大多数时候都以碱基对的形式存在，这是因为DNA通常为双螺旋结构，人类基因组含有约30亿个碱基对。这种双螺旋由两条单链组成，它们互为补充。一条链上的A与另一条链上的T配对，而C则与另一条链上的G配对，所以双螺旋结构是这样的：

这两条链的方向是相反的，DNA有特定的转录方向。这一方向与其被复制和翻译以合成蛋白质有关。与“GATTACA”形成互补的链会被细胞解读为“TGTAATC”，而非“CTAATGT”。

让我举一段自己最喜欢的基因组—TBX20基因的一部分，我取得博士学位它功不可没。如果以相同的字距打印在A4纸上（单面打印），你要用781 250张纸才能打印出完整的人类基因组。如果每张纸的厚度是0.1毫米，你需要一沓78米厚的纸，大致相当于悉尼歌剧院和自由女神像的平均高度。当然，如果没有一把关键的钥匙，这就是一大堆毫无意义的字母罢了。一旦掌握了这把钥匙，这沓纸揭示的就是无尽的科学财富。

那么，这把钥匙究竟是什么？基因组里又暗藏了什么玄机？事实证明，破解基因组奥秘的钥匙远远不止一把。其实，我们的DNA诉说着很多故事，关键是你能不能读懂。

正如前一章中所述，我们体内的染色体是成对存在的。这是因为你有一半的遗传信息来自你的母亲，一半来自你的父亲。同理，你也会把一半的遗传信息传给你的每一个孩子。你的1号染色体一条来自母亲，一条来自父亲，其余22对染色体都可以以此类推下去。1号染色体是人类染色体中最大的一条，它含有近2.5亿个碱基对，其上的基因数超过2 000个。最小的是21号染色体，含有不到5 000万个碱基对，只有几百个基因。不起眼的Y染色体比21号染色体长一点，但只有约50个基因。

在我们的细胞核外其实还有一些DNA，这便是我们的第二基因组，一个很小的基因组（它仅由16 569个碱基对组成，共包含37个基因）。它存在于一种叫线粒体的结构中，这一点之后会详细介绍。

基因这个概念你一定不陌生，毕竟基因组中最有名的就要数基因了。正如我之前解释的那样，基因的作用就相当于一张蓝图，告诉细胞如何合成蛋白质。你体内的一切生命活动都离不开这些蛋白质的参与。在人类基因组中，这种指导蛋白质合成的基因只占约1%—2%。

剩余的基因中到底有多少真正发挥作用，目前众说纷纭。其中一些非编码DNA肯定是有用的，而且扮演着重要的角色，着丝粒就是个很好的例子。它位于染色体的腰部，在细胞分裂中发挥着指导染色体运动的重要作用。正是由于着丝粒的存在，染色体才能够正常分离并均匀分配到两个子细胞中。如果这一环节出错，后果将不堪设想。在染色体的末端还有一种叫端粒（telomere）的结构，相当于给染色体戴上了“保护帽”。你应该听过伯纳德·布雷斯劳的那首关于脚的歌《你需要双脚》，其中有句歌词是：

你需要双脚穿上袜子

以保护它们不被磨破

染色体当然不会穿袜子，但就像你的双脚一样，它们的“脚”也怕磨。随着年龄的增长，你体内染色体的端粒本身也会有一些“磨损”，会随着细胞分裂次数的增加而逐渐变短。很多癌症都会伴随端粒的明显缩短，有时端粒甚至会完全消失，使得染色体的末端**在外，极易受到损伤。令人费解的是接下来发生的事：细胞发生癌变的过程中，它们染色体的端粒会“重获新生”。这是癌细胞得以“永生”的一部分原因。

虽然编码蛋白质的基因只占人类基因组的1%—2%，但人类基因组约四分之一的区域都有基因分布。造成这种差异的原因是，大多数基因都是由两种序列组成的，即内含子（intron）和外显子（exon）。外显子能够编码蛋白质，也就是说它们的序列决定了蛋白质中包含何种氨基酸，以及何时开始和停止。相比之下，内含子不编码任何东西。它们发挥着某种作用，这点毫无疑问，只是我们目前还不得而知[36]。内含子的体积可能非常庞大，包含成千上万个碱基对。有时候，一个基因的内含子大得足以装得下一个在另一条DNA链上的基因。

你可以在TBX20基因上找到外显子和内含子。你甚至可以在DNA序列中看到一些基因组的“操作指令”。每一个内含子都以G、T两个碱基开头，以A、G两个碱基结尾。于是，G、T和A、G共同构成传递给细胞的一大关键信息，即“这里有一个内含子……好了，不需要蛋白质了—请停下来”[37]。

人类基因组中有多少基因真正发挥作用？关于这个问题，我们还没有找到答案。2012年9月，继人类基因组计划之后的又一重大跨国基因组学研究项目—DNA元素百科全书（the ENCODE project）的阶段性研究成果被整理成了30篇论文，同时发表于《自然》（Nature）等学术期刊。让30篇文章同时发表非同小可，这需要多少科学家的通力合作才能完成，光这一点就已经是一个很了不起的成就了，完全不亚于论文内容本身。ENCODE项目研究团队认为，80%的人类基因组具有某种确定功能。其中最主要的据称是控制其他部分的功能—对细胞生物学的一种颇具官僚主义气息的解读。该消息一出，当时便招致了很多批评，这么多年过去了，争论还在继续。最近发表的一篇论文则认为，只有8%的基因组有功能。这两项研究得出的结论可谓天壤之别。我虽然不知道正确答案，但我觉得这一比例应该不会低至8%，也不会高达80%。

有很大一部分基因组看起来就像基因残骸一般—都是一些经过漫长进化而失去功能的基因及其他成分。例如：我们的基因组中有很多破损的嗅觉受体基因，它们不能发挥任何作用。这是因为在进化初期，我们的祖先需要敏锐的嗅觉才能生存下去，但很长一段时间以来，我们依靠相对不那么敏锐的嗅觉也过得很好。即使这些基因发生了突变，对我们也没有什么影响，破损的基因也就这么遗传给了下一代。你从你父母那里继承了数百个破损的基因，而你又会将它们传递下去，或者说已经传递下去了。尽管这些基因是由破损的基因“原封不动”地复制来的，它们依旧不会产生任何影响。

人类基因中还有很多重复序列，似乎也没有多大作用。有时候，病毒会通过复制将自己的DNA整合到宿主DNA中，这就使得宿主基因组中散布着大量看起来像旧病毒的序列。还有一种情况是DNA片段在所谓的复制事件中复制。想象一下，假如你有多余的某个基因拷贝，那么即使其中一个丧失了功能也无伤大雅。所以在你的基因组中，一个基因往往有两个版本，一个具备正常功能、一个失去功能，后者也就是所谓的假基因。还有一些DNA片段似乎单纯是DNA自我复制的产物，仅此而已。毕竟这些长长的序列看起来毫无特别之处（如ATATATATATATATATAT……）。

总的来说，到底基因组有多大部分能够发挥作用似乎对我们没有什么影响。一方面，现阶段的人类基因组完全够用，足以满足我们的生活需求；另一方面，即使有任何问题，相信都可以通过DNA自我复制的能力和各种引入新DNA片段的机制来解决。很多生物的基因组比我们大得多，好吃懒做、无所事事的DNA自然也多得多，但它们不是照样活得好好的吗？无恒变形虫的基因组据称比我们人类基因组的200倍还要大。看上去毫不起眼的洋葱的基因组也有我们的5倍大。你还是可以轻松吃掉它（或者提取它的DNA），而不是反过来。河豚的基因组只有人类的八分之一，却比洋葱复杂得多。

看起来，拥有过大的基因组确实要付出代价，起码在艰苦的条件下是如此。有一种叫墨西哥野玉米的植物据称是“玉米的祖先”。2017年，曾有一篇论文对生长在不同海拔的几种墨西哥野玉米的基因组进行了对比。虽然拥有巨大基因组的植物很多，但至少对于墨西哥野玉米而言，所处的海拔越高，基因组就越小。换言之，如果你生活在高山上，周边的环境也十分恶劣，你根本不可能把精力浪费在复制无用的DNA上。

从这个角度来说，人类的基因组可能不大不小刚刚好，其中的每一个部分都扮演着重要的角色。如果是这样，未免也太巧了。更有可能的是，人类基因组中确实有相当一部分的“无用”DNA。

这并不是说人类基因组就没有任何特别和有趣之处了。刚开始从事遗传学工作时，我曾信心十足地告诉人们，人类基因组包含约100 000个基因—毕竟我们是这么重要和特别的生物，没有足够多的基因说不过去，不是吗？然后这个估算值便开始降低……降低……再降低。到人类基因组计划完成的时候，这一数字已降至20 000出头。部分原因是我们基因的结构相当复杂，而且很多基因都有不止一个功能。有时候，这意味着以略微不同的方式完成相似的任务，就像肌肉蛋白质的组成会因其在心肌还是普通肌肉中发挥作用而有所不同；而有时候，这意味着同样的蛋白质可以做截然不同的工作，也就是所谓的“兼职”。例如，有一种酶既可以用作化学反应的催化剂，还可以保持晶状体的透明。

这其实适用于很多生物的基因组，对于黑猩猩的基因组则是完全适用。黑猩猩，尤其是倭黑猩猩（又称侏儒黑猩猩）的基因与我们相似度极高。火星人甚至可能会把我们当成同一动物的不同变种。可以说，我们与黑猩猩的关系比非洲象和亚洲象的关系还要亲近。因此，你可不能怪我们的外星朋友分不清楚了。

我们是怎么知道这些的？这又要从人类基因组计划说起。

最初构想的时候，人类基因组计划是个雄心勃勃的计划。当时，只完成了一小部分基因的测序。我们所掌握的通常是一种轮廓草图，实际上相当于一张地图。你经常听到的“绘制基因图谱”其实就是第一步。但我们现在不会绘制一个人的基因图谱了，因为这项工作早已完成了。就像你不需要整个社区的地图也能找到某个人的房子一样。基因图谱不像街道图，因为它是一维的而不是二维的，标示的无非是构成染色体的DNA链上基因的分布情况。要绘制这样的一份图谱，标记必不可少，也就是所谓的遗传标记或标记基因（genetic signpost）。这些标记之间存在着某种既定联系，而且组成这些标记的DNA片段往往可以通过独一无二的方法识别出来。假如我们有三个这样的遗传标记，分别是A、B和C。如果我们绘制一份包含这三个标记的基因图谱，它至少能够反映出它们在染色体上的排列顺序（比如说，是A—B—C，而不是A—C—B或者其他任何可能性）。更好的版本也许会告诉我们这三个遗传标记都分布在1号染色体上，而不是其他任何染色体。最为实用的图谱还能告诉我们它们之间的间隔。

最早的基因图谱是绘制于的20世纪初的果蝇基因图谱。到1922年，研究人员已经将控制50种不同性状的基因定位到了果蝇的四对染色体上，这些都是可以直接观察到的外表形态差异。研究人员会仔细确认果蝇具有的多种特征，并将它们与其他同样经过仔细检查的果蝇进行配对，对诞生的后代也要挨个仔细检查。这是一项严格而艰巨的工作，让我们学到很多遗传学的基本知识，也让我们掌握很多行之有效的方法，这些方法不仅推动了整个20世纪的遗传学研究，对人类基因组计划的成功也功不可没。

例如，下面是一份早期的果蝇X染色体基因图谱：

y...................w................................................v............m

在这一图谱中，字母“y”代表“黄体”，“w”代表“白眼”，“v”代表“朱红眼”，而“m”则代表“小翅”。这张图谱表明，黄体和白眼这两个性状密切相关，它们更有可能一起遗传，而小翅这种突变型基因则更可能与朱红眼，而非白眼一起遗传。这张遗传图谱的作者是阿尔弗雷德·斯特蒂文特[38]，又一位几乎被世人遗忘的天才。1913年，这一成果最终以论文形式发表时，他年仅21岁。斯特蒂文特是著名遗传学家托马斯·亨特·摩尔根[39]的学生。他似乎是一个神童，小小年纪就已经在遗传研究方面有所建树了。这个天赋异禀的少年在十几岁的时候就通过一篇文章引起了摩尔根的注意。那时，斯特蒂文特基于自己从小在父亲农场观察的经历，写了一篇关于马匹毛色遗传的论文。正是这篇文章给摩尔根留下了深刻印象，他鼓励斯特蒂文特将文章发表在科学期刊上，并邀请他加入了自己的实验室—接下来的故事不用我说你们也知道了。

这只是一个开始。

之后，斯特蒂文特开启了漫长而辉煌的科学生涯，这期间除了娶同在一间实验室工作的技术员菲比·柯蒂斯·里德为妻，他追求科学真理的脚步几乎从未停歇。斯特蒂文特和里德有三个孩子，在这样的家庭中长大的他们，想必从小耳濡目染的都是遗传学知识。

对于绘制遗传图谱的遗传学家们而言，20世纪的大部分时间里他们都在艰难摸索中前进。从使用肉眼可见的形态标记逐渐扩展到生化标记及其他遗传标记，从酵母的遗传图谱到人类的遗传图谱，都见证了遗传学家们的不懈努力。直到1987年，也就是斯特蒂文特去世17年后，第一张覆盖整个人类基因组的遗传连锁图谱才绘制完成—407个遗传标记分布在人类的23对染色体上。如果说人类基因组计划是遗传学的“登月计划”，那么斯特蒂文特早期创作的遗传图谱就相当于莱特兄弟的第一次试飞。

就这样，到20世纪80年代末，我们终于有了一张人类基因组的轮廓图。它就像那些早期探险家们手中的世界地图，勾勒出我们体内那23块“大陆”的轮廓，标示出其上散布着的一个个“路标”（那407个遗传标记）。然而，除了一些重要的“港口”—那些围绕着致病基因的已知DNA序列，在我们这份地图上几乎找不到任何其他细节。

从这样一张包含407个标记的草图到详尽的遗传图谱，最终到完整人类基因组序列的诞生，需要借助一些特殊的工具，桑格测序法（Sanger sequencing）便是其中最重要的工具之一。

你一定听说过玛丽·居里[40]，她曾因在物理和化学领域的突出贡献两度荣获诺贝尔奖。莱纳斯·鲍林[41]这个名字你应该也不陌生，他也是两项诺贝尔奖（1954年诺贝尔化学奖和1962年诺贝尔和平奖）得主。但我不得不承认，在我开始写这一章之前，我从未听说过约翰·巴丁[42]。说来惭愧，似乎我们都欠这位两获诺贝尔物理学奖的科学家一声“谢谢”。巴丁是晶体管的发明者之一，同时也是BCS超导理论[43]的提出者。可以说，如果没有巴丁的发现，就不会有你使用的手机。我能用电脑打下这些文字，也要归功于巴丁。

鉴于我们探讨的是遗传学，弗雷德里克·桑格无疑是四位[44]两度获得诺贝尔奖的科学家中最了不起的一位。桑格是一位英国生物化学家，发现了测定蛋白质氨基酸序列的方法，并因此第一次获得了诺贝尔奖。桑格还是一名贵格会教徒，在二战期间获得了（因道义或宗教原因）拒服兵役者的正式身份，这真是万幸—倘若他不幸牺牲在了战场上，对整个世界该是多么大的损失。

桑格选择首先研究的蛋白质是胰岛素，即糖尿病患者体内缺乏（或不起作用）的一种调节血糖的激素。自20世纪20年代早期以来，胰岛素就已被成功应用于糖尿病的治疗，而在50年代早期，胰岛素也是为数不多的纯蛋白质之一。这背后的故事本身就是科学史上极为特别的一页。

关于医学突破的媒体报道往往有两种：一种是小题大做，看似夺人眼球，实则不过是数年前就取得的小小进展；另一种则是操之过急，看似前景光明，但实际上还处于动物研究阶段，或许永远也不可能应用于人体。我和我的博士导师理查德·哈维就曾接受过国家电视新闻的采访，谈论一项我们甚至还没做过的研究。在此之前，我们的这项研究得到了美国国立卫生研究院的资助，而我们研究所的公共事务部不知怎么就把这件事当作重大新闻卖给了一家电视网。几年后，当我们真正完成了这项研究并将结果发表时，我们的名字甚至都没有出现在一份地方报纸上。

纵观医学史，真正的医学奇迹也时有发生。青霉素便是个很好的例子，它的问世让许多严重威胁生命却又无法医治的传染病一下子变得有药可医。不过，要说真正的灵丹妙药，当数胰岛素无疑[45]。

多尿症（diabetes）主要有两种味道—我特意用了这个词。糖尿病（diabetes mellitus，DM）是目前为止最常见的一种多尿症，“mellitus”源自拉丁语，意思是“像蜜一样甜”，这是因为糖尿病患者的尿液带有甜味。相较之下，尿崩症（diabetes insipidus，DI）患者的尿液是淡而无味的，说得更形象一点，如果它是款饮品，你最爱餐厅的侍酒师肯定不会向你推荐它。

根据对胰岛素治疗的不同反应，糖尿病又可以分为两大类。如果你的胰腺无法正常分泌胰岛素，那么你需要的就是一种替代品，可以通过注射胰岛素来弥补体内胰岛素的不足。这种胰岛素依赖型糖尿病（IDDM，又称Ⅰ型）是我们在这里着重探讨的类型。如果你体内胰岛素分泌正常，但起到的作用甚微，你得的就是非胰岛素依赖型糖尿病（NIDDM，又称Ⅱ型），与第一种类型截然不同。如你所料，在这两大类的基础之上，糖尿病还可以进一步细分为多种类型。本书后面的章节里就会提到一种影响新生儿的罕见糖尿病。

胰岛素的作用主要是促进组织细胞对葡萄糖的摄取和利用。离了胰岛素，你体内的细胞就如同“糖盲”—它们无法辨别葡萄糖，更别提利用了。久而久之，这些无法被细胞利用的葡萄糖就会在血液中累积，一部分会经尿排出，形成“糖尿”。葡萄糖排出体外的过程中还会带走大量水分，导致你出现多尿症状，而尿得多了，脱水的风险也就升高了。与此同时，即便你体内有这么多葡萄糖，它们也不能为细胞所用，所以你的身体细胞仍处于一种饥饿状态。

20世纪初，人们就已经知道摘除狗的胰腺会让它患上糖尿病并在两周内死亡。不幸的是，对人而言也是如此。糖尿病多发于儿童时期，而患上这种病在当时无异于被判了死刑。患者也许能够撑过几周或几个月的时间，但最终还是会陷入昏迷并很快死亡。

人类与糖尿病抗争的故事有好几位主人公，他们都是加拿大人。弗雷德里克·班廷是一名外科医生，他想到了能否从狗的胰腺中提取某种可用于治疗糖尿病的物质。此前已经有人尝试过，但均以失败告终。

胰腺除了能分泌胰岛素，还能够分泌消化酶。结合这一点，班廷认为之前人们通过研碎胰腺组织来提取这种激素的尝试之所以失败，正是因为这些消化酶在研磨过程中与胰岛素充分接触导致后者完全分解。于是，他想到了一个方法：将胰腺上用于输送消化液至肠道的胰管结扎，让合成分泌这些消化酶的腺泡细胞萎缩死亡。他希望可以通过这种方式提取出不含酶的胰岛细胞，为之后制备纯净的胰岛素做准备。为此，班廷找到了母校多伦多大学首屈一指的糖尿病研究专家约翰·麦克莱德[46]寻求帮助。经过一番周折，他最终说服了麦克莱德教授为他提供证实这一想法所需的资源，包括10条狗和一名助手—一位叫查尔斯·贝斯特的医学生。有趣的是，在医学层级体系中，医学生的地位就比家畜略微高一点，直到今天也是如此。

据说贝斯特是医学史上抛硬币的最大赢家。麦克莱德原本给班廷派了两名学生做助手，一位是贝斯特，另一位是他的朋友克拉克·诺布尔。但班廷实际上只需要一名助手，于是他们二人决定以抛硬币的方式决定谁先与班廷一起做研究，最终贝斯特成了那个幸运儿。起初，他们打算在夏天过半之后互换，但那时贝斯特已经上手了这份工作（并且确实做得得心应手），商量后他们决定贝斯特留下来。谁也没有想到，这枚小小的硬币抛掷的是一份科学的无上荣光。

事实证明，班廷的想法是对的。初期在狗身上进行的实验取得了鼓舞人心的成果，到1922年1月，人体临床试验也提上了日程。这就要提到我们的另一个主人公，詹姆斯·克里普[47]。他发现了纯化胰腺提取液的方法，提高了这种疗法的安全性。当时，第一位受试者注射未完全纯化的狗胰腺提取液后出现了严重过敏反应，试验不得不暂停。这时，麦克莱德教授请来了当时正在多伦多大学访问的生物化学家詹姆斯·克里普。他的加入使临床试验再次重启，很快便取得了显著成效。正是在这一时期流传了很多糖尿病患者接受治疗后奇迹般恢复的故事，其中值得一提的是班廷团队制得纯净胰岛素后的情景。据称，当时多伦多总医院里躺满了陷入昏迷、奄奄一息的糖尿病患儿，班廷等人从房间的一头开始给这些孩子注射胰岛素，他们就这样一个接一个地注射下去，等他们打到最后一个孩子时，第一个接受注射的孩子已经从昏迷中苏醒过来了。

即使这个故事是真的，你肯定也不能从首篇关于胰岛素治疗的科学报告中看出这一点。这篇刊载于《加拿大医学协会杂志》（Canadian Medical Association Journal）的文章写得枯燥至极，直到第二页过半（这篇文章总共也就五页多一点）才第一次提到这是一项在人身上开展的治疗。最后得出的结论也是慎之又慎：（简言之）“我们能够测得患者血液发生了一些变化，而且他们看上去似乎好一些了。”

然而，就算班廷和他的搭档们不愿自吹自擂，他们发现胰岛素的消息依然不胫而走，并很快在全世界引起轰动。第二年，瑞典皇家科学院授予了班廷和麦克莱德诺贝尔生理学或医学奖。班廷当天就宣布要与他的助理贝斯特共享奖金，而麦克莱德最终也决定将自己的那份奖金与克里普分享。当时，虽然发现胰岛素的消息已传遍大街小巷，但胰岛素的大规模生产尚需时日，这对于那些刚诊断出患糖尿病的患者家庭意味着什么，我们难以想象。一定有很多人还没等到胰岛素就死去了，而一些幸运的人或许能在生命的紧要关头等来这剂救命良药。

不管怎样，30年之后，当弗雷德里克·桑格需要某种纯蛋白进行研究时，他只须漫步到当地的药店买一瓶，仅此而已。所谓桑格测序法其实就是一种简化处理，桑格没有选择直接读取整个蛋白质的氨基酸序列，而是将蛋白质长链分解成了一个个短小片段。他先用独创的化学方法测得这些片段的氨基酸序列，再利用这些小片段的重叠关系将它们拼接起来，最终得出这种蛋白质的完整氨基酸序列。这一方法对科学研究产生了深远影响。众所周知，近50年之后，克雷格·文特尔的公司塞雷拉就用基本相同的方法测出了人类基因组序列。直到今天，桑格测序法仍是遗传学领域的一项重要技术。2018年，研究人员也是用这种方法完成了考拉的基因组测序。

桑格的发现绝不仅仅是得到“这是胰岛素的序列”的结论这么简单。不可否认，这一点也很重要，但更为重要的是，桑格发现每种蛋白质都有其既定的氨基酸序列，而这与它们的结构和功能息息相关。蛋白质是一个个氨基酸分子组成的长链，可以说，正是有了这一基本认识，才有了后来包括DNA编码蛋白质的方式在内的许多重要发现。

桑格没有止步于此，而是将目光转向了DNA（这也为他赢得了第二个诺贝尔奖）。1977年，他提出了一种快速测定DNA序列的方法，这种被称为桑格测序法的技术成为后来人类基因组计划的基石。最早的桑格测序法须借助一定量的放射性同位素对核苷酸进行标记，之后经过不断改进，科研人员开始用荧光标记物代替同位素，四种不同的荧光分别对应四种碱基。这不仅提高了操作的安全性，也使大规模测序成为可能。桑格测序法就这样推广开来。

今天，我们仍在诊断实验室中使用桑格测序。

现在，做桑格测序非常简单，因为我们掌握了自己感兴趣的基因序列。我们也可以用桑格测序法发现某段未知的DNA序列。这就好比你从某个熟悉的地方出发，一步一步前进，一路探索着新世界，直到遇见从另一个方向来的某个人。这就是人类基因组计划所使用的方法。

就这样，到20世纪80年代末，我们有了可以用来完成这项工作的工具。然而，要真正完成人类基因组的测序，似乎还有很长的路要走。1987年，向来以“勇于冒险”著称的美国能源部（US Department of Energy, DOE）启动了一项旨在找到一种可以保护基因组免受辐射影响的方法的计划，这对当时核能日益成为主要能源的美国而言也许至关重要。这便是人类基因组计划的雏形。到1988年，美国国立卫生研究院加入了能源部的这项计划，美国国会对该计划提供了资助。

事实上，这一早期设想照进现实只用了不到12年时间。然而，从一个旁观者的角度来看，前6年几乎没有什么进展。1990年，美国正式启动了人类基因组计划，并设定了在2005年完成这一计划的目标。但政府项目向来都以耗时长、预算不足著称，所以也没有太多人把这当回事。到1994年，人类基因组计划的主要成果是一张更为密集的基因图谱。这张新的图谱上密密麻麻地排列着5 840个遗传标记，而非此前的407个。在外行看来这也许没什么特别，但这是绘制出人类基因组的关键一步。而且，这一成果比预期提前了一年，似乎已经预示了什么。

人类基因组计划从一开始就是一项国际合作的全球性工程，来自世界各地的顶尖科学家都以各种形式参与其中。澳大利亚细胞遗传学家格兰特·萨瑟兰[48]就是其中之一，他曾以国际人类基因组组织[49]主席（尽管不是人类基因组计划的负责人）的身份，在该计划中发挥了重要协调作用。詹姆斯·沃森（没错，就是那个沃森）是人类基因组计划的首任主管。直到1992年，他辞去了这一职务，短暂过渡之后，弗朗西斯·柯林斯接管了这一项目直到其圆满完成。

实际的测序工作由来自美国、英国、日本、法国、德国和中国的20所研究机构完成。各机构分工明确，各司其职。美国以外贡献最大的要数位于英国剑桥的桑格中心（Sanger Centre）。顾名思义，它是以弗雷德里克·桑格的名字命名的。桑格中心，也就是现在的维康桑格研究所（Wellcome Sanger Institute），完成了近三分之一的人类基因组测序工作，负责的染色体包括人类第1、6、9、10、11、13、20、22号染色体以及X染色体（其中部分染色体的测序是与其他机构合作完成的）。直到1999年，国际人类基因组计划联合研究小组才宣布完整破译出了第一对人类染色体（第22号染色体）的遗传密码。1999年9月，在该项目启动十多年后，人类基因组8.21亿个DNA碱基测序完成的消息传出。其中有一半仍是“草图”，而且还有20多亿碱基的测序工作尚未完成。但这之后，该计划就像失控了的火车头一般加速推进，到次年6月，人类基因组计划已接近尾声，克林顿总统和布莱尔首相可以提前宣布该计划成功了。

文特尔是位才华横溢而又不乏创业精神的科学家，但他的学生生涯算不上出彩，毕业后的他可以说是一个被学习耽误了的冲浪运动员。之后，他应征入伍，其间还曾以美国海军医护兵的身份参与了越南战争。那段在战地医院工作的经历对文特尔产生深远影响，他退役后重拾学业开始学医，不过之后又转行从事了科学研究。事实证明，他是位杰出的科学家。在美国国立卫生研究院工作期间，他曾因申请基因专利而一度陷入争议的旋涡。文特尔最终离开国立卫生研究院，并且成立自己的公司，在那里他又闯出一番新天地。作为塞雷拉公司的第一任总裁，他决定与人类基因组计划展开竞争，用的就是人类基因组计划嗤之以鼻的方法—鸟枪测序法（shotgun sequencing）。其主要步骤包括将基因组打碎成大小不一的片段，对它们进行随机测序，最后像拼图一样将它们拼接起来。

比方说，你做了几次测序后，得到了3个这样的片段：

GGTGTGAACTGCCCCGAGGG

CCGAGGGCAGAGACCTCCCGTTTTG

CGTTTTGTTCTCCAGCGCCTTGAGCCAGC

只要进行简单的推理计算，你就能够把它们拼在一起，就像这样[50]：

GGTGTGAACTGCCCCGAGGGCAGAGACCTC

CCGTTTTGTTCTCCAGCGCCTTGAGCCAGC

仔细观察不难发现，第一个基因片段与第二个有部分重叠，而第二个片段又与第三个有重叠。如果没有第二段基因，你无法将第一和第三个基因片段联系起来。但只要一直粉碎，测序，再粉碎，再测序……最终你一定能得到足够多的相互重叠的基因片段，拼成一张完整的人类基因组。这一了不起的成就，塞雷拉真的做到了。在这场与6个国家的20所机构以及美国能源部的较量中，单枪匹马的塞雷拉与公共领域的人类基因组计划几乎同时冲过终点。这就有了文特尔与柯林斯一同出席白宫招待会，共同宣布人类基因组工作草图绘制完成的情景。

与人类基因组计划相比，塞雷拉确有一大重要优势—它可以获取所有公共机构的数据。从一开始，数据开放共享就是人类基因组计划的基本原则之一，这开创了生物医学科学领域数据共享的先河，也成为该领域沿用至今的准则。

你可能会问，塞雷拉费这么大功夫究竟是为了什么？其实，它最初的计划是发现更多的人类基因序列并对其申请专利保护。塞雷拉确实对6 500段基因序列申请了初步专利保护，但最后没有走完整个专利申请流程就不了了之了。最终，他们免费公开了这些数据（其中就包括那张寄给我们却让我们束手无策的光盘，当然，这也不能怪他们）。

后来才发现，其中一名高加索人，一位男性，贡献尤为突出。他的名字也不再是秘密了：正是文特尔本人。仅仅几年后，文特尔完成了他剩余基因组的测序，他可能是这么做的第一人。我之所以用“可能”一词，是因为差不多在同一时间，詹姆斯·沃森也完成了自己的基因组测序，至于到底是谁先完成的尚不清楚。

那是2007年的事了。那时候，测序一个人的基因是不可思议的。现如今，这几乎已司空见惯了—只要你有这个意愿而且手里有几千美金闲钱，你就可以做一次基因组测序。成千上万人已亲身体验。

你觉得几千美元很多？要知道，人类基因组计划光是绘制出第一份人类基因组草图就花了近30亿美元。据估计，在2001年，测序一个人的基因组差不多要花1亿美元。之后，随着技术的不断进步，测序成本大幅降低了。如今，也许只用花不到1 000美元就能做一次基因组测序，且检测成本仍在下降。相比之下，分析测得的基因组数据才是更大的挑战。为了更直观地感受测序成本的降低，你可以把基因组测序想象成一辆崭新的兰博基尼，零售价428 000美元。而如果按基因组测序的成本降幅换算，你就能以4.30美元的超低价提一辆锃亮的新座驾了。

身上有几块钱吗？咱们开着这个宝贝儿去兜风吧！

[30]　三螺旋也很重要—构成你身体的主要蛋白质之一的胶原蛋白就是一种三螺旋结构，但这毕竟不是“胶原蛋白晚宴”。

[31]　弗朗西斯·柯林斯（Francis Collins，1950— ），美国著名遗传学家，现任美国国立卫生研究院（NIH）院长。-—译者注

[33]　塞雷拉基因组公司是一家总部位于美国马里兰州的基因测序公司，成立于1998年，于1999年9月正式开启了人类基因组的测序工作。—译者注

[34]　克雷格·文特尔（J. Craig Venter，1946— ），美国生物学家及企业家，塞雷拉基因组公司创始人与前总裁。—译者注

[35]　你可能会觉得我的浏览记录有些无聊。

[36]　内含子众所周知的一个作用是它可以使同一个基因产生多种不同的蛋白质，有时甚至是功能完全不同的蛋白质。这通过选择性剪接（alternate splicing）实现，换言之，一些外显子并不总能发挥作用，因此一段序列可以既是外显子又是内含子。很多基因本身根本不会这么做，但有一些蛋白质会因为剪接方式的不同而发生改变。内含子另一个已知的功能，是控制基因在何时何地表现，也就是发挥了一种调节作用。

[37]　这是一种简化的说法。诚然，G、T和A、G这四个碱基是向细胞传达“我是一个剪接位点”这一讯息的关键，但它们周围的碱基也至关重要。如果你想进一步了解基因与蛋白质的关系，请参阅“附录”部分。

[38]　阿尔弗雷德·斯特蒂文特（Alfred Sturtevant，1891—1970），美国遗传学家。—译者注

[39]　托马斯·亨特·摩尔根（Thomas Hunt Morgan，1866—1945），美国著名进化生物学家、遗传学家和胚胎学家，发现了染色体的遗传机制，创立了染色体遗传理论，是现代实验生物学的奠基人。—译者注

[40]　玛丽·居里（Maria Curie，1867—1934），即居里夫人。—译者注

[41]　莱纳斯·鲍林（Linus Pauling，1901—1994），美国著名化学家，量子化学和结构生物学先驱者之一。—译者注

[42]　约翰·巴丁（John Bardeen，1908—1991），美国物理学家，因晶体管效应和超导的BCS理论两次获得诺贝尔物理学奖。—译者注

[43]　 BCS超导理论（BCS theory），于1957年提出，是解释常规超导体的超导电性的微观理论。该理论以其发明者巴丁（J. Bardeen）、库珀（L. V. Cooper）和施里弗（J. R. Schrieffer）的姓氏首字母命名。—译者注

[44]　截至目前，全世界共有四位科学家两次获得诺贝尔奖，即这里提到的这四位。—译者注

[45]　好吧，还有一个更厉害的，麻醉更胜一筹。我这么说绝对不是因为我妻子是个麻醉师。

[46]　约翰·麦克莱德（John Macleod，1876—1935），苏格兰医师、生理学家，主要致力于碳水化合物新陈代谢的研究。—译者注

[47]　詹姆斯·克里普（James Collip，1892—1965），加拿大著名生物化学家，制出了首个适用于人体的胰岛素制剂。—译者注

[48]　格兰特·萨瑟兰（Grant Sutherland，1945— ），澳大利亚细胞遗传学家、澳大利亚妇幼医院遗传学名誉教授，专攻人类染色体脆性位点的研究。担任国际基因组组织主席期间，率领团队参与了人类第16号染色体的测序工作。—译者注

[50]　这是另一段非随机选择的序列：该序列取自NKX2-5基因，它是我读博期间重点研究的对象，同时也是我最喜欢的基因之一。究其原因，且听我慢慢道来。一般来说，动物遗传学家，尤其是专门研究苍蝇的遗传学家，他们在基因命名方面比我们人类遗传学家强得多。NKX2-5基因对人的心脏发育至关重要。苍蝇并没有传统意义上的心脏，它们的“心脏”其实是一根可以舒张收缩的“管子”，但它们体内却有一种与NKX2-5非常相似的基因。当遗传学家们发现这种基因的时候，他们还注意到了一个现象—缺少该基因的苍蝇体内根本没有管状的心脏。所以，你猜他们给这个基因取了什么名？Tinman（出自童话《绿野仙踪》里没有心脏的铁皮人）。