这本书从基因的角度出发, 将自然界生物的各种行为现象解释为基因延续的策略表现.
前言
好长的前言…
本书中基因的定义来自种群进化生物学家乔治·C.威廉斯,他已然仙逝,但无疑是本书的英雄。同样离我们而去的还有约翰·梅纳德·史密斯和比尔·汉密尔顿。威廉斯认为:“基因是染色体材料上任何一个可能存在得足够长久的代际,并且是可以当作自然选择的单位的部分。”我从这个定义中得出了一个多少有些好笑的结论:“严格来讲,这本书的书名应该是……《染色体有点自私的一大部分以及更为自私的一小部分》。”胚胎学家关心的是基因会如何影响表型,我们新达尔文主义者的关注点则是实体在种群中的频度发生的改变。这些实体在威廉斯看来就是基因(威廉斯后来称之为“抄本”)。基因是可以计数的,而其出现频度是其成功与否的一种测度。本书的一个核心思想是:生物个体不具备上述讨论的基础。单个生物体的基因频度都是100%,因而无法“当作自然选择的单位”。
基因角度的亲缘关系
很多西方人可能不知道自己与女王的亲缘关系其实比十五重还近,我亦如此,门口的邮递员也是如此。有很多种方法可以让我们成为某个人的远房表亲,或者让我们都成为彼此的亲戚。我知道自己是妻子的十二重堂兄弟姐妹的 孙辈(共同祖先是乔治·黑斯廷,第一代亨廷顿伯爵,1488—1544),但是很有可能我们还能通过某种未知的不同方式成为血缘关系更近的亲戚(从各自祖先查下来的不同路径),而且绝对还有许多其他的方式让我们成为血缘关系更远的亲戚。我们所有人都是如此。你和女王可能既是九重堂兄弟姐妹的六世孙辈,又是二十重堂兄弟姐妹的玄孙辈,还是三十重堂兄弟姐妹的八世孙辈。我们所有人,无论生活在世界上的哪个地方,不仅仅是彼此的远房亲戚,而且还有几百种连接亲缘关系的路径。
如果你不断乘以2,一直计算到征服者威廉的年代,你的(以及我的、女王的、邮递员的)祖先数量将至少是个十亿数量级的数字,比当时全世界的人口数量还多。这个计算本身就证明,无论你是从哪里来的,我们都共同拥有许多祖先(如果回溯到足够久远的过去,我们的祖先都是完全相同的),所以我们彼此也是很多不同形式的亲戚。
第一步:分子钟——用“突变”来计算“时间”
首先,我们要解决**“差异如何换算成时间”**的问题。
你的DNA是由大约30亿个碱基(A、T、C、G)组成的密码长链。每当你父母的细胞分裂产生精子或卵子时,这套密码都要被复制一次。在复制过程中,偶尔会出现极个别的“抄写错误”(比如把A抄成了G),这就是突变。
科学家发现了一个规律:在漫长的演化史中,DNA上中性突变(对生存没有好坏影响的突变)的积累速度是相对恒定的。 这种恒定的突变率就像大自然钟表上滴答作响的秒针,被称为分子钟。
计算原理: 假设人类的突变率是:每1万年,某段特定的DNA序列上平均会积累1个突变。 现在,我们把你父亲给你的某段DNA,和你母亲给你的对应段DNA放在一起对比:
- 如果发现它们之间有 2个 差异。
- 这就意味着,从它们上一次是“同一个DNA”(共同祖先)开始,这两支血脉分别各自演化,各自积累了1个突变(1+1=2)。
- 既然积累1个突变需要1万年,科学家就能断定:你父母的这段基因,在距今1万年前,来自于同一个远古祖先。 这个相遇的时间点,就是**“聚结点”**。
通过数差异,科学家就能精确算出任意两段等位基因的“聚结时间”。
第二步:基因重组——一个人体内藏着“千万个不同的祖先”
如果整个基因组的聚结时间都一样,那我们只能算出一个时间点,这无法写出一部历史。李恒和德宾的模型之所以神奇,是因为基因组是会被“打碎重组”的。
当你的祖祖辈辈在繁衍时,精子和卵子的形成过程中会发生**“染色体交叉互换”(基因重组)**。也就是说,你爷爷和你奶奶的染色体在传给你爸爸的时候,不是原封不动传递的,而是会像洗牌一样被打断、拼接。
经过几万、几十万年的“洗牌”,你体内的染色体早就是一个由无数个“小片段”拼接而成的马赛克了。
- 片段A 可能在 1万年前 找到了共同祖先(比如某个远古非洲猎人)。
- 片段B 因为没有被洗进那个猎人体内,只能继续往上追溯,直到 10万年前 才找到共同祖先。
- 片段C 可能要追溯到 50万年前。
关键结论: 虽然你只是一个人,但你的基因组被天然地切成了成千上万个独立的小片段。每一个小片段,都记录了一个独立的历史时间点。 统计这成千上万个时间点,科学家手里就有了极大量的历史数据样本。
第三步:溯祖理论——从“时间分布”推断“人口规模”
现在,科学家手里拿到了一张图表,上面密密麻麻标满了你体内这几万个基因片段发生“聚结”的时间点。怎么从这些时间点,看出当时的人口数量呢?
这就用到了统计学上的溯祖理论。逻辑非常直观,我们可以用“村庄找亲戚”来打比方:
情景1:人口极少的时期(种群瓶颈) 假设在距今7万年前,因为火山爆发,地球上只剩下极少数的人类(比如几千人)。 因为当时“人口池”非常小,你的各种远古祖先们在那个时代极其容易**“碰见并共用同一个祖先”**。
- 结果: 科学家会在图表上发现,你体内有异常多的基因片段,它们的聚结时间都集中在“7万年前”这个节点。
- 推断: 大量基因在同一时期扎堆找到共同祖先 → 说明当时祖先极少,基因没得选 → 推断出当时发生了人口大衰减(种群瓶颈)。
情景2:人口繁盛的时期(种群扩张) 假设在距今20万年前,气候温暖,你的祖先有几百万人。 因为人在茫茫人海中,随机挑两个基因片段,它们恰好来自同一个人的概率非常极度低。它们只能继续向更古老的年代去寻找共同祖先。
- 结果: 科学家会发现,落在“20万年前”这个时间点的聚结片段非常稀少。
- 推断: 很难在这个时期找到共同祖先 → 说明当时人口基数极大 → 推断出当时种群非常繁盛。
总结
这套方法的精妙之处在于:
- 用 DNA的突变数量(分子钟) 算出每个基因片段“相遇”的年代;
- 利用 基因重组的特性,在一个人的身体里提取出成千上万个这样的年代数据;
- 统计这些年代数据的 密集程度(溯祖概率),反向推断出每一个历史时期祖先群体的人口规模。
这就是李恒和德宾的 PSMC模型(Pairwise Sequentially Markovian Coalescent)的大致原理。
Interesting
死亡的基因之书
基因视角还可能以其他方式穿透历史的迷雾吗?我在几本书中曾经提出了一个想法,我称之为“死亡的基因之书”。一个物种的基因库就是相互支持的基因的联合体,它们曾经一起在过去的特定环境中存活了下来,有久远的过去,也有近世的牵绊,这就使得它们成为那些环境的一种相反印记。如果一个遗传学家具备足够的知识,就应该能够从一种动物的基因组中读出该物种曾经生活的这些环境的特征。理论上来讲,欧洲鼹鼠(Talpa europaea)的DNA应该能够生动地展示出地下世界的面貌,那是一个位于地表之下的潮湿、黑暗的环境,空气中满是蠕虫、腐叶、甲虫幼虫的气味。如果我们知道如何去阅读的话,单峰骆驼(Camelusdromedarius)的DNA将会展现出用编码描绘的古老沙漠,那里有着沙尘暴、沙丘,以及生命对水的渴望。常见的宽吻海豚(Tursiops truncatus)的DNA表达着“深海水域”“快速追逐鱼类”“躲避虎鲸”等信息,不过是以一种我们在未来的某一天可能予以解读的语言写就的。但是同样的海豚DNA中也包含了一些描述其更早时期所处世界的段落,相应的基因也存续了下来:那是它的祖先们在陆地上生活的时期,要小心躲避暴龙和异特龙,活得足够久,久到能够生育才行。在那之前,肯定还有一部分DNA描述了更为古老的生存技能,又一次带我们回到了海洋中,那是它的先祖们还是鱼的时期,被鲨鱼甚至是广翅鲎(巨大的海 蝎子)追逐的时代。
历史的沧桑与厚重感. 人为什么要做研究, 是为了看到这些风景吗?