当你以开源形式发布 500,000 个人类基因组时会发生什么? 就是这样。DNA 是数字化的。构成人类基因组的三十亿个化学碱基以四元系统编码数据,而不是二进制,使用四种化合物——腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶——来表示四个遗传“数字”:A、C、G 和 T。尽管这在 1953 年有点令人惊讶,当时沃森和克里克在他们著名的双螺旋论文中提出 A–T 和 C–G 配对作为“遗传物质的复制机制”,但很难看出遗传信息如何以其他方式从一代传到一代效率。 任何制作过复印件的人都知道,模拟系统在无损传输方面表现不佳,这与数字编码不同。 如果我们的遗传物质以纯粹的模拟形式存储,那么数百万年来逐渐演变出越来越复杂的结构将会困难得多,甚至可能是不可能的。