开源——基因的本质

作者:Glyn Moody

当你以开源方式发布50万个人类基因组时会发生什么?就是这样。

DNA是数字化的。构成人类基因组的30亿个化学碱基编码的数据不是二进制的,而是一个四进制系统,使用四种化合物——腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶——来表示四个遗传“数字”:A、C、G和T。尽管这在1953年有点令人惊讶,当时沃森和克里克在他们著名的双螺旋论文中提出了A-T和C-G配对作为“遗传物质的复制机制”,但很难想象遗传信息如何以其他方式从一代传到下一代。任何曾经复印过复印件的人都知道,模拟系统不利于无损传输,这与数字编码不同。如果我们的遗传物质以纯粹的模拟形式存储,那么数百万年来逐渐进化出更复杂的结构将会更加困难,甚至是不可能的。

尽管DNA的数字化性质在半个多世纪前就已为人所知,但直到经过多年的进一步研究,才能大规模提取四进制数据。人类基因组计划,世界各地的实验室共同努力拼接出单个人类基因组中发现的30亿个碱基,该计划于2003年完成,历时13年,耗资约7.5亿美元。然而,从那时起,基因组测序的成本下降了——事实上,它的下降速度甚至比半导体行业的摩尔定律还要快。现在,完成一个完整的人类基因组测序只需几百美元,而且预计很快就会出现低于100美元的服务

随着成本的下降,新的服务涌现出来,提供对任何人的基因组进行测序——至少是部分测序。数百万人已将他们的唾液样本发送给像23andMe这样的公司,以便了解他们的“祖先、健康、福祉等等”。这令人兴奋,但是使用这些公司也有很大的缺点。你可能正在赋予一家公司使用你的DNA用于其他目的的权利。也就是说,你正在失去对最私密代码的控制——这个代码在你称之为妊娠的启动过程中创造了你。删除已测序的DNA可能很困难

这已经够糟糕了,但情况变得更糟。由于你所有亲属的DNA在不同程度上与你的DNA相似,当你进行基因组测序时,你实际上也在泄露他们的一部分DNA。无论他们是否同意,他们都失去了他们的基因匿名性,这可能会产生严重的和不可预见的后果。在美国,警方正在使用个人公开的基因信息来寻找犯罪现场DNA的部分匹配。通过大规模构建和探索家谱,警方可以将调查范围缩小到少数嫌疑人,以帮助他们锁定罪犯。

正如软件代码可以是开源的而不是专有的,公共资助的基因组测序计划也使其结果对所有人开放。其中最大的项目之一是英国生物样本库(UKB),涉及50万名参与者。任何地方的任何研究人员都可以下载完整的、匿名的数据集,前提是他们获得UKB委员会的批准。一个重要的限制是他们绝不能试图重新识别任何参与者——考虑到从志愿者那里收集的极其详细的临床病史以及血液和尿液样本,这相对容易做到。调查人员询问了所有50万名参与者的习惯,并检查了他们2000多种不同的特征,包括他们的社交生活、认知状态、生活方式和身体健康数据。

考虑到需要测序的大量基因组,来自UKB的第一个开放DNA数据集只是部分的,尽管计划在适当的时候更全面地测序所有基因组。这些较小的数据集允许所谓的“基因分型”,它提供了一个人的DNA及其特定属性的粗略地图。即使是这种部分测序也提供了有价值的信息,特别是当它可用于大量人群时。正如《科学》杂志上的一篇文章指出的那样,英国生物样本库的独特之处不仅在于开放数据集的规模和丰富性,还在于研究人员被要求的彻底分享性质

世界各地的研究人员可以自由地深入研究UKB数据,并在彼此的工作基础上快速构建,从而在人类进化等不同领域产生意想不到的红利。在生物医学研究这个竞争激烈的世界中罕见的众包精神下,各研究小组甚至发布了使用数据的工具,而无需首先通过在期刊上发表文章来寻求认可。

将开源方法应用于50万个基因组的好处是显著的,并且与日俱增。约有7000名研究人员注册使用UKB数据进行1400个项目,并且已发表600多篇论文。它正在带来快速的进步,而当DNA是专有时,这些进步根本不可能实现。与开源一样,做好事带来好处

“英国正在吸引世界上最优秀的大脑”来研究其公民,英国Hinxton的EMBL欧洲生物信息学研究所主任兼UKB指导委员会成员Ewan Birney说。英国的重点也是该项目的主要缺点,因为它只探索了人类的一部分:北欧人。例如,它仅保存了约2万名非洲或亚洲血统人士的数据。然而,随着新论文每隔几天就会出现,研究人员表示,UKB仍然是好奇心释放力量的光辉典范。“这是我们一直梦想的事情,”[马萨诸塞州剑桥市Broad研究所的总裁兼主任] Lander说。

这就是经典的“只要有足够的眼球,所有的bug都是肤浅的”。通过开源其50万公民的基因组代码,英国正在吸引世界上顶级的DNA黑客来寻找“bug”——与疾病相关的变异——这将有助于我们理解疾病,并很可能导致开发治疗疾病的新方法。这些优势是如此明显,以至于人们会奇怪为什么有人会使用其他任何东西。有点像开源。

Glyn Moody自1994年以来一直撰写关于互联网的文章,自1995年以来一直撰写关于自由软件的文章。1997年,他撰写了第一篇关于GNU/Linux和自由软件的主流专题文章,该文章发表在Wired上。2001年,他的著作《反叛代码:Linux和开源革命》出版。从那时起,他广泛撰写关于自由软件和数字权利的文章。他有一个博客,并且活跃于社交媒体:在Twitter上的@glynmoody。

加载Disqus评论