开放科学意味着开源——或者,至少应该如此
为什么开源实际上是在1665年发明的。
开源始于何时? 是在 1998 年 2 月,克里斯汀·彼得森 (Christine Peterson) 创造了这个术语时吗? 或者是在 1989 年,当时理查德·斯托曼 (Richard Stallman) 起草了“子程序化”GNU GPL? 或者是早一点,在 1985 年,当时他创建了 GNU Emacs 许可证? 那么 1665 年 3 月 6 日呢? 那一天,出现了以下段落:
鉴于没有什么比向那些从事哲学研究的人,交流其他人发现或实践的事情,更能促进哲学事务的改进了; 因此,认为使用新闻媒体是最适合满足那些人需求的方式,他们参与这些研究,并乐于促进学习和有益的发现,这使得他们有权了解本王国或世界其他地方, 不时提供的,包括有关好奇和有学识的人在研究,劳动和尝试中的进展,以及他们完整的发现和表现:为了使这些作品被清晰而真实地交流,可以进一步支持对扎实而有用的知识的渴望, 鼓励巧妙的努力和事业,并且可以邀请和鼓励那些沉迷于此类事务的人,去寻找,尝试和发现新事物,彼此分享他们的知识,并尽其所能为改进自然知识和完善所有哲学艺术和科学的宏伟目标做出贡献。
这些文字可以在皇家学会的哲学汇刊的第一期中找到,这是世界上持续出版的最古老的科学杂志,它发表了牛顿和其他人的重要成果。 同样重要的是,它确立了我们今天认为理所当然的科学的关键原则,包括常规公开分享技术和成果,以便其他人可以以此为基础——换句话说,就是开源。
鉴于科学几乎发明了我们现在所说的开源方法,具有讽刺意味的是,科学界目前正在重新发现开放性,即所谓的开放科学。 这一运动的推动力是人们日益意识到,从传统的模拟科学方法到充满数字技术的方法的过渡,并非微小的演变。 相反,它为科学如何进行——以及应该如何进行——带来了根本性的变化。
可以说,开放科学革命始于开放获取——学术论文应作为数字文档免费提供这一理念。 它将皇家学会的哲学汇刊背后的最初想法——应记录和发布有关发现的新闻——提升到了一个新的水平,使所有人都可以免费访问该信息。 开放获取很好地说明了模拟世界和数字世界之间的飞跃。 即使不可能普遍提供皇家学会的哲学汇刊的印刷版本,互联网也可以让每个在线连接的人免费访问在线发布的每篇文章。
开放科学的另一个重要方面——开放数据——也可以这样说。 在互联网出现之前,处理数据是一个乏味而耗时的过程。 但是,一旦数字化,即使是最大的数据库也可以非常快速地传输,组合,比较和分析。 对于科学而言,这是变革性的,因为它意味着原则上,其他研究人员可以通过下载完整的数据集并进行自己的独立分析和评估来检查实验结果。 同样重要的是,他们可以进行新的分析以获得超出最初发现的结果。 开发用于挖掘数据以获取新信息并将数据与其他数据集组合的工具和技术,已导致开放数据思想和实践远远超出科学范围。
开放科学三脚架的最后一根支柱,并且可以说是最激进的一根支柱,就是开源。 在过去的几十年中,科学领域最重要的发展之一是使用数字工具进行研究。 这些可能是收集数据,分析数据或存储数据的程序。 但是,无论如何使用,软件对于现代科学都是必不可少的。 问题在于,许多代码是专门为每个科学调查编写的。 尽管为这个必不可少的工具付出了所有努力,但这项工作的成果很少在之后与其他科学家分享。
实际上,即使开放科学运动获得了动力,开源也因其缺席而引人注目。 例如,在2016年,欧盟理事会发布了题为“向开放科学系统过渡”的重要政策声明,其中一次也没有提到开源。 2017年的欧洲开放科学云宣言也没有。 2018年在欧盟和美国推进开放科学研讨会似乎也忽略了这一方面。 最近,美国国家科学院,工程院和医学院发布了“加快开放科学进展的新框架”。 其中,开源的力量和成功被提及不少于20次,这很棒。 不幸的是,最终的建议不包括推广开源作为开放科学的一部分。
欧洲的一项重要新举措在科学界引起了广泛关注,但它也对开源保持沉默。 在欧盟委员会和欧洲研究委员会的支持下,11个国家研究资助组织最近宣布由古怪的cOAlition S启动S计划。 这是一项“使完全和立即开放获取研究出版物成为现实的倡议”。 通过使用高质量的免费软件应用程序,使发布比当前方法更轻松,更便宜,开源可以在这里发挥重要作用。 相反,该计划只是说:“由于开放存档和存储库的长期存档功能以及它们在编辑创新方面的潜力,因此承认它们对于托管研究成果的重要性”——开放存档,而不是开放源码存档,也就是说。 幸运的是,有影响力的人物正在呼吁关注这一严重的疏忽。 评论S计划,Peter Suber被广泛认为是开放获取领域的领导者之一,他写道:
该计划承诺“在必要时支持...开放获取基础设施”。 到目前为止,一切都很好。 但是该计划对开放基础设施的重要性保持沉默,即在开放源代码软件上运行,在开放标准下,具有用于互操作性的开放API,最好由非营利组织拥有或托管的平台。
如上所示,政府机构和顶级科学组织对与开源合作以促进开放科学表现出令人遗憾的兴趣不足。 考虑到研究人员编写的许多代码都是由公众资助的,因此这令人惊讶且无法接受。 因此,一个令人信服的理由是,所有此类软件必须根据开源许可证发布,以允许任何人(包括用税款支付的人)随意重新使用它。
面对大型资助机构的冷漠,基层活动家正在尽其所能地利用其有限的资源,并且出现了一些充满希望的进展迹象。 例如,欧洲研究基础设施OPERAS发表了一份白皮书,探讨了创建开放科学学术交流基础设施的可用开源解决方案。 同样,Lettie Y. Conrad最近发表的文章提供了一份有用的开放科学可用“开放”工具的调查
出于此项目的目的,我们重点关注由使用开放源代码软件的非营利组织或社区组织提供的工具,通过开放许可证提供开放数据,并在可能的情况下利用开放标准——基本上,尽可能地开放。
Conrad 在关于制作 开放科学工具联合路线图的研讨会上展示了她的工作。 令人惊讶的是,在 研讨会的参与者中,来自开源领域的主流名称只有 Mozilla。 这表明,除了研究资助机构未能将开源作为解决方案的一部分之外,开源项目也同样未能在这个重要领域积极参与。
这实在太可惜了,因为开放科学为免费软件程序员提供了应对新挑战并创建一些令人兴奋和创新的程序的巨大机会。 除了丰富开源社区及其项目之外,此举还将有助于加速开放科学革命。 这肯定是皇家学会的哲学汇刊的创始人所希望的。