追逐 Linux 内核档案

作者:Zack Brown

内核开发确实让人眼花缭乱,难以追踪。仅主要的邮件列表就浩如烟海。然后还有所有的附属列表和 IRC 频道,更不用说那些从未公开的专门用于内核开发的企业邮件列表了。在某些方面,内核开发已经变得基本上神秘莫测。

偶尔,有些狂热爱好者会决定尝试回到过去,尽可能多地研究内核讨论的语料库。其中一位就是 Joey Pabalinas,他最近想把所有内容都收集到 Maildir 格式中,这样他就可以进行搜索、计算统计数据、生成伪黑客 AI 机器人等等。

他找不到任何现有的巨型语料库,所以他试图通过将各个站点上存档的邮件拼凑在一起,创建自己的语料库。结果发现有超过一百万个单独的文件,这对于托管在 GitHubGitLab 上来说都太多了。他向 linux kernel mailing list 邮件列表寻求关于更好托管机会的建议。虽然他承认,“可能只有我这个怪人才会觉得这种东西有用,但我想我应该分享出来,以防万一我不是唯一一个。”

Joe Perches 建议挖掘 kernel.org/lore.html 上的档案,这些档案可以追溯到几十年前。但 Joey 说他尝试过了,他发现几乎不可能将这些档案转换为他想要的 Mailbox 格式。相反,他花了前几周的时间抓取 lkml.org 档案,并编写了自己的转换程序。

Konstantin Ryabitsev 评论道

maildir 格式对于 LKML 来说有点糟糕,因为在单个目录中拥有数百万条消息对于底层文件系统来说非常困难。如果您将其分解为多个文件夹,那么搜索就会变得困难。这就是我们选择使用 public-inbox 格式的主要原因,它解决了这两个问题,并允许使用 git 进行非常高效的存档更新和复制。

与此同时,Jasper Spaans 对 Joey 声称通过抓取 lkml.org 获得了超过一百万个单独的文件表示惊讶。Jasper 说

首先,lkml.org 数据库中存储了超过 300 万条消息,所以我猜您错过了一些消息,或者某些地方真的出错了。此外,除非您弄清楚如何获取原始数据,否则您只是抓取了一个渲染结果,该结果丢弃了 pgp 签名等内容,并且邮件头非常不完整。当然,除非您不在乎这些。

Jasper 补充说,他也一直在致力于从 lore 网站中提取 Maildir 类型的数据,并且他将他一直在使用的代码发送给了 Joey。

Eric Wong 也向 Joey 发送了一个脚本,他一直在使用该脚本将 slrn 线程化的 Usenet 存储库转换为 Maildir;尽管像其他人一样,他不建议将数百万(和数百万)个文件放入单个目录中。

讨论没有明确的方向;只是不同的人分享知识并做出判断性意见。

很久以前,那是非常久远的以前,我曾经想获得 Linux 内核开发讨论的最早档案。我问遍了所有人,我在哪里可以找到它们,其中一位开发人员回复说,他有很多东西都混在他的邮件档案中,以及各种各样的其他电子邮件消息。我回信并急切地告诉他,我很想得到它。他又回信解释说,他根本不可能抽出时间从公共内容中提取私人内容。就这样结束了。我一直想知道,如果他最终只是要拒绝,那他最初为什么要回复我的电子邮件。这就是我差点写出最早的 Linux 开发历程摘要的故事。

注意:如果您在上方被提及,并想在评论区上方发布回复,请将您的回复文本发送至 ljeditor@linuxjournal.com。

Zack Brown 是 Linux JournalLinux Magazine 的科技记者,并且曾是“Kernel Traffic”每周通讯和“Learn Plover”速记打字教程的作者。他于 1993 年在他的 386 电脑上安装了 Slackware Linux,配备了 8MB 内存,并被开源社区彻底震撼。他是 Crumble 纯策略棋盘游戏的发明者,您可以用几块纸板自己制作。他还喜欢写小说、尝试动画制作、改革拉班舞谱、设计和缝制自己的衣服、学习法语以及与朋友和家人共度时光。

加载 Disqus 评论