Fedora 基础设施服务意外中断

作者:Justin Ryan

今天早上早些时候,Fedora 项目遭遇了一次计划外的中断,导致该项目的基础设施的某些部分瘫痪,包括软件包构建系统、一些与基础设施相关的数据库,以及 Fedora 基础设施团队维护的几个服务的网站等等。

根据 Ricky Zhou 提交的支持单,中断开始于 UTC 时间 8:10 左右(美国东部时间 3:10/美国中部时间 2:10),原因是团队的数据库服务器 *db3* 崩溃。 Zhou 能够确认机器上的文件损坏,并立即联系了基础设施负责人 Mike McGrath。在 UTC 时间 8:41,Zhou 通过电子邮件 通知了 Fedora 社区关于中断的消息,指出 Koji 软件包构建系统、受影响服务器上的所有数据库、几个网站(包括该项目的 wiki、Smolt 实时实例和 Transifex 实时实例)都已离线,并且翻译服务不可用。他接着指出,包括 CVS、DNS、邮件和 Fedora Hosted、Fedora People 以及 Fedora Talk 在内的核心服务未受影响。

在 UTC 时间 10:05,基础设施负责人 Mike McGrath 在问题单中指出,虽然不必担心服务器的 / 上的损坏(因为该处未存储数据),但在 /backup 上也发现了“问题”,当时的 *db1* 正在该处运行。经过几个小时的诊断,该问题单更新说明 IBM 将更换机器的 raid 控制器和主板,并指出安装主板将花费不确定的时间。 McGrath 还指出,该机器的上次备份似乎已完成,从而将潜在的数据丢失窗口减少到大约九个小时。稍后的说明表明,在复制 *db3* 的文件后,仅发现 /var/lib/pgsql/data/base/19461/pg_internal.init 损坏。

就在 UTC 时间 15:00 之前(美国东部时间 10:00/美国中部时间 9:00),McGrath 再次更新了状态,指出在项目的 *xen3* 服务器上的访客机中建立了一个临时的 *db3*,并且该团队将等待 IBM 安装替换件,然后在另一次(计划内)中断期间将数据传输回 *db3*。截至发稿时,该问题单的最新说明表明 IBM 没有更换主板,而是更换了背板,并且在根据需要执行 fsck 后,该机器将在一般负载下运行 24 小时。

目前,粗略的检查显示受影响的网站已恢复在线,并且推测它们各自的数据库也已恢复在线。据报道,Koji 也再次在线并可用。 Fedora 用户应为至少一次进一步的中断做好准备,因为服务会转移回 *db3*,但目前看来,情况还没有到最糟糕的地步。

加载 Disqus 评论