系统管理员度假准备技巧

作者:Kyle Rankin

继续阅读,了解如何帮助减少您的假期被系统管理问题打断的可能性。

我每年或每两年都会和家人一起出国度假。通常,度假是放松身心的时候,如果您是一位需要轮班待命的系统管理员,团队中的其他人通常会接替您的待命职责。然而,随着您职业生涯的进步,您开始获得更多关于系统的专业知识和责任,即使有其他人待命,也存在某种紧急情况,团队可能需要在您度假时联系您寻求帮助。我最近出国度假,在离开之前,我完成了一系列任务,以减少我在外出期间需要处理紧急情况的可能性。因此,在本文中,我将描述我为假期做准备的一些步骤,这些步骤将帮助您在下次旅行中放松身心。

准备您的计算机

在度假之前,您应该回答的首要问题之一是您是否需要携带工作笔记本电脑。根据您的组织及其安全控制,您可能能够从您的个人计算机、平板电脑或手机执行基本的紧急管理任务,或者您可能只能从您的工作计算机连接到生产环境。在其他情况下,您可能不需要计算机,因为您只需通过电话或与团队中的其他人聊天来提供咨询角色,并指导他们如何在紧急情况下采取行动。

如果您确实需要携带计算机,我强烈建议在旅行前进行完整备份。您的计算机在旅行时比安全地放在办公室时更容易丢失、被盗或损坏,因此我总是在旅行前备份我的工作机器。比备份更好的方法是,将您昂贵的工作计算机留在家里,使用更便宜、更可支配的机器进行旅行,只需在您离开之前在其上恢复您的重要文件和设置以供工作使用,并在您返回时将其擦除。如果您决定采用可支配计算机的方式,我建议在度假前在这台计算机上工作一到两个完整的工作日,以确保您的所有文件和设置都已到位。

文档

良好的文档是减少或消除您在不值班时(无论您是否在度假)需要介入程度的最佳方法。从例行程序到应急响应,所有内容都应记录在案并保持最新。老实说,这属于系统管理员的标准最佳实践,所以无论您是否即将度假,这都是您应该具备的。

首先,所有例行程序,从您如何部署代码和配置更改,如何管理工单,如何执行安全补丁,如何添加和删除用户,以及整体环境的结构,都应以清晰的逐步方式记录在案。如果您使用自动化工具进行例行程序,无论是像几个脚本那么简单,还是像完整的编排工具那么复杂,您都应确保不仅记录如何使用自动化工具,还要记录在自动化工具失败时如何手动执行相同的任务。

如果您正在值班,这意味着您有一个监控系统,该系统扫描您的基础设施以查找问题,并在发现任何问题时向您发出警报。您的监控工具中的每个系统检查都应有一个相应的剧本,系统管理员可以按照该剧本进行故障排除和修复问题。如果您的监控工具允许您自定义其发送的警报,请为每个警报名称创建相应的 wiki 条目,然后自定义警报,使其提供指向 wiki 中剧本的直接链接。

如果您碰巧是特定系统的专家,请确保该特定系统的文档非常完善且易于理解。这些系统会将您从假期中拉出来,因此请查看这些文档,看看您在编写文档时可能做出的任何假设,而团队中的初级成员可能不理解这些假设。让团队的其他成员审查文档并向您提问。

关于文档的一句谚语是,如果某件事在两个地方记录,其中一个地方就会过时。即使您只在一个地方记录某件事,它也很可能过时,除非您执行例行维护。不时审查您的文档并在必要时更新它是一种好习惯,而在假期前尤其是一个好时机。如果您是唯一知道执行程序新方法的人,则应确保您的文档涵盖该方法。

最后,让您的团队维护一个页面,以记录您离开期间发生的任何他们想在您回来后告诉您的事情。如果您是特定系统的主要维护者,但他们在您离开期间不得不对其进行一些紧急维护,这就是您想在回来后了解的事情。如果团队有一个中心位置来记录这些笔记,他们将更倾向于在事情发生时将其写下来,并且不太可能在您回来时忘记这些事情。

稳定状态

您的基础设施在您离开之前越稳定,在您离开期间保持越稳定,您在假期中被打扰的可能性就越小。假期前是重大更改关键系统的糟糕时机。如果可以,请在假期前的几周内冻结更改。尽量鼓励其他团队将任何重大更改推迟到您回来之后。

假期前也是对您的系统执行任何预防性维护的好时机。检查是否有任何系统即将达到磁盘警告阈值并清理空间。一般来说,如果您收集趋势数据,请浏览一下,看看是否有任何资源呈上升趋势,可能会在您离开期间超过阈值。如果您有任何可能在您离开期间给您的系统增加额外负载的任务,请尽可能暂停或推迟它们。确保您的所有备份脚本都工作正常,并且您的所有备份都是最新的。

紧急联系方式

虽然在度假时完全放松身心会很棒,但工作中的某人可能希望在紧急情况下联系您。根据您计划旅行的地点,某些联系方式可能比其他方式更有效。例如,某些在旅行时可用的手机套餐可能会对通话收取高额费用,但短信和数据流量的计费费率与在家时相同。如果您计划购买本地 SIM 卡,通过家庭蜂窝网络发送的短信可能比通过数据套餐发送的短信费用更高。如果使用本地 SIM 卡,您将不得不找到某种方式将新号码告知您的团队。

与您的团队讨论他们应使用哪种升级路径在紧急情况下联系您。例如,就我而言,我知道我的手机套餐会为我提供无限短信和与在家时相同的数据套餐,但我也想避免工作邮件分散我的注意力。这带来了一个问题,因为电子邮件是我接收警报的主要方式。就我而言,我在度假期间禁用了电子邮件同步,并指示所有人,在紧急情况下通过短信联系我。我还需要成为在一定时间内未解决的任何警报的二级升级路径,因此我配置了我的监控工具,将电子邮件转短信网关用作我的警报电子邮件地址。

如果有些日子您知道您(或您在家的待命对应人员)可能身处手机信号覆盖有限的区域,请提前确定这些日期并将其放入您的日历中。如果没别的,如果其他人知道在接下来的两天内绝对无法联系到您,这可能会鼓励他们等待进行有风险的更改。总的来说,设定您可用性的期望,并确保每个人都考虑到任何时区差异。

结论

总而言之,假期应该是您完全从工作待命流程中脱离出来的时间。无论这是否可能,您提前做的准备越多,您的假期被打断的可能性就越小。最后,当您回来时,与您的团队一起对发生的任何问题以及任何令人困惑或不完整的文档进行事后分析,以便您可以为您的下一次假期进行改进。

Kyle Rankin 是 Linux Journal 的技术编辑和专栏作家,也是 Purism 的首席安全官。他是 Linux Hardening in Hostile NetworksDevOps TroubleshootingThe Official Ubuntu Server BookKnoppix HacksKnoppix Pocket ReferenceLinux Multimedia HacksUbuntu Hacks 的作者,也是许多其他 O'Reilly 图书的撰稿人。Rankin 经常在 BsidesLV、O'Reilly Security Conference、OSCON、SCALE、CactusCon、Linux World Expo 和 Penguicon 等会议上就安全和开源软件发表演讲。您可以在 @kylerankin 上关注他。

加载 Disqus 评论