监控问题

作者:Bryan Lunduke

1935 年,奥地利物理学家埃尔温·薛定谔,在两年前获得诺贝尔奖后仍然意气风发,创造了一个简单的思想实验。

实验大致是这样的

如果你有一台文件服务器,你无法知道服务器是启动还是关闭……直到你检查它。因此,在你使用它之前,文件服务器在某种意义上既是启动的又是关闭的。同时。

这个小小的脑筋急转弯被称为薛定谔的文件服务器,它被认为是已知最早的关于系统管理和量子叠加交叉点的关键研究。(尽管,为什么埃尔温特别选择使用“文件服务器”作为例子仍然有点神秘——因为这个实验对于任何类型的服务器都同样有效。 好像,我们明白了,埃尔温。你有一个不错的 NAS。算了吧。)

...

好吧,也许事情并没有完全像那样发生。但我相信它本可以……你知道……如果老好人埃尔温有一个不错的网络附加存储服务器而不是一只猫。

无论如何,该实验的教训对于服务器来说肯定适用。 如果你最近没有检查你的服务器,你怎么能真正确定它运行正常呢? 见鬼,它甚至可能根本没有运行!

监控服务器——在问题发生时得到通知,或者更好的是,在问题看起来即将发生时得到通知——乍一看,似乎是一项简单的任务。 编写一个脚本来 ping 服务器,然后在 ping 超时时给我发电子邮件。 每隔几分钟运行该脚本,然后,砰,我们就得到了一个服务器监控解决方案! 轻而易举,午餐时间到了!

哇哦,等等! 没那么快!

那边的服务器监控解决方案? 它很糟糕。 它很脆弱。 它给你的信息很少(除了 ping 的结果)。 即使对于管理你自己的家庭服务器,这些信息和监控也 едва 足够以保持事情顺利运行。

即使你有一个更强大的解决方案到位,很可能也存在重大的缺点和问题。 幸运的是,《Linux Journal》为您撑腰——本期杂志充满了关于如何有效监控您的服务器的建议、技巧和窍门。

你知道,这样你就不会只是猜测猫是否还活着。

Mike Julian(O'Reilly《实用监控》的作者)在他的标题可爱的文章“为什么你的服务器监控(仍然)很烂”中详细介绍了你的监控解决方案需要认真改进的许多方面。

我们继续用 Corey Quinn 关于亚马逊 CloudWatch 的论文“CloudWatch 是魔鬼,但我必须使用它”来“实话实说”。 说真的,Corey,告诉我们你的真实感受。

在我们宣泄情绪、发泄怨气之后,我们得到了一个详细的、实践性的演练,介绍如何使用 Monit(一个用于 Linux 的开源进程supervisor)结合 RRDtool(一个 GPL 许可的工具,用于长期捕获数据,例如来自 shell 脚本,并将其绘制成图形)以相当简单且非常开源的方式监控您的服务器。

再加上对 Steve Newman(Writely 的创建者之一,您可能知道它在 2006 年被 Google 收购后成为 Google Docs)关于他的公司 Scalyr 的采访,该公司处理服务器监控和日志管理——您将获得比您能想象的更多的服务器监控信息。

或者,你可以回到猜测猫是否还活着。 那也很有趣。

订阅者,您可以立即下载您的九月刊

还不是订阅者? 为时不晚。 立即订阅 并立即访问自 1994 年以来的本期和所有过刊!

想购买单期杂志?LJ 商店购买十一月刊或其他单期过刊。

 

Bryan Lunduke 曾任软件测试员、程序员、技术副总裁、Linux 营销人员 (tm)、openSUSE 董事会成员...以及现任《Linux Journal》副编辑、Purism 营销总监,以及热门节目《Lunduke Show》的主持人。 更多详情:http://lunduke.com

加载 Disqus 评论