监控

将系统监控提升到新的水平:Scalyr CEO Steve Newman 访谈

随着计算生态系统变得越来越复杂,监控和分析那些通常断开连接的移动部件变得越来越具有挑战性。今天的数据中心已经从单一供应商生产和销售一体化产品发展而来,例如 EMC、NetApp、HP 甚至 Sun 拥有您的数据中心,您可以选择一家供应商并坚持使用它。这些相同的供应商为您提供了所需的工具来监控、分析和排除其整个堆栈的故障。

重新定义系统监控的格局:Pulseway 创始人访谈

Pulseway 提供同名产品,旨在使 IT 人员能够监控、管理和自动化他们的系统以及他们托管的任务或应用程序。而且,最好的部分是他们可以随时随地从口袋里完成所有这些事情。事实上,我之前写过一篇关于 Pulseway 的文章,所以请查看该文章以进行介绍。

为什么你的服务器监控(仍然)很糟糕

一位监控专家转顾问对为什么你的服务器监控仍然很糟糕的五个观察。在我的职业生涯早期,我负责管理一个大型园区内的大量打印机。我们谈论的是数百台联网打印机。通常需要步行 10 或 15 分钟才能到达其中一些打印机,而且许多打印机只是偶尔使用。我并不总是知道发生了什么,直到我到达那里,所以任何人都在猜测问题是什么。简单的卡纸?驱动程序问题?打印机着火了?我只有在长途跋涉后才知道。对每个人来说更令人沮丧的是,由于其中一些打印机不经常使用,一台出现问题的打印机可能会被忽视数周,只有当有人尝试使用它时才会为人所知。

监控问题

1935 年,奥地利物理学家埃尔温·薛定谔在他两年前获得诺贝尔奖后仍然意气风发,他创造了一个简单的思想实验。它大致是这样的:如果你有一台文件服务器,你无法知道该服务器是启动还是关闭……直到你检查它。因此,在你使用它之前,文件服务器在某种意义上既是启动的又是关闭的。同时。

CloudWatch 是魔鬼,但我必须使用它

让我们谈谈 Amazon CloudWatch。对于那些有幸没有陷入 Amazon Web Services (AWS) 困境的人来说,CloudWatch 是,我引用 AWS 官方描述,“一种为开发人员、系统运维人员、站点可靠性工程师 (SRE) 和 IT 经理构建的监控和管理服务。” 这一切都很好,除了没有一个指定的选区喜欢使用该产品。请允许我传播一些监控异端邪说。

Pulseway:指尖上的系统管理

在当今的 IT 世界中,随时掌握与最关键任务的应用程序或机器相关的一切变得越来越重要。考虑到这种需求,Pulseway 提供了同名产品,旨在使 IT 人员能够监控、管理和自动化这些系统以及他们托管的任务或应用程序。管理整个计算生态系统(包括物理机和虚拟机)永远不应该是一项过于困难的任务,而 Pulseway 已证明情况确实如此。

追踪小故障

在之前的一篇文章中,我解释了设置 Cacti 的过程,Cacti 是一个非常适合绘制任何东西的程序。我绘制的主要内容之一是我的互联网使用情况。而且,拥有这些信息非常棒,直到出现你无法解释的互联网活动。

HOSTING 监控洞察

当今 CIO 的一个重要需求是更精细地了解混合云和本地环境,以最大限度地提高其 IT 资产的业务价值。