LifeKeeper

作者:Sean Tierney

产品信息。 

  • 制造商:Steeleye Technology, Inc.

  • 网址: www.steeleye.com/products/linux

  • 价格:核心应用程序每个服务器 2,000 美元;应用程序恢复套件每个服务器 500 美元

优点。 

  • 易于实施。

  • 文档。

  • 受支持的应用程序。

缺点。 

  • 数据存储选项。

  • 通信。

LifeKeeper for Linux 是来自 Steeleye Technology, Inc. 的高可用性集群软件套件。当 NCR 剥离最初由 AT&T Bell Labs 开发的技术时,Steeleye 收购了 LifeKeeper。Steeleye 将 LifeKeeper 移植到 Linux 以及其他操作系统。4.4.3 版本支持通信资源、数据库、文件系统以及邮件、打印和 Web 服务器的故障转移。

LifeKeeper

Steeleye 将 LifeKeeper 提供的高可用性类型称为容错能力,即从故障中自动恢复的能力。这与容错的概念不同,在容错中,系统在发生故障后继续运行。

LifeKeeper 在各种 Linux 发行版上受支持,包括 Red Hat、SuSE、UnitedLinux 和 Miracle Linux。LifeKeeper 的最低系统要求是在基于英特尔的服务器上运行的受支持的 Linux 发行版、64MB 内存和大约 10MB 的本地磁盘空间。数据保护通过使用带有 SCSI 或光纤通道的共享存储或使用 LifeKeeper 数据复制的非共享存储来实现。

LifeKeeper 软件包含一组核心应用程序,并通过特定于应用程序的恢复套件 (ARK) 进行扩展。安装支持和核心应用程序包安装了软件基础。这包括图形和命令行界面的二进制文件和配置文件、操作系统、文件系统、SCSI 子系统、处理器、内存、IP 地址和原始 I/O 的恢复支持。它还包括在线帮助系统和手册页。应用程序恢复套件适用于 Apache Web 服务器、数据复制、IBM DB2、Informix、Logical Volume Manager、MySQL、NAS、NFS、Oracle、PostgreSQL、打印服务、SAMBA、SAP 和 Sendmail。

该软件按服务器和每个恢复套件许可。两个服务器的集群需要核心应用程序的两个许可证和每个应用程序恢复套件的两个额外许可证。例如,为了保护一对 LAMP Web 应用程序服务器,需要核心应用程序以及 Apache 和 MySQL 应用程序恢复套件的许可证。虽然许可成本可能很快增加,但它确实允许您只为您需要的东西付费。

我开始了对 LifeKeeper for Linux 的评测,首先阅读了产品文档、参加了在线教程并参加了基于 Web 的研讨会。这是一个文档齐全的产品。我从 Steeleye 收到的 CD-ROM 包含规划和安装手册、配置指南以及每个应用程序恢复套件的手册。文档在 Web 上以及 PDF 格式提供。在线教程相当基础,涵盖了与手册相同的信息。

研讨会包括营销演示和 LifeKeeper 的现场演示。我认为演示文稿和演示对于任何开始研究该产品的人都很有用。如果您希望将 LifeKeeper 引入您的业务,让经理和同事参加研讨会可能会很有用。现场问答环节是最好的部分。我鼓励任何对该产品感兴趣的人查看教程和在线文档,并整理一份问题清单,以便在研讨会期间提交。

集群配置存在一定的灵活性,因此最好花一些时间考虑您要保护的硬件、应用程序和服务。至少,您应该考虑服务器硬件、存储选项、通信路径、故障转移模型、受保护的应用程序和服务。Steeleye 将 LifeKeeper 定位为商品产品。因此,它应该支持大多数合理的服务器配置。尽管如此,他们已经认证了一些硬件,并提供了验证 LifeKeeper 与未认证硬件的指南。经过认证的硬件供应商包括 Dell、HP 和 IBM。事实上,您可以在从他们那里购买系统时包含 LifeKeeper 软件。

有多种存储选项可供选择。共享存储包括连接到集群中两个系统的 SCSI 或光纤通道阵列。数据位于共享阵列上。LifeKeeper 的锁定机制可防止备用系统在活动系统运行时访问分区。数据复制选项允许将存储在一个系统的本地磁盘上的数据镜像到另一个系统。网络附加存储选项有助于使用从 NFS 服务器或 NAS 设备挂载的卷。对于数据是静态的情况,例如 Web 服务器,可以选择不共享或复制数据存储。

与大多数高可用性解决方案一样,LifeKeeper 的核心概念是系统心跳。一台服务器向另一台服务器发送信号,以确定系统和应用程序的健康状况。心跳通信路径选项包括串行端口和 LAN。最好使用多条路径,例如串行和 LAN 或多个 LAN 连接。故障转移模型包括活动/活动、活动/备用和 N+1。在活动/活动配置中,集群中的每台服务器都提供自己的一组应用程序和服务。如果一台服务器发生故障,另一台服务器将接管。用户可能会遇到一些服务降级,因为剩余的系统正在为两组应用程序和服务提供服务,但这确实允许最大限度地利用资源。

活动/备用在发生故障后提供最佳的服务连续性。但是,它需要冗余系统和相关的成本。在 N+1 配置中,一个备用系统为多个活动系统提供故障转移保护。此配置在最大限度地利用资源的同时最大限度地降低了成本。如果发生多次故障,用户仍然可能会遇到响应时间增加的情况。或者,可以配置其他活动服务器来接管。如前所述,LifeKeeper 为各种系统组件、服务和应用程序提供故障转移保护。Steeleye 网站上提供了有关每个应用程序恢复套件的更多信息和文档。

第一个测试场景是一对运行 Linux、Apache、MySQL 和 PHP 的服务器,提供多个 Web 应用程序。我使用的硬件配置是由两台服务器组成的集群,带有双网卡。我将每台服务器上的一个 NIC (eth0) 连接到 LAN;第二个 NIC (eth1) 使用交叉电缆相互连接。我用零调制解调器电缆连接了串行端口 (ttyS0)。在安装 LifeKeeper 之前,我安装并测试了操作系统、应用程序和支持软件。这是推荐的步骤,尽管可以在安装 LifeKeeper 之后安装该软件。

在我第一次尝试安装 LifeKeeper 时,我正在运行自定义内核。因此,未安装数据复制和 NFS 恢复套件。但是,安装指南提供了根据需要修补内核和模块的说明。后来,我重建了系统并使用了默认内核。在运行安装支持设置、安装核心应用程序和恢复套件时,没有发生任何故障。我使用 LifeKeeper GUI 设置心跳的通信路径并保护 Web 应用程序。命令行程序也可用。该手册包含设置和配置的每个阶段的分步说明,但该过程相当直观。我尝试了其他几种配置,包括共享存储和旧系统。

软件安装和配置完成后,并且我测试了所有受保护的应用程序以确保它们正常工作后,我运行了几个故障转移测试。我使用 GUI 将故障手动从一台服务器转移到另一台服务器,然后再返回。这是将受保护系统停止服务以进行维护的程序。我引发的其他故障包括终止和关闭受保护的服务、关闭和移除网络接口和心跳通信路径的电缆以及关闭和拔下受保护系统的电源线。手动停止系统服务产生的切换速度最快。但是,由我引发的故障导致的故障转移速度不如手动停止系统服务快。从活动系统到备用系统的故障转移速度很快,但不是立即的。密切关注系统的系统管理员或在发生故障时恰好正在访问应用程序的用户会注意到服务暂时停顿。根据提供的应用程序或服务的类型,这可能不是问题。总的来说,我发现故障转移和恢复服务的性能在我的所有测试中都是足够且一致的。

在试验了高可用性、开源解决方案并使用过其他商业软件包后,我发现 LifeKeeper for Linux 4.4.3 版是一款不错的产品。它文档齐全,并且该软件相对容易安装和配置。应用程序恢复套件适用于大多数情况。此外,对于少数未涵盖的情况,还提供通用恢复套件和软件开发套件。技术支持知识渊博且乐于助人,而且成本合理。任何在市场上寻找高可用性解决方案的人都绝对应该考虑这款产品。

Sean Tierney 是华盛顿大学的研究生,也是一名从事 UNIX 和 LAN 工作的系统程序员。当他不沉迷于新的计算机项目时,他喜欢与妻子、儿子和狗一起在西雅图南部的蒲公英牧场度过时光。欢迎您将评论发送至 reviews@prnkstr.com

加载 Disqus 评论