高性能 Linux 集群

作者:David Morton

欧洲和美国的一组科学家每年发布两次全球 500 强计算系统列表。Top 500 榜单是同类排名中最负盛名的,供应商和用户利用有利的排名来宣传他们的工作。最新榜单于 2007 年 6 月发布,再次证实了近期的趋势:Linux 是高性能计算 (HPC) 中使用最频繁的操作系统。考虑一下这些数字:389 台机器(或 78%)运行某种版本的 Linux,64 台运行 UNIX,两台运行 Windows,42 台混合使用了 Linux 和其他操作系统。

尽管这种主导地位表明 Linux 在 HPC 领域有着悠久的历史,但事实是 Linux 集群在六年前才开始取代 UNIX 系统。如此迅速的初步普及归因于 Linux 和开放系统将商用硬件和软件引入了以前的专有系统市场。这一变化显着降低了成本,使高端用户能够以更低的成本购买更多功率,并为传统产品设计师等无法负担封闭专有系统的新用户打开了大门。Linux 在 HPC 市场的主导地位非常成功,市场研究公司 IDC 估计,到 2006 年年中,Linux 占 HPC 市场总额的 65%(相比之下,UNIX 约为 30%),并且预计将继续增长。Top 500 榜单证实了这种增长。

挑战和问题

Linux 显然是 HPC 的现在,但它是未来吗?微软继续在其 Windows Compute Cluster Server 上取得进展,手头有大量现金,并且从商业角度来看,显然有能力蚕食市场份额。此外,尽管 Windows 有众所周知的缺陷,但每个人都使用过并熟悉 Windows,这可能会使其成为 HPC 新用户的舒适平台。

更复杂的是,尽管高性能 Linux 集群赢得了当之无愧的市场主导地位,但在许多情况下,它们也因难以构建和管理而闻名。广泛可用的商用组件导致构建稳定系统所需的选择、集成和测试变得复杂。当您考虑到组织投资 HPC 系统是为了获得其运行应用程序的最佳性能时,这种复杂性变得更加成问题。系统架构中的微小变化会对生产时间、系统吞吐量和性价比产生不成比例的巨大影响。

此外,与任何新技术一样,早期的高性能 Linux 集群也遇到了挫折。早期系统需要供应商花费很长时间来构建和交付,甚至需要更长的时间才能投入生产。此外,早期的管理软件使得重新配置系统和升级组件变得繁琐。最后,交付 HPC 系统不仅要了解互连、处理器和操作系统相关的技术细节,还要了解计算机辅助工程 (CAE) 应用程序的细微差别。早期的高性能 Linux 集群供应商不一定具备专有系统供应商在计算流体动力学 (CFD)、有限元分析 (FEA) 和可视化代码方面的专业知识。

因此,许多人自然会质疑 Linux 和开放系统的巨大价格优势是否仍然超过所有其他考虑因素。事实是,尽管 Windows 为入门级 HPC 用户提供了一些优势,但高性能 Linux 集群已经成熟。如今的 Linux 集群以比以往更具吸引力的价格提供更好的性能。集群越来越多地被要求作为交钥匙系统,从而缩短了生产时间并减少了管理难题。此外,开源的本质有助于高性能 Linux 集群的优势。Linux 集群能够更快地适应新技术变化,更易于修改和优化,并受益于全球开发人员社区对调整和优化代码的兴趣。

基于 Linux 的 HPC 的优势

HPC 中最重要的因素当然是性能。国家实验室和大学需要更强大的机器来解决更大规模、更高保真度的问题。航空航天和汽车工程公司需要性能更好的系统,以便从运行组件级作业(例如分析发动机缸体的应力)发展到进行更复杂的多参数研究。各个领域的产品设计师都希望从在相对缓慢的工作站上运行 CAE 应用程序转变为加速整个设计过程。

因此,性能与高性能计算密不可分,在这一领域,Linux 集群表现出色。这主要有两个原因:成熟度和社区。

成熟度

凭借多年的经验,高性能 Linux 集群的供应商和架构师比以往任何时候都更有能力设计稳定、经过调整的系统,以提供所需的性价比,并使客户能够充分利用其应用程序许可证。

第一代系统可能难以管理,但最新一代系统配备了先进的集群管理软件,大大简化了操作。通过选择经验丰富的供应商,当今的许多集群都作为功能齐全的系统交付,而不是一堆拼接在一起的商用组件。因此,用户既可以从较低的购置成本中获益,也可以从易于使用的高性能系统中获益。

Linux HPC 行业的成熟度也有助于更深入地了解用户依赖的代码以及构建系统所用的硬件。某些供应商已成为调整系统和优化 Linux 以应对和克服广泛使用的 HPC 应用程序带来的挑战的专家。例如,大多数高性能结构代码(例如 ANSYS 或 ABAQUS 中的代码)都需要高 I/O 来维持更高的渲染速率。相反,碰撞/冲击代码不需要太多 I/O 即可最佳运行;它们旨在在平均 CPU 计数为 16 的系统中并行运行。Linux 已经发展到供应商现在可以非常轻松地构建能够满足这些代码需求的系统——即使在同一个集群中也是如此。

Alliant Techsystems (ATK) 是高性能 Linux 集群如何成熟的最新例证。ATK 是一家先进的武器和航天系统公司,在 HPC 系统方面拥有多年的经验。2006 年,面对老化专有系统的升级,发射系统集团在经过广泛的基准测试后,投资了一个高性能 Linux 集群,发现该集群经过调整和优化,适用于 CFD、FEA 和可视化代码。该决定反映了他们对 Linux 集群和供应商已经成熟的理解。

“我们听说过一些组织转向 Linux 超级计算机的恐怖故事,结果却遭受了长达六个月或八个月甚至更长的安装时间”,ATK 发射系统集团工程经理 Nathan Christensen 说。“例如,ATK 的另一个业务部门经历了八周的等待和停机时间才能使系统投入生产。发射系统集团希望避免类似的经历。”

“该系统在交付时已经过应用程序调整、验证并准备好投入生产使用”,Christensen 说。“我们能够在交付后两周内迅速投入全面生产,生成我们的模拟并进行分析。”

该系统还加快了公司获得结果的时间,从而使 ATK 能够更快地完成设计并进行更频繁、更高保真度的分析。发射系统集团的运行速度比以前快了三到四倍。此外,在其某些关键的 CFD 和 FEA 应用程序上,ATK 已经能够实现十倍的吞吐量性能。

社区

更广泛的 Linux 社区也是确保基于 Linux 的系统提供最佳性能的重要因素。开源的好处意味着来自世界各地的用户和供应商不断开发创新并与更广泛的社区分享。这使得基于 Linux 的 HPC 系统能够更快地适应新的硬件和软件技术。因此,利用新处理器、互连和应用程序的能力远高于专有系统。

其他优势

高性能 Linux 集群除了原始应用程序性能之外,还提供一系列优势。

首先,Linux 以其与所有类型的架构和网络互操作的能力而闻名。由于对 HPC 系统的投资,用户希望确保他们的系统尽可能面向未来。Linux 为用户提供了一个足够灵活的操作系统,可以适应几乎所有未来的进步。当然,当再次考虑更大的 Linux 社区共同努力解决常见问题时,这一点会得到进一步放大。此外,Samba 等各种工具允许 Linux 与 Windows 系统共享文件服务,反之亦然。

其次,Linux 集群在没有无头操作的情况下发展起来。因此,管理工具能够作为一个整体安装和管理系统,而不是作为单独的工作站或服务器。这些工具继续变得更易于使用,使技术技能有限的用户能够快速进入 HPC 领域。仅举一个例子,Linux Networx 最近推出了其最新的集群管理应用程序 Clusterworx Advanced。此应用程序为系统管理员提供了直观的工具,可大大简化操作并减少管理工作量。

第三,基于 Linux 的集群易于扩展,部分原因在于更新的文件系统,例如 GPFS 和 Lustre,它们提供了更好的可扩展性,但仅在 Linux 和 UNIX 上可用。基于 Windows 的文件系统通常针对文件共享进行调整,并且无法提供当大量计算节点同时请求相同数据集时所需的性能和可访问性。

第四,Altair 的 PBS Pro 和 Platform LSF 等资源管理工具确保计算资源的分配利用率超过 90%。如果没有适当的资源管理,系统往往只在工程团队工作时才工作,从而限制了总体利用率。借助成熟的资源管理工具(例如 Linux-based HPC 系统可用的工具),作业可以每天 24 小时、每年 365 天进行调度。可以根据需要同时运行多个作业,从而确保始终充分利用多余的功率。

第五,从稳定性的角度来看,Linux 由于其灵活性和大量人员致力于改进它,因此比其他平台更稳定和可扩展。例如,Windows 在节点数量适度增加时容易出现故障,并且在政府和国家实验室中不被视为一种选择。

第六,开源的性质使 Linux 成为供应商和用户最方便使用的平台。标准由全球程序员社区广泛定义和支持,而不是剩余专有供应商中数量不断减少的程序员。因此,用户和供应商可以利用大量完全开发的工具、实用程序和软件修改来优化他们的系统。

结论

HPC 市场已经做出了选择,由于 Linux 操作系统具有卓越的性能、更低的成本以及开源开发人员和供应商社区,因此选择了 Linux 操作系统。Windows 可能为入门级用户提供了很多东西,尤其是那些资源或目标有限的用户。同样,UNIX 仍然可以为许多遗留 HPC 应用程序提供很多东西。但是,Windows 和 UNIX 都需要做更多的工作才能提供与 Linux 相同的功能和引人注目的性价比。HPC 市场比以往任何时候都更加开放和具有竞争力,但很明显,Linux 仍然是当今和可预见的未来的最佳选择。

David Morton 在供应商和最终用户角色方面拥有 17 年的超级计算经验,现任职于 Linux Networx。Dave 负责领导 Linux Networx 的技术愿景,并指导硬件、软件和系统工程团队。此前,Dave 曾担任 Maui 高性能计算机中心的技术总监,负责国防部超级计算中心技术的定义和监督。他曾在 SGI 担任多个职位,包括服务器 I/O 和持续工程总监以及 Origin 平台工程总监。Dave 在 Cray Research 拥有八年的经验,并被列为三项已颁发专利的发明人。Dave 拥有伊利诺伊大学机械工程硕士学位和明尼苏达大学 MBA 学位。

加载 Disqus 评论