即插即用,快速运算:WhiteCross 的 Linux 故事

作者:Doc Searls

这使我们来到了在纽约举行的个性化峰会(2001 年 4 月 2-4 日),我在一个关于“个性化未来”的小组中(简而言之,我说没有太多希望,但那是另一个故事)。在观众席上坐在我旁边的是 John K. Thompson,WhiteCross 公司的全球营销副总裁。

“你知道吗,”他说,“我们拥有世界上最快的 Linux 分析平台。有兴趣吗?”

嗯,是的。所以几个小时后我们再次见面,并进行了一次采访。

DocWhiteCross 是如何创立的?

John: 我们由 1992 年离开 Teradata 的人创立。从一开始,我们就从事商业智能业务:处理海量的分析数据。因此,我们构建了一个以分析速度,全力加速为目标的平台。为此,我们首先构建了一个基于 Lynx(现在是 LynuxWorks)的大规模并行计算系统。硬件平台由纯粹的商品化产品构建:AMD 333MHz 芯片,IBM SSA 驱动器,以太网互连。

然后我们开始研究下一代,称为 Lightning。它将扩展到 1.2GHz 芯片和更大的驱动器,但它仍然是机架式的,并且性能仍然是 NCR 和 Sun StarFire 服务器的五十倍。

Doc这就是 Linux 的用武之地?

John: 是的。我们认为构建新平台的最佳方法是将现有平台移植到 Linux。我们就是这样做的。我们现在在我们在旧金山和伦敦郊外 Bracknell 的数据中心运行我们的 ASP,并在这些之上销售服务。我们提供外包的统包分析解决方案。

Doc请给我更多技术细节。

John: 这种编写方式完全是为了分析。通过 ODBC 的 SQL 接口。数据探索服务器是一个两层架构系统。第一层是运行 Solaris 的 Sun UNIX 平台。这些是我们的通信处理器,它们与外部系统接口并接收数据馈送——加载、流。我们可以并行运行这些。无论是 ASCII、EBCDIC 还是其他,我们都会将数据转换为二进制并将其加载到系统的大规模并行部分,即 DES(数据探索服务器)。

Doc它在 Linux 上运行。

John: 是的。这就是以前在 Lynx 上运行,现在在 Linux 上运行的东西。我们可以设置它们,使其始终并行运行。

Doc与旧系统相比,性能提升了多少?

John: 在英国一家大型 ISP Freeserve,他们每天的日志文件报告需要 28 小时才能完成。我们介入并在一个机架系统中设置了加载过程。它在 50 分钟内加载完成。

DocLinux 的性能比旧系统好多少?

John: 我们有一个表格,我们在其中比较了新旧操作系统。它列出了大约 105 个操作。当我们对它们进行平均时,Linux 快了 20 倍。

Doc还不错。

John: 我们所做的一切都与性能有关。如果差异不是那么大,我们就不会做出改变。在 85 到 95 个操作中,Linux 都更快。内存访问、磁盘读取、交换缓存、磁盘写入……Linux 在几乎所有方面都完胜。

Doc请详细介绍一下您的系统是如何工作的。

John: 可以将其视为一个两层系统,该系统是大规模并行的,并且可以随着任何客户需求而增长。其中一个技术优势是,由同构数据组成的数据库与由五十个不同数据源组成的数据库一样易于维护和操作。我们正在获取整个数据库,将其转换为二进制,并在每次运行时分析整个库。因此,我们没有采用数据库管理员 (DBA) 使用的优化、索引和其他性能增强技术,而是直接放入数据并始终针对所有数据运行。只需插入更多的磁盘和处理器卡即可。逐步增长。与 Sun 或 Oracle 实施相比,总运营成本微乎其微。我们不担心用户查询、使用模式或加载时间,而这些是 DBA 花费最多时间的地方。他们的问题是,“如何在批量窗口中加载两个 TB 的数据?” 我们回答了这个问题。我们在美国有一个实施案例,我们每天实时加载 85GB,而系统甚至没有吃力。

从客户的角度来看,人们希望查看不同的数据集:产品、客户、使用情况等等。传统上所做的是让他们构建不同的数据库。这会使组织和客户的视图碎片化。虽然我们每天加载如此多的数据,但我们正在对客户的活动、服务、他们正在使用的产品进行普查——使用这个统一的数据集合。我们使他们能够在一个数据集中查看业务的所有视图。他们可以查看客户、产品、服务、网络容量、定价分析、市场进入战略规划等等——所有这些都在一个数据集上。

Doc这是一个独立的系统吗?

John: 这是一个对其他平台的补充。它增加了数据和分析处理的扩展能力。它不会取代数据仓库。我们正在讨论构建一个设施,该设施允许在非常活跃的平台上进行简单的报告、多维分析、数据挖掘和数据探索。如果您查看大多数数据仓库,它们都是非常静态的。我们正在为他们提供一个动态设施。Linux 几乎免费地实现了这种动态性。

Doc那么为什么要选择 Linux 呢?

John: 它非常灵活。人们通常听说 Linux 是文件、打印或 Web 服务器。我们要求它做类似的事情。交换内存、在磁盘上和磁盘外移动数据、解析 SQL 语句以及大量的计算。操作系统在盒子中完成所有操作。但 Linux 的主要优势在于我们可以通过添加更多机架来扩展。即插即用,快速运算。

Doc它也应该更容易管理。

John: 它非常易于监控和管理。我们不断监控客户端系统,发送警报,例如,“您的磁盘即将达到临界状态。” 这让他们向我们发出信号以添加更多卡。然后这只是硬件成本。系统会自行重新配置并继续运行。它会感应到另一张卡的存在,判断它是处理器卡还是磁盘卡,对其进行寻址并继续运行。

Doc本质上,操作系统既不是成本问题,也不是问题。

John: 完全正确。唯一的问题是硬件,并且管理起来很容易且是例行公事。很多人认为硬件没有什么新东西,但这是一种通过添加以没有人想到的方式协同工作的组件来添加功能的新颖而简单的方法。

Doc操作系统的成本也无可匹敌。

John: 是的。去买个热狗和一些 Linux 吧。但开放性也是一个巨大的优势。我们正在做的是以独特方式设计的开放系统方法。人们接受 Sun 的 Starfire 和 NCR 的 WorldMark 服务器是开放的,但事实并非如此。Linux 是真正开放的。它随时可用,随时随地。当您将商品芯片与商品驱动器捆绑在一起,并使用快速以太网互连连接在一起时,您需要一个商品操作系统,而 Linux 就是它。

Doc您使用的是 Linux 发行版,还是来自嵌入式工具链公司的一些东西?

John: Linux 完全是我们自己的。我们采用了基本内核,并使用我们自己的驱动程序对其进行了扩展,就像我们对 Lynx 所做的那样。

Doc SearlsLinux Journal 的资深编辑,《The Cluetrain Manifesto》的合著者。

加载 Disqus 评论