UpFRONT

作者:Doc Searls
Linux 使机器翻译开发成为可能

Systran 互联网翻译技术公司诞生于冷战时期,当时美国政府希望快速翻译大量俄文文本。在六十年代末,它成为一家名为 Systran 的私营公司,位于加利福尼亚州拉霍亚。

在九十年代,Systran 决定放弃在 MVS 下运行的 OS/390,并将整个系统移植到 UNIX。那时,PC 已经变得足够强大,可以托管翻译引擎。使用自动翻译器将大部分汇编代码迁移到 C 代码中。

最初的移植是在 Solaris 上进行的,但他们很快转向了更便宜的硬件、PC 和 Slackware(此后他们已转移到 Red Hat)。选择 Linux 的原因是:它可以在各种硬件上运行;它提供了开发人员可能需要的所有工具;自然语言处理使用需要强大工具的大型文本;翻译引擎使用大量的规则,因此迁移产生了大型 C/C++ 程序,并且需要强大的工具,如 Make 和 gcc/g++;像 AltaVista 这样的客户拥有大量的受众,需要一个在稳定系统上运行的强大应用程序;以及成本。

此外,还可以加上以下事实:新硬件的驱动程序在 Linux 上比在其他平台上出现得更快,并且它使用的资源略少。Linux 提供了一种易于复制的同构配置,并且非常可扩展。Linux 还附带防火墙、sendmail、Apache、modperl 和 PostgreSQL,所有这些都是 Systran 在线服务(http://www.systranlinks.com/, http://www.systranet.com/)所需要的。此外,像 GNOME 或 KDE 这样的环境使将 Linux 交给非程序员使用也成为可能。这一点很重要,因为 Systran 的许多员工是语言学家而不是程序员。最后,POSIX 兼容性确保 Systran 可以轻松移植到其他形式的 UNIX。

Systran 软件是世界上大多数自动翻译背后的技术支持。客户不仅包括美国政府机构和欧洲机构,还包括 AltaVista、Microsoft、Apple、Lycos 和 AOL。

机器翻译处于语言学和计算机科学的交汇处。开发产品只是将人类语言的所有规则翻译成计算机语言。主要问题是语言学问题,因为您需要从对相关语言的准确描述开始。存在对源语言的描述(分析阶段)和对目标语言的描述(合成阶段)。

代码分为四个部分:1) 源语言的分析;2) 目标语言的合成;3) 转换规则;以及 4) 所有翻译引擎的通用程序,即内存管理、命令行管理、字典查找程序、过滤器、预处理、后处理等。

使用的字典非常具体;它们不仅包括单词的翻译(即,manger = to eat),还包括句法和词汇信息,例如“这个动词是不及物的,它可以在这个特定的上下文中被使用,在这种情况下它意味着这个。” 字典有三种类型。前两种是内部的,一种包含简单的词干,另一种包含复杂的或习语表达。第三种是外部的。后者是根据特定客户的特定主题按需创建的。Systran 还拥有资源文件,其中包含动词的屈折变化或具有屈折变化的语言的变格,以及外部(客户)字典的特定优先级规则和文体指示。所有这些都是用 C 语言编码的,尽管较新的扩展通常是用 C++ 语言编码的。

为了生成规则,语言学家使用 GTK 中编码的图形界面。数据存储在 ASCII 文件中,该文件通过 Perl 程序生成来自代码数据的宏指令。字典是使用语言分析期间发现的规则半自动构建的。为每种语言创建一个单语主字典;输入术语,Systran 的工具会根据表格自动添加相关的语言信息。例如,“automatically” 会被识别为副词,因为它以 “ally” 结尾。然后通过创建一个简单的双条目列表来构建双语字典,该列表随后将从单语主字典中检索相关的句法信息。

只有在最后阶段,字典才被编译成二进制格式,以提高运行时的处理速度。当您点击 AltaVista 上的“翻译”按钮时,您可能从未想过其背后的过程如此复杂!

Systran 正在准备发布免费的 Linux 版本,其中包含 Systran Personal Windows 版本的所有功能。

—Thunus F.,Systran 卢森堡主管

NASA 的 JPL 在 Linux 上构建战争游戏模拟器

加利福尼亚州帕萨迪纳市的喷气推进实验室 (JPL) 是太空计划的主要参与者之一。JPL 由加州理工学院为 NASA 管理,是美国太阳系机器人探测的领导中心,其航天器已经访问了除冥王星外的所有已知行星。除了为 NASA 工作外,JPL 还为各种联邦机构开展研究和开发项目。其中一个项目,军团战斗模拟 (CBS) 最近从 VAX 过渡到 Red Hat Linux 7.0 版本,从而在大幅降低成本的情况下显著提高了性能。

15 年多来,CBS 一直被用于训练军官的战斗战术。以前,它在 VAX 最强大的计算机上运行,这是一台价值 10 万美元以上的 7800 系列机器。然而,由于智能的稳步提高和新功能的增加,CBS 在 VAX 上达到了其局限性。这使得进一步创新变得困难,并威胁到在几年内使战斗模拟器过时。因此,位于佛罗里达州奥兰多的美国陆军模拟、训练和仪器司令部 (STRICOM) 要求 JPL 将该软件移植到 Linux,以提高功能并降低成本。

在花费了一人年的时间重新配置 CBS 源代码,然后重新编译、测试和调试之后,该团队对在 Linux 上运行的系统进行了基准测试,结果令人满意。“通过将 CBS 从 VAX 移植到 Linux,我们以大大降低的成本实现了更好的性能,并拥有了大量的额外容量,”JPL 的模拟软件技术专家 Jay Braun 说。

Linux 的额外容量为 CBS 系统提供了更多的扩展空间。例如,现在可以以非常精细的级别对地形高度进行建模。以前,尝试复杂的视线计算严重消耗了 VAX 的能力。现在,Linux 上提供了高保真地图,使模拟更加逼真,提高了战斗场景的准确性。

CBS 正在一台配备 1.2 GHz AMD Athlon 处理器的 4,000 美元 PC 上运行。这台 Linux 机器运行最大的 CBS 演习的速度几乎是最强大的 VAX 的四倍,而模型保真度没有任何损失。在使用 VAX 时,为了使模拟以一对一的游戏比例进行(即,模拟中的虚拟一分钟需要实际执行时间一分钟),必须降低保真度。然而,在 Linux 下,可以以可用的最高质量级别实现一对一的场景。

JPL 还进行了调整,使 CBS 的最大演习的保存时间为 20 秒,小演习的保存时间为 3 秒。这比旧的 VAX 系统快了一个数量级。在 Linux 下,该应用程序现在可以为每个模拟表示近 3GB 的虚拟地址空间。“那是一个很大的图像!” Braun 说。“我们的模型有很多功能正在突破 Linux 的极限。”

JPL 将在 2001 年 6 月交付移植后的软件。Braun 预测,在不久的将来,该系统将进一步发展为一台双处理器机器,可以支持额外的模拟。JPL 现在正在转向使用新 2.4 内核的 Red Hat Linux 7.1。

小字细则

无法从本书复制文本选择到剪贴板……不允许打印本书……本书不得借给或赠予他人……本书不得借给或赠予他人……本书不得朗读。

—摘自 Adobe 以可下载的 .pdf 格式发布的 爱丽丝梦游仙境 附带的“许可”。刘易斯·卡罗尔于 1865 年创作的 爱丽丝梦游仙境 早已进入公有领域。

显然,对受版权保护的材料的某些保护将会并且应该被构建到代码中。但是,不应该完全控制受版权保护的材料的使用权。关键在于找到平衡。当像 Adobe 这样的公司明确表示他们的努力是找到平衡时,他们应该获得信任。

—Lawrence Lessig,《The Industry Standard》,2001 年 3 月 27 日

LJ 索引—2001 年 6 月
  1. 铱星卫星移动电话系统的开发成本,单位为十亿美元:5

  2. 铱星破产后的售价,单位为百万美元:25

  3. 如果该系统没有被出售,将被强制烧毁回地球的铱星卫星数量:60

  4. Napster 为允许在其服务上交换受版权保护的作品而向唱片公司提供的被拒绝的总额,单位为十亿美元:1

  5. 向一位听众流式传输 90 分钟音乐的估计成本:每天 81 美元

  6. 在点对点订阅者基础上进行相同操作的估计交付成本:每天 15 美元

  7. AOL-TimeWarner“负责”的在线时间百分比:32.7

  8. AOL-Time Warner 的“家庭渗透率”百分比:74.8

  9. 2000 年 6 月最受欢迎的 1000 个网站的页面浏览量百分比:53

  10. 2001 年 1 月最受欢迎的 1000 个网站的页面浏览量百分比:48

  11. 2000 年 PDA 销量,单位为百万:9.39

  12. 2004 年预计 PDA 销量,单位为百万:33.7

  13. 夏普希望通过其新的基于 Linux 的 PDA 捕获的全球 PDA 销售额的大约百分比:50

  14. 夏普 2002 年底的全球销售目标,单位为百万:1

  15. 夏普希望在 2002 年 10 月之前在其基于 Linux 的 PDA 上运行的基于 Java 的程序的数量:10,000

  16. 夏普对 Linux PDA 平台活跃程序员数量的估计:100,000

  17. 夏普对 Microsoft PDA 程序员数量的估计:50,000

来源
  • 1-3:Hoovers

  • 4-6:ZDNet

  • 7-8:Mediametrix

  • 9-10:Industry Standard from Alexa Internet,2001 年 3 月

  • 11-12:Gartner Group

  • 13-17:CNET

红色警戒

在 NBA 的首届三分球投篮大赛中,拉里·伯德在更衣室里看着他的对手说:“谁争第二?” 这就是 Linux 发行版的主要问题。Red Hat 多年来一直占据着拉里·伯德的位置,而唯一改变的是谁排在第一之后。

最近,加利福尼亚州圣克鲁斯市的 Evans Data Corporation 询问了 300 位 Linux 开发人员,他们会为 Web 服务器或 Web 应用程序服务器选择哪些发行版。显而易见的答案是 Red Hat。紧随其后的是 SuSE 和 Mandrake,各占 21.8%。然而,如图表所示,对于开发人员来说,真正的问题是“除了 Red Hat 之外,您还会选择谁?” 额外选择的平均数量为 1.3 个(总共 2.3 个选择)。Caldera、Debian 和 FreeBSD 紧随 SuSE 和 Mandrake 之后。

UpFRONT

该调查的目录可在 Evan 的网站上找到 (www.evansdata.com/Linux01TOC.htm)。

他们说过

在真理和对真理的探索之间,我选择后者。

—伯纳德·贝伦森

如果你说真话,你就不用记住任何事情。

—马克·吐温

诚实是最好的策略。如果你能伪装诚实,你就成功了。

—乔治·伯恩斯

祸从口出。

—西蒙·默科特

几乎所有人都能承受逆境,但如果你想考验一个人的品格,就给他权力。

—亚伯拉罕·林肯

这里的战略目标是将 Windows CE 标准应用到我们能够应用的每一种设备中。我们不必在未来几年内赚钱。我们在 MS-DOS 的第一个版本中也没有赚钱。如果你能以 10 美元的价格进入这个市场,那就接受它。

—比尔·盖茨

我们是否有一种方法让那些在 Linux 上托管网站的人可以在 [.NET] 上构建?是的,我们有。这并不是说我们的总体战略不是将这些网站转移到 Windows 上,但我们将为这些 Linux 服务器提供使用 .NET 的方法。

—史蒂夫·鲍尔默

我不是那些认为比尔·盖茨是魔鬼的人之一。我只是怀疑,如果微软遇到魔鬼,它就不需要翻译。

—尼克·佩特雷利

存储就像吃饭。你可以吃得更便宜,但你不能不吃饭。

—科林·费伦巴赫,关于存储公司 EMC 的前景

对于企业家来说,今年是很棒的一年。问题是风险投资家并没有投资于企业家,他们投资的是没有技术的花瓶。

—戴夫·维纳

开源软件唯一不能做的就是赚取垄断利润。

—杰里米·艾利森

在我们开源 InterBase 之后发生的第一件事是客户想知道它的价格是多少。开源后最重要的新功能是价格标签。

—泰德·谢尔顿

至少,感谢开源,技术不会随着公司的倒闭而消亡。

—迪尔德丽·索尔塞

嘿,只需一个发行版的价钱,你就可以获得一年的Linux Journal

—邪恶混蛋,在 OpenSourceRadio 上

那些抱怨 Linux 用户组的存在是为了“帮助”人们的人总是使用专有的邮件程序。

—里克·莫恩

对于每一个牵引力,都存在一个相等且相反的收缩力。

—Doc Searls

想要的不是相信的意愿,而是找出真相的意愿,这恰恰相反。

—伯特兰·罗素

没有人能比 Linux 社区更快地跳到困惑之中。

—阿恩·弗洛内斯

做事的正确方法不是试图说服人们你是对的,而是挑战他们自己想清楚。

—诺姆·乔姆斯基

你们所有的 apt-get 都属于我们。dist-upgradenow 为了伟大的荣誉

—Marc Merlin 的 Debian Haiku

把它想象成一场自我拍卖

那么,人们在 Google 上搜索你的名字的频率有多高?为了找出答案,我们在 Google 的 AdWords 页面上制作了一个广告,然后要求 Google 估算当用户搜索以下每个名字时,我们每月需要支付多少费用来运行它

拉里·奥古斯汀:0

克里斯·迪博纳:0

菲尔·休斯:0

罗布·马尔达:0

唐·马蒂:4,000

里克·莫恩:0

布鲁斯·佩伦斯:0

埃里克·雷蒙德:4,000

Doc Searls:0

理查德·斯托曼:0

林纳斯·托瓦兹:1,300

理查德·弗农:0

鲍勃·扬:0

当然,我们也尝试了操作系统

Linux:4,284,200

Windows:5,653,800

UNIX:872,900

获取估算值是免费的。请在 http://adwords.google.com/ 自行尝试。获取估算值是免费的。

女性在 Linux 活动中听到的事情

我对 Linux 有几个一般性问题。这里有人可以回答我几个问题吗?

你是一个人来的吗?

你用 Linux?嗯,真棒!

你帮她弄完后,可以回答我的问题吗?(在安装节上,对着一位女志愿者正在教安装 Linux 的人说的。)

我们只有男士加大码衬衫……但是给你,你可以把它当作睡衣穿。

我们需要这边再来点咖啡。

你是做营销的吗?

—唐·马蒂

加载 Disqus 评论