Linux 烹饪 - 文字,文字,文字...
弗朗索瓦,你在做什么?客人们马上就要到了,你还在电脑前坐着。Quoi? 是的,我同意你的看法,将所有这些旧文档存储为 OpenDocument 格式是个好主意。我很欣赏你希望通过将这些文档从其受限的专有格式转换为 OpenDocument 格式来确保这些文档的长期可用性,但这并不是正确的方法。我们的存储区域网络上有来自数百人的数千份文档。像你这样一次转换一个文档将永远没完没了,而且离营业时间只有几分钟了。此外,我有一个更好的方法来处理这个问题,你会在今晚的菜单上看到它。
Vite! 去酒窖。我看到客人们正走向门口。在东翼有六箱 2002 年帕索罗布尔斯仙粉黛葡萄酒,就在标有 Danger 的旧门旁边——我真的应该让你找时间去看看那里有什么——把酒拿来,我去迎接客人。 Vite!
欢迎,mes amis,来到 Chez Marcel,在这里,精致的 Linux 和开源美食与世界上最好的葡萄酒完美结合。你们的桌子已经准备好了,请坐下,放松一下。我忠实的侍者弗朗索瓦很快就会从酒窖回来,为你们带来今晚的葡萄酒。在你们到来之前,我们正在讨论一个小项目,将所有旧的专有格式 .doc 文档转换为 OpenDocument 格式,即 OpenOffice.org 的默认文档格式。这是 OASIS OpenDocument XML(可扩展标记语言)格式,一种文档格式的开放标准(保存为 .odt 扩展名)。OpenDocument 格式是你所能获得的最接近文档自由的东西(除了纯文本之外)。该格式是供应商和应用程序中立的。由于它是一个开放标准,因此你可以获得支持和可移植性的保证。许多组织,例如欧盟委员会和马萨诸塞州,正因为我提到的这些原因开始推荐 OASIS OpenDocument 格式。
啊,弗朗索瓦,很高兴看到你带着酒回来了。请为我们的客人倒酒。请享用,mes amis。你会发现这款酒口感浓郁、果酱味十足,带有美妙的黑覆盆子风味,略带甘草和胡椒味……
啊,我刚才说到哪儿了?哦,对了——转换为 OpenDocument 格式是有道理的,但当然,有些人会继续使用 Word 格式,这与其说是技术原因,不如说是惯性。毕竟,Microsoft Word 无处不在。Word 安装的庞大数量正是 OpenOffice.org 被设计成如此彻底地支持 Microsoft Office 格式的原因。也就是说,如果你确实想切换到 OASIS OpenDocument 格式,OpenOffice.org Writer 提供了一种简单的方法。文档转换器不是一次转换一个文档,而是允许你一次性运行特定目录中的所有文档,从而加快了转换过程。它也支持双向转换,这意味着你可以从 Word 格式转换为 OpenOffice.org 格式,反之亦然。转换会创建一个新文件,但保留原始文件不变。下面是如何操作的。
从菜单栏中,选择“文件”,将鼠标移到“向导”,然后从子菜单中选择“文档转换器”。要转换你的 Microsoft Office 文档,请点击“Microsoft Office”单选按钮,然后勾选你想要的文档类型(图 1)。你可以同时转换 Excel 和 PowerPoint 文档。
下一个屏幕会询问你是要同时转换文档和模板,还是只转换其中一种。然后输入你要从中导入和保存到的目录名称。这可以是同一个目录,或者你可以选择另一个目录。如果你选择同时转换 Excel 和 PowerPoint 文件,你需要回答这组问题三次,但对话框与你看到的 Word 文档对话框相同(图 2)。
在你输入信息并进入下一个屏幕后,程序会确认你的选择,并给你最后一次改变主意的机会。点击“转换”继续。当转换器执行其任务时,它会列出它遇到的各种文件,并跟踪转换过程。点击“显示日志”按钮,查看转换器遇到的所有内容的列表(图 3)。当任务完成后,你的目录中将有许多扩展名为 .odt 的文件。电子表格将具有 .ods 扩展名,演示文稿将具有 .odp 扩展名。如果你改变主意了,别担心。你的原始文件仍然在那里,所以你没有任何损失。
如你所见,这很容易。而且,我看这酒也很容易入口。弗朗索瓦,我们一些客人的酒杯看起来有点空了。请为他们添点酒。Merci, mon ami.
如果你从未仔细看过 OpenDocument 文档,你应该看看。实际上,它非常有趣。你可能不知道的是,.odt 文件实际上是一个压缩文件,其中包含构成你的文档的所有元素。确切地说,它是一个 ZIP 文件。假设你有一个名为 mydocument.odt 的文档,除了文本本身之外,还包含几张图片。要提取和查看这些元素,请在 shell 或终端窗口中键入以下内容(你可能想在某个临时文件夹中执行此操作)
zip mydocument.odt
结果看起来会像这样。
Archive: mydocument.odt Length Date Time Name -------- ---- ---- ---- 39 10-13-06 20:09 mimetype 0 10-13-06 20:09 Configurations2/statusbar/ 0 10-13-06 20:09 Configurations2/accelerator/current.xml 0 10-13-06 20:09 Configurations2/floater/ 0 10-13-06 20:09 Configurations2/popupmenu/ 0 10-13-06 20:09 Configurations2/progressbar/ 0 10-13-06 20:09 Configurations2/menubar/ 0 10-13-06 20:09 Configurations2/toolbar/ 0 10-13-06 20:09 Configurations2/images/Bitmaps/ 24634 10-13-06 20:09 Pictures/1235696243C.png 14808 10-13-06 20:09 Pictures/10C3F082746.png 68331 10-13-06 20:09 Pictures/20963618D3B.png 1925 10-13-06 20:09 Pictures/19C4B78A82D.png 9677 10-13-06 20:09 Pictures/112FEC43498.png 6100 10-13-06 20:09 Pictures/1005A594DCB.png 172170 10-13-06 20:09 Pictures/3009CCB23C4.png 54 10-13-06 20:09 layout-cache 23674 10-13-06 20:09 content.xml 7950 10-13-06 20:09 styles.xml 1211 10-13-06 20:09 meta.xml 4899 10-13-06 20:09 Thumbnails/thumbnail.png 7386 10-13-06 20:09 settings.xml 2904 10-13-06 20:09 META-INF/manifest.xml -------- ------- 345762 23 files
这种 XML 定义、图像等的集合使文档具有可移植性,并且可以被其他程序读取。
当然,mes amis,即使你拥有所有这些旧文档,并且想要以某种不需要 Microsoft Office 副本的开放格式保存它们,你可能也不需要可编辑的格式。一种简单的只读格式,例如 PDF,可能是答案。OpenOffice.org 有一个内置的导出为 PDF 功能,但与文档转换器不同,这是一次一个的处理方式。正如弗朗索瓦可以告诉你的那样,一次一个可能需要很长时间。
如果你的系统上安装了 OpenOffice.org,我正好有适合你的东西。这是一个名为——稍等——文档转换器,或者简称 DocConverter 的 OpenOffice.org 宏文档。这个由 Danny Brewer 和 Don Horwood 编写的宏旨在让你轻松地将 OpenOffice.org 支持的任何文档格式批量转换为它支持的任何其他格式。换句话说,输出不必是 PDF,因为你可以选择许多其他替代方案。你可以在 OpenOffice.org 宏网站上找到文档转换器(参见在线资源)。宏分为最终用户应用程序和适合开发人员的应用程序。点击页面顶部的“For End-Users”链接,然后向下滚动以找到“文档转换器”。
要使用宏,请解压缩文件并将文档保存在某个位置。当你使用 OpenOffice.org Writer 打开它时,会出现一个警告对话框,询问你是否要启用文档中的宏。在这种情况下,正确的答案是“是”。出现的文档正是文档本身。在文档的左上角有一个标有“文档转换器”的大按钮(图 4)。点击该按钮,然后只需按照弹出的向导操作即可。告诉它你的 Word 文件所在的文件夹,以及你希望 PDF 文件出现在哪个文件夹中。这是一个简单的点击任务。
别忘了查看该站点上存在的其他一些很棒的宏。
所有这些使用 OpenOffice.org 转换文档的方法都很酷,但它也让我们容易忘记那些隐藏在你的 Linux 系统图形界面之下的强大转换工具。大多数发行版都带有各种文档转换器,等待命令行用户使用它们。例如,你可能有 PostScript 文档想要转换为 PDF,以便你可以将它们发送给不了解 PostScript 的朋友或家人。命令行程序 ps2pdf 在这些情况下非常方便
ps2pdf mydocument.ps mydocument.pdf
ps2pdf 程序生成的文档与 Acrobat Reader 3 版兼容,也称为 PDF 1.2 版。要创建 1.3 版 PDF 输出(用于 Acrobat Reader 4 或更高版本),请使用ps2pdf13. 还有一个ps2pdf14程序。我让你猜猜它输出哪个版本的 PDF。你也可以使用以下命令将 PDF 文档转换为 PostScriptpdf2ps以及使用以下命令将 PostScript 文档转换为纯 ASCII 文本pstotext. 你还会找到一个名为ps2ascii的程序,它的功能大致相同,但它不能很好地处理编码文本(例如法语重音)。
嘿,从那个网站获取一个漂亮的纯文本文档,去掉所有 HTML 标签怎么样?这就是 html2text 程序的理念。要定义输出文件,你需要使用 -o 选项指定它
html2text -o outputfile.txt http://somedomain.dom/document.html
如果你好奇想看看你可以进行哪些类型的转换,请将目录更改为 /usr/bin 并查找包含 2 或 to 的命令。当然,你看到的并非所有内容都是文档转换器,但你会发现一些有趣的命令。
在完全结束 Word 文档转换这个话题之前,我需要提及 Dom Lachowicz 的 wvWare(当 Caolán McNamara 编写它时,最初只是 wv)。该软件包可从 SourceForge 获取(参见资源),但你应该可以轻松找到适合你的特定 Linux 发行版的软件包。对于 wv,可以将其视为“Word 查看器”。此软件包允许你将 Microsoft Word 文档转换(或查看)为各种格式。wvWare 实际上是一组命令行工具,例如 wvText
vwText SomeWordDocument.doc
输出将直接显示在屏幕上,因此你可能希望通过重定向到文件或将其管道传输到 more(或 less)来捕获它。还有 wvPDF 用于转换为 PDF,wvLatex 用于转换为 Latex,wvAbw 用于创建 Abiword 兼容文档等等。查看站点文档以了解所有替代方案。
当图形化替代方案存在时,为什么还要使用所有这些文本工具?答案是,mes amis,速度。速度和灵活性。抱歉,两个答案是速度和灵活性——好吧,我就说到这儿。
在整个讨论过程中,我一直专注于文本,但转换为开放标准涵盖了许多可能性,包括图形、视频文件、音乐文件等等。处理这些格式是另一个相当丰富的菜单的开始,但不幸的是,那恼人的时钟告诉我们,打烊时间到了。如你所见,有很多机会可以将那些旧的、封闭格式的文档转换为你将来可以访问的格式,而不会受到某些大型公司对其所谓的标准的定义(或支持)的意愿或突发奇想的影响。纯文本,mes amis,仍然是所有格式中最具可移植性的。然而,选择和使用开放文档格式,例如 OpenDocument,可以让你利用纯文本的可移植性和图形及其他非文本元素的丰富性。
弗朗索瓦,请再次为我们的客人添满酒杯。现在,mes amis,举起你们的酒杯,让我们为彼此的健康干杯。 A votre santé Bon appétit!
本文资源: /article/9509。
Marcel Gagné 是一位屡获殊荣的作家,居住在安大略省滑铁卢。他是全新著作 Moving to Ubuntu Linux 的作者,这是他在 Addison-Wesley 出版的第五本书。他还定期在电视上露面,担任 Call for Help 节目的 Linux 专家。Marcel 还是一位飞行员,一位前 40 强唱片骑师,撰写科幻小说和奇幻小说,并且擅长折叠霸王龙折纸。可以通过电子邮件 mggagne@salmar.com 与他联系。你可以从他的网站上发现许多其他信息(包括很棒的 Wine 链接),网址是