自由软件和多媒体 | Linux Journal

音频/视频

作者：Dave Phillips

于 2001 年 6 月 26 日

每次演示都安排了 30 分钟，每次演示之间预留了五到十分钟的时间，用于回答观众的提问。演讲者们都准备充分，并在规定的时间内完成了演示，这真是值得称赞。我还应该注意到，所有的演示都受到了观众的好评。

Demudi 简介

会议于星期六上午 9:30 准时开始，Marco Trevisani 介绍了 Demudi 项目。项目名称是 Debian 多媒体发行版的首字母缩写，Debian 多媒体发行版是一个基于现有 Debian 系统构建的 Linux 发行版，并针对多媒体性能进行了优化。该发行版将包括一系列多媒体应用程序和一个针对低音频和视频延迟时间优化的 Linux 内核。

将建立一个 FTP 站点用于在线访问，Debian apt-get 工具将用于通过互联网进行软件包更新。该发行版的 alpha 版本计划在国际计算机音乐会议（ICMC2001 将于今年 9 月在古巴哈瓦那举行）上发布。

（注意：在研讨会的前一天举行了一次关于 Demudi 的非公开会议，只有研讨会参与者参加。有关该会议的材料将在本文的附录中介绍。）

FSF 欧洲——德国

作为 FSF 欧洲（Richard Stallman 的自由软件基金会在欧洲的官方姐妹机构）的主席，Georg Greve 非常适合介绍自由软件运动的定义和历史。Greve 先生在 FSF 的四大自由的背景下，澄清和讨论了各种开源许可证（例如，GPL、FreeBSD、MIT）的内容和含义，Richard Stallman 将四大自由定义为：

为任何目的运行该程序的自由。
研究程序如何工作，并根据您的需要进行调整的自由。
重新分发副本的自由。
改进程序，并将您的改进公开发布，使整个社区受益的自由。

Greve 先生的演讲的这一部分也许是最有趣的。许可问题是许多开发人员关心的问题，随后的热烈问答环节就证明了这一点。Greve 先生对各种开源许可证的详细了解无疑澄清了许多关于保护自由软件的法律问题。

Greve 先生总结了 FSF 欧洲目前的活动（可以说他最近非常忙碌），并概述了 FSF 扩展到世界其他地区，特别是印度和中国的计划。

实时音频处理和 GEM 的新像素图形对象

XDV（Verein für experimentelle Datenverarbeitung）是一个在维也纳共同工作的音频和视觉艺术家团体。他们的活动包括现场互联网广播流、网络艺术以及 Pd 声音合成/处理和合成环境的开发和使用。

Pd 是一个图形“修补”环境，用于创建音频/视觉乐器。用户选择各种类型的对象（DSP 模块、合成方法、声音文件记录/回放控件、视频和 3D 图形等），并将它们连接在一起以创建称为补丁的信号和控制路径。补丁可以嵌套在补丁中，从而可以创建具有相对简单控制界面的复杂乐器。

Günter Geiger 演示了 Pd 的 Linux 端口以及 OpenGL 图形库 GEM。他从实时输入信号的简单 FFT 显示开始，快速将显示演变成输入频率内容的复杂而引人入胜的“瀑布”图形显示。Günter 还展示了 Pd 如何协调音频和 MIDI I/O 与 3D 图形的实时显示和操作，他的最后亮点是对 Pd 最近添加的视频功能的诱人演示。

开源 Csound 扩展

开源开发当然不限于任何特定平台。Gabriel Maldonado 为 Csound 音频合成/处理环境开发了各种有用的操作码和扩展。他的 DirectCsound 是 Csound 的一个大大增强的版本，适用于 Windows，他的许多操作码已添加到英国巴斯的规范 Csound 源代码发行版中。Gabriel 已将他在 GPL 下的 DirectCsound 扩展，并与 Nicola Bernardini 密切合作，将他的操作码集成到非官方的 Linux Csound 中。

Maldonado 先生演示了他最近的 Csound 操作码，这些操作码利用 FLTK 图形库为 Csound 提供了一组内在的小部件。这些小部件包括用于构建合成器界面的旋钮和滑块，有效地为用户提供了从 Csound 强大的音频处理工具包及其自身的一组图形控制元素创建“软合成器”的方法。

还介绍了 VMCI（虚拟 MIDI 控制接口）。该软件提供了一组虚拟 MIDI 控制器（滑块、旋钮等），用于实时调整 Csound 操作码参数。VMCI 软件是免费的，并在 GPL 下获得许可，但它是用 Visual Basic 编写的，因此限制了其可移植性。

Linux 作为专业音频应用的平台

Paul Davis 总结了他在过去两年中在 Linux 支持专业音频标准领域取得的进展。在介绍了他个人动机的清单（其中包括对专业级多通道、多轨硬盘录音机的渴望，他的 Ardour 项目的目标）之后，他描述了专有音频软件的使用和设计中的一些问题。这些问题包括硬件依赖性迅速过时，封闭的内部实现限制了研究和可扩展性，以及依赖于导致多任务处理和进程间通信不良的劣质操作系统。

Davis 先生随后介绍了 1999 年 Linux 音频基础设施存在问题的状况：不支持 24 位采样，不支持多通道 I/O，不支持专业音频硬件接口，并且没有 MIDI 时间码和 MIDI 设备控制的实现。他还列举了现有 Linux 音频应用程序的缺点（没有高级声音文件编辑器，没有能够处理多通道声音文件的软件，太多未完成的应用程序等等）。

接下来，Davis 先生详细阐述了 Linux 音频开发面临的软件实现挑战（减少内核延迟、实现实时编程模型、磁盘流媒体以及插件和组件软件架构的使用）。他描述了专有音频软件的现状及其趋势，然后定义了自由音频软件面临的挑战（LADSPA 与 VST 插件、GUI 工具包的激增、ALSA 纳入 Linux 内核等等）。

Davis 的最后评论尤其有趣。从他的演讲的完整标题（“重新发明轮子 2 年：Linux 作为专业音频应用的平台”）中，他问道，为什么我们要再次解决 Windows 和 Mac 的音频应用程序开发人员已经解决的问题。以下是他笔记中的回应，提供了雄辩的答案和总结：

“承诺：来自通用操作系统的专用音频硬件性能，\t 具有高度发达的网络支持、数据库、多任务处理、分布式处理 API、\t 辅助功能支持等等。”

自 1995 年以来 Linux 开发的调查

本次演讲是我对会议的贡献。我描述了我在 1995 年进入 Linux 世界的经历，原因是渴望运行 Doug Scott 的 MiXViews，这是一款适用于各种 UNIX 平台的强大声音文件编辑器。Linux 版 MiXViews 需要一些关注，因此我与 Doug 合作并最终制作了一个可用的版本。第一步鼓励我尝试其他音频软件的移植（包括来自 NoTAM 的各种信号处理应用程序，NoTAM 是挪威的音乐、声学和技术研究中心）。此后不久，我开始维护一份可用于 Linux 的声音和音乐应用程序列表。我指出，1995 年该列表大约有 30 个条目，而现在它列出了 800 多个音频应用程序，从简单的声音文件播放器到像 Ardour 这样的专业级硬盘录音系统。我还描述了 Linux 音频开发小组的开始以及更协调的编程工作的演变。在回顾了 Linux 音频应用程序和系统开发的现状之后，我以对 Linux 声音和音乐软件未来的积极预测结束了演讲。

KTH 的开源语音工具

Giampiero Salvi 介绍了斯德哥尔摩 KTH（Kungl Tekniska Hoegskolan：瑞典皇家理工学院）的语音分析和合成研究部门使用的各种开源工具。这些工具本身建立在 Kåre Solander 和 KTH 的其他人在 SNACK 音频工具包上编写的。Salvi 先生演示了 WaveSurfer 声音文件编辑器及其一些插件。一个特别有趣的插件显示了一个会说话的头部，带有面部表情，其声音特征通过图形控制界面进行变化。

Salvi 先生还演示了 KTH 正在开发的两个 Java 应用程序。Alexander Seward 的 ACE 是一个用于构建自动语音识别 (ASR) 系统的环境。ACE 包括 ASR 中常用的信号处理技术，例如线性预测和倒谱分析，但该软件包还包括用于定义语言语法方面的工具。Håkan Melin 将他的 ATLAS 设计为构建多语言和多模式语音应用程序的平台。电话对话系统是多语言语音分析/合成应用程序的典型用途。系统必须识别多种语言的口语输入，然后以相同的语言回复。多模式系统使用其他参考模式来增强语言方面。一个指南系统可能无法有效地回应我的询问“这里有餐厅吗？”；但是，如果它显示一张地图，并且我在单击特定街道时提出相同的问题，那么该系统就被描述为采用多模式方法。

IRCAM 的自由软件开发

IRCAM 是著名的法国音乐和声学研究机构，一直支持音乐家自由软件领域最重大的发展之一。jMax 是流行的 MAX 合成环境的 Java 实现（MAX 是一种类似于 Pd 的图形修补语言）。

jMax 是一个开源项目，主要由 IRCAM 的一个团队领导开发，该团队由 François Déchelle 和 Norbert Schnell 领导；然而，jMax 真的是分布式开发的典范，得到了用户的许多投入和活跃的 jMax 邮件列表的支持。它自 1998 年开始开发，第一个 Linux beta 版本于 1999 年初发布，并在 GPL 下获得许可。

François Déchelle 描述了为说服 IRCAM 的权力机构 jMax 将从开源开发模式中受益所做的努力。现在看来，jMax 的成功启发了 IRCAM 向开源社区发布另一个软件包：OpenMusic（以前称为 PatchWork）已经获得了 GPL 许可，并将很快发布 Linux 版本（目前仅适用于 Macintosh）。OpenMusic 是一个灵活的音乐和声音创作环境，利用高度可视化的工作区和拖放图形。它也是一个 MidiShare 客户端，这意味着连接 jMax 和 OpenMusic 非常简单，从而创建了一个用于声音合成和音乐创作的强大集成环境。Déchelles 先生指出，尽管 jMax 现在可以在 SGI 或 Linux 计算机上使用，但 Linux 版 OpenMusic 应该很快就会发布。

自由音频软件的独立开发：音乐家的观点

Stanko Juzbasic 是一位独立作曲家，他因为需要特定的工具而被吸引到编程领域。他的编程工作主要集中在三个项目上：RingMod（一个用于运行 SGI 的 IRIX 操作系统的机器的性能级软件环形调制器）、SculptTool（一个用于修改 IRCAM 软件包 AudioSculpt 和 Super Phase Vocoder 生成的分析数据文件的实用程序）和 Ceres3（一个频谱域编辑器/处理器）。他的演讲围绕他在开发 Ceres3 时的动机和经历展开。

Juzbasic 先生首先简要介绍了 Ceres 软件的历史，指出其开发已经是一项长期的合作努力。最初的软件包由 NoTAM 的 Øyvind Hammer 博士为 SGI 机器设计和编写。第一个 Linux 端口是我自己在 Richard Kent 的帮助下于 1996-1997 年制作的。Johnathan Lee 将 Ceres 扩展到 Ceres2，添加了新功能，清理了一些旧代码并修复了错误。Ceres2 也被移植到 Linux，作曲家 Reine Jonsson 在他称之为 Ceres2w 的版本中添加了 WAV 文件支持。

Johnathan Lee 和 Juzbasic 先生都在哥伦比亚大学与 Brad Garton 一起学习，Ceres 在那里经常使用。在使用 Ceres2 后，Juzbasic 先生决定添加更多功能并修改核心分析引擎。他还为 IRIX 机器、Linux x86 平台和 LinuxPPC 准备了新版本。看到他的添加和增强的程度，他将他的 Ceres 版本重命名为 Ceres3。

Juzbasic 先生仅演示了 Ceres3 的基本操作，但该程序的潜力显而易见。

Python 和 Csound

Csound 当然是最广为人知和使用的软件声音合成环境。然而，该语言显示出其年代久远（其用户界面可以追溯到汇编程序和 FORTRAN 编程的鼎盛时期），许多开发人员致力于现代化 Csound 的项目。Maurizio Umberto Puxeddu 一直在使用 Python 脚本语言为 Csound 创建一些有趣的工具，包括图形前端启动器 (CSFE) 和一个名为 Pmask 的强大 Csound 分数生成器。Puxeddu 先生向听众详细描述和演示了 Pmask，以此为例说明如何使用 Python 扩展 Csound 语言。

Pmask 本身基于 Andre Bartetski 的 Cmask，这是一组用于算法音乐作曲的设计和探索的实用程序。Cmask 和 Pmask 都使用趋势掩码来加权和约束事件的随机发生，使其成为更具确定性的形式，但 Pmask 还利用 Python 的对象模型来存储、组织和处理音乐对象。因此，作曲家无需逐个事件地编写 Csound 分数（这是一项相当乏味的任务），并且可以更直接地控制大规模的形式因素。Puxeddu 先生解释了 Python 如何特别适合这样的程序（易于使用、面向对象、支持数组等），他对 Pmask 创建的 Csound 音乐的演示非常有趣。

研讨会总结

必须赞扬 Bernardini 教授的得力指导和亲切领导。所有必要的设施（电脑、音响系统、投影仪等）都可供参与者使用，一切正常运行。出席人数良好，整天都在波动，我估计大约有 75 到 100 人参加了研讨会。所有演讲都准备充分，交付出色；信噪比很高，问答环节有时非常活跃，在我看来，每个人都度过了愉快而内容丰富的时光。还要特别感谢 Mariapia Redditi 在组织国际分散的演讲者方面提供的帮助；也非常感谢 Alessandro Morgantini 及其团队为参与者使用的硬件的准备和操作所做的贡献。

当然，任何来自佛罗伦萨的报告都不能不提及这座城市的美丽及其美味的食物和葡萄酒。小组成员在令人惊叹的 Buzzino's 享用了一顿难忘的托斯卡纳盛宴，那里的工作人员耐心地容忍我们这群不寻常的客人直到午夜过后。给研讨会组织者的提示：我随时准备返回。

Dave Phillips 维护 Linux 音乐与声音 应用网站，并且是一位表演音乐家超过 30 年。Linux 音乐与声音之书（No Starch Press，2000 年）是他最新的出版物。

资源

Demudi ICMC2001 FSF 欧洲勇敢的 GNU 世界 XDV Pd DirectCsound Ardour Linux 声音与 MIDI 应用 SNACK WaveSurfer jMax OpenMusic Ceres3 Pmask

电子邮件： ljeditors@ssc.com

加载 Disqus 评论