音频/视频

Linux 音视频合成：新艺术，第一部分

于 2008年6月30日

Linux Journal 最近发表了一篇我写的关于 Jean-Pierre Lemoine 的 AVSynthesis 的文章，这是一个为艺术家设计的程序，他们将计算机作为图像和声音合成的媒介。我对那个程序很着迷，所以我决定研究是否存在类似的软件。本文介绍该研究的当前发现。

一些历史背景

当我们想到融合图像和声音的艺术形式时，我们通常会想到电影、电视和视频。事实上，可以认为，电影制作技术只有在采用帧同步声音后才达到现代阶段。然而，声音在传统电影和广播中的使用是相当有限的。在大多数情况下，那里的声音仅限于音乐评论和声音效果，虽然这些应用本身可能富有想象力和趣味性，但它们主要充当视觉戏剧的婢女。

图 1：AVSynthesis 创建的图像

到目前为止，我研究的软件采用了一些非常不同的方法来融合视觉和听觉。诸如“抽象”和“非具象”之类的术语浮现在脑海中，其中一些应用程序确实产生了抽象和非具象的图像和声音。然而，每位艺术家都会找到自己使用这些程序的方式，并且该软件本身对其输出的使用没有任何特定的限制。

计算机使以前难以实现甚至不可能实现的艺术形式成为可能。图像和声音之间的关系可以以任何可以想象的方式定义，并且声音不必扮演图像婢女的角色。可以定义完全任意的关系，这些关系可能对作曲家最有用。这些方法可能简单或复杂，但它们的真正价值在于它们对艺术家的实用性。他可以遵循一个过程，从头到尾不受干扰地运行，或者他可以在某个方法达到目的后立即抛弃它。当然，这个目的是由艺术家决定的，并且在创作过程中随时可能发生变化。

那么，谁会从这些机器辅助的可能性中受益呢？传统的电影制作人、多媒体艺术家和 VJ 显然是音视频合成的目标受众，但当然，任何拥有网络摄像头或视频文件的人都可以尝试我将在此处介绍的软件。然而，新手应该意识到，声音合成和图像处理的组合领域包含大量的术语和其他技术语言，虽然仅仅玩玩这些程序就能获得很多乐趣，但随着您的技术知识的增长，更有可能获得更好的结果。

这种组合艺术在很大程度上依赖于现代 CPU 和 GPU 的处理能力，但它并非没有先例。超现实主义和达达主义电影制作人，如曼·雷和萨尔瓦多·达利，在 20 世纪早期尝试了非具象的视觉和听觉组合。约翰·惠特尼（他也研究过十二音音乐作曲）和河口洋一郎在计算机方面进行了开创性工作，他们奇妙的图像和动画继续激励着基于计算机的图形艺术家。[1]

一些类别

当我研究这门艺术及其软件时，我意识到自己已经踏入了新可能性的海洋。为了帮助区分技术，我对最典型的声光融合进行了以下分类

声音支持图像 - 在这里，我们找到了音乐作为屏幕上动作的背景、增强器或踏板的传统用法。在这种应用中，通常声音对图像没有影响，本质上只是伴奏。声音以音乐和歌曲的形式应用，用于强调和突出屏幕上的动作，以及在整部电影中听到的声音效果和拟音效果。虽然伴随的音乐和声音本身可能在美学上富有想象力，但它们通常在图像的生成或转换中不起任何作用。为了更完整地介绍这个类别，我建议我的读者参考艾伦·科普兰关于为电影创作音乐的评论。[2]

图像由声音产生和/或改变 - 图像在与音频流同步的同时实时渲染。此类别包括大多数现代媒体播放器打包的声音可视化工具，以及音频数据可视化工具，例如 eXtace、Baudline 和 Sonic Visualiser。然而，这些应用程序不执行声音合成或其他音频处理。声音来自外部来源，其分析数据以各种视觉显示形式呈现，其中一些显示形式可能非常引人注目。有关 Linux 数据可视化软件的列表，请参阅 linux-sound.org 上的 Scopes 页面。

图像到声音的转换 - 也称为声音化。图像受到各种规则的约束，这些规则管理着其形状和颜色到声音元素的转换。典型的关联包括像素到颗粒、渐变到幅度、高度和宽度到强度和持续时间等等。此类程序包括 Kurt Rosenfeld 的 Sound Mural、NoTAM 著名的 Ceres 频谱编辑器和 Csound5 音频合成系统（它可以创建图像以及转换图像）。 Peter Meijer 备受尊敬的 vOICe Sonification Applet 是一个基于 Java 的优秀演示程序，展示了一个定义明确的转换程序。[3]

声音和图形的同步合成 - 在此软件中，音频流和关联的图像是同时创建和处理的。此类中的示例程序包括 AVSynthesis（图 2）、Dave Griffiths 的 Fluxus（图 3）和 Pd/GEM 强大工具。音频和视觉领域的同步合成可能会对该软件提出很高的要求：Pd 包括其自身的高质量声音合成/处理引擎，AVSynthesis 利用了 Csound5 强大的音频功能，并且这两个程序都依赖 OpenGL 进行图像创建和处理例程。此类别是本文介绍的软件的主要重点。

图 2：工作中的 AVSynthesis

图 3：Fluxus

其中一些程序仅处理静态图像，而另一些程序则处理现有视频文件和/或实时直播视频输入。如果您计划使用实时馈送，请确保您的内核已编译用于 Video4Linux 支持。

硬件要求

音视频合成对硬件资源提出了很高的要求。我用来测试该软件的机器包括 2.0 GHz 和 2.4 GHz CPU，配备 3 GB RAM、大型快速 SATA 磁盘和无风扇 nVidia 7600GS 显卡，板载 512 MB RAM。对于音频或视频，这些机器都是主力，但组合的声音和图像合成需要更多。将高质量的混响效果应用于循环声文件，同时更新具有不断变形的图像的密集纹理映射动画，所有这些都实时计算，很容易使 CPU 性能达到极限。关于硬件，越大越快越好。

结语

如上所述，我的重点一直是面向创意艺术家的软件，重点是实时或接近实时的处理能力。我有意忽略了 Cinelerra、Blender 和其他类似的应用程序，这些应用程序最好理解为视频序列编辑器和合成器，尽管它们共享我将在本文下一部分介绍的软件的一些工具和技术。在那之前，再见（和声音）！

注释

[1] 另请参阅河口洋一郎简介和河口洋一郎：作品。

[2] Copland, Aaron, Richard Kostelanetz, 和 Steven Silverstein (2004) Aaron Copland: A Reader : Selected Writings 1923-1972, Routledge

[3] Thomas Baudel 的 HighC 是另一个基于 Java 的转换器。 HighC 以作曲家伊安尼斯·泽纳基斯 (Iannis Xenakis) 设计的伟大 UPIC 合成系统为蓝本。可惜，HighC 的音频输出目前在 Linux 中已损坏，作者不太可能在近期修复它。 HighC 是一个专有项目，感兴趣的读者可以联系 Thomas 了解有关修复 Linux 版本的信息。

加载 Disqus 评论

音频/视频

Linux 音视频合成：新艺术，第一部分

近期文章