MPEG 中的开源 | Linux Journal

音频/视频

作者：Leonardo Chiariglione

于 2001 年 3 月 1 日

几个世纪以来，我的祖先居住在都灵市附近的阿尔卑斯山低处，他们应用了一个简单的想法：如果穿梭于山间的道路铺上鹅卵石，而不是保持数百万步行者踩踏形成的原始状态，对所有人来说都会更舒适。我们不知道这项工作是那些山民的自由决定，还是当地公社当局在冬季田间工作最少时强加给他们的徭役。毕竟，农民并不以愿意与任何人分享任何东西而闻名，而且那些年代是由专制统治的年代，无论是开明的还是其他形式的专制。

几年前，计算机人士发现，如果山间小径的虚拟等价物——原始 CPU——可以用集体努力的成果“铺上鹅卵石”，即操作系统，并且可以被所有人使用，那么这将符合（几乎）所有人的利益。

传统上，计算机人士一直处理已经表示或可以轻松转换为自动计算机处理形式的数据。其他类型的数据，即那些到达人类耳朵和眼睛的数据，具有非常不同的性质：它们本质上是模拟的。更困难的是，它们也是“宽带”的，这是一个滑动的定义，取决于技术状态。

音频和视频数据的处理和通信已经存在很长时间了，但通常是作为临时解决方案。作为运动图像专家组或 MPEG-1 发起的运动的一部分，音频和视频已被简化为一种形式，使得必要的处理可以通过集成电路实现。比特数已减少到这样的水平，以至于可以通过今天的通信信道进行传输。

与 MPEG-12、MPEG-23 和 MPEG-44 标准的开发并行，MPEG 开发了参考软件，使用的过程类似于开源软件 (OSS) 的过程，尽管细节可能受到 OSS 社区纯粹主义者的不满。然而，必须认识到，这个过程必须适应管理国际标准化组织 (ISO) 的规则，ISO 是 MPEG 运作下的传统标准制定组织。

本文的目的是回顾音频和视频数字化的开始，解释建立运动图像专家组的动机，总结当今正在使用的 MPEG 标准的要素，并解释 MPEG 开源软件过程的特点以及当前正在进行的工作。

音频和视频的数字化

在活字印刷术发明大约 400 年后，这项无需直接人工干预即可大规模使用信息处理的技术的第一个例子出现，我们看到了类似影响的技术的发明。从 1830 年代开始，一系列音频-视频信息处理和通信技术被提供给人类：摄影、电报、传真、电话、留声术、电影摄影术、无线电、电视和磁记录。

这些技术的一个缺点是，它们中的每一种通常都很少与其他技术共享。每次处理这些类型的信息之一时，都必须使用专用设备。这与计算机世界多么不同，在计算机世界中，使用相同的基本技术即可处理各种信息！

实现统一所有类型的音频-视频信息的目标的理论基础始于第一台电子计算机建成前约 15 年。人们发现，带宽受限的信号（带宽为 B）可以以 2B 的频率进行采样，并且可以无误差地重建。理论基础的第二步是在大约 20 年后实现的，即根据使用的比特数和信号统计信息，定义量化误差的界限。

即使贝尔实验室完成了理论基础工作，并通过晶体管的发明将这一基础转化为实际应用的第一步，但要实现实际应用还有很长的路要走。即使是像语音这样“窄带”信号，它在电话线路上占用 0.3-3.4KHz 频带，如果以 8KHz 的频率进行采样，每个样本 8 位，也会产生惊人的（在当时看来）64Kbps 的值。

经过 15 年的实验，比特已准备好在语音通信中发挥作用。在 1960 年代，当时的 CCITT（现在的 ITU-T）通过了一项关于语音数字表示的建议。（这实际上定义了两种这样的表示，称为 µ-law 和 A-law。）两者都具有 8 KHz 的采样频率，但量化定律对于 µ-law 是每个样本 7 位，对于 A-law 是每个样本 8 位，两者都是非线性的，以考虑到人耳感知的对数性质。然而，不应过分强调语音的数字化。应用范围是干线网络，在干线网络中，电话信道的多路复用比模拟方式更方便地以数字方式完成。最终用户没有任何改变。

更有趣的是 Group 3 传真（Gr. 3 fax）。Gr. 3 传真的 1728 传感器 CCD 以精细分辨率模式（水平和垂直分辨率相同）扫描的 A4 页面大约包含 4 Mbps。使用当时“高速”调制解调器（9.6 Kbps），传输一页大约需要 20 分钟，但一个简单的压缩方案（发送以可变长度代码字编码的“游程长度”而不是所有黑色和白色以及一些双向扩展）将传输时间缩短到两分六秒。

数字语音是干线网络的有效传输方法，但本地接入仍然是绝望的模拟方式。1980 年代 ISDN 的出现促使了带宽为 7 KHz 的语音压缩标准的开发，以 16 KHz 的频率采样，每个样本的比特数（例如 14）高于 µ-law 和 A-law。需要压缩是因为这种语音将产生超过 200 Kbps 的速率。在保持高语音质量的前提下，将速率降低到 64 Kbps 及以下（压缩比约为 4）是可能的。该设备使用了 DSP（数字信号处理），但从未形成大众市场。视频提出了更大的挑战，如果考虑到它的带宽比语音的带宽大三个数量级，并且涉及多个信号。数字电视是通过以 13.5 MHz 的频率对视频亮度 Y 进行采样，并以 6.75 MHz 的频率对两个色差 R-Y 和 B-Y 进行采样，每个样本 8 位来获得的。通过删除非视觉样本，总比特率 216 Mbps 可以降低到大约 166 Mbps。如此高的比特率不适合任何实际的传输介质，仅用于数字磁带（所谓的 D1）和演播室传输。

第一个尝试应用比特率降低将这种高比特率降低到 1.5-2 Mbps，以适应美国和欧洲的 24 和 32 个数字语音信道的语音多路复用器，被认为（并且在很大程度上仍然是）太具有挑战性。因此，首先通过 2:1 降低输入比特率，在水平和垂直（实际上是时间，因为视频信号是隔行扫描的）方向上对视频信号进行二次采样，并进一步对色度差进行二次采样。然后，使用了两种简单的技术，称为 DPCM 和条件补充。第二代编解码器，使用更复杂的算法（DCT [离散余弦变换] 和运动补偿），在 384Kbps 的速率下提供了可接受的质量，并且通过进一步 2:1 二次采样水平和垂直方向的视频信号，在 64/128Kbps 的速率下，即 ISDN 的比特率。

回到音频，在 1980 年代初期，飞利浦和索尼开发了光盘，这是一种采用激光技术的只读数字存储设备（RCA 大约在同一时间开发了一个可比较的系统，但寿命很短）。这是为立体声音乐设计的：两个音频通道以 44.1KHz 的频率采样，每个样本 16 位，总比特率为 1.41Mbps。

最后，在美国（通过高级电视倡议）和欧洲（通过一家工业公司的发展），人们采取了措施，朝着开发数字高清电视市场的方向迈进。

第一个 MPEG 标准

我的工作经验是在电信研究机构。电信行业的特点是网络基础设施方面的大量创新，在这些方面不惜投入，但又不愿意投资于终端设备。这部分是因为终端对于其文化来说是陌生的（尽管更开明的人意识到，除非有新的数字终端，否则对网络创新就没有太多需求），部分原因是因为终端在技术和法律上都超出了其能力范围。态度是“让制造业来完成开发终端的工作。”不幸的是，习惯于被娇惯并面临来自电信运营商的较少订单风险的电信制造业，这些电信运营商基于可靠的 CCITT 标准，不希望投资于基于他们不了解的最终用户的异想天开的东西。消费电子产业更了解最终用户，并且习惯于根据他们对产品有效性的判断做出商业决策，但仍然认为电信终端超出了其利益范围。这解释了为什么在 1980 年代末，除了传真之外，几乎没有基于压缩技术的终端用户设备。为了制造廉价且小型的终端，需要能够执行压缩算法所需的复杂信号处理功能的 ASIC（专用集成电路）。

我看到了飞利浦和 RCA 在那些年里为交互式应用（分别称为 CD-i 和 DVI）在 CD 上存储数字视频的尝试，这为搭上视频压缩芯片大众市场的顺风车提供了一个机会，这些芯片可以用于视频协同通信设备。所需要的是用常规的标准化过程取代消费电子世界中费力且不可预测的“适者生存”市场方法。

MPEG-1

MPEG 于 1988 年 1 月开始启动，并在几个月后增加了音频压缩和多路复用和同步两个流（称为“系统”）所需的功能的任务。在四年内，第一个标准 MPEG-1 被开发出来。有趣的是，最初的两个目标应用——交互式 CD 和数字音频广播——目前都不是该标准的大用户（视频通信也没有变得太流行）。另一方面，数千万张视频 CD 和 MP3 播放器使用了 MPEG-1。MPEG-1 的一个显著特点是：MPEG-1 是第一个充分利用仿真进行开发的音频-视频标准。我工作所在的实验室参与了使用三个 12U 机架和计算机仿真的最小支持开发 1.5-2Mbps 视频会议编解码器。对于未来的影响更为重要的是，MPEG-1（一个由五个部分组成的标准）具有软件实现，它作为标准的“第 5 部分”（ISO/IEC 11172-5）出现。

MPEG-2

1990 年 7 月，MPEG 启动了其第二个项目 MPEG-2。虽然 MPEG-1 是一个非常专注于明确识别产品的标准，但 MPEG-2 解决了一个每个人都感兴趣的问题：如何将 50 年历史的模拟电视系统转换为数字压缩形式，以便支持所有可能的应用领域的需求。这是通过开发两个系统层来实现的。一个称为 MPEG-2 传输流 (TS) 的系统层是为传输应用领域中容易出错的环境目标（例如电缆、卫星和地面）而设计的。另一个称为 MPEG-2 节目流 (PS) 的系统层被设计为对软件友好，并用于 DVD。想法是 MPEG-2 将成为数字电视的通用基础设施；事实上，如果考虑到在任何给定时刻，MPEG-2 TS 承载的比特都比 IP 承载的比特多，那么这确实已经成功实现了。标准标题“运动图像和伴随音频的通用编码”正式传达了这一意图。到 MPEG-2 获得批准时（1994 年 11 月），已经在流行的可编程机器上演示了实时 MPEG-1 解码的第一个示例。如果需要，这是一种激励，可以继续为新标准提供参考软件的做法 (ISO/IEC 13818-5)。

MPEG-4

1993 年 7 月，MPEG 启动了其第三个项目 MPEG-4。第一个目标反映在项目的原始标题“极低比特率音频-视频编码”中。即使没有看到特定的大众市场应用，许多人也感觉到，窄带模拟信道（如电话接入网络（互联网当时还不是大众现象））的数字化将为以明显低于 1Mbps 的比特率传输视频和音频提供有趣的机会，这大致是 MPEG-1 和 MPEG-2 支持的最低比特率值。对于该比特率范围，很明显，解码器可以很好地在可编程设备上实现，这与其他 MPEG 标准不同。最终可能会有更多基于软件而不是基于硬件的标准实现。这就是 MPEG-4 的第 5 部分（ISO/IEC 14496-5）参考软件与传统的基于文本的 MPEG-4 其他部分的描述具有相同规范地位的原因。

MPEG-4 成为一个综合标准，正如其当前的标题“音频-视频对象的编码”所表明的那样。该标准支持空间和时间组成被信号传输到接收器的单个音频-视频对象的编码表示。构成场景的不同对象甚至可以来自不同的来源：自然的和合成的。

然而，这并不意味着标准的特定实现必然是“复杂的”。应用程序开发人员可以在许多配置文件（完整 MPEG-4 工具的专用子集）中进行选择，以选择用于开发其应用程序的配置文件。由于所有这些原因，预计 MPEG-4 将成为多媒体当前不连贯的世界将在其之上蓬勃发展的基础设施。

为什么需要 MPEG-4 标准？

读者可能会想知道，如果编码算法是在软件中实现的，为什么还需要制定标准。是否应该足以下载代码，以便可以解码用于生成您感兴趣的比特流的特定算法？

在 MPEG-4 开发的早期，这个问题经常被问到，但今天，随着 MP3 的使用不断扩展，更容易理解拥有标准的好处：播放设备不一定连接到网络。相反，它可能在广播频道、独立或便携式设备上；设备可以使用许多不同的 CPU，为此开发播放代码可能成本太高；硬件可能使用 ASIC 进行音频-视频解码，而 ASIC 是不可升级的；或者它可能被设计为仅使用标准算法所需的 RAM 量运行。换句话说，拥有一个共同的标准，商业机会可以在此基础上成倍增加，而不是必须在到处都存在不兼容性的情况下挣扎，这要简单得多。

最后，应该记住，压缩编码不是透明的操作。一般来说，使用的比特率越低，质量受到的负面影响就越大。从一种算法到另一种算法的转码可能会产生垃圾。此外，压缩技术不断改进的想法是一个神话。仅仅在多年之后，MPEG 才重新发布视频压缩技术的提案征集，因为感觉可能有值得考虑的东西。对于音频压缩，MPEG 仍处于发布证据征集的水平，因为该小组不相信这是一个当前值得追求的领域。

MPEG-4 “开源”

该标准本身的规模已将参考软件的开发转变为一项庞大的事业。因此，看看这样一个项目是如何管理的很有意思。以下是最重要的特点

条件是，标准的任何组成部分，包括规范性（解码器）和信息性（编码器），都必须在软件中实现。为了使任何提案被接受和采纳，必须提供源代码，并且将版权发布给 ISO。
对于标准的每个部分，都任命了一位代码管理器：微软和 MoMuSys 的代表分别负责 C++ 和 C 语言的视频，Fraunhofer 负责自然音频，MIT 负责结构化音频，ETRI 负责文本到语音接口，Optibase 负责所谓的“核心”（所有媒体解码器和其他组件都插入其中的代码部分），Apple 负责所谓的 MPEG-4 文件格式，等等。
标准的每个部分都任命了一位实验管理器。该管理器将已接受工具的代码集成到现有的代码库中。
与传统的开源软件项目不同，只有 MPEG 成员才能参与该项目。讨论通常在电子邮件反射器上进行（并且这种做法仍在继续），这些反射器对非 MPEG 成员开放。

MPEG 是不断产生新想法的地方。一个想法是由于这样一个事实而产生的：虽然参考代码旨在成为“参考”（规范性或信息性，视情况而定），但它并非旨在提高效率。因此，自 1999 年 12 月以来，MPEG 一直在致力于 MPEG-4 的一个新部分，该部分将包含优化的代码（例如，优化搜索运动矢量的方法，这是标准中计算量大的部分）。任何实施者都可以采用此代码并免费使用，不受版权限制。然而，条件是，这种优化的代码不应需要专利。2000 年 10 月推出的第二个想法导致了开发 MPEG-4“参考硬件描述”的决定。预计这将进一步促进 MPEG-4 作为软件和硬件中的基本多媒体基础设施的使用。

本软件模块最初由 <名字 1> <姓氏 1> (<公司名称 1>) 开发，并由 <名字 2> <姓氏 2> (<公司名称 2>), <名字 3> <姓氏 3> (<公司名称 3>) 在 <MPEG 标准> 的开发过程中编辑。本软件模块是 <MPEG 标准> 指定的一个或多个 <MPEG 标准> 工具的一部分的实现。ISO/IEC 向 <MPEG 标准> 的用户授予免费许可，允许其将本软件模块或其修改版本用于声明符合 <MPEG 标准> 的硬件或软件产品中。那些打算在硬件或软件产品中使用本软件模块的人员被告知，其使用可能侵犯现有专利。本软件模块的原始开发者及其公司、随后的编辑及其公司以及 ISO/IEC 对本软件模块或其修改版本的使用不承担任何责任。版权不针对不符合 <MPEG 标准> 的产品发布。<公司名称 1> 保留为其自身目的使用代码、将代码分配或捐赠给第三方以及禁止第三方将代码用于不符合 <MPEG 标准> 的产品的完全权利。本版权声明必须包含在所有副本或衍生作品中。版权 (199_)。

今天和明天

目前，MPEG 正处于 MPEG-7“多媒体内容描述接口”开发的最后阶段，这是一个描述音频和视频信息的标准，无论是在完整电影的级别还是在图片中的单个对象的级别。该标准将于 2001 年 7 月获得批准。此外，对于此标准，也已经根据类似于 MPEG-4 的规则开发了大量的参考代码。

2000 年 6 月，MPEG 启动了一个名为 MPEG-21 的新项目“多媒体框架”。在此背景下，MPEG 将与其他机构合作开发和整合在网络上进行数字内容电子商务所需的所有技术。

该项目所需的关键技术是

数字项目声明：用于声明数字项目的统一且灵活的抽象和可互操作的模式。
内容表示：数据如何表示为不同的媒体。
数字项目识别和描述：用于识别和描述任何实体（无论其性质、类型或粒度如何）的框架。
内容管理和使用：提供接口和协议，以支持跨内容分发和消费价值链的内容的创建、操作、搜索、访问、存储、交付和（重新）使用。
知识产权管理和保护：使内容能够在各种网络和设备中持久可靠地进行管理和保护的方法。
终端和网络：提供跨网络和终端安装对内容的可互操作和透明访问的能力。
事件报告：使用户能够准确了解框架内所有可报告事件的性能的指标和接口。

对于本文而言，特别令人感兴趣的是第五项，知识产权管理和保护。自 MPEG-2 时代以来，MPEG 一直关注为那些为内容附加货币价值的内容和服务提供商提供解决方案的需求。到目前为止，MPEG 提供的解决方案一直处于支持使用专有保护技术的水平。然而，这些解决方案的缺点是，即使在用户愿意遵守权利持有人设定的条件的情况下，受保护内容的消费也不再对用户透明。这就是 MPEG 现在正在开发解决方案以提供“受保护内容级别的互操作性”的原因。

MPEG 标准中的专利

在 15 世纪，“专利证书”已经在威尼斯和佛罗伦萨使用，但在美因茨却鲜为人知。因此，约翰内斯·古腾堡保护其发明的唯一方法是向所有人（包括其金融支持者）隐瞒秘密，这最终导致他破产。在 19 世纪，所有与音频和视频相关的发明都受到专利保护。这种情况在 20 世纪仍在继续，尽管重心逐渐从个人转移到雇用他们的公司。当使用数字技术的前景变得清晰时，所有公司和组织都开始在音频和视频编码方面进行或资助研究。今天，专利的数量以千计。

当 MPEG 开始其在音频-视频编码方面的工作时，立即显而易见的是，MPEG 要么按照音频-视频世界中现有的规则行事——标准通常需要专利才能实现——要么就不可能产生任何具有实际价值的标准。此外，MPEG 自身没有资金，也难以了解实施其标准所需的专利。

标准中的专利问题当然是三个主要的国际标准组织：IEC、ISO 和 ITU 众所周知的。他们制定了以下一般政策

不应要求专利才能实施标准；或者
权利持有人应放弃权利；并且
权利持有人应发表声明，声明他或她承诺“以公平合理的条款和非歧视性条件”授予其专利许可。

因此，MPEG 制定了一项标准开发政策，该政策有意忽略对专利的考虑，而只寻求实现最佳性能。结果是 MPEG 标准通常需要大量专利。

据报道，实施 MPEG-2 解码器需要多达 100 个不同的标准。由于对 MPEG-2 专利“一站式商店”的高度兴趣，已经成立了一个私营组织，为大多数 MPEG-2 专利授予许可。有趣的是，MPEG-2 解码器中专利的支付金额保持不变，而相关专利的数量却增加了。

MPEG-4 的情况也是如此。MPEG-4 产业论坛 (http://www.m4if.org/) 已经成立，目标是启动 MPEG-4 配置文件的专利池。当然，MPEG-4 的情况要复杂得多，因为许多商业模式都需要解码器下载。很可能很快就会成立一个类似的 MPEG-7 组织。

结论

通过一个完全不同的过程，MPEG——作为音频和视频世界的代表——得出了与数据处理世界类似的结论，即需要为被认为是“基础设施”一部分的技术提供以软件（或在可能的情况下，硬件）表示的开放解决方案。突出的区别在于，虽然数据处理世界喜欢定义完全开放的技术，但 MPEG 屈服于数字音频和视频世界中专利随处可见的现实。因此，参考软件（和参考硬件描述）是免版权的，但通常不是免专利的。

MPEG-21 是一个定义网络内容生态系统的项目，与迄今为止所做的工作相比，它将基础设施的标准化提高了一个级别。由于提供参考软件，无论是规范性的还是信息性的，现在是 MPEG 标准不可或缺的一部分，因此可以预期，当 MPEG 需要容纳自由主义精神和其他更平凡的考虑时，未来将面临相当大的挑战。但是，我认为在一个技术专家小组中处理这个问题比在法庭或议会中处理要好。

寻求各方的合作。

资源

Leonardo Chiariglione 出生于意大利阿尔梅塞。1971 年，他加入意大利电信集团的公司研究中心 CSELT，在那里他担任电视技术研究部门的负责人。1988 年，他创立了 ISO MPEG（运动图像专家组）标准组，并担任该组的召集人。第二年，他创办了 Image Communications，这是一本 EURASIP 期刊，旨在发展图像通信的理论和实践，他担任该期刊的主编。1994 年，他创立了数字音频-视频委员会 (DAVIC)，并在 1995 年之前担任该委员会的主席和董事会主席。1999 年，他被任命为安全数字音乐倡议 (SDMI) 的执行董事，负责制定规范，以支持安全数字音乐电子商务的多种商业模式。

加载 Disqus 评论