多伦多大学 WearComp Linux 项目
本文是分为两部分的系列文章的第一部分。在这一部分中,我将描述一个机器智能框架,该框架源于计算过程的反馈环路中人类智能的存在。
我还将描述实现这种智能形式的装置,首先从历史的角度概述其视觉和摄影起源。这项名为“WearComp”的发明装置强调自我决定和个人赋权。
我还打算在哲学背景下介绍该材料,我称之为 COSHER(完全开源、标头、工程和研究),它也强调自我决定和掌握自己的命运。
我认为我的工作中“个人赋权”方面是 Linux 等操作系统中的一个基本问题。WearComp 和 Linux 的共同点正是这个方面,因此 Linux 是 WearComp 的首选操作系统。
COSHER 的一个重要目标是让任何人可以选择获取并因此推进世界的知识库。
我还将介绍一个名为“人本智能”(HI)的结构。HI 的动机是科学哲学,例如,开放的同行评审以及构建自己的实验空间的能力。HI 提供了人类与机器之间的新协同作用,旨在让人类参与其中,而不是让计算机模仿人类思维或取代人类。HI 的具体目标是个人层面的人的参与,并为个人提供工具来挑战社会对人机关系的先入为主的观念。本文的重点是围绕“视觉智能”设备的计算框架,例如连接到计算机系统的摄像机。
我首先陈述我认为当今社会在计算机,特别是计算机程序源代码和公开方面面临的一个基本问题。稍后,我将提出我认为是该问题的解决方案。Linux 是一种解决方案,它与基于科学以及个人层面的自我决定和个人赋权的观点相结合。
第一个基本问题是软件霸权、思想的无缝性以及计算机科学建立在保密的基础之上。高级计算机系统是一个领域,个人可以为人类知识的进步做出巨大贡献,但往往会受到各种形式的软件法西斯主义的阻碍。一个阻止任何个人充分探索它的系统可能会阻止该个人“跳出框框思考”(尤其当这个框框是“焊死的”时)。这种软件霸权会阻止一些个人参与计算机科学文化和先进技术的发展。
第二个基本问题与人机交互(HCI)的一些新方向有关。这些新方向的特点是计算机无处不在,不断监控我们的活动并智能地响应。这是无处不在的监视范式,其中键盘和鼠标被始终监视我们的摄像头和麦克风所取代。这种环境智能的始作俑者声称我们是为了自己的利益而被监视,并且他们正在为我们创造一个更美好的世界。
从软件霸权的角度来看,无处不在的计算机不断监控我们的活动并智能地响应可能会使情况变得更糟,因为可能会阻止个人用户了解不仅是他或她桌面上计算机的某些方面,而且还了解日常事物的操作原理和功能。此外,在这些情报收集功能的背景下,保密的含义对个人隐私、独处和自由构成了严重威胁。
科学为我们提供了不断变化的思潮、观点、想法等等,同时建立在可验证(有时是不断发展的)真理的基础之上。科学的基础、定律和理论虽然在假设上是正确的,但随时可能因新的实验结果的出现而受到质疑。因此,在进行实验时,我们可能会首先做出某些假设;在任何时候,这些假设都可能得到验证。
特别是,科学实验是一种调查形式,它将我们引向证据可能引导我们的任何地方。在许多情况下,证据会让我们回到质疑我们以前视为真理的假设和基础。在某些情况下,我们并没有按照以前的科学家预期的路线做出新的发现,而是了解到之前的另一个发现是错误的或不准确的。有时,这些是最大和最重要的发现——偶然发现的事情。
任何试图预测“我们结果的 99% 的用户将需要什么”的科学系统,都可能为其他 1% 的用户构建思想监狱,而这些人恰恰是最有可能推进人类知识的人。在许多方面,整个用户群都处于这种思想监狱中,但许多人永远不会知道这一点,因为他们自己的探索不会将他们带到这种思想监狱的最外层墙壁。
因此,一个或多个基础要素被保密的情况与科学原理背道而驰。尽管科学中的许多结果都被视为“黑匣子”,但为了操作简单,证据始终有可能引导我们进入该黑匣子内部。
例如,想象一下,对专有溶液“A”与秘密粉末“B”之间的化学反应进行实验,温度升至 212 度 T。(绝密温度刻度,不允许转换为其他单位。)很难想象在哪里可以发表此类实验的结果,除非可能在不可重复结果杂志中。
现在,很可能可以在不知道 A 和 B 是什么的情况下,对 A 和 B 之间的化学反应做出一些新的发现。甚至可以完成博士论文并获得研究 A 和 B 之间反应的博士学位(假设有足够数量的 A 和 B 可用)。
部分基于未公开事项的计算机科学成果会抑制科学家追踪证据可能引导他们的任何地方的能力。即使在证据没有引导到其中一个秘密“黑匣子”内部的情况下,以这种方式进行的科学也是不负责任的,因为未来的另一位科学家可能希望以该结果为基础,并且实际上可能会进行一项既向后又向前的实验。如果新的科学家追踪引导到这些秘密黑匣子之一内部的证据,那么第一位科学家将创建一个被保密污染的基础。为了学术诚信,如果所有构建科学的基础都受到任何可能在未来某个时候希望以给定发现为基础的科学家的充分审查,那么将会产生更好的科学成果。
因此,尽管许多计算机科学家可能在高层次上工作,但一个对其他人开放检查的计算基础将具有很大的价值,即使使用该计算基础的特定科学家不希望检查它。例如,使用具有完全公开的操作系统(例如 Linux)的计算机的高级数值算法的设计者为其他科学家提供了巨大的帮助,即使他仅在 API 级别使用它,并且从不打算查看其源代码或其下方的 Linux 操作系统的源代码。
想象一下,一个时钟的设计使得当盖子被掀开时,所有齿轮都会朝不同的方向飞出,以至于一个小孩无法打开他或她父母的时钟并确定它是如何工作的。以这种方式制造的设备对社会不利,特别是对于对周围世界具有自然好奇心的年轻工程师和科学家的成长和发展不利。
随着软件和硬件之间的界限变得模糊,设备变得越来越难以理解。这种困难部分是由于产品制造商的有意混淆造成的。越来越多的设备包含通用微处理器,因此它们的功能取决于软件。功能的特殊性是通过软件的特殊性而不是物理形式的特殊性来实现的。通过制造仅提供可执行代码的日常设备,制造商提供了第一级混淆。此外,通常使用额外的混淆工具来使可执行任务映像更难以理解。这些工具包括去除诸如对象链接名称之类的东西的剥离器,甚至包括用于构建加密可执行文件的工具,这些可执行文件包含动态解密功能,该功能生成一个狭窄的未加密可执行文件的滑动窗口,以便在任何给定时间仅解密一小部分可执行文件。这样,最终用户不仅被剥夺了源代码,而且可执行代码本身也被加密,使得即使在机器代码级别也很难或不可能查看代码。
此外,复杂的、可编程的逻辑设备(CPLD),例如 Alterra 7000 系列,通常具有永久破坏通向设备的的数据线和地址线的规定,以便单个芯片设备可以作为有限状态机运行,但仍然对其机器级内容保密,使其无法被检查。(有关 FPGA 和 CPLD 的出色教程,请参阅资源 1。)诸如 Clipper 芯片之类的设备更进一步,它们结合了氟原子,因此,如果用户试图将设备放入铣床中以逐层铣削并在电子显微镜下进行检查,则设备将以非常剧烈的方式自毁。因此,Clipper 电话可能包含“特洛伊木马”或其他类型的后门,我们可能永远无法确定情况是否如此——这是又一个有意混淆日常事物操作原理的例子。
我们有越来越多的通用设备,其功能或用途取决于软件、下载的代码或微代码。由于此代码在智力上是加密的,因此设备的用途和功能也是如此。这样,制造商可能会向我们提供声明的功能或用途,但实际功能或用途可能有所不同,或者包含我们不知道的额外功能。
许多研究人员一直在提议基于环境传感器的新型计算机用户界面。Buxton 对智能环境(智能房间等)进行了早期的开创性研究,他受到自动冲水小便池的启发(例如,在美国专利 4309781、5170514 等中描述),并制定、设计和构建了一个名为“Reactive Room”(响应室)的人机交互系统(参见资源 2 和 3)。该系统由各种传感器组成,包括光学传感器(例如摄像机)和处理,以便房间能够响应用户的运动和活动。
我们越来越看到智能公路、智能房间、智能地板、智能天花板、智能厕所、智能电梯、智能灯开关等的出现。然而,这些“智能空间”的一个典型属性是它们是由居住者以外的人设计的。因此,空间的最终用户通常无法充分了解传感装置的操作特性以及来自传感装置的情报数据流。
除了上一节中描述的智力加密之外,制造商可能会使最终用户难以甚至不可能拆卸此类传感单元以确定它们的实际功能。还存在隐藏智能的增长,用户甚至可能没有意识到传感装置的存在。例如,美国专利 4309781(用于小便池冲水装置)描述了
...传感器...隐藏在视野之外,从而阻止篡改传感器...当身体离开观看区域时...位置应使平均身高的成年用户看不到它...传感装置将位于其他组件后面...位于螺线管下方,以便光线进出。但螺线管的作用类似于遮罩或顶篷,以保护传感装置免受大多数用户的正常视线的影响……因此,大多数用户不会意识到传感装置的存在。这将有助于阻止篡改传感装置。一种可能的替代布置是将传感装置放置在入口管道下方和后方。
美国专利 4998673 描述了一个隐藏在淋浴喷头喷嘴内的观察窗,其中公开了一种光纤系统作为使传感器远程化的手段。隐藏是为了防止用户意识到它的存在。美国专利 5199639 描述了一种更先进的系统,其中喷嘴的光束模式适应用户的一个或多个特征,而美国专利 3576277 公开了一种类似的基于传感元件阵列的系统。
美国专利 4225881 和美国专利 5726706 中提出了一种创建观察窗的方法,用于观察空间居住者,同时使居住者难以知道他们是否以及何时被观察到。
除了隐藏传感装置之外,许多视觉观察系统的目标是满足系统架构师的需求,而不是居住者的需求。例如,美国专利 5202666 公开了一种用于监控洗手间环境中的员工的系统,以便强制执行卫生(如厕后洗手)。
其他形式的情报,例如智能公路,通常具有安装系统的人员声称之外的其他不幸用途。例如,交通监控摄像头被用来围捕、拘留和处决中国天安门广场的和平抗议者。
美国专利 4614968 公开了一种系统,其中利用烟雾降低与摄像机相对的固定图案的对比度这一事实,使用摄像机来检测烟雾。然而,该专利指出,摄像机还可以用于其他功能,例如区域的视觉监视,因为烟雾检测仅需要摄像机的一个片段或一行。同样,摄像机因此可以被证明用于一种用途;然后可能会发展出未向空间居住者公开的其他用途。美国专利 5061977 和 4924416 公开了使用摄像机监控人群并自动控制照明以响应人群对光的吸收。虽然这种形式的环境智能据称是为了居住者的利益(为他们提供更好的照明),但显然还有其他用途。
美国专利 5387768 公开了在自动电梯内和周围对用户进行目视检查的使用。同样,这些提供了环境智能的简单示例,其中还有其他用途,例如安全和监视。尽管即使是那些其他用途(安全和监视)据称也是为了居住者的利益,并且经常甚至有人认为向居住者隐瞒系统的操作方面也是为了他们的利益,但本文的目的正是要挑战这些假设并提供另一种形式的智能。
当操作特性、功能、数据流甚至传感装置的存在都对最终用户隐藏时,例如在烟雾探测器的格栅后面,环境智能并不一定代表所有相关人员的最佳人机关系形式。即使传感器是可见的,也必须不断质疑居住者的利益是否与控制情报收集基础设施的人的利益相同。
对不受监控的个人空间的需求也被认为是健康生活所必需的(参见资源 4)。随着越来越多的个人空间被从我们手中夺走,我们可能需要成为我们自己备用空间的架构师。
解决这些问题的第一个方案是一个名为完全开源、标头、工程和研究 (COSHER) 的框架。在投入大量时间学习如何使用新软件以及为该新软件开发作品之前,这些作品可能会锁定为特定的文件格式,我们问自己一个非常简单的问题:所讨论的软件是否是 COSHER?
这意味着没有故意尝试混淆此软件操作的基本原理,也没有阻止我们自由分发我们可能投入多年生命的知识基础。故意的混淆尝试包括诸如消除源代码和剥离可执行任务映像之类的做法。
通过使用 COSHER 软件,我们正在声明我们更喜欢计算机科学而不是计算机保密。科学支持同行评审的基本原则,软件原则的持续发展和进步以及我们构建在软件之上的原则。
此外,如果我们拥有软件完整源代码的副本,那么我们投入到学习软件以及在软件中创作作品的时间将不太可能浪费。这样,如果软件停止维护或不受支持,我们将能够成为我们自己的软件支持小组,并在我们的旧计算机过时时将软件向前迁移到新的架构。如果它是 COSHER,我们很可能不会丢失我们投入大量时间在软件中创作作品的许多小时或数年时间。此外,如果我们做出建立在 COSHER 软件基础上的新发现,它们将更容易分发。
在科学中,重要的是其他人能够重现我们的结果。想象一下,如果我们基于 DOS 3.1 构建了我们的结果会是什么样子。其他人将不得不重写我们的软件以完全重现我们的结果,或者找到旧版本的 DOS 3.1。由于这是专有软件,我们无权将其与我们的研究一起自由分发,但它也不再可供购买。但是,如果我们基于 COSHER 软件(例如 Linux 1.13)构建了我们的工作,我们可以将 Linux 1.13 的完整发行版与我们的结果一起包含在存档中。在未来的许多年中,希望重现我们结果的科学家可以获得虚拟机(我们特定架构的模拟器,到那时无疑将过时),并安装随我们的存档一起提供的 COSHER 操作系统(Linux 1.13),然后编译并运行我们的程序。
Linux 操作系统是 COSHER 操作系统的一个很好的例子。GNU 软件也是 COSHER。许多 COSHER 软件包都可用,包括 GIMP(GNU 图像处理程序)和 VideoOrbits 软件包(在 http://wearcam.org/orbits/index.html 中描述)。
我提出了一个用于个人赋权的计算框架。该框架基于我的“WearComp”发明——一种用于(体现)实现 HI 的装置。
该框架涉及设计一种新型的个人空间。“WearComp”发明的一个实施例是由该空间的居住者拥有、操作和控制的装置。从某种意义上说,这项发明的装置就像一座为一位居住者建造并围绕该居住者坍塌的建筑物。

WearComp 作为 HI 的基础
我在 20 世纪 70 年代在加拿大发明了 WearComp,作为视觉艺术的摄影工具(参见资源 5),特别是,我称之为“中介现实”(视觉现实的改变的感知)。与虚拟(或增强)现实等相关概念不同,中介现实的目标是重新配置(增强、有意减弱或以其他方式改变)对现实的感知,以便提高对普通日常物体如何响应光的意识。
HI 是一种新型的人机交互形式,包括一台被用户个人空间吸收的计算机(例如,计算机可以佩戴,因此计算机的“用户”和“佩戴者”这两个术语可以互换),由佩戴者控制,具有操作和交互的恒定性(例如,它始终开启并且始终准备就绪且可访问 [参见资源 6])。
IEEE Computer 第 30 卷第 2 期 http://wearcomp.org/ieeecomputer.htm 中描述的 WearComp 发明(IEEE ISWC-97,1997 年 10 月给出了历史记录,也可在线访问 http://wearcomp.org/historical/index.html)构成了 HI 的基础。这项发明的装置的演变如图 1 所示。
可穿戴计算机是一种被用户个人空间吸收、由用户控制并具有操作和交互恒定性的计算机。
最值得注意的是,它是一种始终与用户同在的设备,用户可以随时向其中输入命令并在四处走动或进行其他活动时执行一组输入的命令。
计算机(无论是可穿戴计算机还是非可穿戴计算机)最突出的方面是它们的可重新配置性和它们的通用性,例如,它们的功能可以根据为程序执行提供的指令而广泛变化。这对于可穿戴计算机 (WearComp) 来说也是如此。例如,可穿戴计算机不仅仅是手表或普通眼镜;它具有计算机系统的全部功能,此外,它还与佩戴者密不可分地交织在一起。
这就是可穿戴计算机与其他可穿戴设备(例如手表、普通眼镜、可穿戴收音机等)的区别所在。与这些不可编程(可重新配置)的其他可穿戴设备不同,可穿戴计算机与熟悉的台式机或大型计算机一样可重新配置。
可穿戴计算的形式定义在其三种基本操作模式及其六个基本属性方面在其他文献中提供。(参见资源 7。)
这种计算框架允许人们将通常随身携带的所有个人电子设备(例如手机、寻呼机、手表、心脏监护仪、相机和摄像机)整合到一个设备中。显然,由于它是一台功能齐全的计算机,因此可以在走路、在银行排队或任何地方回复电子邮件、在日历上计划事件、键入报告等。通过这种方式,WearComp 预测了后来出现的所谓“笔记本电脑”,但与笔记本电脑相比,它具有可以在四处走动做其他事情时使用的优势。然而,WearComp 的真正力量在于它能够作为个人成像和人本智能的基础。
WearComp 不仅包含了笔记本电脑的功能,而且超越了它。WearComp 提供笔记本电脑和 PDA(个人数字助理)上找不到的真正新型用户界面的另一个领域是其用户界面和操作的恒定性。这种特性在其用作个人安全摄像头时可能最为明显。想象一下,也许当您晚上走在一条安静的街道上时,一个袭击者出现,向您索要现金。您可能没有时间或机会拿出摄像机来记录这一经历,但由于眼镜是 постоянно 佩戴的,您将拥有该经历的视频记录,以帮助调查。
WearComp 作为新型用户界面的不太极端的例子包括无需有意识的思考或努力即可构建个人纪录片视频的能力。例如,在完全中介的现实中,进入眼睛的所有光线实际上都通过计算机,因此可以被记录下来(并可能传输到远程位置)。可穿戴无线网络摄像头(参见资源 8)是使用现实中介器记录的个人纪录片视频的一个示例。
在未来,我们很可能能够捕捉和回忆我们自己的个人经历,并为我们自动生成相册。我们永远不会错过婴儿的第一步,因为我们将拥有追溯记录功能,例如,它可以让我们“从 5 分钟前开始录制”。相册除了自动生成外,还可以在生成时展出。您无需向朋友和亲戚发送明信片或在度假回来后向他们展示相册,您只需戴上太阳镜,即可将相册自动发送给他们,就像可穿戴无线网络摄像头实验中所做的那样,在该实验中,视频被传输,并且自动从视频中选择静态图像。
虽然环境智能无疑会比个人智能更多,但至少有希望结束两者之间严重的失衡。在百货商店购物的个人可能会有多个摄像头对着他,以确保如果他未经付款就移走了商品,将会有盗窃证据。但是,在未来,他将有办法收集证据证明他确实为该商品付款了,或者从店员那里获得有关退款政策的记录声明。想到了更极端的例子,例如 Latasha Harlins 案,一位顾客被错误地指控为入店行窃,并在她试图走出商店时被店主从背后致命射杀。
从这个意义上讲,基于摄像头的现实中介器成为一种均衡器,很像“狂野西部”中的柯尔特 45。在 WearCam 案例中,这仅仅是一个相互保证责任的问题。
该项目的开发还有许多工作要做。目前,我在多伦多大学教授电气与计算机工程 (ECE1766)。据我所知,这是世界上第一门关于如何成为“半机械人”实体的课程。学生不仅通过实践来学习,而且通过存在来学习。我将这种学习形式称为存在主义学习。每个学生都创建一个“重新配置的自我”——一种新型的个人空间。因此,学生通过个人参与从第一人称的角度了解个人赋权的概念。
我们正在为 WearComp 提供的改变的现实感知(中介现实)编写新的协议。一个例子是图片传输协议 (PTP),其中传输可变长度的数据包。每个数据包都是 JPEG 压缩的图片。由于图像压缩,数据量因图像内容而异,因此数据包长度取决于图像内容。
每个图片一个数据包的原因是图片以每秒 60 次的速度拍摄,这比它们可以发送的速度快得多。因此,每当有数据包丢失并且需要重新传输时,很可能会有更新的图片可供发送。使用 PTP,重新传输始终是最新的。
下个月,我将描述一个名为“中介现实”的数学(计算)框架,在其中我们将看到,只有当图片数据是最新的时,它才具有最大的价值。当尝试构建计算机中介现实时,旧图片的价值较低。因此,数据包重发应始终是最新的图像;因此,PTP 的设计基于可变数据包长度,其中数据包长度是图片的长度。
有关 WearComp Linux 项目的更多信息,请访问 http://wearcam.org/ece1766.html。
感谢柯达公司和数字设备公司 (DEC) 为个人成像和人本智能项目提供的帮助。
