调解现实:多伦多大学 RWM 项目
正如我上个月所写,我是一位喜欢跳出框框思考的发明家,我选择使用 Linux 操作系统,因为它为我提供了一个编程环境,在这个环境中,框框不是焊死的。我描述了我的人机智能框架,我称之为人文智能 (HI)。我还描述了我称之为“WearComp”的发明的装置,它体现了 HI。特别是,我概述了为 WearComp 选择 Linux 的一些原因,并强调了软件法西斯主义之类的问题在 WearComp 上比在常规桌面计算环境中更为突出。
在本文中,我将探讨 WearComp 的实际用途。我还将解释 WearComp 如何颠覆现实世界信息空间(例如,广告)的传统商业模式。
简而言之,WearComp 是一种可穿戴计算设备,可为用户提供自我创建的个人空间。WearComp 最基本的问题是个人赋权(参见资源 1)。我将通过示例展示 WearComp 如何为佩戴者提供自我创建的视觉空间。我还将描述“调解现实”的概念以及“视觉过滤器”的使用,该过滤器允许佩戴者创建视觉注意力访问控制系统。
如果眼睛是灵魂的窗户,那么我们的灵魂就可以被任何人窃取。我们的视觉注意力是一种宝贵的资源,可能会被广告牌、分散注意力的广告和其他常常违背我们意愿强加于我们的材料所消耗。
独处是一种宝贵的人文财产,但也很容易被盗窃。
我冒昧地使用了这些强烈带有评判色彩的词语——窃取和盗窃。然而,如此强烈的措辞已经存在于知识产权的语境中。我们很容易接受诸如“软件盗版”之类的术语,它将复制软盘的人比作控制远洋船只并经常杀死船上所有人员的人。这种将令人毛骨悚然的大规模谋杀与复制软件进行类比的做法,应该会引发对我们社会价值体系的某些质疑。因此,在这种背景下,我认为在所谓的人文财产的语境中使用诸如盗窃和窃取之类的术语并非不妥。
那些窃取我们独处时光的人不仅夺走了人文财产,还将可能危及我们生命的物质强加于我们。
广告是一种不断发展的实体。在过去,有固定的标志,上面静态展示着公司口号。一旦我们习惯了这些标志,就发明了新的标志,颜色更鲜艳、更醒目,甚至还有移动部件来争夺我们的注意力。当我们习惯了这些标志后,它们变得更亮了。诸如追光器、灯光序列器之类的概念被引入,以便由顺序点亮的灯泡产生的运动可以进一步分散我们的注意力。
然后出现了像素板,当我们习惯它们后,它们也变得更亮了。有些像素板每个像素使用多达 2000 瓦的功率。当如此明亮的灯光沿着主要高速公路放置时,它们对道路安全构成严重威胁。尽管如此,我们还是尽力忽略这些干扰,并将目光集中在道路或任何引起我们注意的任务上。
最新的趋势是我称之为“信号频带广告”的东西。它试图通过将广告(“噪声”)重新定位到我们认为的“信号”频带中来欺骗我们。例如,我们现在看到的 WWW 横幅广告模仿了光标;因此,用户会瞬间被欺骗,以为他的屏幕上有两个光标。广告包含看起来像光标的东西,它的移动方式非常像真实的光标通常的移动方式。这些类型的广告相当于在拥挤的电影院里试图通过喊“着火了!”来引起注意。
停车杆上的信号频带广告是另一个例子。通过租用停车场杆上的标志,广告商可以将广告放置在通常只有道路标志的位置,从而进一步迷惑驾驶员。我们现在需要区分广告和重要的道路标志,这两者都直接位于我们道路的中心。广告不再仅仅位于道路的侧面。这种对视觉注意力的窃取使得更难看到停车标志和其他重要的交通标志。
也许接下来,广告商将开始将他们的标志做成红色和八边形,并将它们挂在街道的灯柱上,这样他们就能抓住我们更多的注意力。一个红色的八边形,中心用白色字母写着产品口号,张贴在繁忙的十字路口,可以吸引很多注意力,并且比传统的广告牌更难忽视。这就是我所说的“信号频带广告”的意思。
那些窃取我们视觉注意力的人不满足于仅仅用广告塞满道路和开放的公共空间,但他们似乎也想侵入更私人的空间。
通过我称之为“调解现实”的东西,可以获得解决此问题的方法。调解现实 (MR) 与虚拟现实(或增强现实)的不同之处在于,它允许我们过滤掉我们不希望违背我们意愿强加于我们的事物。这种能力隐含在自我决定和掌握自己命运的概念中。正如索尼 Walkman 允许我们用自己选择的音乐淹没背景音乐一样,MR 允许我们实现“视觉过滤器”。我现在将描述 MR 的工作原理。稍后,我们将看到 MR 良好软件基础的重要性,以及为什么选择 Linux 作为发明装置 (WearComp) 的操作系统,MR 基于此装置。
为了理解现实调解器的工作原理,首先想象一个名为“光空间分析仪”的设备(见图 1)。光空间分析仪是一种假设的“光空间玻璃”,它吸收和量化入射光——它是完全不透明的。它提供数值描述(例如,它将光转换为数字)。它不一定是平坦的;图中分析仪被绘制成弯曲的,以强调这一点。
还要想象一个“光空间合成器”(见图 2)。光空间合成器将数字输入流转换为相应的光线。
假设我们将光空间分析仪的输出连接到光空间合成器的输入(见图 3)。我们现在有了虚幻的透明度。
此外,假设我们可以使光空间分析仪玻璃与光空间合成器玻璃直接接触。将两者背靠背放置将产生共线虚幻透明度,其中任何射出的虚拟光线都将与引起它的真实入射光线共线。(见图 4。)
现在,一个自然而然的问题是,当我们可以很容易地购买一块小块透明玻璃时,为什么还要费这么大力气来制造简单的透明幻觉?答案是,我们有能力通过在光空间分析仪和光空间合成器之间插入 WearComp 来修改我们对视觉现实的感知。(见图 5。)
在实践中,该发明还有其他比上述描述更实用的实施方式,但基本原理是相同的。一些实际示例在其他地方的文献中进一步描述(参见IEEE ISWC98 会议论文集,“WearCam,可穿戴相机”,作者:Steve Mann,第 124-131 页)。结果是一种改变一个人对现实的视觉感知的计算方法。
WearComp 有潜力使整个世界既虚拟又真实;此外,还存在创造对视觉现实的修改感知的潜力。这种计算机调解的现实不仅可以增强,还可以减少或以其他方式改变对现实的感知。
为什么要这样做?为什么有人会买一副让他们看得更少的太阳镜?
一个例子可能是当我们开车并试图专注于道路时。不仅可以减少太阳光眩光,还可以过滤掉分散注意力的广告牌的太阳镜可以帮助我们更好地看到道路,从而更安全地驾驶。
此外,调解现实可以帮助我们在个人空间中重新获得独处时光。通过佩戴实施了视觉过滤器的特殊太阳镜(见图 6),可以过滤掉令人反感的广告。
图 7. 顶部:会议大厅现实。从上到下第二张:会议大厅调解现实
进入玻璃分析侧的光空间表现为输入图像序列,在其中被特殊太阳镜吸收和量化。图 7 显示了会议大厅的真实面貌;图 8 显示了其通过视觉过滤后的转换。
回想一下,太阳镜是完全不透明的,除了 WearComp 将输入侧复制到输出侧,并可能进行修改。在令人反感的广告的情况下,修改可以采取用更平静的瀑布图像替换广告的形式。
个人成像是一种基于摄像头的计算框架,其中摄像头在经过长期适应后,表现得像大脑和身体的真正延伸(参见资源 2)。在这个框架中,计算机成为一种设备,允许佩戴者增强、减少或以其他方式改变他对现实的视觉感知。此外,它让佩戴者允许其他人改变他对现实的视觉感知,从而成为一种通信设备。
WearComp 的通信能力允许多个佩戴特殊太阳镜的人共享共同的视觉现实。目前,太阳镜通过 2Mbps(兆比特每秒)无线电连接到互联网。与旧的 1987 年无线电设计(仅以 56Kbps 的速度运行)相比,这是一个显着的速度升级;因此,共享现实可以以更高的速率更新。当前系统允许共享视频的实时视频更新速率。
计算机调解现实的一个应用是为该装置的每个用户创建对同一视觉现实的可能不同的解释。由于该装置与用户共享相同的第一人称视角(事实上,该装置是使用户能够看到一切的原因),那么,当然,该装置为处理系统 (WearComp) 提供了用户如何与世界交互的视图。通过这种方式,每个用户都可以在现实世界中构建他或她自己的用户界面。例如,一个用户可以决定让计算机在看到用户拿起电话时自动运行电话簿程序。这个例子类似于超文本,从某种意义上说,拿起电话就像用鼠标单击 HTML 文档中的电话一样。“单击”真实物体只需触摸它们即可。
用指尖勾勒物体轮廓是现实用户界面 (RUI) 的另一个示例。
当窗口与 RUI 一起使用时,会产生一种新型的窗口管理器。例如,在休息室或其他等候区等待时,用户可以将休息室周围的墙壁定义为各种窗口。通过这种方式,屏幕实际空间基本上是无限的。虽然并非所有屏幕在任何时候都可见,但当通过 WearComp 眼镜观看时,它们的部分会变得可见。休息室中的其他人不需要能够看到它们,除非他们佩戴类似的眼镜,并且用户已允许他们访问这些窗口(例如当两个用户在同一个日历空间上进行计划时)。
这种形式的窗口管理器没有特定的边界。例如,如果用户在休息室中用完了空间,他或她可以走到大厅,并在通往休息室的走廊的墙壁上创建更多窗口。当窗口与现实世界相关联时,也更容易记住所有窗口的位置。这种易于记忆的部分原因来自于必须在空间中走动或至少在空间中转动头部。
这个名为 RWM 的窗口管理器还提供了一种使后脑勺在某种意义上“透明”的方法,以便人们可以将前方的窗口视为正立,将后方的窗口视为倒立。该方案只是简单地遵守投影几何定律。后视窗口可以打开和关闭,因为它们会分散注意力,不利于集中注意力,但它们对于在房间内快速导航很有用。图 8 说明了 RWM 运行视频录制系统的功能。
视觉分析处理器通常使用光空间分析仪的输出进行头部跟踪。此头部跟踪根据光空间分析仪视野中物体的视觉位置确定头部的相对方向(偏航、俯仰和横滚)。
视觉分析处理器在 WearComp 中实现,也在远程通过无线电连接实现。选择使用哪一个会根据可以建立的无线电连接的良好程度自动做出。
视觉分析处理器执行 3-D 物体识别和参数估计,或构建 3-D 场景表示。信息处理器获取此视觉信息,并决定要将哪些虚拟物体(如果有)插入到光空间合成器中。
图形合成处理器创建由信息处理器指定的 3-D 场景的一部分的计算机图形渲染,并通过光空间合成器将此计算机图形渲染呈现给佩戴者。
显示的物体是合成(虚拟)物体,它们与场景中的某些真实物体叠加在相同的位置。光空间合成器上显示的虚拟物体对应于光空间合成器视野内的真实物体。因此,即使光空间合成器可能只有 480 行分辨率,也可以通过光空间分析仪头部跟踪器实现围绕佩戴者包裹的极高分辨率虚拟电视屏幕,以便佩戴者可以通过看起来像一个小窗口来观看非常高分辨率的图片,该窗口会根据佩戴者的头部移动在图片上来回平移。
可选地,除了将合成物体叠加在真实物体上以增强它们之外,图形合成处理器还可以使虚拟电视屏幕上显示其他合成物体。
例如,图 9 说明了一个虚拟电视屏幕,其中包含一些虚拟(合成)物体,例如 Emacs 缓冲区位于 xterm(常用 X Window 系统图形用户界面中的文本窗口)之上。图形合成处理器使光空间合成器屏幕显示在虚拟取景器窗口中看到的十字线。
取景器横向有 640 像素,纵向有 480 像素,这足以显示一个 xterm 窗口,因为 xterm 窗口通常也是横向 640 像素,纵向 480 像素(足以容纳 24 行 80 个字符的文本)。因此,通过转动头部来回观看,佩戴者可以将取景器十字线定位在似乎悬停在各种物体上方的任意数量的 xterm 之上。当放置在取景器建立的调解区域内的真实物体也可以通过取景器看到视觉增强。
假设该装置的佩戴者在一家百货商店,在拿起一件 7 美元的商品购买后,他递给收银员一张 20 美元的钞票,但只收到 3 美元的零钱(例如,收到 10 美元钞票的零钱)。在大约一分钟后意识到这一事实后,佩戴者找到一个新的、可用的(例如,其中没有程序运行,因此它可以接受命令)xterm。如图 9 所示,佩戴者通过向上和向右移动头部来激活此 xterm。因此,光空间分析仪(通常由带有特殊光学器件的摄像头实现)也充当头部跟踪器,并且通过定向头部(以及摄像头),可以定位光标。在 X Window 系统中激活窗口通常是通过将鼠标光标放在窗口上,有时单击它来完成的。然而,将鼠标与可穿戴摄像头/计算机系统一起使用是很困难的,因为在四处走动时定位光标需要很高的灵巧性。使用此处描述的发明,佩戴者的头部是鼠标,取景器的中心是光标。
在图 8 和图 9 中,取景器调解区域外的物体以虚线描绘,因为佩戴者实际上看不到它们。他可以看到取景器视野之外的真实物体(要么通过剩余的眼睛,要么是因为取景器允许人们看到它周围)。但是,只有取景器中的 xterm 是可见的。取景器内的 xterm 部分以实线显示,因为这是佩戴者将看到的所有内容。
一旦佩戴者通过观看来选择所需的窗口,他就会按下“d”开始“录制”(recorDing),如选定窗口上所示。“d”之所以按下代表“录制”(recorD),是因为“r”代表“Recall”(在某些方面相当于 VCR 上的“倒带”)。字母是通过少量腰带式开关选择的,这些开关可以用一只手操作,方式类似于法庭速记员使用各种按钮开关组合来形成字母表中的字母。请注意,佩戴者不需要直接看向所需窗口的中心:只要窗口处于活动状态并且不需要完全可见即可接受命令。
录制通常是追溯性的,从某种意义上说,可穿戴摄像头系统默认情况下始终录制到 5 分钟循环缓冲区中,因此按下“d”会在实际按下“d”之前 5 分钟开始录制。这意味着如果佩戴者在意识到收银员少找了他钱后的几分钟内按下“d”,那么交易将被成功录制。然后,顾客可以查看过去 5 分钟的记录,并可以自信地(通过完美的照片/视频记忆召回,例如,通过按下“r”)向收银员声称给了 20 美元的钞票。该发明提供的额外个人信心通常使实际出示视频记录(例如,给主管)以纠正情况变得不必要。当然,如有必要,顾客可以提交报告或通知当局,同时提交录音作为证据。录音也通过 2Mbps 发射器发送到互联网,以便收银员或百货商店的其他代表(例如可能是收银员密友的保安)无法没收和销毁制作录音的存储介质。
请注意,在这里,图纸描绘了平移移动的物体(例如,由两个标量参数指定的一组平移),而在实际实践中,虚拟物体在二维中经历由八个标量参数控制的投影坐标变换,或者物体经历三维坐标变换。当虚拟物体(例如文本窗口)是平面的时,用户界面称为“现实窗口管理器”。
使用该发明时,各种窗口似乎悬停在各种真实物体上方。无论佩戴者的头部方向(取景器的位置)如何,系统都会维持虚拟物体(在本例中为 xterm)附着在真实物体上的错觉。来回平移头部以便在虚拟物体的空间中导航也可能导致通过对特殊相机上捕获的多个图片进行适当处理来获取极高分辨率的图片。此操作模仿人眼的功能,其中扫视被头部运动取代,以使用相机的光测量能力扫视场景,这在“光量化成像”中很典型。因此,头部运动用于引导相机扫描场景,就像眼球运动通常为此目的定向眼睛一样。
当然,人们不能期望在所有可能的环境中都提供头部跟踪设备,因此头部跟踪由现实调解器使用 VideoOrbits(参见资源 3)跟踪算法完成。(RWM 基于的 VideoOrbits 包可在 http://wearcam.org/orbits/index.html 免费获得。)VideoOrbits 头部跟踪器基于视觉观察到的环境进行头部跟踪,但无需高级物体识别。
VideoOrbits 建立在图像处理的传统之上(参见资源 4 和 5),结合了 Horn 和 Schunk 方程(参见资源 6)以及代数投影几何和同量成像中的一些新想法,使用在单位元邻域中工作的时空模型 p
其中 øT = [Fx(xy, x, y, 1), Fy(xy, x, y, 1), F, 1], F(x,t) = f(q(x)) 在时间 t, Fx(x,t) = (df/dq)(dq(x)/dx), 在时间 t, 并且 Ft(x,t) 是相邻帧的差异。这个“近似模型”用于重复过程的最内层循环中,然后与精确投影性和增益变换群的参数相关联,以便在整个过程中保持真实的群结构。通过这种方式,插入到眼镜佩戴者“现实流”中的虚拟物体会跟随这个变换群的轨道,因此得名 VideoOrbits。
VideoOrbits 的定量图形版本也基于以下事实:相机的未知非线性 f 可以从不同曝光的图像 f(q) 和 f(kq) 等获得,并且可以将这些图像组合起来以估计进入成像系统的实际光量
其中 ci 是相机恢复的非线性响应函数 f 的导数,A、b 和 c 是落在图像传感器上的光的真实投影坐标变换的参数。这种方法允许确定进入现实调解器的实际光量。通过这种方式,现实调解器吸收并真正量化进入其中的光线。此外,由于真实物体和虚拟物体而进入眼睛的光线被置于同等地位。
MR 提出了一个新的计算框架,其中对现实的视觉解释可以根据该装置的每个佩戴者的需求进行精细定制。计算机变得非常像假肢设备或处方眼镜。正如您不想穿别人的内衣或别人的护齿套一样,您可能不想发现自己佩戴别人的计算机。
一个全球软件供应商为每个人提供相同可执行文件分发的传统范式不再适用。相反,需要完全的可重新配置性,每个用户都将自定义他或她自己的环境。由于许多外行人并不精通操作系统、内核源代码,因此对系统管理员和顾问的需求将会增长。
在未来,软件将是免费的,用户将购买支持。软件盗版的问题将很少,这既是因为软件将是免费的,也是因为为一个人定制的软件对于有不同需求的人来说用处不大。由于计算机将充当用户思维和身体的真正延伸,因此用户最好不要摄取其他人拥有的软件。计算机的功能将非常类似于“第二大脑”,并且本着思想自由的真正精神,最好对一个人“第二大脑”的定制和内容感兴趣的任何商业利益都是雇佣作品(例如,最终用户拥有权利的交互),而不是软件购买。因此,随着新的人员加入连接的、集体的、人文智能社区,对个人系统管理员的需求将呈指数级增长。
Linux 消除了盗版劣质商业操作系统的需求。可自由分发的软件改进了操作系统软件,并改变了知识产权的性质。
同样,也存在人文财产问题。人文财产以前可以被他人随意窃取,但现在提出了一种防止人文财产被盗窃的技术手段。这意味着在未来,个人将决定他们想看或不想看哪些广告。
例如,我目前对观看汽车、清洁产品或避孕套的广告不感兴趣。但是,我目前正在市场上寻找构建 WearComp 下一代产品所需的某些组件,因此我非常欢迎有机会看到这些产品的供应商的任何广告。我不相信我们将看到广告的终结,只是不需要的广告的终结——我们视觉注意力盗窃的终结。
感谢柯达和数字设备公司 (DEC) 为个人成像和人文智能项目提供的帮助。
Steve Mann 是 WearComp(可穿戴计算机)和 WearCam(眼戴式相机和现实调解器)的发明者,目前是多伦多大学电气与计算机工程系的教员。Mann 博士从事 WearComp 发明工作已超过 20 年,可以追溯到 1970 年代的高中时代。他于 1991 年将他的发明和想法带到麻省理工学院,创立了后来成为 MIT 可穿戴计算项目的项目,并于 1997 年在自己开创的这个新领域获得了 MIT 博士学位。任何有兴趣加入或帮助“赛博格社区”项目或 RWM 项目的人员,都可以通过电子邮件 mann@eecg.toronto.edu 联系作者。