开启辅助访问
 找回密码
 立即注册

2. AR原理和实践第二章_Displays

mickey000000 回答数0 浏览数788
这张开始正式一块一块讲AR的组成了。读了这章我发现本书有很多内容互相交错(这种复杂系统就是这样),不少细节需要到以后的章节才有详述。所以本书要融会贯通肯定需要多读几遍。所以目前有点机翻请见谅。另外我也兼着在看coursera上google的AR教程,发现这个教程参考了很多这本书上的内容,果然本书才是祖师爷啊。。
多模式显示

虽然一般我们认为AR就是视觉上对虚拟和现实世界的重叠,但其实其他感觉也有着重要的运用,不如说目前的AR技术都支持多种感觉的融合。比如说声音AR,在图书馆里那种走近就发声的电子导游就属于这一种。
声音AR

图书馆,博物馆的语音向导从1950年代就有了,早期使用了携带型收音机来作为载体,当然后来通过智能手机来导航的方式变得流行起来。特别是通过识别位置来提供相应的语音的方式综合了很多近场技术。还有一台例子是用在了视觉不便的人群,给他们提供了听觉信息。绝大部分声音AR应用于以上的特定场景,不过也有一些用于泛用的研究:Audio Aura system [ Mynatt et al. 1998 ]。
在另一方面,如果虚拟声源要用在一台物理的3D环境种,那么空间音效技术技术就是必要的。负责环境里声音的的传播是非常难以建模的,头部传输函数技术head-related transfer function (HRTF)  针对每一台人可以建立近似的让人满意的空间音效。现代的AR设备比如HoloLens,几乎都都支持空间音效,这种技术基本上放弃了耳机,而是使用嵌入在头盔里的扬声器来实现更加逼真的声音体验。
触觉AR

我们与现实世界的交互主要来自于触觉。触觉AR分为两类:一是通过特殊的物理媒介被动的传递触觉反馈(tangible AR)。另一种是通过一些设备主动合成逼真的压力场来模拟触感(haptic AR)。后者可以被分类到压力反馈的一类。压力反馈一般来自于肌肉,骨架(比如举起重物的感觉)。前者更多的是通过感受器(比如皮肤的触感,物体的表面,震动,稳定等)           不知道如何翻译。。反正就是sensor的意思 。tangible/haptic AR又分别叫做外因/内因性触觉AR.
1977年一台早期的内因性AR是一台背心,用来给视觉障碍人提供触觉反馈[ Collins et al. 1977 ].从此各种各样的触觉AR设备诞生,包括手套,鞋,衣服,甚至外骨骼。另外还有通过打入电信号到人体内来产生刺激的方法。目前来说触觉上的刺激还只可以用于提示,离提供真实的触感的程度还很远。
味觉AR

1962年一款用在放映影片的叫做Sensorama simulator的设备,便拥有提供立体声,风和气味的体验。通过直接吹向使用者的气流来传递气味会让人又不自然感,所以后来的技术在如何自然的导入气味的问题上。另外如何主动的消除气味也是一台难点。
2004年一款食物模拟器不仅模拟了气味,还在通过化学物质模拟了味觉。通过一台装置模拟了食物的触感,同时通过化学液体可感受到五种味道:甜,苦,酸,鲜。后来其他人还将模拟的食物以视觉的方式呈现出来,完善了AR体验。

视觉原理

视觉包揽了人类接受外界70%以上的信息,这也正是大部分AR致力于视觉体验的原因。
人眼FOV水平200-220度,其中最佳的视觉区只有1-2度,再其中视觉的最大值处只有0.5度到1度。出了这个最佳区域人眼视力快速下降,需通过移动眼球或者头部来补偿。通过调整瞳孔人眼可以控制进光量,进而带来了约10e10倍的动态范围(DR)。所以高分辨率和高动态范围是AR的重要指标。 人的两个眼睛可以生产深度双目(stereopsis,)深度信息。传统计算设备只能处理单目信息,要处理双目信息,目前主流的方式是提供立体视觉(stereopsis),即左右视差不同的图像。特别是在近处的物体上,越近的物体双眼视差越大,越能够呈现立体感。
需求和特征

一台理想的AR系统能够生成以假乱真的3D增强场景,虚拟和现实无缝衔接。这在很多科幻小说都有出现,但目前的技术并未达到,所以以下介绍的也是基于目前实现的技术。
方法

因为现实和虚拟需要相结合,所以一台透视的显示设备(see-through display)是必须的.目前基本上有三种结构来实现:1,光学透视型(OST). 2,视频透视型(VST)。3,空间家用投影型。 光学透视型一般由一块部分透视,部分反射的原件来驱动,比如一块半镀银的镜子。通过这个镜子,从现实来的足够的光能通过以便直接被观察,同时计算生成的虚拟图像被镜子反射到人眼,以实现AR的重叠。

视频透视型通过图像传感器截取到现实的信号,然后叠加上需要的虚拟图像,再一起传给人眼。

空间家用投影型是使用类似于家用投影仪的设备将虚拟图像投射到特殊的屏幕上。所以虚拟的图像会直接呈目前现实世界里。

AR、VR设备的一台关键因素是沉浸感(immersion),另外还有一台指标是存在感(presence).沉浸感指的是VR、AR系统能提供多么逼真的场景,而存在感指的是使用者在多大程度上感受到VR,AR系统的存在
多眼和立体视觉

单眼HMD只提供单眼视觉,因为没有沉浸感所以并不是主流。双目HMD分别提供了不同的图像给双眼呈现立体效果,当然带来的是成本的上升。一般来说需要两个显示设备,或者一台宽的显示设备再分割为两个光学模块。立体虚拟信息可通过一台单目相机获取,但完全的视频透过型AR至少需要两个相机作为输入给双眼。同时这些匹配的设备需要做同步。

OST的虚拟信息可选择输出单目或是双目信息,这取决于是否需要深度的沉浸感。
对焦

通常计算机生成图像时采用理想小孔成像,所以所有的物体都是完全清晰的。然后人眼和相机却不一样,景深是个必须解决的问题:只有某个范围内的物体是聚焦的,而外围的场景应该是模糊的。人眼可以通过辐辏(vergence)(双眼独立的旋转)调节这个范围,传统的视频或者图像可以通过调节相机光圈来实现同样的功能。而AR中这个问题比较麻烦,因为光学系统和眼睛的焦距是固定的,所以虚拟图像也会被成像到一台固定的距离。但虚拟图像里的物体可能并不在同一台距离上,这就造成了视觉上的不自然。而人眼又会通过辐辏去消除这种不自然,这种现象被称为辐辏冲突(accommodation–vergence conflict)。VR设备里也有这种现象。比如在一台真实物体前生成了一台虚拟的标签,而这两者的焦点距却不一样,人眼就需要在两者交替调节,无法同时看清两者。短时间的使用里这并不是个大问题,但长时间的使用眼睛必定会产生疲劳。
一种解决办法是实时快速切换焦点,通过追踪眼球运动来判断使用者观察的物体,并快速调节镜头的焦点来适应。另外也可通过计算来模糊该模糊的场景。
隐蔽关系(Occlusion)

虚拟和现实物体间的隐蔽关系是非常重要的。通过z-buffer和真实物体的隐蔽关系可以得出虚拟物体的隐蔽关系。在OST中虚拟物体一般描绘为半透明的重叠,导致隐蔽关系更难被呈现出来。有三种解决办法:

  • 将虚拟物体亮度调节至大于真实物体,这样虚拟物体可视性就更好,但这可能影响周围物体的显示效果
  • 在封闭环境中,通过一台家用投影机向指定处家用投影,明暗分明的场景可以很好的呈现隐蔽关系



  • 追加一台液晶屏幕在OST前,通过液晶的像素级透明度调节来控制明暗。


分辨率和刷新率

分辨率是影响图像质量一台非常直接的迎送。一般来说,受制于显示设备和光学系统的制约,虚拟物体的分辨率都低于现实物体。如果是VST的话,现实物体的成像分辨率也会受制于相机的分辨率。

除了空间分辨率,时间分辨率-也就是刷新率影响着频闪,图像迟滞,鬼影等问题。一般来说人对16hz以上的刷新率就能感受到动态的变化。电视机的刷新率一般在24-30Hzz左右。一般人对于75Hz以下的CRT或者60Hz以下的液晶显示设备能感受到频闪。高刷新率对于减轻运动模糊非常有效,所以在AR/VR上刷新率一般都高于60Hz。某些显示设备使用左右时分切换来提供双目视觉,还有时分切换像素等技术,会要求更高的刷新率。
视场角

视场角越大,能够同时看到的信息就越多。视场角和分辨率关系很大,因为更大的视场角意味着需要更多的像素以维持相同的分率。AR系统中一般会分为重叠区FOV和周边FOV。重叠区指的是能够生成虚拟图像的区域,反正没有虚拟图像的区域就是周边FOV。重叠区FOV越小,使用者在使用时就会更多的移动身体或头部来将感兴趣的物体放在重叠区FOV中。所以当然重叠区FOV越大越好。

在VST中一般要求相机的FOV大于显示设备的FOV以保证没有黑边。这也导致相机一般使用了鱼眼级的镜头。HMD 的目标是更大的FOV和更小的尺寸,所以一般要求眼睛和显示设备的距离很近。而FOV和分辨率一般又是一台相互妥协的关系,在不同的应用中着重点不同。比如飞行员更需要广角而外科医生需要高分辨率。
视觉错位

OST系统里虚拟物体和现实物体合成时,需要矫正(calibration)两者的关系.如果校正做的不好,错位(offset)的问题就会出现。VST因为可以用机器视觉来处理图像信号,可以做到像素级的精准效果。VST由于相机和显示设备放置在不同的位置这个物理上的限制,会导入一台较大的错位问题。通过相机的小型化和方向的调整,出现了解决这种问题的装置。

亮度和对比度

保证足够的对比度是一台非常困难的课题,特别是在室外强烈的自然光下大部分的显示设备都不够明亮到能看清的程度。OST中最大和最小进光量近乎都来自于自然场景,也很难调节到合适的对比度上。以个普遍的做法是通过减少外部进光量,比如通过一些滤波片。

VST系统中由于没有直接的自然光被用于合成,所以对比度更容易控制,当然如果相机拉跨就另当别论了。另外VST系统中如果HMD漏光或者电子元件失效会造成严重的失真甚至无显示的问题。

扰乱

系统里的光学元件会引入各种扰乱,比如广角镜头有鱼眼效应,电子器件也存在低采样率等各种干扰,像素的Bayer排列会引入色彩扰乱。高品质的AR系统会对校正这些扰乱问题,当然成本也会上升。
延迟

时间上的延迟也会造成空间成像上的错位。甚至在一些延迟严重的例子里,在虚拟图像还未生成之前使用者已经移动了视线,会造成严重的问题。OST和VST都存在延迟的问题,不过VST可以通过同时延迟现实图像来校正,缺点是整个图像相对于现实产生了较大的延迟。对于不同的应用可接受的延迟程度不同,一般来说在20-300ms之间。
人体工学

不用说舒适的使用AR设备是很重要的需求。设备固定的情况比较简单,舒适的站的或者坐的地方就行。如果是移动设备上的AR,需要考虑到可能造成用户的疲劳。手持设备,HMD还要考虑重量的问题。
社会接受度

当今的社会对于手持手机,头戴耳机走在大街上的人已经见怪不怪,但是戴上HMD又是另一回事了。HMD遮住了银镜和大部分的脸,会让不少人反感这种形式的设备。HMD这个名字也不好,“mounted” 这个词降低了接受程度,所以有学者认为应该改称HWD(wear) 中文里面一台意思了。固定式的AR(比如家用投影式)因为沉浸感不强,而且可以多人共同观看的特性提高了接受度。手持AR的接受程度位于两者之间。 通过镜头间接去观察的行为在很多场合下被认为是无礼甚至是触犯隐私的行为(比如著名的Google眼睛),隐形眼睛式的技术可能能提高社会接受度,也有可能反而让问题恶化 被人偷窥的感觉不好受
空间显示模型

AR信息通过多次转换后才与现实图像重叠在一起,这里会讨论各种AR转换的过程。一般来说都会有以下三个转换:建议去看相机的世界,相机,图像坐标系的关系,和这里差不多

  • 模型转换

    • 主要描述了局部3D模型坐标系和全局世界3D模型坐标系的转换。

  • 视角转换

    • 主要描述了从全局世界3D模型坐标系到观察视角3D坐标系的转换

  • 家用投影转换

    • 主要描述了从3D到2D(屏幕)的转换

只要相机内参不变,家用投影转换的参数就是实现决定好的。模型转换和视角转换根据应用,设备的不同有可能是固定的,如果需要对系统内的要素追踪(track)的话也可能是动态变化的。追踪的详细会在第三章介绍。
如果AR场景中聚集的物体是移动的,模型转换的参数会通过物体追踪技术动态生成。如果物体的是静态的就不需要追踪,整个系统里就只剩下视角转换需要动态转换。这包括:

  • 头部追踪

    • 使用者和显示设备有相对移

  • 眼球追钟

    • 高品质AR需要

  • 显示设备追踪

    • 显示设备和现实世界有相对移动

  • 相机追踪

    • VST系统里必须

以上要素都是独立的,但一般来说同时处理的不超过两个.

视觉显示技术

这里会简单的说明一些3D显示技术。细节超出了本书讨论范围

  • 双目

    • 两个独立的双目图像可以被双眼合成为立体图像。一种方法是让使用者带上用特殊快门或滤波镜的眼睛,这样双眼就能接受到时分或者是频分的信息以构成双目信息。裸眼的3D技术一般在显示设备和人眼间划分了显示区域,在不同区域里不同的图像信息被传递出来,双眼只要适当维持在不同区域内便能接收到双目信息,比如视差障壁技术。

  • 全息、光场

    • 全息和光场技术都用于记录和重现光波的所有信息(包括幅度和相位)。理想情况下重现的场景和实际场景是一模一样的,但实际上依然有一些限制。全息技术一般利用激光等相干光源而光场场显示设备使用不相干光。光场技术有很多分类,包括容积显示,多家用投影阵列,microlens近眼显示等。

最好的AR视觉技术是怎样的?非侵入的,舒适的,高分辨率,广角,近眼,HDR,完美的追踪技术,以上技术的融合应该能完美代替当今任何显示设备,但还需要时间。在此之前,HMD,手持,穿戴,固定大型屏幕和家用投影,容积显示等等技术并存的局面不会消失。这些技术以距离人眼来分类如下图

近眼设备

HMD应该是最主流的AR设备。最早的AR设备“Sword of Damocles”(by Sutherland)也是一台HMD,属于OST类型。HMD因为戴在了头上,所以对存在感,舒适度以及其他各种技术和人体工学上的处理有较高的要求。特别是人体工学上,HMD要求越轻越好。除去光学,电子元件,头盔的箱体占了很大一部分重量。clip-on类型的设备很轻便,可以做成眼镜型的,但能将AR信息显示在视角的侧面(比如google glass)。把显示设备直接嵌入镜片的AR设备是最理想的,但设计上很困难而且可能会增加使用者鼻头的压力。另外还得对不同的人群客制化尺寸,考虑散热等问题.

光学透视型HMD

光学透视AR需要一台光学组合原件来合成虚拟和现实的信息。索尼的Glasstron使用了一台光线分散器来反射LCD上的图像到人眼里,同时现实世界的信息可以直接穿透元件进入视野里。这就是一台基本的OST结构,然而这种系统里需要解决的一台重要的问题是如何调整虚拟和现实不同的光强,一般来说现实的光强远强于来自LCD的光。Glasstron在光线分散器前放置了一块可控全局快门的LCD,通过快门调节LCD透明度来调节进光量。即使如此,在阳光直射下使用最暗的快门也不能保证使用者能看清AR信息。同时,在室内黑暗环境下最亮的快门又影响了进光量导致现实世界的亮度不足的问题。所以之后的OST出现了更多复杂的设计,比如通过在镜片上装上小型家用投影仪来补偿输出。家用投影仪的光通过反射和折射来提升可视度。

OST的另一台问题是如何保证足够的视野,同时轻量化设备。最简单的做法的将显示设备尽量靠近人眼,但太近的情况下对焦又是一台需要解决的问题。
Pinlight是一台新颖的设计。在一块玻璃上通过小的家用投影设备和前部的点制造点光源,将LCD呈现的图像与点光源的光重合后就能呈现清晰对焦的图像。

微软的Hololens包括了各种AR技术高度的集成:专用追踪,深度感知,空间音效,最先进的OST,各种无线的电子设备。微软声称使用了"全息计算"技术做到了全息高分辨率,但早期的使用体验认为微软使用的是双目技术。
MagicLeap声称他们的“数字光场技术”可以解决輻輳调节的问题。
视网膜扫描型的设备由于高昂的价格还无法快速商用。这种设备将栅格数据直接打在视网膜上,人们会感觉虚拟图像是浮在现实世界里的。目前来说这种技术还不能很好的解决对比度和亮度的问题。
各种技术都在试图解决一些AR设备的固有问题和限制,但同时也产生了一些其他的问题。不管如何说小而轻,舒适是非常重要的。
之后的讲解会将AR设备里的各种构成要素的关系以简易图的方式表现出来,T表示需要动态追踪(每帧都可能变化)的参数,C表示固定的或者提前校正好的参数即可描述两者关系。比如下图指的是光学透过型的HMD的构成关系图。一般来说人眼和现实设备的位置关系是固定的,不过动态追踪眼睛或眼球是今后的发展方向,这可以消除因为头部位置的移动造成显示的错位或其他问题。

视频透过型HMD

在光学透过型的基础上视频透过型需要追加一台相机的要素。一般来说相机和显示设备是属于同一台设备所以两者的关系固定。根据需要,人眼到显示设备可使用固定参数也可采用动态追踪技术。

如何模拟人眼看到的场景是VST系统共同的难题,毕竟相机成像原理和人眼有所不同,视差总是存在的。关于差异的容许度因应用而已。比如google glass是OST,它在视野的边界上引入AR。如果使用VST的话FOV能远大于目前的构成,这个时候人们都差异的容许度可能就会增加。视野小的影响大于观感的差异 。即使如此相机的视差依旧是一台待解决的问题。其中一台设计放置了两个相机对应双眼,相机的中线和FOV也做到和人眼调节的差不多。

最后,理想的AR眼镜定义应该如下:没有束缚和存在感(比如隐形眼镜),舒适,便利,光学透视型,高对比度,视网膜级分辨率,人眼级FOV,双目显示设备,没有辐辏效应,真实的隐蔽效果,拥有鲁棒性的传感系统,稳定的追踪技术,场景建模,还有AR应用的支持,当然还得便宜。
手持设备

手机等智能移动设备快速的发展也带动了移动平台上AR技术的发展。通过后置或者前置相机AR应用得以快速开发。手持设备当然需要用手拿着,这会导致疲劳,而且固定的握持角度也并不能保证视角的完整。所以某些产品变成了穿戴式的产品,比如戴在头上。

一般来说显示设备和相机会固定在同一台外壳里,所以两者之间的转换是可以预先校正好,而对现实世界的追踪通过相机处理。
最近的发展中比起单相机的场景显示,还考虑了人眼和相机的位置关系。比如相机和场景固定时,显示场景会根据头部移动而变化。这种技术不仅需要对双方进行追踪,还要求相机拥有更广的视角以实现以上功能,会大大增加成本和技术难度。

实际上由于智能移动平台硬件,软件,生态上急速的发展,可以说手持设备的发展急速推动了AR的发展 google的课程也是基于移动设备的。目前绝大部分的AR都基于手持设备,但是也不能断言今后的发展中近眼,穿戴性的AR就没有一席之地,毕竟手持设备的交互界面还不够理想。
固定式显示设备
即使以上的手持或者HMD设备发展到极致,固定式的AR,甚至是传统的非AR显示设备依然不太可能完全被代替,至少这种设备具备的社交性属性不能轻易被代替。
桌面显示器

最简单的例子就是普通的显示器,一台电脑,一台显示器,一台相机就足够构成一台VST VR系统,当然一般说来应用场景都不算大。相机不仅承担图像的输入,也可用于追踪。

虚拟镜

虚拟镜使用一台前置相机直接获取使用者或者特定物体所在的场景然后反应在显示设备上,所以这就是一台镜子式的AR。当然,各种AR功能会应用在这面镜子上,比如虚拟换装。

如果使用者或者物体固定或者很少移动,对物体和使用者的追踪是不必要的。反之,通过追踪位置来调整相机的方向和角度以实现类似真实镜子的效果。
利用半透明的镜子,可以开发不需要截取场景用的相机的虚拟镜子,如下图。但是追踪技术仍然是需要的

虚拟箱

虚拟箱是一种特殊的虚拟镜。观察者和被观察的物体被一面半透明的镜子分开。另外从上面或者下面的家用投影会被镜子发射构成虚拟物像。还可以通过家用投影时分双目图像来实现3D视觉。

窗式设备(Window and Portal Displays)  不知道该如何翻。。

FogScreen通过投射图像到雾上实现了可穿透式的AR体验。通过对身体和手臂的追踪还能与虚拟物体近似触摸的互动体验。

家用投影显示

随着家用投影仪价格走低,家用投影仪开始走出传统领域(影片院,教室,办公室),拥有特效,互动,甚至户外等新的应用场景。
空间AR

不需要额外的显示设备,家用投影仪可以直接将虚拟图像投射在现实物体上形成AR。这种方法可以增加,覆盖物体表面的细节比如材质,阴影甚至是动态效果,但不能改变形状。如下图将一台木盒家用投影成逼真的老式电视机机。

被映射物体要求形状符合应用场景,反射率也不能太小,物体本书是静态的话也不需要追踪技术。

根据视角的空间AR

利用可调快门镜头和追踪技术,空间AR还能提供根据视角的场景体验。

运用多家用投影的方法可以得到更大的覆盖面,还能在非均匀表面家用投影更清晰的整体画面(因为每个家用投影仪到表面距离不同可能有聚焦问题甚至遮挡问题)

头戴家用投影设备

因为家用投影设备的小型化,将其放置到头上也变成了现实。一般来说被照射的物体是反光材料。 反光材料一般会直接朝光源反射入射光,也很少产生散射。通过这个特性,每一台佩戴者都得到独一无二AR体验,因为从旁边是看不到反射光的。这种设备的应用场景主要是用在对个人隐私有要求的地方。

动态阴影灯

动态阴影灯追踪移动的可视物体并将虚拟图像家用投影于上面,可实现用光上漆,映射人的表情等动态效果

无处不在的AR家用投影

无处不咋的家用投影仪的特征是家用投影仪本身也可移动,这样系统就能家用投影到环境中任何的地方。下图显示了一种应用场景,通过移动家用投影的方向和位置提供广范围里细节的AR投射。

总结

本章主要讲了AR里各种各样的显示设备。显示不一定指的是视觉,声音,触觉都可以成为AR的要素。最重要的视觉显示里可分为OST和VST,区别是显示场景是直接或是通过相机拍摄间接进入人眼的。当然还有投射式的AR。AR有很多关键的因素影响最终的品质:隐蔽关系,光强和对比度,延迟,聚焦,分辨率,FOV,尺寸,舒适感等。
根据AR放置的位置分为HMD,手持设备,固定设备。没有哪一种类型能对应所有的应用场景,手持设备由于经济性和快速的发展带动了大众对AR的启蒙,HMD在成像质量上好,通过发展先进的技术有望成为下一波主要潮流,但在社会接受度上还较低。通过建立空间模型来应对AR场景里各种要素所在的坐标系,数据信息得以转换和展目前人眼之前。模型主要包括需要实时追踪的动态模型和提前校正好的静态模型。
使用道具 举报
| 来自北京
当贝投影