• 谈一谈苹果的Vision Pro可能会面临的几点技术难题
  • 发布于 2个月前
  • 234 热度
    0 评论

前几天陪老婆去逛商场,经过PICO的体验店时,进店去体验了一把PICO的VR产品,这是第一次真正比较全面的体验VR/AR产品,坦白说有些体验还是比较让人震撼的。因为前一段时间苹果推出了自己的VR产品Apple Vision Pro 。苹果作为一家能改变产业格局的企业,其推出的每一款产品都是值得我们关注的。所以今天就想聊一聊苹果的Vision Pro相关话题 。

在此之前,我没有使用过 VR 和 AR 设备,对相关技术也没有很深的了解,对沉浸式体验的认知停留在上海迪士尼的飞越地平线。但最近几天看了一些网上关于 Apple Vision Pro 的宣传和分析后,确实有种未来已来的感觉。下面说的三个难题,也是最近看的相关内容的总结。期间,我也充分意识到这件事情之困难,难怪虚拟现实的浪潮经过了好几轮,却始终未能真正普及。希望 Apple 能带着行业起飞。


一、如何实现空间交互的物理反馈?
我们经常会在科幻电影中看到在全息投影上的「空间手势交互」(区别于手机「平面手势」)的场景,但仔细想想,虚拟空间手势交互没有物理反馈(触感、阻力、震动等等),这是反直觉的,体验很差。任天堂 Switch 虽然不是 3D 设备,但有些需要肢体动作的游戏,手柄会有震动反馈,玩过的人都应该明白,这种震动反馈对游戏体验多么重要。放在 3D 空间交互,是同样的道理。

Apple Vision Pro 未能解决空间手势交互的反馈问题,它另辟蹊径,最大限度的减少手势交互,且让仅有的手势交互,尽量的符合直觉。目前 Apple Vision Pro 演示的很多场景,仍然是平面交互,比如浏览网页、看照片、Facetime 通话等等,和 iPhone 类似,只不过这个平台悬停在虚拟空间。

平面交互无外乎选择、点击和拖拽,Apple Vision Pro 将选择操作完全交给眼睛,看到哪,哪里就被选种,不依赖手势。然后点击和拖拽,也不用抬起手对着界面,只需要手指头一些轻微的动作,比如双指捏合就是点击确认,手指左右或上下轻扫,就是滑动,如同操作手机界面一样。同时,手指上的动作对手的摆放位置没有任何要求,如果你坐着,完全可以放在膝盖上。手指上的这些交互,比较符合直觉。

手指交互的实现原理也不复杂,就是通过眼镜四周布满的摄像头捕捉用户的手势,这些摄像头的视野范围非常之广,所以你的手可以放在任何位置。当然,如果你需要输入文字,而又不用语音,也只能在虚拟键盘上对着空气敲击。敲击虚拟键盘时,也许能提供声音和视觉(如按钮亮起)反馈,但肯定无法提供像物理键盘那样的触感。

如果涉及到 3D 界面的复杂交互,比如拼 3D 积木,大概还是得抬起手对着空气操作。没有别的办法。长期来看,要说人们完全适应无反馈的交互,也不是没可能,只是那便不是虚拟现实的最佳形态,毕竟现实中,触感十分重要,不能丢。

更可能的发展是像三体游戏那样,未来有手套、衣服这些外设,模拟触感反馈。

二、如何对用户本人建模?
Apple Vision Pro 是全封闭的,内部是两块 4K 屏幕,双眼看到的外部环境是摄像头拍摄并实时建模渲染到屏幕上的影像,因为分析率够高(4K),渲染速度够快(据说 12ms),因此仿佛肉眼直接看到外部环境一样。

因为摄像头主要集中在眼镜周边,所以只能为用户身前的环境建模,无法为用户本人以及身后的环境建模。如果只是一个人孤立的使用,这没有问题,因为眼镜的视野范围与肉眼的视野范围接近,符合直觉。

但如果两个用户异地使用眼镜,进入到同一个虚拟空间,这就有问题了。两个人需要看到彼此的全身。想象一个场景:你在试衣服,然后让外地一个朋友看看效果。Apple Vision Pro 似乎无能为力。

Apple 的发布会上,演示了 Facetime 通话,它仍然是平面视频,只不过是投射到空间而矣,这与 iPhone 的平面视频没有区别。甚至还不如 iPhone 的平面视频效果。因为 iPhone 的平面视频,是前置摄像头直接拍摄的,而 Apple Vision Pro 因为无法拍摄面部,是通过 AI 建模虚拟出用户的形象。Apple 称这套虚拟人像建模技术为「EyeSight」。

我觉得,Apple Vision Pro 无法为用户自身,尤其是无法为用户面部表情建模,导致任何需要多用户面对面交互的场景,都做不到逼真的还原,大大制约了它的应用场景的想象空间。

与 Facetime 类似,再比如会议场景,远程办公的同事集中到一个虚拟会议室开会,在这个会议室中可以有一个共同的白板,可以有一个圆桌,大家围坐着,但大家的形像做不到足够的逼真,尤其是面部表情,也就无法难获得像线下面对面开会一样的体验。

当然,没有外人在的 3D 场景,它是百分百胜任的,最简单的是「看」3D 电影,复杂点带交互的,比如:

Lego 应该马上得为它开发一个积木游戏,能获得类似真实世界拼 Lego 一样的体验。

各种 3D 设计软件一定要赶紧跟上,建筑设计师不再需要在平面显示器上拖动视角,而能直接在 3D 场景下进行设计。


三、体积和重量?
这个没啥好细说的,Apple Vision Pro 的选择是,把电池分离出来。不够优雅,但也没有更好的办法。当然还有其它的技术难题,比如对外部环境实时的高保真的建模渲染。这一点,得益于 Apple 过硬的硬件实力(尤其是芯片开发实力)以及软硬件一体的路线选择,再加上不惜成本的堆料,被很好的解决了。至少是目前各种虚拟现实设备中,做的最好的。

在现有功能体验上,如果足够轻量、足够便宜,估计得卖爆。这也说明,现在的功能体验,已经达到消费级了。随着技术进步,体积、重量和价格,也会慢慢降下来,所以这玩意成为大众消费品,或许不会太远。

用户评论