10 min read

理想的 XR

所謂的 XR,就是針對人體的各個感官分別送出相對應的感官訊息,以在大腦內產生現實中不存在的物件的錯覺。對聽覺來說,是對雙耳送出音波震動;對視覺來說,則是對雙眼送出光。
理想的 XR
Photo by Harry Quan on Unsplash

所謂的 XR,就是針對人體的各個感官分別送出相對應的感官訊息,以在大腦內產生現實中不存在的物件的錯覺。對聽覺來說,是對雙耳送出音波震動;對視覺來說,則是對雙眼送出光。

就這個定義來看的話,立體聲與 3D 電影其實都是某種特化的 XR。確實,立體聲透過左聲道與右聲道的喇叭分別送出音波給人體的左耳與右耳,使得人腦中產生一片音牆,甚至立體音場的錯覺。比如說在兩個喇叭之間明明是空的,我們卻會以為人聲與樂器就是位在那裡。另一方面,3D 電影也是透過分別送出影像給左眼與右眼,使人腦以為在銀幕前面跟裡面有其它的物件存在。

聽覺的 XR

聽覺的 XR 進展較快,因為技術門檻較低。雙聲道早在 1881 年的時候就由法國發明家 Clément Ader 在巴黎實作出來,後來商業化後叫做 Théâtrophone(法國)與 Electrophone,是用一組電話去放在舞台上的不同地方,聽者在電話的另一端就可以一次拿兩個聽筒,使左右耳聽到不同的聲音,以在腦中產生空間感與定位等效果。

後來在 1930 年代,EMI 的英國工程師 Alan Blumlein 則發明了立體聲與環繞聲系統,也開始雙耳聲(binaural)的實驗。

立體聲與環繞聲主要是用音響系統去在現實中定位虛擬聲源,而雙耳聲則是用耳機去在人頭周遭定位虛擬聲源,所以兩者的錨點是不一樣的。是到了現在,依靠 HRTF 的研究、陀螺儀的發展、以及晶片效能的進步等,才使得耳機也可以用來在現實中定位虛擬聲源。所以可以說,聽覺 XR 的基本架構已經完善,剩下的主要是格式標準的最佳化,比如說完全用物件導向取代固定方向的頻道等。

視覺的 XR

視覺的 XR 進展慢很多。立體聲在 1960 年代末基本上攻佔了所有的發行唱片,而 Dolby Stereo 也在 1977 年的《星際大戰》之後變成普遍的標準。然而視覺上的雙眼立體影像(stereoscopy)卻直到今天都沒有變成主流,在《阿凡達》之後雖然達到一波高峰,但現在卻已經很少看到以 3D 發行的電影。除了生產、發行與播映的成本問題之外,技術面的落後也是很大的原因。

簡單來說就是,現在的立體視覺技術還不夠好。包括 XR 眼鏡都是。

首先,我們要先理解到人類的耳朵與眼睛的致命性差別,也就是人類的耳朵是不能像眼睛一樣有那麼大幅度的轉動的。我是少數可以自由動作耳朵的人,但也只能讓它前後移動,而不能改變它的方向,所以基本上可以視為耳朵是固定在人頭上的。這使得耳機的 XR 不需要再針對耳朵的方向去做動態調整,只需要死死的貼在耳朵上,或者塞在耳道裡就可以了。

但是眼睛不一樣。眼球是能夠自己轉動的,跟頭部的方向是分開的。這使得要達到完整的視覺 XR,就一定要針對眼球方向去送出影像才行。舉例來說,我們雖然在稍微廣角一點的照片裡就能看到邊角變形,但現實中的人眼,邊角變形只會出現在周邊視覺中,而不會在中央視覺裡。現在的 XR 眼鏡大多都只有針對頭部方向做追蹤,而沒有做眼球追蹤並送出相對應的影像。所以現在在 XR 裡,如果你的眼球不是看正前方的話,或多或少都會看到邊角變形,從而打破錯覺。這就是所謂的 pupil swim 效應。

這要解決有幾個辦法。

  1. 發展 XR 隱形眼鏡:類似於耳道式耳機的概念。完美解決邊角變形問題,但目前顯示技術還差太遠。
  2. 將眼球追蹤技術加入到影像渲染管道裡:現在的渲染管道裡已經有頭部追蹤,再導入眼球追蹤進去並不是很難,而且眼球追蹤也是個蠻成熟的技術了。可行性應該很高。(https://ieeexplore.ieee.org/document/8798107https://pdfpiw.uspto.gov/.piw?Docid=10551879
  3. 發展球面顯示方案:現在的邊角變形問題是出自於平面面板。如果人眼看的是一個球面的面板,其球心就在眼球中心的話,那不管眼睛怎麼轉,都不會有邊角變形問題。

我認為 2. 是現有技術可以做到,也很快會出現的解決方案,但無論如何,都還沒有出現在大眾的視野中(雙關!)。

2 的眼球追蹤的問題在於延遲。雖然頭部追蹤的延遲問題不大,但眼球的動作細膩很多,也相當敏感,對延遲應該更容易發現。但眼球追蹤的好處是可以針對中央視覺去做高畫質的渲染,然後對周邊視覺的畫質做衰退,以降低運算負擔

3 的好處是直接且原生,不用加入眼球追蹤也可以做到。問題是這樣的面板還是相當昂貴。

就結構上而言,我認為這個邊角變形問題是視覺 XR 缺的最後一塊拼圖。誰能把這個技術整合進自己的 XR 系統,誰就很可能會成為業界領導者。其它像是像素密度、更新率、對比度、與顯色能力等等的,其實都只是規格競賽而已。

虛擬與現實的縫合

現在各家廠商都開始往虛實整合的方向前進。微軟一開始就是這個方向,所以它講混合現實而非 AR 跟 VR;Meta 則是繼續實驗用攝影機將 VR 頭盔外部的現實影像加入 VR 裡。

理想中的虛實整合,會是雙向的:虛擬物件會出現在現實中,而現實物件也會以數位雙生的姿態出現在 XR 中。空間也是一樣。

最終會是現實的 XR 化(數位雙生),以及 XR 的現實化(現實定位)。

作業系統遊戲化

在 XR 中,作業系統與整個開發思維會變得很像遊戲引擎。Apple 的 RealityKit 基本上就是一個遊戲引擎,裡面的架構如 ECS、場景與節點樹等都跟遊戲引擎一樣。

另一方面,遊戲引擎也會變成作業系統。Unity、Unreal 以及 Steam 都有可能加入作業系統大戰,不管是跟既有的玩家合作或者是自己下來參戰。當然也有可能變成 Linux 模式,從核心衍生出很多發行版這樣。

影片與音樂可能也會轉為物件導向,也就是跟遊戲一樣的機制。目前的立體影片已經有六自由度的格式,是以 3D 的 voxel 去取代 2D 的 pixel,也是需要類似遊戲的即時運算渲染方式。

一點結語

我對這些進展興不興奮?當然興奮。但是我也不認為這些東西有什麼必要性、整個 XR 有什麼必要性。這些科技的進展有沒有讓人類變得更好很難說,我們有太多其他的問題要解決。政治上的、社會上的、環境上的。只是資本主義最大的動能來自消費主義,而消費主義的動能又來自於人類的慾望,所以 XR 絕對會收到非常多的資源,跟人工智慧的研究一起。

作為一個創作者,我也不認為 XR 比平面的東西更好。它們是兩種不同的媒材,距離閲聽者的距離不一樣,被欣賞的態度也不一樣。平面的影像不一定要產生錯覺,也可以用來引發想像力,類似圖畫或甚至文字。再者,平面的影像在這個當下來說,由於畫質的壓倒性勝利,它的沈浸感甚至還是可以贏過大部分 XR 裝置與內容。

我現在就都用一台 34 吋的 3440x1440 超寬螢幕在玩遊戲,而只要我坐得靠近一點去對上遊戲的渲染 FOV,並且目光盡量集中在畫面中間以避免看到邊角變形的話,我就會感到極強的沈浸感。相比之下,我的 Oculus Quest 2 雖然可以顯示立體視覺影像,畫質甚至也不差,但總是比不上一般螢幕的細緻,而且 FOV 也窄很多。

這在只有三自由度(3DOF)的影片來說感受更強烈。這些影片的畫質不知為何總是沒辦法做到像遊戲一樣銳利,而且因為不能自由移動與互動,跟平面影像的畫質差距就被放大了。

另外,平面影像經常會透過望遠鏡頭去拍攝特寫、強調角色的臉部表情,但 XR 影片極少使用望遠鏡效果,導致人臉要不然就是離太遠而過於模糊看不清楚,要不然就是離太近而變形太多。這使得 XR 影片雖然有了感官上的沈浸感,卻沒有了心理上的代入感。這完全是可以去發展出來的拍攝技巧,但現在還只是起步,比不上發展了上百年的平面影像攝影。

平面影像其實也還沒有發展到極致。4K 與 HDR 是兩個很好的例子,它們帶來的寫實感直接打敗 3D 電視。接下來,像是高格率技術可能也會繼續發展。而在電影院來說,我相信 IMAX 還沒有被運用到極致。大部份用 IMAX 拍的電影還是以一般螢幕大小的思維去構圖,沒有考慮到 IMAX 的大小。