Computational Audio/Video
14 min read

Computational Audio/Video

すべての映画はアニメになる。

——押井守

如果這幾年有在追 Apple 新聞跟產品的話,對於 computational photographycomputational audio 等名詞應該不陌生。前者指的是 iPhone 上面的智慧 HDR 等相機功能,而後者指的是搭配 AirPods 系列的空間音訊功能。什麼是 computational 呢?過去的相機與耳機追求的主要是高傳真,也就是將接收到的資訊盡量不做更動的再現出來。在相機來說,就是追求最強的感光元件,而耳機則是追求無損檔 bit perfect 直通 DAC。簡單來說,機器對原始資訊干涉得越少越好。

蘋果力推的 computational 系統則是走不一樣的道路。這些系統會主動的去修正原始資訊。為什麼呢?高傳真的再現系統雖然確保了原始資訊的原封不動,但忽略了一個因素:作為閱聽者的人。人不是大量製造,千篇一律的機器,而是有不同高矮膚色性別胖瘦的生物,對於感官資訊的處理也不是死板的一成不變。人眼可以快速地適應一個景觀中的亮部與暗部,所以即使一個景觀中的明暗對比極大,大到超越人眼的同時動態範圍,我們還是可以透過移動焦點來帶動人眼的自動曝光功能,以把整個景觀的細節都看清楚。這是高傳真系統的相機沒有辦法做到的事情。Computational 系統的哲學是透過電腦計算來適配人類感官,所以 computational photography 就是進行多次的曝光,並且套用各種演算法,以模擬出最接近人觀看景觀的感官經驗。

在 computational audio 來說也是一樣。雖然高傳真耳機系統可以完美再現聲音訊號,但人耳在現實世界中幾乎不會把耳朵貼在聲音的源頭去聽聲音。我們在聽聲音的時候,是會受到空間、空氣、角度,甚至耳朵的形狀與頭的大小所影響的。所以耳機系統才會有 crossfeed、HRTF 與客製化耳筒等技術出現,為了能適配人耳。而 computational audio 就是利用電腦運算來適配人耳,再現出最接近人聆聽現實聲音的感官經驗。

而我相信 computational 的東西正在給影視美學帶來根本性的轉變。這並不是什麼對未來的預測,而是對現況的觀察。

還記得 2010 年我剛進電影系的時候,消費級數位單眼正劇烈的要搶上業務級攝影機的灘頭。我的第一台數位單眼就是 Canon 的 EOS 550D,可以錄 30fps Full HD,比一些還在用 tape 的業務級攝影機還高。那個時候,數位化被視為是洪水猛獸,業界還在經歷用 Red 攝影機拍 RAW 的學習陣痛期。現在已經過了十年,數位化看似已經大致完成——至少 Betacam 之類的東西我們已經很少在用了吧?連最不願意動的 cable 電視業者也都紛紛開展 YouTube 業務了——但我認為數位化其實只是整個典範轉移的第一步而已。

什麼樣的典範轉移呢?我認為是從集體閱聽轉向個人閱聽

Cinematograph versus Kinetoscope

一百多年前,十九世紀還沒有結束的時候,電影誕生了。但電影這個東西從一開始就有很多種不同的播放格式,所謂的「傳統電影」——大家一起坐在電影院看電影放映,其實也只是其中的一種,由法國的盧米埃兄弟所發明的 Cinematograph。今天大家在討論的「電影已死」,多半指的是 cinema,也就是由 Cinematograph 演化下來的這種集體觀影形式。

但在盧米埃之前,美國的愛迪生的研究人員 William Kennedy Dickson 就已經先開發出另一種電影格式了。它叫做 Kinetoscope,是讓觀者湊到播放機前,透過播放機上的透鏡去觀看裡面一格一格播放的膠卷。跟 Cinematograph 相反的是,它一次只能供一個人觀看。我今天沒辦法知道為什麼 Kinetoscope 會在與 Cinematograph 的商業競爭中失敗,讓 cinema 變成電影的代名詞,但 Kinetoscope 一次只能放給一個人看,怎麼想都賺不過一次可以賣上百張票的 cinema。但商業競爭上的勝利不代表技術上與體驗上的優越。雖然沒有證據,但我相信 Kinetoscope(搭配上舒適的座位)的觀影體驗是更好的。首先是不會被其他觀眾給打擾,再來是影像可以更直接的傳到觀者的視網膜上,不用經過一片銀幕的反射,所以銳利度、對比度應該都可以更好。

無論如何,cinema 就此稱霸了動態影像娛樂半個世紀,直到電視的流行才開始變成兩大陣營的對立。電視的技術其實比電影更早就開始研發,但電視真正流行也是要到二十世紀中期才開始。電視相比 cinema 來說似乎稍稍的往個人觀影的方向走了一點點,因為觀眾在家就可以看,甚至還可以自己轉台。即使從現在的角度來看,這兩點實在說不上是什麼個人化的大邁進——電視的內容雖然在家就可以看,但與其說那是個人化的觀影體驗,不如說那是種集體觀影體驗的 WFH(watch-from-home)版本——但也足以讓 cinema 的擁護者視之為仇敵、電影美學的終極破壞者,直到今日都是。

電視在發展的過程中,一步步吃掉 cinema 的份額,將觀眾從電影院拉回他們的客廳。尤其是 VHS 家用錄影帶的流行,讓人們除了在空間上個人化,還可以在時間上個人化,不用遷就電視台放片的時間去觀看。但電視總歸是以客廳為主的,而客廳是屬於家庭的,而不是屬於個人的。大部分的家庭還是會在晚上上演搶遙控器的戲碼,畢竟有錢在每個臥室裡都裝電視的家庭是極少數。

就這樣,人類集體觀影的行為持續了整整一個世紀。直到數位化浪潮的來襲,Kinetoscope 所象徵的個人化觀影體驗才終於邁出一大步,那就是以 YouTube 與 Netflix 等影片平台作為代表的 VoD(Video-on-Demand),隨選隨看。人們現在能夠真正屬於個人的筆電、手機等數位裝置上,在屬於自己的空間與時間裡,用自己想要的方式來觀看影像。原來 Kinetoscope 缺席的這一百年,就是在等觀看裝置的普及化。因為只要人手一片(現在可能已經兩三片)螢幕,原本 Kinetoscope 敗陣的成本因素就不再是問題。無獨有偶,最麻煩的內容發行,也可以透過網際網路來解決——看看 Netflix 有多成功。

如果說二十世紀是 Cinematograph 的世紀的話,那二十一世紀絕對是屬於 Kinetoscope 的。

Dolby:潮流先鋒

Dolby 是一間很有趣的公司。它在 cinema-TV 大戰以及 cinema-VoD 大戰的時候,都沒有選邊站。不只沒有選邊站,還帶頭在兩邊制定標準。對 Dolby 來說,所謂的電影體驗不應該只有一種方式,甚至是越多越好。這很好同理,因為電影體驗方式越多種,它就有越多機會去制定標準,賺越多權利金。

它確實制定了一堆標準,但直到十年前左右為止,還是以戲院的聲音標準最成功。戲院的影像標準有 IMAX 在上,而家庭劇院也有 DTS 在分庭抗禮。那十年前發生了什麼事呢?Dolby 看準了這波個人化觀影體驗的浪潮,研發了當今差不多壟斷了市場的兩個技術:perceptual quantizer(PQ)與 Dolby Atmos。搭配上它的老朋友 Apple(Apple 最愛用的音訊格式 AAC 就是 Dolby 研發的)與新朋友 Netflix 一起生產內容,定義了從家庭劇院到個人觀影的最高品質體驗——Apple TV+ 與 Netflix 的 4K Dolby Vision + Dolby Atmos 串流影音。

Perceptual Quantizer

Dolby Vision 的核心其實就是 PQ,而現在最流行的 HDR 標準——HDR10——則是把 PQ 拿去制定的低配版 Dolby Vision。而 PQ 則是一種轉換函數(transfer function),可以把影像的電子訊號跟實際場景或顯示器的光互相轉換。所謂的 gamma 曲線與 log 曲線也是轉換函數,也就是說,PQ 基本上就跟 gamma 與 log 一樣,就是一種曲線。但問題是,我們已經有 gamma 跟 log 了,還要 PQ 幹嘛?

我常常在網路上看到說 gamma 是符合人眼非線性特性的一種曲線,我以前也一直以為是這樣,但我讀了一些 Rec.709 的東西之後才發現不是這樣。Gamma 符合的是 CRT 的電壓-光轉換曲線,不是人眼。雖然比線性函數更接近人眼特性,但還有一段差距。PQ 就是為了解決 gamma 曲線的這個問題,而依據人眼特性去開發出來的。從名稱就可以看得出來——perceptual quantizer,意思是感知量化器

除了更符合人眼特性之外,PQ 還有一個很重要的改動:將亮度單位從 Rec.709 的 IRE 改成 nits,從相對單位變成絕對單位。這樣的改動反映出的是觀看裝置的多樣化:在亮度差異不大的 CRT 與電影院投影機來說,相對單位可以當成絕對單位來用。但在亮度不均——隨時還會自動改變或被調整——的液晶螢幕個人裝置來說,只有絕對的亮度單位才能確保創作者的意圖有好好的被傳達出去。絕對單位聽起來好像是違反個人化哲學的東西,但其實大部分的裝置廠商都會客製化各自的 PQ 曲線,甚至 Dolby 自己也推出了叫做 Dolby Vision IQ 的環境適配功能。就算沒有環境適配,PQ 也是為了讓閱聽者能夠在個人裝置上擁有跟電影院一樣,甚至更好的影像明暗對比而開發的曲線。而環境適配就是 computational 的部分,是依據人眼對環境光的感覺去運算出最能讓觀者有看見真實場景(或創作者想像的場景)的功能。

Dolby Atmos

Dolby Atmos 在我之前的幾篇談空間音效的文章裡已經介紹過,是空間音效的霸主。厲害的是,它不只佔據以耳機為主的空間音效,還通吃家庭劇院與電影院音效,是三位一體的王。它也是現在最能代表 computational 哲學的系統,因為 computational 的精華,其實是在於客戶端運算這點。

什麼是客戶端運算呢?其實像電影電視等等內容,大部分都是在發行、串流之前,視訊與音訊就已經固定下來的,以遊戲界的說法來說就是 pre-rendering。但 Dolby Atmos 的設計哲學卻是 realtime 的,也就是它把音訊給到播放端,但這些音訊不一定要在對應的聲道上面放,而是由播放端依據喇叭或耳機的方位與強度,去運算決定各個聲道要播放什麼音訊。換句話說,就是在裝置端即時混音輸出。Apple 的 AirPods 系列就是最好的象徵:它們利用耳機上的感測器去算出聽者頭的方向,以即時混出對應的雙耳音訊(binaural audio)給聽者的雙耳聽,給聽者最強的沈浸感。

一統天下

前面雖然說個人化的閱聽體驗來勢洶洶,但也不代表短期內 cinema 會就此消失。就 computational 或者說整個數位革命的角度來看,不管是電影銀幕還是手機螢幕,都只是數位框架下的一種模式而已,而 Dolby 與 Netflix 都是這種觀點的實踐者。有時候我們就是想跟一群人在電影院一起笑,有時候我們想躲在被窩裡一個人看片哭,這不代表哪種模式的觀影體驗就應該比較好。更重要的是,要如何給閱聽者再現出創作者的意圖與設計。

Cinema 擁護者的實踐方式很簡單:叫觀眾不要去電影院之外的地方看電影,而且去電影院最好還要去 IMAX 之類的影廳。這直到前幾年來說都是正確的,因為那時電影院的放映機確實還是比較好。但這幾年隨著 OLED 與 mini Led 等螢幕技術的出現,加上 UHD 內容的流行,電視、電腦與平板已經差不多追上電影院放映機的影像品質了。至於音響方面,家庭劇院早就達到,甚至超越電影院的水準;而現在的空間音效技術,更是讓耳機都可以有類似的品質。總而言之,現在是電影院、家庭劇院與個人裝置三種體驗都幾乎一樣好的時代。

對內容創作者而言,這樣的三頭馬車是個難題,因為這意味著我們現在必須要對三個不同的體驗做適配才行。Computational 系統正是這種戰國時代我們最需要的典範轉移,因為它減輕了創作者去適配不同體驗的負擔。雖然現在的傳統高傳真系統還在(像 Apple Music 就同時存在無損音質與 Dolby Atmos 等版本),但理想中的 computational 系統應該是創作者只需要輸出一個 HDR 視訊與空間音訊版本,讓終端裝置(或者發行商)去自行運算與適配即可。電子遊戲界打從一開始就是這樣了——一般遊戲大部分的音效與畫面都是即時渲染。有鑒於現在電影製作跟遊戲製作有越來越多共通的技術,GPU 的效能也越來越高,也許未來所有的電影不只會變成動畫,電影跟動畫都會一起變成遊戲吧——而你我現在都在這艘船(方舟?)上。