抖音計劃以AI修復100部港產片 林青霞40年前全盛時期有幾省鏡?

撰文:機器之心
出版:更新:

劍眉星目,衣帶飄飄,伴著仙樂,傳聞中的瑤池仙堡堡主從閉關處飛身而出:一身霓裳羽衣,宛如敦煌壁畫中的飛天,或許見過林青霞這一造型的觀眾並不多。

以下這段經典的出場畫面,來自於1983年徐克執導的《蜀山:新蜀山劍俠》,是林青霞的第一部武俠作品。在傳統武俠功夫片的核心之中,導演注入了天馬行空的想像。這也是港產片拍攝中,第一次邀請到荷李活《星球大戰》(Star Wars)特效小組支援特技鏡頭的作品,很多特效製作在當時顯得十分前衛和大膽。(點圖放大瀏覽👇👇👇)

+6

以《蜀山:新蜀山劍俠》為代表的經典港產片,承載了很多人的童年回憶,成為了一代人心目中難以超越的珍貴影像。

但記憶中的這些經典港產片,往往伴隨著模糊、昏暗、掉幀等畫質問題。即使今天再將經典之作翻出來重新觀賞,部分作品的「全損畫質」也會影響到我們感受其藝術和美學價值。

為此,抖音及火山引擎在2023年發起了「經典香港電影修復計畫」,宣佈將在一年內修復100部香港經典影片。通過最新技術的助力,讓大眾看清香港電影最初的、最清晰的樣子。

在8月16日舉辦的「再續時光——經典香港電影修復發佈會」上,這一計畫正式啟動。首批上架的經典港產片包括《武狀元蘇乞兒》、《A計畫》、《蜀山:新蜀山劍俠》等22部作品。

【圖輯】點圖放大看有什麼經典電影被修復成4K上架👇👇👇

+12

基於最前沿的AI技術加持,一系列八、九十年代的經典港產片重新煥發了生機。比如在4K版本的《蜀山:新蜀山劍俠》中,女神林青霞的美貌被完全還原。

值得關注的是,這一次經典港產片修復首次應用了AIGC視覺大模型。位元組跳動視頻架構負責人、火山引擎視頻雲架構技術總監王悅表示,基於視覺大模型優越的生成能力和豐富的先驗知識,修復的效果與效率均實現了大幅度提升。

【圖輯】點圖放大看更多修復前後對比👇👇👇

+8

修復一部四十年前的港產片,有多難?

如今,想要找到一部經典港產片的網絡資源並不難,只不過這些視頻的畫質與我們常看的高清視頻相比,觀感體驗不那麼友好。

受限於拍攝設備、存儲方式等的影響,一些經典港產片往往會更加模糊、有嚴重的膠片雜訊且解析度較低。帶給觀眾的直觀感受就是「高糊」、「昏暗」、「不順暢」。

造成這些問題的原因是多種多樣的:在上個世紀,大部分港產片拍攝後都是儲存在膠片上,而儲存膠片的環境需要恆溫恆濕。如果保存的溫度和濕度不合適,以及在使用、搬運的過程中造成的物理和化學性損傷,產生褪色、撕裂、髒點、黴變、劃痕、酸變、收縮、扭曲等情況,反復的放映更是容易造成畫面劃痕、閃爍、丟幀等損傷。再加上拷貝版本因為翻印過多次,畫質也會有衰減。

此外,受限於技術原因,很多武俠類的經典港產片都無法完全處理吊鋼絲的痕跡。以《蜀山:新蜀山劍俠》為例,這部作品存在大量的武打動作,觀眾很容易在觀賞過程中發現「鋼絲」。

【相關圖輯】林青霞賀68歲生日 感激好心人掩護走光:我的胸部赤裸裸地曝了光(點圖放大瀏覽👇👇👇)

+50

近年來,對此類老電影的修復工作正在越來越多的開展。一般來說,老電影修復分為傳統修復、演算法修復和藝術修復三大步驟。首先要清潔電影膠片表面的灰塵、污垢,然後對其進行接補,再將膠片每格內容轉換為數位化資訊,經過修復師一幀幀處理畫面上的劃痕、污漬等問題,最後進行畫面調色。

一部電影可能多達十幾萬幀,人工修復的成本高、耗時長,難以進行大規模修復。這一套流程下來,大概要花費好幾個月的時間,其中又屬數字修復環節的工作最為繁瑣、枯燥、耗時。

近年來,越來越多的AI技術被用於修復老電影,也帶來了驚豔的效果。在本次「經典影像修復計畫」中,火山引擎團隊將傳統人工修復與最新的AI演算法修復相結合,在極大提升電影修復效率的同時,進一步優化了影片的畫質。

在這一過程中,火山引擎和中國電影資料館進行了多輪溝通和討論,經過不斷地測試和反復地調優,才達到演算法服務於藝術的理想效果。

特別要提到的是,火山引擎多媒體實驗室基於多種自研的畫質增強能力,首次將AIGC視覺大模型「Stable Diffusion」應用於老片修復場景。

【相關圖輯】七位圈中闊太獲老公贈名貴厚禮 林青霞收11億山中堡壘未算最勁?(點圖放大瀏覽👇👇👇)

+17

老電影修復,用上生成式AI大模型

我們知道的「Stable Diffusion」,是一個文本到圖像的生成模型。那麼它如何用於視頻修復?效果如何?

火山引擎多媒體實驗室研究員趙世傑介紹說,除了通過文字prompt生成圖片和視頻內容,相關演算法同樣可以應用在prompt為圖片或者視頻的場景,實現通過圖片或視頻來創作新的圖片或視頻。視頻的逐幀修復流程與圖像修復類似,其方法也是基於圖像修復演變而來的,因此這些演算法可以應用於老舊視頻到高清視頻的轉換或是視頻畫質修復、增強。

相比於此前的AI修復方法,採用AIGC視覺大模型還具備兩大優勢:更強大的生成能力,更大規模的先驗知識。

「擴散模型」的火熱,為生成領域帶來了全新的景象。在更廣闊的資料規模、更龐大的模型參數、更豐富的算力的加持下,諸如Stable Diffusion這類的AIGC大模型顯示出了遠超以往演算法的生成能力,產生的內容紋理細節更逼真且高度靈活。大模型的優勢同是來自於資料和模型兩個方面。

從先驗知識上看,在通用大模型成為主流之前,模型常常針對特定任務建立特定資料集,再利用特定資料集去訓練特定的端對端模型,這必然帶來先驗資訊不足的問題。而模型從資料集中取出來的先驗資訊,卻是任務模型能否獲得高性能的關鍵。針對經典港產片修復這樣總體場景數量有限、退化模型眾多且未知的任務,很難定制資料集,因此就需要一個能在大型資料集上習得海量先驗知識的生成模型。

而在模型層面,基於Stable Diffusion的大模型有非常強大的資訊結構化能力,有能力在學習了海量資料對後,從中提煉出大量的有用知識,「存儲」在模型參數之中,為下游的老片修復任務提供了豐富的先驗資訊。

趙世傑還提到,目前開源的Stable Diffusion大模型在經典港產片修復場景中會遇到許多問題,在實際應用過程中,團隊有針對性地對模型進行了多項優化:

1、生成能力優化:基於擴散模型的現有方案,也會在部分場景上表現不穩定,體現在生成偽影或者虛假紋理或閃爍等情況。一方面,團隊通過控制模型的邊界條件,通過對生成過程中隨機種子的優化,增加了模型在反覆運算過程中輸出內容的穩定性,並且保證輸出內容的主觀效果。另一方面,團隊對生成空間進行分析,對大模型複雜龐大的生成空間抽絲剝繭,強化生成品質較高的空間,同時弱化生成較差的空間內容。

2、視頻場景優化:像Stable Diffusion這樣的視覺大模型是基於圖片或者單幀的視頻圖像進行訓練和應用的,對於連續的視頻序列經常會出現效果和穩定性的問題。為了解決這個問題,團隊使用了多種技術手段,包括設計時域的自編碼器,光流特徵對齊,時域條件約數,使得大模型在修復的過程中可以使用前後幀的資訊,生成的內容具有時域穩定性。

3、效率優化:已有的擴散模型因為需要反覆運算降噪計算結果,所以運算速度很慢,對算力的要求很高。因此,團隊對採樣的推理步數進行了優化,將冗餘的採樣步數大幅縮減。此外,面向老片修復場景對高解析度的要求,一個非常實用的思路就是做並行。團隊設計了分塊推理的結構,在保證各個塊演算法穩定的前提下提高演算法並行度,使得大模型的推理效率整體提高50倍以上。

老片修復,火山引擎有哪些技術沉澱?

此外,在清晰度、流暢度、色彩、瑕疵四種老片修復的常見問題上,火山引擎團隊已經積累了豐富的AI修復技術,有效加速了此次修復。

首先,從清晰度上,團隊自研了去噪、去壓縮、去模糊、超解析度、人像增強等多種AI演算法。針對老舊電影存在的雜訊,壓縮,模糊等混合畫質損傷,通過智慧畫質問題分析,自我調整決策處理演算法,達到減少影片偽像、消除模糊、提升解析度等效果。

針對人像為主的場景,優化後的人像增強模組能夠在提升五官清晰度的同時保留皮膚紋理細節,不破壞影片質感。

其次,從流暢度上,團隊自研了智慧插幀演算法,通過對前後幀的內容進行光流估計,根據光流資訊將前後幀圖元都轉換到中間幀,然後進行整合,生成中間幀,提升視頻幀率,減少觀看時的卡頓感。

特別是對於《蜀山:新蜀山劍俠》的眾多武打場景來說,幀間運動較大,運動範圍超過光流模型感受野時,光流就會估計不準確,導致最終前後幀圖元轉換到中間幀也不準確,產生拖影。

為了解決這一問題,團隊在計算光流時,自我調整確定下採倍數,使用下採解析度後的圖片作為輸入,得到下採光流後再上採回原解析度,用於原解析度圖像的圖元轉換,從而讓光流模型在較小的計算量下能夠處理較大運動。

對於武打中一些過於複雜的運動,插幀對複雜運動的擬合不夠準確,從而導致最終插幀結果不準確,產生偽影,對用戶觀感會有負向體驗,這種情況下要儘量避免去做插幀,因此需要有是否適合做插幀的判斷方法,我們的插幀判斷主要從圖像差異度、幀間運動情況、模型預測的插幀置信度三方面去分析,對於圖像內容差異度過大、幀間運動複雜度過大、模型預測出插壞的區域過多這三種情況避免使用插幀模型的輸出,而使用相鄰幀作為插出的幀。

下圖是插幀置信度的預測,插幀置信度的黑色區域對應插壞的區域:

插幀判斷主要從圖像差異度、幀間運動情況、模型預測的插幀置信度三方面去分析。(截圖)

然後,從色彩上,團隊構建了一整套色彩相關處理演算法,包括色彩增強、色偏校正、SDR2HDR等能力,可以解決老片中的褪色、色偏等問題,讓老片色彩更豐富,煥然一新。

由於早期攝影設備能力弱,存儲介質老化等原因,常常存在色偏,動態範圍偏低等問題,導致影片失真嚴重,需要通過色彩校正/增強等演算法對失真進行修復,使其重煥生機。對於色彩校正演算法而言,其難點在於白點估計,傳統的灰度世界/完美反射等演算法難以準確地估計老片場景中較為複雜的色偏情況,而基於深度學習的色偏校正演算法雖然上限較高,但其幀間穩定性較差,且不同幀校正效果差異較大。

為了有效解決上述問題,團隊首先對影片進行場景分割,使用深度學習方案逐幀學習其色彩校正矩陣,同時通過品質檢測演算法剔除其中效果較差校色矩陣,然後按場景求得剩餘色彩校正矩陣的均值,對同一場景,使用同一套色彩校正矩陣進行處理,從而得到穩定的校正結果。

最後,從瑕疵上,經典港產片中常出現的瑕疵包括線狀劃痕、雪花顆粒噪點、塊狀污漬等。團隊給出的解決方案包括:

對於較小的雪花雜訊,使用傳統時域運動補償去噪演算法,利用相鄰幀資訊,對固定規律的紋理和隨機的噪點進行區分,在保證去除大部分噪點的同時,減少對紋理細節的損傷。

對於線狀劃痕和塊狀污漬,使用基於深度學習的劃痕檢測修復模組。通過生成隨機長度的直線和不規則的塊狀mask來模擬劃痕損傷,將其添加至無劃痕的視頻資料獲得匹配的資料對。利用該資料集訓練網路,可以修復大部分線狀劃痕和較小的塊狀污漬。

對於畫面損傷較大的塊狀污漬,使用基於生成式的image inpainting演算法,通過局部紋理資訊,全域結構資訊和顏色紋理資訊,來優化生成的畫面內容與片源的相似性,同時利用時域一致性演算法,防止修復後的畫面在時域出現閃爍。

技術與開放的價值

很多人可能會好奇,這樣一套複雜的AI修復方案,是否有機會組合起來對外開放,讓普通人也能將「全損畫質」輕鬆轉化為高清視頻?

其實,這些相關的能力開放工作,火山引擎團隊很早就開始做了。在火山引擎視頻雲中,「智慧處理」就是團隊基於多年對多媒體智慧處理的實踐經驗提煉出的全流程視頻前後智慧處理及增強技術產品。

作為位元組跳動旗下的企業級技術服務平臺,火山引擎此前已將位元組跳動快速發展過程中積累的增長方法、技術工具和能力開放給外部企業,提供雲、AI、大資料技術等系列產品和服務,説明企業在數位化升級中實現持續增長。

比如,火山引擎每天都會在多個鏈路、環節對海量視頻進行分析,做針對性的增強和修復。而這些修復影像過程中使用到的技術,已經通過火山引擎的「智慧處理」工具向所有內外部客戶提供服務,便於讓更多的企業參與到老片的修復中,為觀眾帶來更多的4K超高畫質影像作品。

【本文轉自「機器之能」,微信公眾號:almosthuman2017】