OpenAI|Sora文字生成視頻的突破和影響

撰文:外部來稿(國際)
出版:更新:

一年前的春節後首個工作日(2023年1月27日),安邦智庫(ANBOUND)當時指出,建立在OpenAI基礎上的ChatGPT成為大熱門,讓有遠見的人們看到一種未來的數字化智能形態,人工智能再也不是「說說而已」,而是正在大步朝着世界走來。面對人工智能的衝擊,大多數行業將會重新定義,行業老大的地位會被顛覆和改變,行業將會出現大洗牌,這是明確的科技趨勢。未來的產品和商品,必須實現超智慧化,必須在原有的產品結構和系統之外,搭載上新的人工智能系統,形成新的結構,進而形成全新一代的產品和系統。

巧合的是,在一年後的中國春節期間,OpenAI行政總裁奧爾特曼(Sam Altman)於2024年2月16日發布了新模型——首個視頻生成模型Sora,再度讓世界驚歎。Sora能夠遵循文字指令,生成長達1分鐘的高清視頻。從已發布的視頻內容看,畫質相當精美。比如,AI想象中的龍年春節視頻中,人山人海的街道上,海量人物角色各有各的行為,有緊跟舞龍隊伍抬頭好奇觀望的兒童,還有不少人掏出手機邊跟邊拍。在一段視頻中,一位時髦的年輕女子走在雨後東京的街頭,潮濕地面的積水反射出霓虹燈的光影,效果堪比大片。在另一段視頻中,一大群紙飛機在茂密的樹林中像鳥一樣穿梭,讓人驚訝的是,Sora知道紙飛機碰撞後會發生什麼,並能夠逼真地表現這群紙飛機的光影變化。

OpenAI行政總裁奧爾特曼(Sam Altman)。(Reuters)

目前Sora已經能生成具有多個角色、包含特定運動的複雜場景,以及對對象和背景的精確細節描繪。Sora可以在單個視頻中創建多個鏡頭,並依靠對語言的深入理解準確地解釋提示詞,保留角色和視覺風格,其創造的角色能夠表達豐富的情感,逼真到看不出一絲破綻。Sora不僅能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式。OpenAI並不避諱Sora當前的弱點,比如它可能難以準確模擬複雜場景的物理原理,並且可能無法理解因果關係。Sora還可能混淆提示的空間細節,如混淆左右,並且可能難以精確描述隨着時間推移發生的事件。OpenAI表示,正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要與現實世界交互的問題。

Sora生成的視頻除了畫面精美、細節逼真,它超乎此前AI作品的重要突破在於,藉助於對語言的深刻理解,Sora能夠準確理解用戶指令中的需求,把握這些元素在現實世界中的表現形式。Sora跳出了在2D(二維)範圍模擬真實世界的局限,實現了兩種能力:一是對現實世界的理解,這是超越了感知能力的認知能力;二是對現實物理世界的模擬能力。有專業人士表示,如果今後Sora能夠像ChatGPT理解和學習文本化的自然語言一樣,去理解和學習影像資料,它將會具備範圍極廣的應用能力。

Sora模型展示出的能力和潛力,迅速吸引了科技界、產業界和投資界的高度關注,成為新的熱點。OpenAI表示,根據文本提示來生成視頻,僅僅是其整個計劃中的一步。ChatGPT突破了AI對自然語言的準確理解和生成表達,Sora則在此基礎上更進一步,在理解自然語言的基礎上,創造出了更為複雜的視頻內容。按照AI發展的邏輯,從人工智能的技術進步趨勢來看,完全可以相信,今後Sora將會生成更加精美、逼真的作品,將會在多個領域裏有更加多樣化的應用,這些應用如果疊加其他技術,對世界將會產生重大的推動式的影響。這正是安邦智庫所指出的人工智能對世界「真正的巨大沖擊」的一種表現。

首先是對眾多行業發展和相關就業的影響。在ChatGPT推出後,許多行業開始改變運作方式,許多職業受到了衝擊,許多工作崗位開始被AI所替代。在Sora模型推出後,類似的事情同樣會發生。從網絡上的反應來看,影視行業的人士開始擔心,今後的行業將會受到AI的嚴重衝擊,甚至整個行業的飯碗都會被AI搶走。就在去年,好萊塢的編劇們曾經發起了全行業罷工,抗議製片公司大量採用AI工具來編劇。Sora的出現,完全有可能將AI戰場帶入好萊塢,甚至對全世界的影視業造成重大影響。當然,AI應用的進步也會產生大量新的職業。人類的知識與技能的學習和積累,如果被AI學習替代,世界將會發生重大變化。OpenAI旗下的ChatGPT可以在不上法學院的情況下通過律師考試,而Sora則可能在不上電影學院的情況下拍攝電影。

圖為2024年2月16日,人工智能(AI)聊天程式ChatGPT母公司公司OpenAI發布影片窪圖,展示新款文字生成影像產品Sora產出的片段成品。(X @OpenAI)

其次,Sora的出現將使得真假世界更加難以區分。從訊息角度看,AI技術的進步使得世界上區分真假訊息的難度大大增加。過去,很多假訊息是通過文本編造的方式來呈現;後來,隨着AI技術的進步,假訊息通過文本與語音、圖像和視頻的結合,使得造假範圍大大擴展;今後,AI技術的進一步發展,使得惡意者可以通過更加高級的方式,創造「完全真實的虛假訊息」。未來的世界裏,不僅是「耳聽可能為虛」,而且「眼見也不能為實」了。

第三,AI技術的進步和應用工具的易得性,可能製造大量新的倫理問題和法律問題。在安邦智庫看來,訊息獲得、訊息創造與訊息傳播,是訊息社會的「普遍權力」,它打破了過去只有權力機構(國家或媒體公司)在上述領域才擁有的壟斷權力。但是,網路的出現改變了這一切,在網絡社會里,訊息權力的分散化與普遍化,極大地消解了權力機構的訊息壟斷。但與此同時,也製造了新的法律問題和倫理問題。我們在數字時代所遇到的種種問題,會因為AI技術的進步而擴大。試想想,未來社會,如果數十億網民都可以通過類似Sora的工具來輕鬆製作併發布視頻或影視作品,我們的世界將會變成什麼樣?

OpenAI的ChatGPT和Sora模型持續引起人們對AI發展的關注。

第四,掌握AI技術的巨頭是否會成為「超級怪物」?網絡時代的出現,並未帶來真正的訊息多元和訊息自由——在海量訊息的網絡時代同樣存在訊息壟斷和「有效訊息沙漠」,網路底層核心技術和規則的控制者,仍然對訊息受眾有着控制能力。類似的情況今後在AI時代同時也可能出現。比如,高水平的AI大模型技術和應用,有可能掌握在極少數公司手裏,使得這些AI巨頭成為難以受到法律約束的另一種權力,按這種軌跡發展下去,AI巨頭完全可能成為新的「超級怪物」。

Sora的出現是AI時代帶給世界的又一次強刺激,其發展前景及其可能的影響,會對產業界、政府、消費者、投資者產生持久的影響。現在,我們對於Sora帶給世界的影響還難以詳細的描述和分析,但可以肯定的是,它對世界的衝擊將會創造出新的熱點。安邦智庫過去對人工智能影響世界的分析,現在用來分析Sora仍然有效——未來的世界將會有兩個重要的熱點:第一,真假世界完全混合在一起,分清楚真假將會是具有極高含金量而且必須的事情;第二,創造出內容不新鮮,創造出什麼樣的內容,才是新鮮火辣的源泉。

最終分析結論:

不論AI如何發展,它不可能完全替代人類的思維和創造性。因此,未來人類與AI世界相處時所保留的獨特領地,將會圍繞人類如何控制AI和人類的創造性工作而展開。

本文原載於安邦智庫2024年2月19日的每日金融欄目