ChatGPT新功能僅15秒錄音就能合成逼真人聲 OpenAI:暫不公開

撰文:歐敬洛
出版:更新:

OpenAI決定推遲公開它們正在研發的新軟件Voice Engine,這軟件可通過短短15秒的錄音,就能複製並合成逼真人聲語音。OpenAI表示現時發布這工具的風險太大。

Voice Engine在2022年開發,最初的版本用於ChatGPT的文本轉語音功能。然而,OpenAI希望將其拓展成為模擬語音的工具,複製真人的聲音。

OpenAI在博客文章中表示:「我們希望就合成聲音的負責任應用,以及社會如何應對這些新能力展開對話。」「基於小規模測試的結果,我們將更明智地決定是否以及如何大規模部署這項技術。」

圖為2023年7月6日,於中國上海舉行的人工智能大會上,巨型的AI標誌。(Reuters)

在文章中,OpenAI分享了合作夥伴試用這項技術的實際應用例子。如教育科技公司Age of Learning使用它來生成劇本配音,而AI語音公司HeyGen則利用用戶錄音直接進行翻譯,如使用法語用戶的音頻樣本,模擬用戶讀出英語。

要作出逼真的模擬並不需要太多樣本,其中一個示範僅使用了15秒的錄音,就能成功複製。

OpenAI表示,現時不會公開發布這技術,是因為目前風險太大。公司呼籲社會就 「保護個人聲音在人工智能中使用的政策」展開討論,以及「教育公眾了解人工智能技術的能力和限制,包括存在欺詐內容的可能性」。