Meta發布AI翻譯技術SeamlessM4T FB、IG都能用 一文看清5大亮點

撰文:數位時代
出版:更新:

Meta推出全新翻譯AI技術SeamlessM4T,支援近百種語言,並且文字翻譯、語音轉文字都難不倒,預計未來將加入旗下各大社群平台供用戶使用。

近年積極投入AI領域的Meta,繼5月發表多個大型語言模型後,如今又發表了能夠翻譯、轉錄近100種語言的AI模型SeamlessAlign,並且同樣以開源的方式提供給所有人使用。

+15

Meta端出全新AI模型SeamlessAlign,能辨識近100種語言!

Meta在聲明中表示,SeamlessM4T的誕生代表著基於AI的語音翻譯、語音轉文字領域的重大突破。按照Meta的說法,SeamlessM4T可以提供:

1. 辨識近100種語言的語音

2. 支援近100種語言的語音轉文字

3. 語音翻譯技術,可支援近100種輸入語言及36種輸出語言

4. 近100種語言的文字轉文字技術

5. 文字轉語音技術,可支援近100種輸入語言及35種輸出語言

雖然像哆啦A夢裡翻譯蒟蒻般便利的道具還未出現,不過Meta聲稱SeamlessM4T會是人們能夠更便利溝通的重要一步,這個模型無須其他模型協助,即可辨識各個不同語言,透過單一系統的方法減少了翻譯錯誤及延遲,並提升了效率及品質,讓不同語言的人能夠更有效率地溝通。

Meta執行長朱克.伯格(Mark Zuckerberg)表示,「隨著時間,我們會將這些AI翻譯與轉換技術成果整合到Facebook、Instagram、WhatsApp、Messenger及Threads。」

身為一間社群媒體公司,Meta已經投入翻譯技術多年,外媒《TechCrunch》就形容SeamlessM4T是傳承自Meta過去所研發的翻譯模型No Language Left Behind,以及通用語音翻譯工具(Universal Speech Translator)──一個少數支援台語的語音翻譯系統。

而SeamlessM4T也是建立在今年5月發表的大規模多語言語音(Massively Multilingual Speech,簡稱MMS)大型語言模型上,該模型可轉換超過1,100種語言,並可辨識4,000種口語語言。

Meta用大量公開資料練成,比當前模型更能應付不完美的狀況

且如同前幾次公布AI領域進展的作法,Meta宣布開放研究人員及開發人員基於SeamlessM4T進行開發與研究,同時將公開訓練時所用數據集SeamlessAlign。Meta聲稱這是目前最大的公開多模式翻譯數據集,將語音與文字校準過的資料高達44.3萬個小時,並且還有2.9萬小時的語音對語音校準資料。

Meta指出,他們從網路上抓取了數百億個句子,以及約400萬小時的語音資料作為最初的材料。雖然AI訓練資料近幾個月引發大量爭議,許多創作者反彈科技公司逕自使用他們的心血,並要求為此付費,Meta強調他們所有資料都沒有版權問題,主要來自開源或者授權的資料來源。

也因為如此龐大的資料,Meta聲稱SeamlessM4T在測試艱難條件的表現時結果更佳,與目前最好的模型相比,SeamlessM4T在有背景噪音、說話者換人的情況下準確度要分別高出37%及48%。

不過SeamlessM4T仍有些小問題存在,例如在看不出性別訊息時有10%的情況更喜歡翻譯成男性,Meta認為這可能是因為訓練資料中男性出現得較多。同時在個別語言中,有時SeamlessM4T翻譯時會較容易出現有害言論,涉及性取向及宗教時偶爾也會出現問題。

Meta聲稱,SeamlessM4T的公開測試版本將會有針對輸入及輸出語音的篩選機制,會過濾掉不適宜或有害的內容,只不過Meta開源提供研究人員及開發者的版本中,並沒有包含這項防護措施。

Meta指出,他們希望透過這項技術幫助不同語言的人們聯繫彼此,並且將以此為基礎探索這個基礎模型如何創造新的通訊能力,「最終讓我們更接近一個所有人都能被理解的世界。」

延伸閱讀:GPT-4 可打造惡意軟件為非作歹 AI的出現會增加網絡犯罪率?

+20

延伸閱讀:

我的心血、你的便宜AI素材?《紐約時報》不忍了,出手擋OpenAI爬蟲

Meta聯手微軟,AI模型Llama 2免費商用!開源背後有3但書

【本文獲「數位時代」授權轉載。】