當(dāng)前視點(diǎn)!Meta推出語(yǔ)音生成人工智能工具Voicebox

2023-06-28 16:03:50來(lái)源:互聯(lián)網(wǎng)  


(資料圖片僅供參考)

Meta 正在開(kāi)發(fā)一種新工具,該工具利用生成式 AI 的力量,這是病毒式聊天機(jī)器人 ChatGPT 的基礎(chǔ)技術(shù)。該工具被稱(chēng)為 Voicebox,可用于通過(guò)語(yǔ)音樣本和簡(jiǎn)單的文本輸入創(chuàng)建語(yǔ)音。Meta 還聲稱(chēng) Voicebox 可以從音頻樣本中過(guò)濾掉不需要的背景噪音。然而,與 ChatGPT 和 Bard 等其他生成式 AI 工具或 Dall-E 或 Midjourney 等 AI 圖像生成器不同,Voicebox 仍然對(duì)測(cè)試人員不可用,并且可能在一段時(shí)間內(nèi)受到限制。這是因?yàn)?Meta 表示 Voicebox 可能會(huì)被濫用,并且存在很多潛在風(fēng)險(xiǎn)。

什么是 Meta Voicebox,它是如何工作的?

簡(jiǎn)而言之,Voicebox 是一個(gè)語(yǔ)音到文本生成器以及一些音頻編輯工具。然而,Meta 表示,其人工智能工具比競(jìng)爭(zhēng)對(duì)手有效得多,因?yàn)?Voicebox 可以復(fù)制語(yǔ)氣和口音。Voicebox 現(xiàn)有的競(jìng)爭(zhēng)對(duì)手 Vall-E 還允許用戶(hù)使用 3 秒錄音創(chuàng)建文本轉(zhuǎn)語(yǔ)音樣本。然而,Meta 聲稱(chēng) Voicebox 的輸出速度提高了 20 倍,而且錯(cuò)誤更少。

由于 Voicebox 不對(duì)公眾開(kāi)放,該公司在研究論文和博客文章中解釋了其功能。Meta 表示,Voicebox 是基于一種稱(chēng)為“流程匹配”的方法構(gòu)建的,可將文本轉(zhuǎn)換為語(yǔ)音。據(jù)說(shuō)該模型可以處理文本和語(yǔ)音之間復(fù)雜且不可預(yù)測(cè)的關(guān)系。它還允許 Voicebox 訓(xùn)練更大、更多樣化的數(shù)據(jù)集,使其更加強(qiáng)大和靈活。

目前,Voicebox 可以生成英語(yǔ)、法語(yǔ)、德語(yǔ)、西班牙語(yǔ)、波蘭語(yǔ)和葡萄牙語(yǔ)的語(yǔ)音。Meta 表示這項(xiàng)技術(shù)“令人興奮”,因?yàn)樗梢詭椭藗円宰匀缓驼鎸?shí)的方式進(jìn)行交流,“即使他們說(shuō)的語(yǔ)言不同”。

如前所述,Voicebox 還可以用于音頻編輯。在演示中,Meta 展示了該工具有效地過(guò)濾了樣本中狗吠的背景噪音。Google Meet 和 Zoom 中已經(jīng)存在類(lèi)似的音頻過(guò)濾功能。

標(biāo)簽:

相關(guān)閱讀

精彩推薦

相關(guān)詞

推薦閱讀