谷歌人工聰明(AI)專業再進化,該公司公佈能讓機械人開口語調不再生硬,聽來和人類難辨真假。
PhoneAr威力彩加碼購買ena、Quartz、每天郵報新聞,谷歌部落格宣稱(見此),開闢出第二代文字轉語音體制「Tacotron 2」,能讓機械開口聲音沒有怪異、不天然之處,聽來幾乎和人類一模一樣。機械會根據語意學決擇準確發音,詞章略有拼寫過錯、也能順利讀出,並且就連繞口令都難不倒。
谷歌人員表明,外界以為Tacotron 2體現相似技術人員。大眾給Tacotron 2的平均觀點分數(Mean Opinion Score)是453分,只略低於技術人員錄製聲音的458分。
Tacotron 2包含有兩個深度類神經網路(見圖),第一個網路會把文字轉成聲譜圖,用圖像表白音頻,接著把聲譜圖輸入WaveNet體制中,機械會照圖發出相回聲音。(Tacotron 2與人類聲音比較點此)
但是谷歌表明,Tacotron 2仍有很多場所需求改進,包含有無法讀出部門難字,無法實時合成音頻;機械聲音沒有心情,不可轉達歡快或傷心的感到。
只管如此,此一專業仍大有可為,目前谷歌虛擬語音大樂透對獎驗證助理已用WaveNet專業作聲,若能進一步使用Tacotron 2,可讓谷歌助理如虎添翼。
CNBC、每天郵報、英國金融時報2024年9月新聞,谷歌母公司Alphabet旗下的DeepMind研發出新專業,能讓電腦合成語音和人類聲音的差距減少各半。DeepMind表明,持久以來,人機互動的理想即是讓人類能和機械交談。
當前的語音合成專業錄製人們實質開口的聲音,寄存在資料庫,需求時把字句打散重組,合成為完整句子,此種方式生成的語音聽起來生硬不天然,也缺乏情感。
DeepMind的「WaveNet」專業,能解析原始聲波,採用類神經網路(Neural Netork)加以改正。此種專業需求巨大的運算本事,每秒要16萬個範本才幹轉成數據、合成為語音。539開獎號碼DeepMind表明,WaveNet生成的中英文,聽起來比谷歌現行專業天然很多。(全文見此)