據VentureBeat報道,在語音嘈雜的環境中(zhōng),要(yào)想(xiǎng)分辨出有幾個人(rén)講話、在什麽時間講(jiǎng)話,對於機器來說非常困難。但穀歌人工智能(AI)研究部門(mén)在語音識別方麵取得了新進展,能以92%的準確率識別出每個人聲音的專屬模式。
穀歌AI研究部(bù)門在最新名為《Fully Supervised Speaker Diarization》的(de)論文和相關博客文章中,研究人員描述了一種新的AI係統,它“能以一種更有效的方式(shì)識別聲音”。
圖1:穀歌智能音箱Google Home
這套係統涉及到Speaker diarization任務,即需要標注出“誰”從“什麽時候”到“什麽時候”在說話(huà),將語音樣本分割成獨特的、同構片段的過程。強大的AI係統必須能夠將新的演講者發音與它以前從未遇到(dào)過的語(yǔ)音片段關聯起來。
這篇論文的作者聲(shēng)稱,核心算法已經可在Github上(shàng)的開源軟件中可用,它實現了一個在線二(èr)值化錯誤率(DER),在NIST SRE 2000 CALLHOME基準上是7.6%,這對於實時應用來說已經足夠低了,而穀歌之前使用的方法(fǎ)DER為(wéi)8.8%。
穀歌研究人員的新方法是通過遞歸神經網絡(RNN)模擬(nǐ)演講者的嵌入(如詞匯和短語的數學(xué)表示),遞歸神經網絡是一種機器學習模型,它可以利用內部狀態來處理輸入序列。每個(gè)演講者都從自己的(de)RNN實例開始,該實例不斷更(gèng)新給定新嵌(qiàn)入的RNN狀態,使係統能夠(gòu)學(xué)習發言者共享的高級知(zhī)識(shí)。
研究人員在論文中寫道:“由於該係統的所有組件都可以在監督環境下學習,所以在有高質量時間標記演講者標簽訓練(liàn)數據的情況下,它比無監督係統更受青睞。我們的係統受到全麵監督,能夠從帶有時(shí)間戳(chuō)的演講者標簽例子中學習。”
在未來(lái)的工作(zuò)中,研究團隊(duì)計劃改進模型,使其能夠(gòu)集成上下(xià)文信息來執行脫機解碼(mǎ),他們希望這將進一步(bù)減少DER。研究人員還希望能夠直接對聲學特征(zhēng)進行建模,這樣整個Speaker diarization係統就可以進行端到端訓練。
防爆(bào)電話(huà)機、消防電話機:昆(kūn)侖KNZD-65, 昆(kūn)侖KNSP-13,昆侖KNSP-22等等。
有主機呼叫係統:KNPA-7石油化工作業區電話廣(guǎng)播視屏遠程控製係統。
KNPA5無主機呼叫係統:無主機(jī)呼叫係統核電、陸上、海上平台應用等等。
解決(jué)方案:地鐵、高鐵、核電、石油(yóu)化工等解決方案(àn)
昆侖科技綜(zōng)合管廊(láng)通信係統解決方(fāng)案;昆侖科技綜合管廊管道通信係統解決(jué)方案
詳(xiáng)細(xì)的(de)產品信息敬(jìng)請關注公司官網:http://www.koontech.com/cn/Index.htm