首頁 > 新聞資訊 > 行業新聞
行業(yè)新聞

穀歌開源AI能區分聲音 準確(què)率達92%

據VentureBeat報道,在語音嘈雜的環境中(zhōng),要(yào)想(xiǎng)分辨出有幾個人(rén)講話、在什麽時間講(jiǎng)話,對於機器來說非常困難。但穀歌人工智能(AI)研究部門(mén)在語音識別方麵取得了新進展,能以92%的準確率識別出每個人聲音的專屬模式。

穀歌AI研究部(bù)門在最新名為《Fully Supervised Speaker Diarization》的(de)論文和相關博客文章中,研究人員描述了一種新的AI係統,它“能以一種更有效的方式(shì)識別聲音”。


圖1:穀歌智能音箱Google Home

這套係統涉及到Speaker diarization任務,即需要標注出“誰”從“什麽時候”到“什麽時候”在說話(huà),將語音樣本分割成獨特的、同構片段的過程。強大的AI係統必須能夠將新的演講者發音與它以前從未遇到(dào)過的語(yǔ)音片段關聯起來。

這篇論文的作者聲(shēng)稱,核心算法已經可在Github上(shàng)的開源軟件中可用,它實現了一個在線二(èr)值化錯誤率(DER),在NIST SRE 2000 CALLHOME基準上是7.6%,這對於實時應用來說已經足夠低了,而穀歌之前使用的方法(fǎ)DER為(wéi)8.8%。

穀歌研究人員的新方法是通過遞歸神經網絡(RNN)模擬(nǐ)演講者的嵌入(如詞匯和短語的數學(xué)表示),遞歸神經網絡是一種機器學習模型,它可以利用內部狀態來處理輸入序列。每個(gè)演講者都從自己的(de)RNN實例開始,該實例不斷更(gèng)新給定新嵌(qiàn)入的RNN狀態,使係統能夠(gòu)學(xué)習發言者共享的高級知(zhī)識(shí)。

研究人員在論文中寫道:“由於該係統的所有組件都可以在監督環境下學習,所以在有高質量時間標記演講者標簽訓練(liàn)數據的情況下,它比無監督係統更受青睞。我們的係統受到全麵監督,能夠從帶有時(shí)間戳(chuō)的演講者標簽例子中學習。”

在未來(lái)的工作(zuò)中,研究團隊(duì)計劃改進模型,使其能夠(gòu)集成上下(xià)文信息來執行脫機解碼(mǎ),他們希望這將進一步(bù)減少DER。研究人員還希望能夠直接對聲學特征(zhēng)進行建模,這樣整個Speaker diarization係統就可以進行端到端訓練。




香港昆(kūn)侖科技有限公司主要致力於地鐵,高速公路隧(suì)道,石油化工,冶金核電,海工造船。橋梁礦山等行業(yè)內部(bù)應急專用通訊係統,風(fēng)景區,機場遊客求助管理係(xì)統,市政(zhèng)SOS,110,119報警係統。特種工業IP電(diàn)話機,SOS 電(diàn)話機,IP調度係統的研發、生產和銷售。

防爆(bào)電話(huà)機、消防電話機昆(kūn)侖KNZD-65, 昆(kūn)侖KNSP-13,昆侖KNSP-22等等。

有主機呼叫係統:KNPA-7石油化工作業區電話廣(guǎng)播視屏遠程控製係統。

KNPA5無主機呼叫係統:無主機(jī)呼叫係統核電、陸上、海上平台應用等等。

解決(jué)方案:地鐵、高鐵、核電、石油(yóu)化工等解決方案(àn)

昆侖科技綜(zōng)合管廊(láng)通信係統解決方(fāng)案昆侖科技綜合管廊管道通信係統解決(jué)方案

詳(xiáng)細(xì)的(de)產品信息敬(jìng)請關注公司官網:http://www.koontech.com/cn/Index.htm

168开奖网官网平台>>168彩票开奖网>>幸运168飞艇开开奖