穀歌開源AI能區分聲音準確（què）率達92%

據VentureBeat報道，在語音嘈雜的環境中（zhōng），要（yào）想（xiǎng）分辨出有幾個人（rén）講話、在什麽時間講（jiǎng）話，對於機器來說非常困難。但穀歌人工智能（AI）研究部門（mén）在語音識別方麵取得了新進展，能以92%的準確率識別出每個人聲音的專屬模式。

穀歌AI研究部（bù）門在最新名為《Fully Supervised Speaker Diarization》的（de）論文和相關博客文章中，研究人員描述了一種新的AI係統，它“能以一種更有效的方式（shì）識別聲音”。

圖1：穀歌智能音箱Google Home

這套係統涉及到Speaker diarization任務，即需要標注出“誰”從“什麽時候”到“什麽時候”在說話（huà），將語音樣本分割成獨特的、同構片段的過程。強大的AI係統必須能夠將新的演講者發音與它以前從未遇到（dào）過的語（yǔ）音片段關聯起來。

這篇論文的作者聲（shēng）稱，核心算法已經可在Github上（shàng）的開源軟件中可用，它實現了一個在線二（èr）值化錯誤率(DER)，在NIST SRE 2000 CALLHOME基準上是7.6%，這對於實時應用來說已經足夠低了，而穀歌之前使用的方法（fǎ）DER為（wéi）8.8%。

穀歌研究人員的新方法是通過遞歸神經網絡(RNN)模擬（nǐ）演講者的嵌入(如詞匯和短語的數學（xué）表示），遞歸神經網絡是一種機器學習模型，它可以利用內部狀態來處理輸入序列。每個（gè）演講者都從自己的（de）RNN實例開始，該實例不斷更（gèng）新給定新嵌（qiàn）入的RNN狀態，使係統能夠（gòu）學（xué）習發言者共享的高級知（zhī）識（shí）。

研究人員在論文中寫道:“由於該係統的所有組件都可以在監督環境下學習，所以在有高質量時間標記演講者標簽訓練（liàn）數據的情況下，它比無監督係統更受青睞。我們的係統受到全麵監督，能夠從帶有時（shí）間戳（chuō）的演講者標簽例子中學習。”

在未來（lái）的工作（zuò）中，研究團隊（duì）計劃改進模型，使其能夠（gòu）集成上下（xià）文信息來執行脫機解碼（mǎ），他們希望這將進一步（bù）減少DER。研究人員還希望能夠直接對聲學特征（zhēng）進行建模，這樣整個Speaker diarization係統就可以進行端到端訓練。

香港昆（kūn）侖科技有限公司主要致力於地鐵，高速公路隧（suì）道，石油化工，冶金核電，海工造船。橋梁礦山等行業（yè）內部（bù）應急專用通訊係統，風（fēng）景區，機場遊客求助管理係（xì）統,市政（zhèng）SOS，110,119報警係統。特種工業IP電（diàn）話機，SOS 電（diàn）話機，IP調度係統的研發、生產和銷售。

防爆（bào）電話（huà）機、消防電話機：昆（kūn）侖KNZD-65，昆（kūn）侖KNSP-13，昆侖KNSP-22等等。

有主機呼叫係統：KNPA-7石油化工作業區電話廣（guǎng）播視屏遠程控製係統。

KNPA5無主機呼叫係統：無主機（jī）呼叫係統核電、陸上、海上平台應用等等。

解決（jué）方案：地鐵、高鐵、核電、石油（yóu）化工等解決方案（àn）

昆侖科技綜（zōng）合管廊（láng）通信係統解決方（fāng）案；昆侖科技綜合管廊管道通信係統解決（jué）方案

詳（xiáng）細（xì）的（de）產品信息敬（jìng）請關注公司官網：http://www.koontech.com/cn/Index.htm

上一篇：韓國三大船企或將（jiāng）進行年終大裁員

下一篇：高盛：將蘋果（guǒ）19財年iphoness銷量預期下調6%

新聞資訊

穀歌開源AI能區分聲音 準確（què）率達92%

穀歌開源AI能區分聲音準確（què）率達92%