語音識別準確率97.03% 全球最新語音識別世界紀錄在渝誕生

華龍網10月29日19時訊(首席記者 佘振芳 實習生 唐李琳)記者從兩江新區獲悉,重慶中科雲叢科技有限公司在語音識別技術上取得重大突破,該企業融合圖像識別與語音識別的優勢,推出了全新Pyramidal-FSMN語音識別模型,音識別準確率達97.03%,刷新了語音識別世界紀錄。

近年來,基於語音識別技術的輸入法、搜索和翻譯等人機交互場景有了廣泛的應用。2018年6月,阿里巴巴達摩院推出了新一代語音識別模型DFSMN,將全球語音識別準確率紀錄提高至96.04%,錯詞率降低至3.96%。

由雲從科技自主研發的全新Pyramidal-FSMN語音識別模型在全球最大的開源語音識別數據集Librispeech上刷新了世界紀錄,準確率提升到97.03%,將Librispeech的錯詞率(Worderrorrate,WER)降低至2.97%,較之前提升了25%。

同時,該模型融合圖像識別與語音識別的優勢,將殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合,能夠同時有效的提取空間和時間上不同粒度的信息,對比目前業界使用最為廣泛的LSTM模型,訓練速度更快、識別準確率更高。

“該突破將推動語音識別技術的大幅進步,也使得語音識別離更良好的智慧交互體驗越來越近。”雲從科技相關負責人告訴記者,此次突破標誌著雲從科技在今年4月刷新跨鏡追蹤技術(ReID)3項世界紀錄後在新領域再次取得重大成果,也是雲從科技打造核心技術閉環路徑中的關鍵一步。

記者瞭解到,雲從科技核心技術閉環包括人臉識別、智能感知與智能分析3個階段,此次語音識別突破屬於智能感知中的一環。在10月12日的國家發改委“人工智能基礎資源公共服務平臺”項目發佈會上,雲從科技創始人周曦提出了人工智能發展的5個階段,而核心技術閉環正是5個階段的重要基礎。雲從科技在今年先後首發3D結構光人臉識別技術及刷新跨鏡追蹤技術3項世界紀錄,並在金融、安防、機場等優勢行業建設基於智能分析的“行業大腦”,正穩步推進從核心技術到智能生態的五步走戰略。


分享到:


相關文章: