語音識別準確率97.03% 全球最新語音識別世界紀錄在渝誕生科技頭條網

2018-10-29 19:49:58 華龍網

華龍網10月29日19時訊（首席記者佘振芳實習生唐李琳）記者從兩江新區獲悉，重慶中科雲叢科技有限公司在語音識別技術上取得重大突破，該企業融合圖像識別與語音識別的優勢，推出了全新Pyramidal-FSMN語音識別模型，音識別準確率達97.03%，刷新了語音識別世界紀錄。

近年來，基於語音識別技術的輸入法、搜索和翻譯等人機交互場景有了廣泛的應用。2018年6月，阿里巴巴達摩院推出了新一代語音識別模型DFSMN，將全球語音識別準確率紀錄提高至96.04%，錯詞率降低至3.96%。

由雲從科技自主研發的全新Pyramidal-FSMN語音識別模型在全球最大的開源語音識別數據集Librispeech上刷新了世界紀錄，準確率提升到97.03%，將Librispeech的錯詞率（Worderrorrate，WER）降低至2.97%，較之前提升了25%。

同時，該模型融合圖像識別與語音識別的優勢，將殘差卷積網絡和金字塔記憶模塊的序列記憶網絡相結合,能夠同時有效的提取空間和時間上不同粒度的信息，對比目前業界使用最為廣泛的LSTM模型，訓練速度更快、識別準確率更高。

“該突破將推動語音識別技術的大幅進步，也使得語音識別離更良好的智慧交互體驗越來越近。”雲從科技相關負責人告訴記者，此次突破標誌著雲從科技在今年4月刷新跨鏡追蹤技術（ReID）3項世界紀錄後在新領域再次取得重大成果，也是雲從科技打造核心技術閉環路徑中的關鍵一步。

記者瞭解到，雲從科技核心技術閉環包括人臉識別、智能感知與智能分析3個階段，此次語音識別突破屬於智能感知中的一環。在10月12日的國家發改委“人工智能基礎資源公共服務平臺”項目發佈會上，雲從科技創始人周曦提出了人工智能發展的5個階段，而核心技術閉環正是5個階段的重要基礎。雲從科技在今年先後首發3D結構光人臉識別技術及刷新跨鏡追蹤技術3項世界紀錄，並在金融、安防、機場等優勢行業建設基於智能分析的“行業大腦”，正穩步推進從核心技術到智能生態的五步走戰略。

分享到:

閱讀更多 華龍網 的文章

關鍵字: 機器學習識別語音識別