美國麻省理工官網近日消息,麻省理工計算機科學和人工智能實驗室研發了新的聲音識別系統,比起上一代聲音識別系統正確率提高了15%。
近年來人工智能系統在語音和圖像識別領域已有較成熟的算法,但在嘈雜環境下的聲音辨識能力相對較弱。此次研究人員利用視覺和聲音的自然同步,在原有數據庫中導入大量視頻信息,結合新算法對聲音識別系統進行測試。在10個不同聲音測試中,該系統獲得了92%的正確率,在50個聲音測試中準確率為74%,而人類在相同樣本測試中的正確率分別為96%和81%。未來該系統將改善用戶在戶外使用語音識別的體驗。
研究人員表示,該系統應用潛力巨大,比如無人駕駛汽車系統搭載該聲音識別技術后,當聽到救護車聲音,無人駕駛汽車能更早選擇新的路線規劃。另外手機安裝該系統后,用戶到電影院后該系統通過周圍聲音環境判斷電影是否開始放映,并自動切換成靜音模式。該聲音識別系統將在本周召開的國際神經信息處理系統大會(NIPS)上進行展示。
作為人工智能最重要的技術之一,國外語音識別技術的準確率已基本達到人類的水平。微軟旗下最新語音識別系統的識別錯誤率僅為5.9%,這和專業速記員將對話轉錄成文字的最低錯誤率一致。而微軟也在一年前將語音識別系統的深度學習算法進行開源,使其他人工智能產品通過該算法擁有語音識別技術。海外市場調研機構預計,未來幾年全球語音識別市場規模有望突破百億美元。
國內的語音識別技術也在快速發展。11月底搜狗和百度分別召開發布會表示,旗下語音識別系統正確率已達到97%左右,同時有不少智能語音產品支持不同地區的方言識別。《2016年互聯網趨勢報告》顯示,近幾年用戶通過語音搜索的使用量大幅提升,使用語音的本質是解放雙手,而目前全球語音識別系統依然存在場景辨識率低等問題。隨著場景聲音辨識技術的加速完善,語音識別技術有望迎來拐點,未來發展空間將進一步擴大。
業務咨詢:932174181 媒體合作:2279387437 24小時服務熱線:15136468001 盤古機械網 - 全面、科學的機械行業免費發布信息網站 Copyright 2017 PGJXO.COM 豫ICP備12019803號