【行業】智能語音賽道-風口已至,全面開花(74頁)

智能語音是人工智能的重要入口,是人工智能三大核心基礎技術之一。人工智能是計算機科學領域的最重要的前沿領域,其包含研究、開發用于模擬、延伸和擴展人的智能的理方法、技術及應用系統等,核心的三大基礎技術是機器視覺、智能語音和機器學習。? 其中智能語音占據重要地位,就市場份額而言,2019年智能語音占據我國人工智能22%的份額,僅次于已經實現大規模商用的機器視覺。

智能語音:即聲音信息的人機交互。定義:智能語音即聲音信息在人機間的交互。人類大腦皮層每天處理的信息中,聲音信息占20%,是溝通最重要的紐帶。人機語音交互流程:聲音信號的前端處理、將聲音轉為文字供機器處理、在機器生成語言之后,用語音合成技術將文本語言轉化為聲波。本質:智能語音/人機對話的本質是對聲音特征和文本的分類模擬。人的聽覺形成過程:1)外耳中耳將聲能轉變為機械能;2)內耳再轉為生物電信號;3)聽覺中樞加工、分析的結果。機器聽覺模擬過程:1)麥克風列陣拾音器;2)語音識別;3)語義理解三個環節接力配合,實現聲音信號、音頻信號、電信號、特征向量、解碼為文字理解的過程。

時間軸:經歷三階段發展,智能語音技術于近年步入落地期。1980s-2010為起步期:語音識別開始從孤立詞識別系統向大量詞匯連續語音識別系統發展;2011-2015為變革期:微軟DNN(深度神經網絡)的出現使識別錯誤率第一次大幅降低,降幅約90%,技術與產品開始大發展2016至今為落地期:機器語音識別準確率第一次達到人類水平,約95%,智能語音技術進入落地期,智能語音助手、智能音箱相繼落地。

分享到: