【行業】中國智能語音:凝望璀璨星河(47頁)

智能語音即實現人與機器以語言為紐帶的通信。人類大腦皮層每天處理的信息中,聲音信息占20%,它是溝通最重要的紐帶,人機對話將方便人們的工作與生活。完整的人機對話包括聲音信號的前端處理、將聲音轉為文字供機器處理、在機器生成語言之后,用語音合成技術將文本語言轉化為聲波,從而形成完整的人機語音交互。

人的聽覺形成過程是將聲能轉變為機械能、再轉為生物電信號,在聽覺中樞加工、分析的結果,而機器的“聽覺”則經過聲音信號-音頻信號-電信號-特征向量-解碼為文字-理解的過程,本質是對聲音特征和文本的分類任務(將字音分類對應為文字、將文字對應為潛在語義),如果需要機器感知聲音的起止和音色等特征,還需要另外進行信號處理與特征分類任務。

隨著智能語音算法基礎性能不斷提升,識別準確率、時延問題已不再是交互體驗的核心痛點,人們希望讓智能設備具備更多的基本能力,例如能夠感知環境,當同一個房間里有多個智能交互設備或多臺智能交互設備分布在不同的房間時能準確喚醒,過去通過設備間藍牙通信可以解決由哪臺設備被喚醒與人對話,但無法解決相關的家居控制執行問題。2019年,業內玩家開始重視將聲學感知空間的能力與交互系統結合起來,實現多智能交互設備的就近喚醒應答,避免多設備重復響應和執行指令,在這種情形下并不存在某個中心交互設備,因此也被稱為分布式場景。

分享到: