聽覺信息處理技術(shù)的創(chuàng)新能夠推動實現(xiàn)高度智能化機器感知系統(tǒng)的發(fā)展,本分冊主要介紹了國內(nèi)外聽覺信息處理方面的研究現(xiàn)狀和階段性成果,通過對人類言語產(chǎn)生與聽覺機理,聽覺機理的計算理論與方法,語音信號處理,語音識別聲學建模,特殊場景語音識別,聲紋與語種識別,韻律、情緒及音樂分析,統(tǒng)計語音合成,口語對話系統(tǒng)等技術(shù)研究成果的闡述與分析,展示我國在這些研究領(lǐng)域的優(yōu)勢與特色,并提出未來的技術(shù)挑戰(zhàn)與發(fā)展方向。
人類的語言主要有兩種承載形式:連續(xù)信號的有聲語言和離散信號的文本語言,其中有聲語言至今已有五萬年的歷史,而文本語言至今已有四千多年的歷史。文本語言是對有聲語言運用規(guī)則的總結(jié)和符號化的記錄,反過來講,它對有聲語言的習得和使用也起到了一定的指導作用。從本質(zhì)上看,有聲語言是經(jīng)過符號化語言信息的調(diào)制、承載說話人意圖信息和生物信息的聲信學號,而聽覺是人類感知有聲語言、解析和理解其承載信息的主要手段。在會話交流的聽覺信息處理過程中,人們從感知到的聲學信號中解調(diào)語音承載的語言信息、副語言信息和非語言信息信息,對所關(guān)注的信息進行加工處理。從科學研究的角度看,此處理過程涉及語音聲學信號的處理、環(huán)境噪聲的處理、語音識別、語音合成、說話人識別、言語韻律處理以及對話理解等多個研究領(lǐng)域。對于將有聲語言作為物理聲學信號進行處理的研究領(lǐng)域,通常稱之為“語音”,而對于將有聲語言作為語言信息載體的研究領(lǐng)域,則稱之為“言語”。
人類的言語產(chǎn)生功能和言語感知功能在其成長過程中共同進化、共同發(fā)育,在大腦中形成“聽、說、讀”多位一體的多模態(tài)言語鏈。從1791年馮·肯佩倫(von Kempelen)發(fā)明了第1臺高度仿真人類發(fā)音機制的機械語音合成器(稱為“說話機器”)至今已有230年,從1950年貝爾實驗室構(gòu)建了最早的語音識別系統(tǒng)至今已有70年。其間,人們一直遵循語音產(chǎn)生和感知機理對語音信號處理的原理和方法進行探究,即如何基于人的語音產(chǎn)生機理來解碼聲道特性和聲源特性、如何基于人的聽覺感知機理去挖掘語音的物理聲學特征。本書本著“溫故而知新”的原則,在介紹語音產(chǎn)生和感知機理的同時,對傳統(tǒng)的語音處理技術(shù)和方法進行了簡單的歸納與回顧,希望通過“重溫”這些原理性的語音技術(shù)能夠啟迪讀者的靈感,對于深入理解聽覺信息處理的前沿技術(shù)有所幫助。
近年來,隨著基于深度神經(jīng)網(wǎng)絡(luò)的機器學習方法的迅速發(fā)展和計算機算力的大幅度提升,在理想環(huán)境下從語音信息到文字轉(zhuǎn)寫的能力已經(jīng)與人類的水平相當。本書在簡要回顧過往成功算法的基礎(chǔ)上,首先針對包括各種加性噪聲、混響噪聲以及線路回聲等復雜噪聲環(huán)境,探討了語音增強的主觀和客觀評價方法、單聲道語音增強方法以及近年來蓬勃發(fā)展的基于深度學習的語音增強方法和基于麥克風陣列的語音增強前沿技術(shù);在回顧基于隱馬爾可夫模型的經(jīng)典聲學建模方法的同時,探討了結(jié)合深度學習的聲學建模方法以及端到端的聲學建模方法;從語音的魯棒性特征人手,探討了魯棒語音識別的前端處理方法以及環(huán)境表達與聲學模型的自適應(yīng)方法、參數(shù)結(jié)構(gòu)化自適應(yīng)及自適應(yīng)訓練、多語種聲學與語言建模、低資源小語種的語言模型建模等技術(shù)。
言語包含了語言信息、副語言信息和非語言信息。說話人的性別、年齡、嗓音、病理以及生理狀態(tài)等信息雖然都屬于非語言信息。但是這些反映說話人特征的信息在言語交互和其他社會活動中起著不可或缺的作用。在說話人識別方面,本書重點介紹了基于深度學習的遷移學習、多任務(wù)學習及多數(shù)據(jù)庫聯(lián)合學習等方法;在聲紋識別方面,本書介紹了說話人特征提取的方法,并著重介紹了時變魯棒聲紋識別、短語音聲紋識別和防聲紋假冒闖入對策以及基于深度學習的聲紋識別算法。
言語的韻律超出了語音信號本身的范疇,它一方面是交際雙方的生理、心理和信息處理能力的體現(xiàn),另一方面也是交際雙方社會屬性的體現(xiàn)。言語韻律的分析與建模涉及情感語音識別、語音合成以及對話理解等領(lǐng)域,本書從漢語的特征出發(fā),介紹了韻律標注系統(tǒng)的構(gòu)建,韻律分析與建模以及漢語韻律研究的挑戰(zhàn)問題。同時介紹了情感語音聲學特征的分析方法,語音的情感分類與識別以及情感語音合成等方面的技術(shù)和最新成果。
在人機融合的智能社會中,語音合成是實現(xiàn)人機自然對話的主要途徑之一。當今,語音合成技術(shù)已經(jīng)融入智能手機、智能家電等設(shè)備,服務(wù)于有聲讀物、信息查詢與發(fā)布系統(tǒng)、辦公自動化系統(tǒng)、虛擬現(xiàn)實與增強現(xiàn)實等諸多領(lǐng)域。盡管如此,這種技術(shù)尚有“不盡人意”的地方。為了聚焦其挑戰(zhàn)性問題,本書首先回顧了基于隱馬爾可夫模型的統(tǒng)計語音合成方法,介紹了其關(guān)鍵技術(shù)以及該語音合成方法的優(yōu)缺點;然后重點介紹了結(jié)合深度學習的統(tǒng)計語音合成方法的關(guān)鍵技術(shù)包括基于深度學習的聲學建模方法、基于神經(jīng)網(wǎng)絡(luò)的語音合成前端處理、基于深度學習的韻律邊界預測以及神經(jīng)網(wǎng)絡(luò)波形生成模型的構(gòu)建;最后介紹了基于神經(jīng)網(wǎng)絡(luò)的語音合成端到端建模方法的前沿技術(shù)。
言語理解是語音技術(shù)真正融人人類生活的“最后1公里”。本書在介紹了言語對話理解基本概念的基礎(chǔ)上,首先討論了言語理解算法的前沿技術(shù),其中包括口語理解中的不確定性建模,上下文建模及領(lǐng)域自適應(yīng)技術(shù);然后概述了人機口語對話系統(tǒng).介紹了任務(wù)型人機口語對話系統(tǒng)的基本架構(gòu)與對話系統(tǒng)的性能評估問題,探討了對話狀態(tài)跟蹤的前沿技術(shù)及其挑戰(zhàn),通過有代表性的模型進行了詳細解說;最后介紹了最新的端到端的DST模型以及多領(lǐng)域DST模型,探討了對話策略優(yōu)化、深度強化學習在對話策略訓練中的應(yīng)用以及對話策略優(yōu)化訓練中的前沿技術(shù)。
廣大科研人員希望日益深人人心的語音技術(shù)不僅能為人們的日常生活錦上添花,更應(yīng)當為聽力殘障人士雪中送炭,提高和改善他們的生活質(zhì)量。為此,本書詳細地介紹了面向健康醫(yī)療的語音技術(shù)。由于大部分言語障礙和聽覺障礙是由發(fā)音/聽覺器官的殘疾或相關(guān)腦功能受損而引起的,本書在第1章和第9章對發(fā)音/聽覺器官構(gòu)造和機理從不同的側(cè)面進行了闡述,對言語處理的腦神經(jīng)機理及其前沿研究進行了介紹。此外還重點介紹了聽障評估與助聽技術(shù)的前沿研究、嗓音障礙產(chǎn)生機制與客觀評估技術(shù)以及言語康復訓練與學習相關(guān)的前沿技術(shù)及其研究。
本書從語音信號處理的角度全面地闡述了聽覺信息處理的前沿技術(shù)與挑戰(zhàn)性問題。本書的各位編者都是各相關(guān)領(lǐng)域的一線專家,其中的很多技術(shù)成果是他們及其團隊多年來為我國在該領(lǐng)域研究做出的貢獻。本書可以為聽覺信息處理及相關(guān)領(lǐng)域的專家、工程技術(shù)人員以及對語音領(lǐng)域感興趣的廣大教師和學生提供學術(shù)參考。
1 言語產(chǎn)生和聽覺的機理及其研究
1.1 言語產(chǎn)生和感知的機理
1.1.1 有聲語言產(chǎn)生的條件
1.1.2 語音產(chǎn)生的機理
1.1.3 語音感知的機理
1.2 聲源的產(chǎn)生與聲道的調(diào)制
1.2.1 聲源產(chǎn)生機理與感知
1.2.2 聲道的調(diào)制機理
1.3 言語產(chǎn)生與感知的相互作用
1.3.1 言語鏈
1.3.2 言語感知運動理論
1.3.3 言語感知機理研究的發(fā)展與挑戰(zhàn)
1.3.4 鏡像神經(jīng)元和言語聽覺一運動整合
1.4 言語的腦功能研究
1.4.1 言語的腦認知研究發(fā)展
1.4.2 言語的認知神經(jīng)機理
1.4.3 言語功能障礙及康復訓練
1.5 語音信號處理方法簡介
1.5.1 基于產(chǎn)生機理的信號處理方法
1.5.2 基于感知機理的信號處理方法
參考文獻
2 語音增強與麥克風陣列信號處理
2.1 信號模型
2.1.1 時域信號模型
2.1.2 頻域信號模型與短時傅里葉變換技術(shù)
2.2 評價方法
2.2.1 主觀評價方法與指標
2.2.2 客觀評價方法與指標
2.3 單聲道語音增強
2.3.1 時域維納濾波器增強原理
2.3.2 頻域維納濾波器增強原理
2.3.3 噪聲功率譜的估計
2.3.4 基于深度學習的語音增強
2.4 麥克風陣列語音增強
2.4.1 固定波束
2.4.2 自適應(yīng)波束
2.4.3 后置濾波技術(shù)
參考文獻
3 語音識別聲學建模
3.1 統(tǒng)計語音識別概述
3.2 基于隱馬爾可夫模型的經(jīng)典聲學建模方法
3.2.1 HMM
3.2.2 GMM-HMM在語音識別中的使用
3.2.3 模型改進及問題分析
3.2.4 自適應(yīng)技術(shù)
3.2.5 鑒別性訓練技術(shù)
3.3 結(jié)合深度學習的聲學建模方法
3.3.1 深度學習基礎(chǔ)
3.3.2 CD-DNN-HMM混合建模
3.3.3 深度學習在聲學建模中的綜合應(yīng)用
3.3.4 深度學習訓練加速
3.3.5 深度學習自適應(yīng)技術(shù)
3.3.6 深度學習框架下的序列鑒別性訓練
3.3.7 端到端聲學建模
參考文獻
……
4 特殊場景語音識別(抗噪、低資源)
5 聲紋識別與語種識別
6 韻律、情緒及音樂分析
7 統(tǒng)計語音合成
8 人機口語對話系統(tǒng)
9 面向健康醫(yī)療的語音技術(shù)
索引