本書系統(tǒng)介紹了聲音信號處理的背景知識、發(fā)展歷史以及研究現(xiàn)狀與趨勢,并詳細闡述了基礎(chǔ)原理、處理方法、實踐應用、新成果與新技術(shù)。 全書共9章。第1章緒論,第2章聲音信號簡介,第3章短時時域處理技術(shù),第4章短時傅里葉變換,第5章聲音信號的線性預測,第6章語音編碼,第7章聲音合成與轉(zhuǎn)換,第8章語音識別,第9章基于深度學習技術(shù)的聲音技術(shù)應用。 本書體系完整,結(jié)構(gòu)嚴謹,系統(tǒng)性強,原理闡述透徹,聯(lián)系實際應用,凸顯理論與實踐結(jié)合,包含豐富的實踐案例。本書可作為高等院校信號與信息處理、通信與電子工程、模式識別與人工智能等專業(yè)高年級本科生及研究生教材,也可供該領(lǐng)域的科研及工程技術(shù)人員參考。
應娜,杭州電子科技大學通信工程學院副院長。負責通信工程學院教學工作,國家一流專業(yè)"通信工程專業(yè)”的負責人。負責《信息論與編碼》、《隨機信號原理》、《語音信號處理》、《認識實習》、《綜合創(chuàng)新實踐1/2/3》等課程。負責省級校企培養(yǎng)基地2項;負責省級一流課程2門;主持校級課程教改3項和核心課程建設1項;指導學生獲得國家級、省級競賽獲獎多項,獲得大唐杯、研究生電子設計大賽等優(yōu)秀指導教師多項;獲得校級優(yōu)秀班主任、優(yōu)秀指導教師多次。該教材獲批浙江省普通本科高校"十四五”重點教材建設項目。
目 錄
第1章 緒論 1
1.1 聲音信號處理的研究內(nèi)容 1
1.2 聲音信號處理的發(fā)展歷史 2
1.2.1 語音編碼算法的發(fā)展歷史 3
1.2.2 語音識別算法的發(fā)展歷史 4
1.2.3 語音去噪及增強算法的發(fā)展歷史 5
1.2.4 語音合成轉(zhuǎn)換等其他算法的發(fā)展歷史 7
1.2.5 基于語音和視覺信息的多模態(tài)融合方法 11
1.3 聲音效果評價 14
1.3.1 主觀評價方法 14
1.3.2 客觀評價方法 15
練習題 16
第2章 聲音信號簡介 17
2.1 人類語音信號的產(chǎn)生 17
2.2 語音信號的基本特征 18
2.3 聲音的特征提取 19
2.3.1 手工聲音特征 19
2.3.2 深度語音情感特征 19
2.4 人類的聽覺感知 20
2.5 語音數(shù)據(jù)庫 22
2.5.1 語音識別數(shù)據(jù)集 22
2.5.2 語音情感數(shù)據(jù)庫 23
2.5.3 多模態(tài)情感數(shù)據(jù)集 24
練習題 26
第3章 短時時域處理技術(shù) 27
3.1 語音信號的短時處理方法 27
3.1.1 語音端點檢測 27
3.1.2 預加重 28
3.1.3 分幀與加窗 28
3.2 短時能量和短時平均幅度 30
3.3 短時過零率 33
3.4 短時自相關(guān)函數(shù) 35
3.5 短時時域處理技術(shù)案例:基音提取 35
3.5.1 基音檢測估計方法1:三電平削波法 36
3.5.2 基音檢測估計方法2:SHR諧波檢測法 40
練習題 42
第4章 短時傅里葉變換 44
4.1 短時傅里葉變換的定義 44
4.2 短時傅里葉變換的理解 45
4.3 短時傅里葉變換的實現(xiàn) 49
4.4 語音短時傅里葉變換的應用案例 50
4.4.1 梅爾頻率倒譜系數(shù)的提取和應用 50
4.4.2 聲音去噪算法的實現(xiàn) 57
4.4.3 聲音信號熵的提取應用 62
練習題 69
第5章 聲音信號的線性預測編碼 70
5.1 線性預測基本原理 70
5.2 線性預測的解析算法 73
5.3 線性預測的應用案例 76
5.3.1 基音檢測估計 77
5.3.2 共振峰估計 81
練習題 85
第6章 語音編碼 86
6.1 脈沖編碼調(diào)制 87
6.1.1 均勻量化脈沖編碼調(diào)制 87
6.1.2 非均勻量化脈沖編碼調(diào)制 87
6.1.3 自適應量化脈沖編碼調(diào)制 88
6.2 差分脈沖編碼 89
6.2.1 差分脈沖編碼原理 89
6.2.2 自適應差分脈沖編碼 91
6.3 增量調(diào)制 95
6.3.1 增量調(diào)制原理 95
6.3.2 自適應增量調(diào)制原理 95
6.4 基于線性預測編碼的聲碼器 96
6.4.1 LPC-10聲碼器 96
6.4.2 碼激勵線性預測編碼 102
練習題 107
第7章 聲音合成與轉(zhuǎn)換 109
7.1 語音合成方法 109
7.1.1 參數(shù)合成方法 110
7.1.2 波形合成方法 115
7.2 漢語基于音節(jié)的規(guī)則合成方法 120
7.2.1 韻律規(guī)則合成 121
7.2.2 多音節(jié)協(xié)同發(fā)音規(guī)則合成 129
7.2.3 輕聲音節(jié)規(guī)則合成 130
7.3 語音轉(zhuǎn)換方法 131
7.3.1 語音轉(zhuǎn)換系統(tǒng)的總體框架 131
7.3.2 語音轉(zhuǎn)換常見的特征參數(shù) 132
7.4 語音轉(zhuǎn)換評價指標 134
7.4.1 客觀評價 135
7.4.2 主觀評價 135
7.5 語音轉(zhuǎn)換應用案例 136
7.5.1 平行語音轉(zhuǎn)換方法 136
7.6 非平行語音轉(zhuǎn)換應用案例 139
7.6.1 循環(huán)生成對抗網(wǎng)絡 139
7.6.2 星型生成對抗網(wǎng)絡 140
7.6.3 變分自動編碼器 141
7.6.4 自適應實例規(guī)范化 141
7.6.5 激活引導和自適應實例歸一化 142
練習題 150
第8章 語音識別 151
8.1 采用矢量量化的說話人識別 151
8.1.1 矢量量化的原理 151
8.1.2 矢量量化的訓練 152
8.1.3 矢量量化說話人識別的實現(xiàn) 153
8.2 采用動態(tài)時間規(guī)整的孤立詞識別 154
8.3 基于隱馬爾可夫模型的語音(語句)識別 159
8.3.1 HMM模型 159
8.3.2 HMM的概率求解 161
8.3.3 HMM的解碼 164
8.3.4 HMM的訓練 166
8.3.5 HMM-GMM模型 171
8.3.6 基于HMM的語音識別應用案例 173
練習題 180
第9章 基于深度學習模型的聲音技術(shù)應用 183
9.1 深度學習網(wǎng)絡基礎(chǔ) 183
9.1.1 深度學習網(wǎng)絡基本結(jié)構(gòu) 183
9.1.2 深度學習網(wǎng)絡的訓練 185
9.1.3 卷積神經(jīng)網(wǎng)絡 187
9.1.4 循環(huán)神經(jīng)網(wǎng)絡 191
9.1.5 注意力機制 197
9.2 基于深度學習的聲音去噪算法 198
9.2.1 基于深度神經(jīng)網(wǎng)絡幅度譜估計的深度學習聲音去噪算法 198
9.2.2 基于多尺度時頻卷積網(wǎng)絡的多通道聲音去噪 201
9.3 基于深度學習的語音識別應用案例 205
9.3.1 基于循環(huán)神經(jīng)網(wǎng)絡-連續(xù)時序分類的語音識別 206
9.3.2 基于卷積神經(jīng)網(wǎng)絡的語音識別 209
9.3.3 基于Transformer的語音識別 211
9.4 基于ResNet的語音情感識別應用案例 220
9.5 聲音與呼吸信號聯(lián)合識別應用案例 225
9.6 聲音與人臉聯(lián)合識別應用案例 228
練習題 231
參考文獻 232