語音識別技術(shù)得益于深度學習的發(fā)展,已經(jīng)走進了我們的生活。但是,復(fù)雜開放環(huán)境下的語音交互是目前語音識別技術(shù)發(fā)展中無法回避的挑戰(zhàn)性難題。本書面向這個主題,從物理層的信號與噪聲分離、神經(jīng)生理層的聽覺流分離以及心理認知層的聽覺空間注意,進行了全方位地分析;從信號處理的技術(shù)實現(xiàn)、計算建模以及聽障應(yīng)用的角度進行了詳細地闡述。
推薦語
譯者序
前言
第1章 解析聽覺場景的耳和腦機制1
1.1 引言1
1.2 一些關(guān)鍵概念2
1.3 本書概述2
1.4 耳和腦4
參考文獻5
第2章 聽覺客體的形成和選擇6
2.1 引言6
2.1.1 雞尾酒會:令人困惑的混合聲音和受限的加工容量7
2.1.2 基于客體的注意8
2.1.3 異構(gòu)化而非層次化加工9
2.1.4 歷史筆記9
2.2 解析聲學場景:聽覺客體形成11
2.2.1 局部頻譜時間線索支持“音節(jié)層面”的客體形成11
2.2.2 高階特征將音節(jié)聯(lián)結(jié)成“流”12
2.2.3 開放問題13
2.3 聚焦注意:選擇什么去加工14
2.3.1 自上而下控制指導(dǎo)選擇14
2.3.2 自下而上顯著性影響注意14
2.3.3 從不完美的客體中提取語義15
2.4 基于客體聽覺選擇性注意的感知結(jié)果15
2.4.1 分散注意的失敗15
2.4.2 客體形成和選擇之間的強制性交互16
2.4.3 轉(zhuǎn)換注意的代價17
2.5 支持客體形成的神經(jīng)機制17
2.6 支持客體選擇的神經(jīng)機制18
2.6.1 控制注意的視覺認知網(wǎng)絡(luò)18
2.6.2 聽覺空間注意調(diào)用視覺定向和重定向網(wǎng)絡(luò)19
2.6.3 非空間聽覺注意調(diào)動不同的聽覺專用網(wǎng)絡(luò)20
2.6.4 感知模態(tài)和任務(wù)要求影響網(wǎng)絡(luò)活動20
2.6.5 對關(guān)注語音的神經(jīng)響應(yīng)夾帶22
2.6.6 關(guān)注聽覺注意的其他神經(jīng)特征23
2.7 總結(jié)23
參考文獻24
第3章 能量掩蔽和掩蔽釋放34
3.1 引言34
3.2 通過基頻進行區(qū)分36
3.2.1 基頻差值的影響36
3.2.2 選擇一個公共基頻的多個諧波分量37
3.2.3 時域分析39
3.2.4 外周非線性的影響40
3.2.5 消除機制40
3.2.6 加工層級41
3.2.7 小結(jié)42
3.3 關(guān)于包絡(luò)波動的掩蔽和掩蔽釋放42
3.3.1 在“波谷”中聆聽43
3.3.2 外周非線性的影響44
3.3.3 調(diào)制掩蔽44
3.3.4 噪聲中的內(nèi)在調(diào)制45
3.3.5 基于調(diào)制濾波器組的模型47
3.3.6 聽覺受損者的“波谷聆聽”效應(yīng)47
3.3.7 小結(jié)49
3.4 掩蔽的空間釋放49
3.4.1 較優(yōu)耳聽覺50
3.4.2 雙耳去掩蔽52
3.4.3 “遲鈍”的問題53
3.4.4 掩蔽的空間釋放模型53
3.4.5 小結(jié)54
3.5 其他機制54
3.5.1 頻率調(diào)制對突出效果的影響54
3.5.2 起始時間差異與適應(yīng)的潛在作用55
3.6 總結(jié)55
參考文獻56
第4章 語音識別中的信息掩蔽61
4.1 引言61
4.2 混疊語音掩蔽案例的研究歷史62
4.3 確定混疊語音掩蔽中的能量掩蔽和信息掩蔽64
4.3.1 不確定性65
4.3.2 控制/估計能量掩蔽67
4.3.3 語言變量70
4.4 雙耳分析模型在混疊語音掩蔽中的應(yīng)用79
4.5 總結(jié)84
參考文獻85
第5章 雞尾酒會問題的建模90
5.1 引言90
5.2 定義“雞尾酒會問題”中的問題91
5.3 雞尾酒會問題建模準則93
5.3.1 算法策略93
5.3.2 神經(jīng)學基礎(chǔ)98
5.4 雞尾酒會問題的自下而上模型99
5.5 自上而下的過程和雞尾酒會問題101
5.6 總結(jié)102
參考文獻103
第6章 語音空間流分離112
6.1 引言112
6.2 基于心理物理學的空間流分離分析113
6.2.1 空間線索對語音流整合的微弱掩蔽114
6.2.2 基于空間線索的魯棒流分離115
6.2.3 流分離的空間敏銳度116
6.2.4 空間流分離的聲學線索118
6.3 一種用于空間流分離的自下向上機制121
6.3.1 初級聽覺皮層的空間流分離122
6.3.2 皮質(zhì)神經(jīng)元的空間節(jié)律性掩蔽釋放125
6.3.3 一種自下而上的空間流分離機制127
6.4 用于空間定位和流分離的“公共”和“專用”空間表示128
6.5 注意客體的選擇130
6.5.1 行為動物刺激特異性的任務(wù)依賴性調(diào)節(jié)130
6.5.2 人類神經(jīng)生理學中的客體選擇131
6.6 總結(jié)、綜合和未來方向132
參考文獻133
第7章 人類聽覺神經(jīng)科學與雞尾酒會問題138
7.1 引言139
7.1.1 常用實驗方法139
7.1.2 本章主題140
7.2 人類空間聽覺的神經(jīng)基礎(chǔ)140
7.3 人類聽覺流分離的神經(jīng)基礎(chǔ):簡單的聲音143
7.3.1 使用有限注意力操控的研究144
7.3.2 使用顯式注意力操控的研究147
7.4 人類聽覺流分離的神經(jīng)基礎(chǔ):語音149
7.4.1 在固定噪聲中使用語音的研究150
7.4.2 使用競爭性語音流的研究151
7.4.3 噪聲中語音處理的神經(jīng)解剖學154
7.5 其他方面155
7.5.1 時間相干性155
7.5.2 自下而上與自上而下的注意155
7.6 總結(jié)156
參考文獻157
第8章 雞尾酒會中嬰幼兒與兒童的聽覺加工162
8.1 引言162
8.2 聽覺編碼的發(fā)育163
8.2.1 頻譜分辨率與能量掩蔽163
8.2.2 基頻164
8.2.3 時間分辨率165
8.2.4 空間聽覺165
8.2.5 聽覺–視覺對應(yīng)關(guān)系166
8.3 聽覺場景分析的發(fā)育166
8.3.1 在講話中傾聽語音167
8.3.2 聽覺場景分析中的線索168
8.3.3 選擇性注意的作用175
8.4 總結(jié)、綜合和未來方向177
參考文獻178
第9章 雞尾酒會中老年人的聽覺加工187
9.1 引言188
9.2 聽覺老化189
9.2.1 外周189
9.2.2 語音理解189
9.2.3 時間加工的心理聲學和語音加工的行為測量190
9.3 聽覺和認知老化的電生理學測量193
9.3.1 腦干193
9.3.2 皮層193
9.3.3 調(diào)合年齡相關(guān)變化的行為和電生理學發(fā)現(xiàn)194
9.4 語音理解中掩蔽聲類型依賴的年齡相關(guān)差異195
9.4.1 穩(wěn)態(tài)掩蔽聲195
9.4.2 復(fù)雜和波動的非語音掩蔽聲196
9.4.3 語音掩蔽聲196
9.5 前景與背景聲音的感知組織中年齡相關(guān)差異的行為測量196
9.5.1 掩蔽的空間分離與釋放197
9.5.2 聽覺流分離的形成速度199
9.5.3 聽覺空間注意200
9.5.4 詞匯和句子之上的語篇201
9.5.5 記憶202
9.6 認知老化與感覺認知之間的相互作用203
9.6.1 認知老化203
9.6.2 感覺認知之間的相互作用203
9.6.3 腦可塑性與代償204
9.7 總結(jié)204
參考文獻205
第10章 復(fù)雜聽覺場景下植入人工耳蝸和助聽器的聽覺感知214
10.1 引言214
10.2 雞尾酒會中的成人215
10.2.1 制約表現(xiàn)的因素215
10.2.2 限制聽力損失個體表現(xiàn)的生理因素216
10.2.3 設(shè)備217
10.3 成人耳蝸植入218
10.3.1 空間線索可用性218
10.3.2 雙側(cè)植入耳蝸后成人的雙耳能力220
10.3.3 聽覺定位221
10.3.4 雙耳掩蔽級差221
10.3.5 雙側(cè)植入耳蝸后成人的掩蔽的空間釋放222
10.3.6 在聽覺正常人的測試上模擬人工耳蝸處理的各個方面225
10.4 使用助聽器的成人226
10.4.1 單側(cè)裝配與雙側(cè)裝配的對比226
10.4.2 雙側(cè)裝配的益處227
10.4.3 技術(shù)進步227
10.5 兒科研究簡介228
10.5.1 研究雙側(cè)植入耳蝸兒童228
10.5.2 雙側(cè)順序植入耳蝸與雙側(cè)同時植入耳蝸230
10.5.3 使用助聽器的兒童231
10.5.4 執(zhí)行功能的可變性和影響232
10.5.5 未來方向和臨床應(yīng)用232
10.6 結(jié)論233
參考文獻233
術(shù)語表240