本書由谷歌首席科學家Lyon撰寫,是一部關于聽覺研究的系統(tǒng)性學術著作。書中提出利用CARFAC模型模擬耳蝸對聲音信號的分析,利用帶有精細時序結構的SAI表征聽覺神經(jīng)模式,明確反對將耳蝸視作傅里葉頻率分析器的做法。本書內(nèi)容系統(tǒng)且全面,涵蓋人類聽覺原理、機器聽覺理論、精密聽覺模型建模和機器聽覺應用實例,還包括對聽覺研究史上的標志性人物及事例的介紹。本書對數(shù)學原理的闡釋脈絡清晰,并配有算法源碼,適合相關領域的技術人員和研究人員參考,也適合作為高等院校相關研究生課程的教材。
假如我們對于人自身如何聽見聲音有更深入的了解,那么從通過聲音分析并從中提取有用且有意義的信息這個角度上來講,我們可以讓機器擁有更好的聽覺。至少,這是我的觀點。我已工作數(shù)十年,但近些年有更多的事實愈發(fā)強化了我的這個觀點,愈發(fā)有意愿幫助工程人員、研究人員去理解這些知識片段是如何聯(lián)結成一體的,進而與大家共同推動這門學科的進步。這樣就有很多事要做,本書就是一個嘗試,我想幫助大家將精力集中于更有效的方向:使新加入的同行對各種觀念的演化有足夠的了解,使他們能夠直接獲得新的研發(fā)與實驗所需的理論,或直接找到能夠解決他們有關聲音理解問題的現(xiàn)有技術。
本書的寫作過程充滿了樂趣,得到了來自家庭、朋友以及同事的支持。然而,他們總是一個勁兒地問兩個讓人煩惱的問題:書寫好了嗎?以及書寫給誰看?個問題的終答案不言而喻,但關于第二個問題我還想多說幾句。我發(fā)現(xiàn)有許多人對聲音及聽覺感興趣,他們來自不同的學科,學術背景各不相同,所使用的術語與概念有時也互不相通。我希望他們都能成為我的讀者,我想向大家傳授一個由各種學術觀點綜合而成的更加全面的學術架構,該框架囊括了處理機器聽覺問題所需的一切。他們的專業(yè)背景可能會是電子工程、計算機科學、物理學、生理學、聽力學、音樂、心理學等,但都可以是我的讀者。還有學生、教師、科研人員、產(chǎn)品經(jīng)理、研發(fā)人員及黑客,也可以是我的讀者。
本書對于聽覺及工程等方面內(nèi)容的處理對某些人可能太深,而對另一些人可能又太淺;很多人會發(fā)現(xiàn)有些他們所知道的內(nèi)容沒有涉及,但我希望所有人都會發(fā)現(xiàn)有些內(nèi)容是有用的然而他們以前卻不知道。尤其是第二部分中所講授的系統(tǒng)理論,其目的是使不同學術背景的讀者對數(shù)學、物理、工程及信號處理原理建立共同的理解,而這部分內(nèi)容對于后面將要講授的設計、分析以及對于聽覺模型及應用的理解,都是必需的。本書后續(xù)部分的許多內(nèi)容可直接閱讀,而不必預先掌握第二部分中的系統(tǒng)理論,但我仍然建議通讀這部分內(nèi)容以便熟悉術語,而且以后如果需要深入了解某個特定的知識點,也知道到哪兒查找參考。
對于所有生物系統(tǒng),在線性與非線性結合方面,聽覺可能是為深入而又精致的。讀者將從中了解到,為什么對于聽覺來說,這些線性系統(tǒng)概念如此重要但還不足以解釋聽覺。而理解非線性系統(tǒng)一直是個挑戰(zhàn),為了解決這個問題,我們采用的方式是,將聽覺中重要的非線性拆分為若干定義明確的簡單機制,且每個理解起來都不會有難度。我們先是基于連續(xù)時間系統(tǒng)構建聽覺模型,然后利用離散時間系統(tǒng)實現(xiàn)模型在計算機上的高效運行;再次強調(diào),對于非線性的拆分非常重要。
書中的聽覺模型有兩個鮮明特點,也是多年來我與許多合作者一直在踐行的理想:其一,采用嵌入式非線性濾波級聯(lián)結構來構建耳蝸模型;其二,利用穩(wěn)定聽覺圖像或聽覺相關譜圖來捕獲并顯示耳蝸發(fā)送給大腦信號中的精細時序結構。這里所涉及的對象分別位于聽神經(jīng)的兩端,也與我所采用的倚重聽神經(jīng)策略相符。從聽覺生理學家那里,我們了解了許多有關聲音在聽神經(jīng)中的表征特性,但建立的模型與系統(tǒng)卻既不產(chǎn)生也不利用耳蝸神經(jīng)中與聲音有關的豐富信息,這種做法似乎是站不住腳的。本書展示了在利用這些信息時我們所采用的一些富有成效的方法。
本書第三、四部分的聽覺模型附帶開源代碼,這樣讀者在開始構建機器聽覺系統(tǒng)時便容易得多。第五部分對一些熱門應用的開放性前景進行了探討,同時也表達了我對讀者的期盼,希望大家一起推動這一領域的發(fā)展及應用。
在多數(shù)情形下,書中的寫作主體我們所指代的不僅僅是我自己,還包括所有對這些觀念做出了貢獻的人,其中也包括我們的讀者。在少數(shù)情形下,若是單純的個人評述,我會切換用我。
對于朋友和同事指出的缺陷及提出的建議,一經(jīng)采納,我會支付一美元的謝禮,盡管如此,我虧欠他們的遠非致謝所能表達。通過他們的努力,這本書得到了極大的改進。我希望其他人也能夠繼續(xù)提出建議以改進下一版本,同時也會得到幾美元的致謝?梢钥隙,書中一定還有些遺漏的錯誤有待大家發(fā)掘。
關于歷史及關聯(lián)內(nèi)容的專欄
由于針對史實以及其他領域相關概念的評述遍及許多章節(jié),我將其中部分內(nèi)容納入專欄中,一則使之突出,同時也不占據(jù)行文主線。這樣做的目的是,向所引用內(nèi)容的本源致以敬意,同時通過對關聯(lián)內(nèi)容的簡要說明來提升文字的可讀性。我提到了一些老舊技術,是想傳遞一個理念并相信其能夠被大家所認可:這些真空管(閥)放大器、Helmholtz諧振器以及火焰感壓計(flame manometer)等,會作為線索將我們導向由一代代學術巨擘所創(chuàng)造的寶貴遺產(chǎn),無論是在人類聽覺還是機器聽覺領域,我們都是站立在這些巨人的肩膀上。
我個人的EE專業(yè)訓練是在晶體管及早期集成電路時代完成的,那時的課程如電路、信號與系統(tǒng)都還在講授連續(xù)時間模擬技術。而在當代,信號與系統(tǒng)是從離散時間概念開始教授的,且理由很充分,一是教學內(nèi)容的改變,二是必須運用通過數(shù)字計算機實施的現(xiàn)代媒體教學手段。當代工程人員可能認為將聲音視為離散時間采樣數(shù)據(jù)并利用計算機進行處理是很自然的,但在本書中,我仍然選擇將連續(xù)時間作為主要概念,這是因為聲音與耳朵確確實實存在于連續(xù)時間域。我希望讀者不會將連續(xù)時間域視為過時的東西現(xiàn)實世界就是如此。
在線資源
查找勘誤表、代碼鏈接及其他資源,可訪問網(wǎng)址machinehearing.org。
致謝
有許多人關心這本著作,花費精力給予我?guī)椭凸膭睢J紫纫兄x的是Roy Patterson,沒有他的鼓勵,這項工作甚至還未啟動;也是他,在進展緩慢的過程中不斷激勵著我。
在所有向我提出有效反饋意見的讀者中,Rif(Ryan Rifkin)無疑是為突出的一位,他從書中發(fā)現(xiàn)的bug比其他人合起來還要多。其他給出建設性意見的讀者,或是仔細閱讀了本書內(nèi)容,或是反饋了關于本書的整體印象,他們是:Jont Allen,Peggy Asprey,F(xiàn)red Bertsch,Alex Brandmeyer,Peter Cariani,Wan-Teh Chang,Sourish Chaudhuri,Brian Clark,Lynn Conway,Achal Dave,Bertrand Delgutte,Dick Duda,Diek Duifhuis,Dan Ellis,Doug Eck,Dylan Freedman,Jarret Gaddy,Daniel Galvez,Dan Geisler,Pascal Getreuer,Chet Gnegy,Alex Gutkin,Yuan Hao,Thad Hughes,Aren Jansen,James Kates,Nelson Kiang,Ross Koningstein,Harry Levitt,Carver Mead,Ray Meddis,Harold Mills,Channing Moore,Stephen Neely,Eric Nichols,F(xiàn)ritz Obermeyer,Ratheet Pandya,Brian Patton,Justin Paul,Manoj Plakal,Jay Ponte,Rocky Rhodes,David Ross,Mario Ruggero,R. J. Ryan,Bryan Seybold,Shihab Shamma,Phaedon Sinis,Jan Skoglund,Malcolm Slaney,Daisy Stanton,Rich Stern,John L. Stewart,Ian Sturdy,Jeremy Thorpe,George Tzanetakis,Marcel van der Heijden,Tom Walters,Yuxuan Wang,W. Bruce Warr,Lloyd Watts,Ron Weiss,Kevin Wilson,Kevin Woods,Ying Xiao,Bill Yost,Tao Zhang,等等;蛟S還是有人被遺漏了,但總而言之,非常感謝大家!
我要將此書獻給我的家人:我的妻子Peggy Asprey,她是如此美麗、聰慧、開朗、富有成就、充滿活力,她說起話來嗓音是那么的甜美;還有我的兩個可愛的孩子Susan和Erik,她們是我生命中的摯愛,是我的寶貴財富。雖然有時我把更多的注意力放在了這本書上,但對于我的寫作,她們卻是以各種方式全力支持。她們是我美好的風景,甜蜜的音樂,是她們支撐著我。
后,由衷感謝我的編輯,來自劍橋大學出版社的Lauren Cowles,感謝她多年來的耐心,幫助我完成了這本書。
譯者序
序言
前言
關于作者
部分 聲音分析與表征概述
第1章 引言3
1.1 David Marr論視覺與聽覺5
1.2 自上而下與自下而上分析8
1.3 神經(jīng)模擬方法10
1.4 聽覺圖像11
1.5 耳朵是頻率分析器嗎12
1.6 第三音13
1.7 聲音理解與意義提取14
1.8 機器視覺與機器學習技術的利用15
1.9 本書的內(nèi)容安排15
第2章 聽覺理論18
2.1 一種新的聽覺理論18
2.2 更新的聽覺理論20
2.3 主動與非線性聽覺理論21
2.4 聽覺三元理論22
2.5 聽覺圖像理論23
第3章 對數(shù)及冪律聽覺27
3.1 對數(shù)與冪律27
3.2 對數(shù)頻率28
3.3 對數(shù)功率30
3.4 Bode圖31
3.5 感知映射33
3.6 恒Q值分析36
3.7 對數(shù)應用注意事項36
第4章 人類聽覺概述37
4.1?人機對比37
4.2 聽覺生理學37
4.3 聽覺中的關鍵問題39
4.4 響度40
4.5 臨界頻帶、掩蔽與抑制43
4.6 音高感知45
4.7 音色52
4.8 協(xié)和與不協(xié)和53
4.9 語音感知55
4.10 雙耳聽覺58
4.11 聽覺流59
4.12 非線性60
4.13 后續(xù)建議61
第5章 聲學方法與聽覺修正62
5.1 聲音、語音與音樂建模62
5.2 短時譜分析62
5.3 譜的平滑與變換66
5.4 源-濾波器模型與同態(tài)信號處理68
5.5 擺脫對數(shù)70
5.6 聽覺頻率尺度70
5.7 mel頻率倒譜71
5.8 線性預測編碼72
5.9 PLP與RASTA73
5.10 自動語音識別中的聽覺技術74
5.11 必要的改進75
第二部分 聽覺的系統(tǒng)理論
第6章 線性系統(tǒng)引言79
6.1 平滑:恰當?shù)钠瘘c80
6.2 線性時不變系統(tǒng)80
6.3 濾波器與頻率82
6.4 微分方程與齊次解83
6.5 沖激響應84
6.6 因果性與穩(wěn)定性86
6.7 卷積86
6.8 本征函數(shù)與傳遞函數(shù)87
6.9 頻率響應90
6.10 變換與運算方法92
6.11 有理函數(shù)及其零極點94
6.12 傳遞函數(shù)增益與相位的圖解計算96
6.13 卷積定理97
6.14 級聯(lián)、并聯(lián)與反饋結構中濾波器的互聯(lián)98
6.15 總結及后續(xù)安排100
第7章 離散時間與數(shù)字系統(tǒng)102
7.1 計算機模擬系統(tǒng)102
7.2 離散時間線性移不變系統(tǒng)102
7.3 沖激響應與卷積103
7.4 離散時間系統(tǒng)中的頻率103
7.5 Z變換及其逆變換103
7.6 單位超前算子與單位延遲算子104
7.7 濾波器與傳遞函數(shù)105
7.8 采樣與混疊108
7.9 自連續(xù)時間系統(tǒng)的映射110
7.10 濾波器設計111
7.11 數(shù)字濾波器112
7.12 多輸入輸出114
7.13 傅里葉分析與頻譜圖114
7.14 觀點及拓展閱讀116
第8章 諧振器117
8.1 帶通濾波器117
8.2 四階諧振器121
8.3 諧振器頻率響應123
8.4 諧振器沖激響應125
8.5 復諧振器與通用諧振曲線127
8.6 并聯(lián)系統(tǒng)的復零點128
8.7 實系統(tǒng)實現(xiàn)132
8.8 數(shù)字諧振器134
第9章 gammatone及相關濾波器137
9.1 復合諧振器構成的聽覺模型137
9.2 多極點137
9.3 復gammatone濾波器139
9.4 實gammatone濾波器142
9.5 全極點gammatone濾波器144
9.6 gammachirp濾波器146
9.7 變極點Q149
9.8 非重極點149
9.9 數(shù)字濾波器150
第10章 非線性系統(tǒng)153
10.1 Volterra級數(shù)及其他描述153
10.2 基本非線性155
10.3 Hopf分叉155
10.4 分布式帶通非線性156
10.5 非線性系統(tǒng)響應曲線157
10.6 雙音調(diào)響應160
10.7 非線性與混疊161
10.8 特別關注163
第11章 自動增益控制164
11.1 輸入-輸出強度壓縮164
11.2 非線性反饋控制165
11.3 平衡狀態(tài)下的AGC壓縮166
11.4 多級聯(lián)可變增益168
11.5 由級聯(lián)諧振器阻尼控制的增益控制170
11.6 AGC動態(tài)特性170
11.7 AGC環(huán)路穩(wěn)定性174
11.8 多環(huán)路AGC176
第12章 分布式系統(tǒng)中的波178
12.1 均勻線性介質(zhì)中的波179
12.2 波數(shù)與傳遞函數(shù)184
12.3 非均勻介質(zhì)186
12.4 非均勻介質(zhì)等效濾波器級聯(lián)189
12.5 沖激響應190
12.6 群速度與群延遲191
第三部分 聽覺外周
第13章 聽覺濾波器模型195
13.1 何謂聽覺濾波器196
13.2 從諧振器到高斯濾波器198
13.3 聽覺濾波器模型應具備的十大優(yōu)良特性199
13.4 代表性聽覺濾波器模型201
13.4.1 聽覺濾波器的三條發(fā)展路徑201
13.4.2 三個圓滑指數(shù)濾波器202
13.4.3 四個gammatone族濾波器203
13.4.4 三種濾波器級聯(lián)204
13.5 難點:時變與非線性聽覺濾波器206
13.6 濾波器模型的擬合參數(shù)208
13.6.1 擬合心理聲學濾波器形狀208
13.6.2 OZGF及PZFC變型采用更少參數(shù)產(chǎn)生更好擬合210
13.7 抑制212
13.8 由生理數(shù)據(jù)導出沖激響應212
13.9 耳蝸模型總結及應用215
第14章 耳蝸建模216
14.1 耳蝸結構216
14.2 行波219