本書介紹了現(xiàn)代語音信號處理的基礎、原理、方法和應用,并且給出一些相關算法的Python庫和調(diào)用函數(shù)。全書共15章,第1章介紹了語音信號處理的發(fā)展歷程、人工智能基礎和相關研究方向;第2~4章介紹了語音信號處理的一些基礎理論、方法和參數(shù);第5章介紹了神經(jīng)網(wǎng)絡與深度學習的基礎知識;第6~15章將語音信號處理的研究方向分為前端處理(包括語音增強、回聲消除、聲源定位和波束形成)、后端應用(包括語音識別、說話人識別和語音情感計算)和其他研究(包括語音合成與轉(zhuǎn)換、語音隱藏和助聽器聲信號處理)三個部分,并介紹了相關研究的基礎理論和算法原理。在附錄中,介紹了學習Python語言的PyCharm軟件的快速使用教程,并對文中常用的Python庫進行了說明。
本書可作為計算機和通信與信息系統(tǒng)等學科相關專業(yè)的高年級本、?茖W生和研究生的教材或教學參考用書,也可作為從事語音信號處理的科研工程技術人員的輔助讀物和參考用書。
本書較全面地反映了現(xiàn)代語音信號處理的主要內(nèi)容和發(fā)展方向,主要面向電子信息類、自動化類、計算機類等學科有關專業(yè)的高年級本科生和研究生,也可以作為從事語音信號處理這一領域技術人員的參考用書。因此,本書在內(nèi)容上強調(diào)基本概念和基本理論方法的掌握,并突出各部分的相互聯(lián)系。此外,考慮到語音信號處理的實用性很強,以及當前人工智能技術的發(fā)展,本書在介紹基本理論和基本算法的基礎上,給出了相應的Python代碼,使學習人員可以邊學習理論邊實踐,有助于知識的理解和記憶。
前言
語音信號處理是以語音語言學和數(shù)字信號處理為基礎而形成的一門涉及面很廣的綜合性學科,它與心理學、生理學、計算機科學、通信與信息科學以及模式識別和人工智能等學科都有著非常密切的關系。近年來,伴隨著深度學習、高性能運算平臺和大數(shù)據(jù)的發(fā)展,智能語音技術的研發(fā)瓶頸紛紛被突破,已成為人工智能產(chǎn)業(yè)鏈上的關鍵一環(huán),深深地吸引廣大科學工作者不斷進行研究和探討。
本書較全面地反映了現(xiàn)代語音信號處理的主要內(nèi)容和發(fā)展方向,主要面向電子信息類、自動化類、計算機類等學科有關專業(yè)的高年級本科生和研究生,也可以作為從事語音信號處理這一領域技術人員的參考用書。因此,本書在內(nèi)容上強調(diào)基本概念和基本理論方法的掌握,并突出各部分的相互聯(lián)系。此外,考慮到語音信號處理的實用性很強,以及當前人工智能技術的發(fā)展,本書在介紹基本理論和基本算法的基礎上,給出了相應的Python代碼,使學習人員可以邊學習理論邊實踐,有助于知識的理解和記憶。
本書的參考學時為本科生32學時、研究生40學時,可以根據(jù)不同的教學要求對內(nèi)容進行適當取舍,靈活安排授課學時數(shù)。全書分為15章,具體內(nèi)容如下。
第1章簡要介紹了語音信號處理的發(fā)展歷程、當前的主要研究方向、人工智能與語音處理的聯(lián)系,以及本書的章節(jié)安排情況。
第2章介紹了語音信號處理的基礎知識,包括語音的產(chǎn)生與感知、語音信號產(chǎn)生的數(shù)學模型、語音信號的數(shù)字化和語音信號的基本表征方法等。
第3章介紹了語音信號的預處理方法(包括分幀與加窗、消除趨勢項和直流分量、預加重和去加重)以及4種語音信號的基本分析方法,包括時域分析、頻域分析、倒譜分析和線性預測分析。
第4章介紹了3種語音信號的特征提取技術,包括端點檢測、基音周期估計和共振峰估計。其中,端點檢測算法包括雙門限法、自相關法、譜熵法和比例法;基音周期估計算法包括自相關法、倒譜法以及后處理方法;共振峰估計算法包括倒譜分析法和線性預測法。
第5章介紹了神經(jīng)網(wǎng)絡與深度學習的相關基礎知識,包括神經(jīng)元的構成、誤差逆?zhèn)鞑ニ惴ㄒ约?種典型的深度學習網(wǎng)絡架構,即前饋神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡。
第6章介紹了語音增強的基本原理和典型算法。首先介紹了人耳感知特性、語音與噪聲特性和語音質(zhì)量評價標準,然后依次介紹了3種語音增強算法:譜減法、維納濾波和基于深度學習的語音增強方法。
第7章介紹了回聲消除的基本原理和典型算法。首先介紹了回聲消除的基本模型以及性能的評價標準,然后依次介紹5種回聲消除算法,后介紹了嘯叫檢測與抑制方法。
第8章介紹了聲源定位的基本原理。依次介紹了雙耳聽覺定位原理及方法和3種基于傳聲器陣列的聲源定位方法,即基于輸出功率的可控波束形成算法、基于到達時間差的定位算法和基于高分辨率譜估計的定位算法。此外,還介紹了傳聲器陣列模型以及可用于聲源定位研究的房間回響模型。
第9章介紹了波束形成技術的基本原理和典型算法。首先介紹了波束形成的基本理論,然后分別介紹了幾種經(jīng)典的波束形成器和自適應波束形成,后介紹了幾種后置濾波算法。
第10章介紹了語音識別算法。首先介紹了語音識別原理與系統(tǒng)構成,接著介紹了基于動態(tài)時間規(guī)整的語音識別系統(tǒng)和基于隱馬爾可夫模型的語音識別系統(tǒng),然后介紹了基于人工智能的語音識別的相關知識,后介紹了語音識別算法的性能評價指標。
第11章介紹了說話人識別算法。首先介紹了說話人識別的原理,然后介紹了兩種典型的說話人識別系統(tǒng),分別是基于VQ的說話人識別系統(tǒng)和基于GMM的說話人識別系統(tǒng)。接著介紹了基于深度學習的說話人識別的相關知識,包括兩種經(jīng)典的基于深度學習的說話人識別算法,后,介紹了說話人識別的研究難點。
第12章介紹了語音信號中的情感信息處理的基本原理。首先介紹了情感理論和語音數(shù)據(jù)庫的建立方法,然后介紹了一些常用的語音情感特征及其提取算法,接著介紹了兩種語音情感識別算法,包括K近鄰分類器和支持向量機。后介紹了基于深度學習的情感識別算法,并對未來的研究進行了展望。
第13章介紹了語音合成與轉(zhuǎn)換的基本原理。首先介紹了幀合成技術,然后介紹了3種語音合成算法,包括線性預測合成法、共振峰合成法和基音同步疊加技術,接著介紹了語音信號的變速和變調(diào)的原理和實現(xiàn)方法,后介紹了3種基于深度學習的語言合成模型。
第14章介紹了語音隱藏的基本原理。首先介紹了信息隱藏的基礎理論,然后介紹了兩種語音信息隱藏算法:低比特位編碼法和回聲隱藏算法,后介紹了算法的常用評價指標以及未來的研究方向。
第15章介紹了助聽器聲信號處理的相關知識。首先介紹了聽力損失與語言理解障礙的關系,然后介紹了與助聽器相關的三種關鍵算法:多通道響度補償算法、回聲抑制算法以及降頻算法,后對未來的研究方向進行了展望。
附錄提供了PyCharm軟件的快速使用教程,并對文中常用的Python庫進行了說明。
本書主要由梁瑞宇、王青云、謝躍和唐閨臣編著,并由梁瑞宇統(tǒng)稿。本書被列入2020年江蘇省高等學校重點教材建設計劃(蘇高教會[2020]39號)。編者參考和引用了一些學者的研究成果,具體見參考文獻。在此,編者向這些文獻的著作者表示敬意和感謝。同時,本書的出版得到了東南大學趙力教授的悉心指導,同時誠摯感謝給予此書指導和幫助的老師以及東南大學團隊的碩士研究生。
語音信號處理是一門理論性強、實用面廣、內(nèi)容新、難度大的交叉學科,同時這門學科又處于快速發(fā)展之中,盡管編者在編寫過程中始終注重理論緊密聯(lián)系實際,力求以盡可能簡明、通俗的語言,深入淺出、通俗易懂地將這門學科介紹給讀者,但因水平有限、時間較倉促,書中疏漏與不妥之處在所難免,敬請廣大讀者批評指正。
前言
第1章緒論
1.1語音信號的發(fā)展歷程
1.2語音信號處理的研究方向
1.3人工智能與語音處理
1.4本書結構
第2章語音信號處理的基礎知識
2.1語音的產(chǎn)生與感知
2.2語音信號產(chǎn)生的數(shù)學模型
2.3語音信號的數(shù)字化
2.4語音信號的表征
2.5思考與復習題
第3章語音信號分析方法
3.1語音信號預處理
3.2語音信號的時域分析
3.3語音信號的頻域分析
3.4語音信號的倒譜分析
3.5語音信號的線性預測分析
3.6思考與復習題
第4章語音信號特征提取技術
4.1端點檢測
4.2基音周期估計
4.3共振峰估計
4.4思考與復習題
第5章神經(jīng)網(wǎng)絡與深度學習
5.1神經(jīng)網(wǎng)絡及其發(fā)展
5.2神經(jīng)元
5.3誤差逆?zhèn)鞑ニ惴?br>5.4前饋神經(jīng)網(wǎng)絡
5.5卷積神經(jīng)網(wǎng)絡
5.6循環(huán)神經(jīng)網(wǎng)絡
5.7常用的深度學習框架
5.8思考與復習題
第6章語音增強
6.1基礎知識
6.2譜減法
6.3維納濾波
6.4基于深度學習的語音增強方法
6.5思考與復習題
第7章回聲消除
7.1回聲消除基礎知識
7.2回聲消除算法
7.2.1LMS算法
7.3嘯叫檢測與抑制
7.4總結與展望
7.5思考與復習題
第8章聲源定位
8.1雙耳聽覺定位原理及方法
8.2傳聲器陣列模型
8.3房間混響模型
8.4基于傳聲器陣列的聲源定位方法
8.5總結與展望
8.6思考與復習題
第9章波束形成技術
9.1基本理論
9.2固定波束形成器
9.3自適應波束形成
9.4后置濾波
9.5思考與復習題
第10章語音識別
10.1基本理論
10.2語音識別原理與系統(tǒng)構成
10.3基于動態(tài)時間規(guī)整的語音識別系統(tǒng)
10.4基于隱馬爾可夫模型的語音識別系統(tǒng)
10.5人工智能與語音識別
10.6性能評價指標
10.7思考與復習題
第11章說話人識別
11.1說話人識別的原理
11.2應用VQ的說話人識別系統(tǒng)
11.3應用GMM的說話人識別系統(tǒng)
11.4基于深度學習的說話人識別
11.5總結與展望
11.6思考與復習題
第12章語音情感計算
12.1情感的心理學理論
12.2語音情感數(shù)據(jù)庫
12.3情感的聲學特征分析
12.4語音情感識別經(jīng)典算法
12.5深度學習模型
12.6語音情感計算的應用與展望
12.7思考與復習題
第13章語音合成與轉(zhuǎn)換
13.1幀合成技術
13.2經(jīng)典語音合成算法
13.3語音信號的變速和變調(diào)
13.4基于深度學習的語音合成模型
13.5總結與展望
13.6思考與復習題
第14章語音隱藏
14.1信息隱藏基礎
14.2語音信息隱藏算法
14.3常用評價指標
14.4總結與展望
14.5思考與復習題
第15章助聽器聲信號處理
15.1聽力損失與語音理解障礙
15.2壓縮與響度補償
15.3回聲抑制算法
15.4降頻算法
15.5總結與展望
15.6思考與復習題
附錄
附錄APyCharm快速使用教程
附錄B常用Python庫及其說明
參考文獻