實(shí)時(shí)語(yǔ)音處理實(shí)踐指南

定　價(jià)：￥99.00

作　者：	葛世超等著
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書可以去

京東 (￥99.00)

ISBN：	9787121387593	出版時(shí)間：	2020-04-01	包裝：	平裝
開本：	16開	頁(yè)數(shù)：	352	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書主要介紹基于互聯(lián)網(wǎng)場(chǎng)景的交互式實(shí)時(shí)語(yǔ)音處理流程，內(nèi)容涉及智能語(yǔ)音助手、智能音箱、音/視頻會(huì)議等，具體包括實(shí)時(shí)語(yǔ)音信號(hào)處理、數(shù)字音效、網(wǎng)絡(luò)傳輸編/解碼和語(yǔ)音喚醒識(shí)別四部分。在闡述各部分內(nèi)容時(shí)，本書從基本概念和原理入手，將理論和實(shí)踐相結(jié)合，并細(xì)致分析了極具商業(yè)價(jià)值的實(shí)例，以幫助讀者了解相關(guān)算法在工程上是如何實(shí)現(xiàn)的。另外，為便于有興趣的讀者快速進(jìn)行算法驗(yàn)證并將其改進(jìn)和應(yīng)用到實(shí)際的項(xiàng)目中，作者也開源了書中算法的源碼。對(duì)于語(yǔ)音技術(shù)零基礎(chǔ)的讀者，建議按照本書的編排順序閱讀；本書也適合有一定語(yǔ)音理論基礎(chǔ)的高等院校相關(guān)專業(yè)本科生和研究生；對(duì)從事語(yǔ)音相關(guān)產(chǎn)品的非技術(shù)人員來(lái)說(shuō)，可從本書了解語(yǔ)音處理的主要內(nèi)容和技術(shù)難點(diǎn)，對(duì)從事語(yǔ)音工程開發(fā)的技術(shù)人員來(lái)說(shuō)，本書開源了一些極具商業(yè)價(jià)值的源碼工程，具有較高的參考價(jià)值。

作者簡(jiǎn)介

　　葛世超，碩士，畢業(yè)于西安電子科技大學(xué)雷達(dá)國(guó)防重點(diǎn)實(shí)驗(yàn)室，先后任職于阿里巴巴、rokid和Zoom，從事語(yǔ)音算法工作。呂強(qiáng)，學(xué)士，吉林大學(xué)通信工程專業(yè)畢業(yè)，原微鯨電視系統(tǒng)軟件音頻專家。錢思沖，武漢理工大學(xué)博士，2016年至2018年在rokid從事麥克風(fēng)陣列信號(hào)研究，目前主要研究語(yǔ)音信號(hào)盲源分離。張博倫，碩士研究生，畢業(yè)于中國(guó)海洋大學(xué)海底科學(xué)與探測(cè)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室。畢業(yè)后先后從事水聲、音頻信號(hào)處理等工作。張碩，畢業(yè)于西安電子科技大學(xué)和法國(guó)高等電力學(xué)院，先后任職于諾基亞和Rokid，從事語(yǔ)音算法相關(guān)工作。

圖書目錄

緒論1
第1章信號(hào)處理 7
1.1 數(shù)字和模擬頻率 7
1.2 離散傅里葉變換8
1.2.1 實(shí)數(shù)DFT 9
1.2.2 復(fù)數(shù)DFT 10
1.2.3 負(fù)頻分量 10
1.2.4 DFT變換性質(zhì) 10
1.3 FFT 11
1.3.1 FFT 結(jié)果舉例 12
1.3.2 實(shí)信號(hào)FFT 13
1.3.3 短時(shí)傅里葉變換 14
1.3.4 STFT語(yǔ)音窗函數(shù)選擇 14
1.4 重疊相加法和重疊保留法 16
1.4.1 OLA 17
1.4.2 OLS 19
1.5 加權(quán)重疊相加法 21
1.5.1 WOLA 計(jì)算過(guò)程 22
1.5.2 WOLA 窗函數(shù)選擇 22
1.6 濾波器組 23
1.7 語(yǔ)音預(yù)加重 27
1.8 高斯分布 27
1.8.1 單高斯分布 27
1.8.2 多維高斯分布 29
1.9 HMM模型 31
1.10 卡爾曼濾波 32
第2章發(fā)音機(jī)理和器件 34
2.1 語(yǔ)音的產(chǎn)生和接收 34
2.1.1 語(yǔ)音產(chǎn)生機(jī)理 34
2.1.2 發(fā)聲模型 36
2.1.3 發(fā)音單位 36
2.1.4 發(fā)音分類 37
2.1.5 聲音接收 37
2.1.6 聲音傳播 38
2.2 揚(yáng)聲器 38
2.2.1 電學(xué)性能 38
2.2.2 聲學(xué)性能 39
2.2.3 底噪 40
2.2.4 頻響特性 41
2.2.5 THD+N POUT 41
2.2.6 電壓（功率）和失真 42
2.3 麥克風(fēng) 42
2.3.1 麥克風(fēng)性能指標(biāo) 42
2.3.2 麥克風(fēng)的選擇 43
2.4 結(jié)構(gòu)設(shè)計(jì) 45
2.5 音頻設(shè)備 46
2.6 聲學(xué)測(cè)試 49
第3章語(yǔ)音端點(diǎn)檢測(cè) 59
3.1 特征選取 59
3.2 判決準(zhǔn)則 61
3.2.1 門限 61
3.3 VAD 實(shí)例 63
3.4 語(yǔ)音/非語(yǔ)音幀的初始參數(shù) 75
第4章單通道降噪 79
4.1 譜減法 79
4.2 維納濾波 84
4.3 子空間降噪 86
4.4 WebRTC 單通道降噪實(shí)現(xiàn) 87
4.5 深度學(xué)習(xí)降噪 101
第5章聲學(xué)回聲消除 106
5.1 回聲消除原理 106
5.2 自適應(yīng)濾波器 108
5.3 WebRTC 回聲消除算法 113
5.4 Speex 回聲消除算法 128
第6章聲源定位 147
6.1 GCC算法 147
6.2 SRP-PHAT算法 149
6.3 MUSIC算法 150
6.4 TOPS 算法 152
6.5 FRIDA算法 154
6.6 后處理抗噪 155
第7章波束形成技術(shù) 162
7.1 麥克風(fēng)陣列 163
7.2 常見波束形成方法 168
7.3 WebRTC 波束形成實(shí)例 174
7.4 后置濾波（Post-filtering） 187
第8章盲源分離 196
8.1 基本概念及數(shù)學(xué)預(yù)備知識(shí) 196
8.2 盲語(yǔ)音分離預(yù)處理——PCA 199
8.3 頻域獨(dú)立成分分析法——FDICA 200
8.4 后置濾波處理 205
8.5 GSC 與ICA聯(lián)合估計(jì) 209
第9章音效處理 214
9.1 聲道的分類 214
9.2 后端音效處理 217
第10章語(yǔ)音編/解碼 227
10.1 LPC 編碼 230
10.2 SILK編/解碼 231
10.3 opus 編/解碼概覽 239
10.4 語(yǔ)音質(zhì)量評(píng)估 247
第11章語(yǔ)音網(wǎng)絡(luò)傳輸 251
11.1 擁塞控制 252
11.2 NetEQ 266
第12章語(yǔ)音喚醒 278
12.1 語(yǔ)音喚醒技術(shù)簡(jiǎn)介 278
12.2 特征提取 279
12.3 模型結(jié)構(gòu) 284
12.4 計(jì)算加速 292
第13章語(yǔ)音識(shí)別 301
13.1 語(yǔ)音特征提取 303
13.2 聲學(xué)模型 306
13.3 語(yǔ)言模型 310
13.4 YES 和NO識(shí)別實(shí)例 312
13.5 Kaldi 中文語(yǔ)音識(shí)別 321
13.6 DeepSpeech 語(yǔ)音識(shí)別 324
附錄A 本書涉及的專業(yè)術(shù)語(yǔ) 331