注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能實(shí)時(shí)語音處理實(shí)踐指南

實(shí)時(shí)語音處理實(shí)踐指南

實(shí)時(shí)語音處理實(shí)踐指南

定 價(jià):¥99.00

作 者: 葛世超 等 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購買這本書可以去


ISBN: 9787121387593 出版時(shí)間: 2020-04-01 包裝: 平裝
開本: 16開 頁數(shù): 352 字?jǐn)?shù):  

內(nèi)容簡介

  本書主要介紹基于互聯(lián)網(wǎng)場景的交互式實(shí)時(shí)語音處理流程,內(nèi)容涉及智能語音助手、智能音箱、音/視頻會(huì)議等,具體包括實(shí)時(shí)語音信號(hào)處理、數(shù)字音效、網(wǎng)絡(luò)傳輸編/解碼和語音喚醒識(shí)別四部分。在闡述各部分內(nèi)容時(shí),本書從基本概念和原理入手,將理論和實(shí)踐相結(jié)合,并細(xì)致分析了極具商業(yè)價(jià)值的實(shí)例,以幫助讀者了解相關(guān)算法在工程上是如何實(shí)現(xiàn)的。另外,為便于有興趣的讀者快速進(jìn)行算法驗(yàn)證并將其改進(jìn)和應(yīng)用到實(shí)際的項(xiàng)目中,作者也開源了書中算法的源碼。 對(duì)于語音技術(shù)零基礎(chǔ)的讀者,建議按照本書的編排順序閱讀;本書也適合有一定語音理論基礎(chǔ)的高等院校相關(guān)專業(yè)本科生和研究生;對(duì)從事語音相關(guān)產(chǎn)品的非技術(shù)人員來說,可從本書了解語音處理的主要內(nèi)容和技術(shù)難點(diǎn),對(duì)從事語音工程開發(fā)的技術(shù)人員來說,本書開源了一些極具商業(yè)價(jià)值的源碼工程,具有較高的參考價(jià)值。

作者簡介

  葛世超,碩士,畢業(yè)于西安電子科技大學(xué)雷達(dá)國防重點(diǎn)實(shí)驗(yàn)室,先后任職于阿里巴巴、rokid和Zoom,從事語音算法工作。 呂強(qiáng),學(xué)士,吉林大學(xué)通信工程專業(yè)畢業(yè),原微鯨電視系統(tǒng)軟件音頻專家。 錢思沖,武漢理工大學(xué)博士,2016年至2018年在rokid從事麥克風(fēng)陣列信號(hào)研究,目前主要研究語音信號(hào)盲源分離。 張博倫,碩士研究生,畢業(yè)于中國海洋大學(xué)海底科學(xué)與探測技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室。畢業(yè)后先后從事水聲、音頻信號(hào)處理等工作。 張碩,畢業(yè)于西安電子科技大學(xué)和法國高等電力學(xué)院,先后任職于諾基亞和Rokid,從事語音算法相關(guān)工作。

圖書目錄

緒論1
第1章 信號(hào)處理 7
1.1 數(shù)字和模擬頻率 7
1.2 離散傅里葉變換8
1.2.1 實(shí)數(shù)DFT 9
1.2.2 復(fù)數(shù)DFT 10
1.2.3 負(fù)頻分量 10
1.2.4 DFT變換性質(zhì) 10
1.3 FFT 11
1.3.1 FFT 結(jié)果舉例 12
1.3.2 實(shí)信號(hào)FFT 13
1.3.3 短時(shí)傅里葉變換 14
1.3.4 STFT語音窗函數(shù)選擇 14
1.4 重疊相加法和重疊保留法 16
1.4.1 OLA 17
1.4.2 OLS 19
1.5 加權(quán)重疊相加法 21
1.5.1 WOLA 計(jì)算過程 22
1.5.2 WOLA 窗函數(shù)選擇 22
1.6 濾波器組 23
1.7 語音預(yù)加重 27
1.8 高斯分布 27
1.8.1 單高斯分布 27
1.8.2 多維高斯分布 29
1.9 HMM模型 31
1.10 卡爾曼濾波 32
第2章 發(fā)音機(jī)理和器件 34
2.1 語音的產(chǎn)生和接收 34
2.1.1 語音產(chǎn)生機(jī)理 34
2.1.2 發(fā)聲模型 36
2.1.3 發(fā)音單位 36
2.1.4 發(fā)音分類 37
2.1.5 聲音接收 37
2.1.6 聲音傳播 38
2.2 揚(yáng)聲器 38
2.2.1 電學(xué)性能 38
2.2.2 聲學(xué)性能 39
2.2.3 底噪 40
2.2.4 頻響特性 41
2.2.5 THD+N POUT 41
2.2.6 電壓(功率)和失真 42
2.3 麥克風(fēng) 42
2.3.1 麥克風(fēng)性能指標(biāo) 42
2.3.2 麥克風(fēng)的選擇 43
2.4 結(jié)構(gòu)設(shè)計(jì) 45
2.5 音頻設(shè)備 46
2.6 聲學(xué)測試 49
第3章 語音端點(diǎn)檢測 59
3.1 特征選取 59
3.2 判決準(zhǔn)則 61
3.2.1 門限 61
3.3 VAD 實(shí)例 63
3.4 語音/非語音幀的初始參數(shù) 75
第4章 單通道降噪 79
4.1 譜減法 79
4.2 維納濾波 84
4.3 子空間降噪 86
4.4 WebRTC 單通道降噪實(shí)現(xiàn) 87
4.5 深度學(xué)習(xí)降噪 101
第5章 聲學(xué)回聲消除 106
5.1 回聲消除原理 106
5.2 自適應(yīng)濾波器 108
5.3 WebRTC 回聲消除算法 113
5.4 Speex 回聲消除算法 128
第6章 聲源定位 147
6.1 GCC算法 147
6.2 SRP-PHAT算法 149
6.3 MUSIC算法 150
6.4 TOPS 算法 152
6.5 FRIDA算法 154
6.6 后處理抗噪 155
第7章 波束形成技術(shù) 162
7.1 麥克風(fēng)陣列 163
7.2 常見波束形成方法 168
7.3 WebRTC 波束形成實(shí)例 174
7.4 后置濾波(Post-filtering) 187
第8章 盲源分離 196
8.1 基本概念及數(shù)學(xué)預(yù)備知識(shí) 196
8.2 盲語音分離預(yù)處理——PCA 199
8.3 頻域獨(dú)立成分分析法——FDICA 200
8.4 后置濾波處理 205
8.5 GSC 與ICA聯(lián)合估計(jì) 209
第9章 音效處理 214
9.1 聲道的分類 214
9.2 后端音效處理 217
第10章 語音編/解碼 227
10.1 LPC 編碼 230
10.2 SILK編/解碼 231
10.3 opus 編/解碼概覽 239
10.4 語音質(zhì)量評(píng)估 247
第11章 語音網(wǎng)絡(luò)傳輸 251
11.1 擁塞控制 252
11.2 NetEQ 266
第12章 語音喚醒 278
12.1 語音喚醒技術(shù)簡介 278
12.2 特征提取 279
12.3 模型結(jié)構(gòu) 284
12.4 計(jì)算加速 292
第13章 語音識(shí)別 301
13.1 語音特征提取 303
13.2 聲學(xué)模型 306
13.3 語言模型 310
13.4 YES 和NO識(shí)別實(shí)例 312
13.5 Kaldi 中文語音識(shí)別 321
13.6 DeepSpeech 語音識(shí)別 324
附錄A 本書涉及的專業(yè)術(shù)語 331

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)