Kaldi 語音識(shí)別實(shí)戰(zhàn)

定　價(jià)：￥89.00

作　者：	陳果果等著
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

京東 (￥89.00)

ISBN：	9787121378744	出版時(shí)間：	2020-04-01	包裝：	平裝
開本：	16開	頁數(shù)：	336	字?jǐn)?shù)：

內(nèi)容簡介

　　剛剛過去的十年是語音技術(shù)發(fā)展的黃金十年。2010 年前后，從谷歌公司發(fā)布第一個(gè)語音搜索應(yīng)用、蘋果公司發(fā)布第一個(gè)語音助手 Siri 開始，語音技術(shù)的發(fā)展轉(zhuǎn)瞬進(jìn)入了快車道。語音技術(shù)的基礎(chǔ)算法不斷推陳出新，語音任務(wù) Benchmark 持續(xù)被刷新；語音產(chǎn)品的應(yīng)用也從一開始很小眾的語音輸入，逐漸滲透到人們生活的方方面面。語音產(chǎn)業(yè)飛速發(fā)展，傳統(tǒng)的語音技術(shù)教材已經(jīng)滿足不了該領(lǐng)域從業(yè)者的迫切需求。本書以目前流行的開源語音識(shí)別工具 Kaldi 為切入點(diǎn)，深入淺出地講解了語音識(shí)別前沿的技術(shù)及它們的實(shí)踐應(yīng)用。本書的作者們擁有深厚的學(xué)術(shù)積累及豐富的工業(yè)界實(shí)戰(zhàn)經(jīng)驗(yàn)。本書適合語音技術(shù)相關(guān)研究人員及互聯(lián)網(wǎng)從業(yè)人員學(xué)習(xí)參考。

作者簡介

　　陳果果清華大學(xué)本科學(xué)位，約翰霍普金斯大學(xué)博士學(xué)位，主要研究方向是語音識(shí)別及關(guān)鍵詞檢索，師從語音識(shí)別開源工具Kaldi主要開發(fā)者Daniel Povey，以及約翰霍普金斯大學(xué)語言語音處理中心教授Sanjeev Khudanpur。博士期間為Google開發(fā)了Google的喚醒詞Okay Google的原型，現(xiàn)在已經(jīng)用到數(shù)以億計(jì)的安卓設(shè)備及Google智能語音交互設(shè)備上。博士期間同時(shí)參與開發(fā)語音識(shí)別開源工具Kaldi，以及神經(jīng)網(wǎng)絡(luò)開源工具CNTK。博士畢業(yè)以后聯(lián)合創(chuàng)辦KITT.AI，專注于語音識(shí)別及自然語言處理，公司于2017年被百度收購，目前擔(dān)任百度智能生活事業(yè)群組（SLG）主任架構(gòu)師。都家宇本科畢業(yè)于大連理工大學(xué)，后于澳大利亞新南威爾士大學(xué)電子信息工程學(xué)院學(xué)習(xí)，取得信號(hào)處理專業(yè)碩士學(xué)位。研究生期間在導(dǎo)師 Julien Epps 指導(dǎo)下開始進(jìn)行語音處理、情緒識(shí)別方向的研究。畢業(yè)后先后任職于清華大學(xué)語音技術(shù)實(shí)驗(yàn)室、百度語音技術(shù)部，以及阿里巴巴iDST、達(dá)摩院語音組，從事聲學(xué)模型、解碼器、語音喚醒等方面的研發(fā)工作。參與過與 Kaldi 相關(guān)的工作有：Kaldi nnet1神經(jīng)網(wǎng)絡(luò)框架中 lstm 作者；發(fā)起并推動(dòng)全球大規(guī)模的中文開源數(shù)據(jù)集語音項(xiàng)目AISHELL-1、AISHELL-2，已服務(wù)于清華大學(xué)、北京大學(xué)、南洋理工大學(xué)、哥倫比亞大學(xué)等近200所國內(nèi)外高校的科研項(xiàng)目。那興宇本科和博士均畢業(yè)于北京理工大學(xué)，主要研究方向是語音識(shí)別和語音合成。先后任職于中國科學(xué)院聲學(xué)研究所和阿里巴巴機(jī)器人，從事語音識(shí)別模型訓(xùn)練系統(tǒng)和語音交互系統(tǒng)的開發(fā)。目前就職于微軟，擔(dān)任資深應(yīng)用科學(xué)家，從事語音識(shí)別算法和技術(shù)架構(gòu)的開發(fā)及業(yè)務(wù)支持工作。2015年開始在Kaldi開源項(xiàng)目中貢獻(xiàn)代碼，參與了nnet3和chain模型的開發(fā)工作，并維護(hù)其中若干示例及OpenSLR的中文語音識(shí)別模型。張俊博博士畢業(yè)于中國科學(xué)院聲學(xué)研究所，師從顏永紅研究員。在小米公司從零起主導(dǎo)構(gòu)建了整套語音算法研究框架，包括語音識(shí)別、智能設(shè)備語音喚醒、聲紋識(shí)別、語音增強(qiáng)、用于語音應(yīng)用的神經(jīng)網(wǎng)絡(luò)部署，均達(dá)到了當(dāng)時(shí)的先進(jìn)水平，并發(fā)表頂會(huì)論文若干篇，為后續(xù)的語音研發(fā)工作建立了基礎(chǔ)。近期上線了用于外語學(xué)習(xí)的發(fā)音質(zhì)量評(píng)測引擎，并給Kaldi貢獻(xiàn)了發(fā)音良好度評(píng)分的代碼。

圖書目錄

1 語音識(shí)別技術(shù)基礎(chǔ) 1
1.1 語音識(shí)別極簡史 1
1.2 語音識(shí)別系統(tǒng)架構(gòu) 6
1.3 一些其他細(xì)節(jié) 11
2 Kaldi概要介紹 15
2.1 發(fā)展歷史 15
2.2 設(shè)計(jì)思想 18
2.3 安裝 20
2.4 一個(gè)簡單的示例 26
2.5 示例介紹 34
3 數(shù)據(jù)整理 44
3.1 數(shù)據(jù)分集 44
3.2 數(shù)據(jù)預(yù)處理 49
3.3 輸入和輸出機(jī)制 56
3.4 常用數(shù)據(jù)表單與處理腳本 69
3.5 語言模型相關(guān)文件 79
4 經(jīng)典聲學(xué)建模技術(shù) 94
4.1 特征提取 95
4.2 單音子模型的訓(xùn)練 107
4.3 三音子模型訓(xùn)練 128
4.4 特征變換技術(shù) 139
4.5 區(qū)分性訓(xùn)練 143
5 構(gòu)圖和解碼 147
5.1 N元文法語言模型 148
5.2 加權(quán)有限狀態(tài)轉(zhuǎn)錄機(jī) 151
5.3 用WFST表示語言模型 156
5.4 狀態(tài)圖的構(gòu)建 158
5.5 圖的結(jié)構(gòu)優(yōu)化 170
5.6 最終狀態(tài)圖的生成 174
5.7 基于令牌傳遞的維特比搜索 176
5.8 SimpleDecoder源碼分析 178
5.9 Kaldi 解碼器家族 187
5.10 帶詞網(wǎng)格生成的解碼 189
5.11 用語言模型重打分提升識(shí)別率 192
6 深度學(xué)習(xí)聲學(xué)建模技術(shù) 195
6.1 基于神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型 195
6.2 神經(jīng)網(wǎng)絡(luò)在Kaldi中的實(shí)現(xiàn) 200
6.3 神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練 214
6.4 神經(jīng)網(wǎng)絡(luò)的區(qū)分性訓(xùn)練 228
6.5 與其他深度學(xué)習(xí)框架的結(jié)合 242
7 關(guān)鍵詞搜索與語音喚醒 245
7.1 關(guān)鍵詞搜索技術(shù)介紹 245
7.2 語音檢索 247
7.3 語音喚醒 263
……