注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡人工智能Kaldi 語音識別實戰(zhàn)

Kaldi 語音識別實戰(zhàn)

Kaldi 語音識別實戰(zhàn)

定 價:¥89.00

作 者: 陳果果 等 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121378744 出版時間: 2020-04-01 包裝: 平裝
開本: 16開 頁數(shù): 336 字數(shù):  

內(nèi)容簡介

  剛剛過去的十年是語音技術發(fā)展的黃金十年。2010 年前后,從谷歌公司發(fā)布第一個語音搜索應用、蘋果公司發(fā)布第一個語音助手 Siri 開始,語音技術的發(fā)展轉瞬進入了快車道。 語音技術的基礎算法不斷推陳出新,語音任務 Benchmark 持續(xù)被刷新;語音產(chǎn)品的應用也從一開始很小眾的語音輸入,逐漸滲透到人們生活的方方面面。 語音產(chǎn)業(yè)飛速發(fā)展,傳統(tǒng)的語音技術教材已經(jīng)滿足不了該領域從業(yè)者的迫切需求。本書以目前流行的開源語音識別工具 Kaldi 為切入點,深入淺出地講解了語音識別前沿的技術及它們的實踐應用。本書的作者們擁有深厚的學術積累及豐富的工業(yè)界實戰(zhàn)經(jīng)驗。 本書適合語音技術相關研究人員及互聯(lián)網(wǎng)從業(yè)人員學習參考。

作者簡介

  陳果果 清華大學本科學位,約翰霍普金斯大學博士學位,主要研究方向是語音識別及關鍵詞檢索,師從語音識別開源工具Kaldi主要開發(fā)者Daniel Povey,以及約翰霍普金斯大學語言語音處理中心教授Sanjeev Khudanpur。博士期間為Google開發(fā)了Google的喚醒詞Okay Google的原型,現(xiàn)在已經(jīng)用到數(shù)以億計的安卓設備及Google智能語音交互設備上。博士期間同時參與開發(fā)語音識別開源工具Kaldi,以及神經(jīng)網(wǎng)絡開源工具CNTK。博士畢業(yè)以后聯(lián)合創(chuàng)辦KITT.AI,專注于語音識別及自然語言處理,公司于2017年被百度收購,目前擔任百度智能生活事業(yè)群組(SLG)主任架構師。 都家宇 本科畢業(yè)于大連理工大學,后于澳大利亞新南威爾士大學電子信息工程學院學習,取得信號處理專業(yè)碩士學位。研究生期間在導師 Julien Epps 指導下開始進行語音處理、情緒識別方向的研究。畢業(yè)后先后任職于清華大學語音技術實驗室、百度語音技術部,以及阿里巴巴iDST、達摩院語音組,從事聲學模型、解碼器、語音喚醒等方面的研發(fā)工作。參與過與 Kaldi 相關的工作有:Kaldi nnet1神經(jīng)網(wǎng)絡框架中 lstm 作者;發(fā)起并推動全球大規(guī)模的中文開源數(shù)據(jù)集語音項目AISHELL-1、AISHELL-2,已服務于清華大學、北京大學、南洋理工大學、哥倫比亞大學等近200所國內(nèi)外高校的科研項目。 那興宇 本科和博士均畢業(yè)于北京理工大學,主要研究方向是語音識別和語音合成。先后任職于中國科學院聲學研究所和阿里巴巴機器人,從事語音識別模型訓練系統(tǒng)和語音交互系統(tǒng)的開發(fā)。目前就職于微軟,擔任資深應用科學家,從事語音識別算法和技術架構的開發(fā)及業(yè)務支持工作。2015年開始在Kaldi開源項目中貢獻代碼,參與了nnet3和chain模型的開發(fā)工作,并維護其中若干示例及OpenSLR的中文語音識別模型。 張俊博 博士畢業(yè)于中國科學院聲學研究所,師從顏永紅研究員。在小米公司從零起主導構建了整套語音算法研究框架,包括語音識別、智能設備語音喚醒、聲紋識別、語音增強、用于語音應用的神經(jīng)網(wǎng)絡部署,均達到了當時的先進水平,并發(fā)表頂會論文若干篇,為后續(xù)的語音研發(fā)工作建立了基礎。近期上線了用于外語學習的發(fā)音質(zhì)量評測引擎,并給Kaldi貢獻了發(fā)音良好度評分的代碼。

圖書目錄

1 語音識別技術基礎 1
1.1 語音識別極簡史 1
1.2 語音識別系統(tǒng)架構 6
1.3 一些其他細節(jié) 11
2 Kaldi概要介紹 15
2.1 發(fā)展歷史 15
2.2 設計思想 18
2.3 安裝 20
2.4 一個簡單的示例 26
2.5 示例介紹 34
3 數(shù)據(jù)整理 44
3.1 數(shù)據(jù)分集 44
3.2 數(shù)據(jù)預處理 49
3.3 輸入和輸出機制 56
3.4 常用數(shù)據(jù)表單與處理腳本 69
3.5 語言模型相關文件 79
4 經(jīng)典聲學建模技術 94
4.1 特征提取 95
4.2 單音子模型的訓練 107
4.3 三音子模型訓練 128
4.4 特征變換技術 139
4.5 區(qū)分性訓練 143
5 構圖和解碼 147
5.1 N元文法語言模型 148
5.2 加權有限狀態(tài)轉錄機 151
5.3 用WFST表示語言模型 156
5.4 狀態(tài)圖的構建 158
5.5 圖的結構優(yōu)化 170
5.6 最終狀態(tài)圖的生成 174
5.7 基于令牌傳遞的維特比搜索 176
5.8 SimpleDecoder源碼分析 178
5.9 Kaldi 解碼器家族 187
5.10 帶詞網(wǎng)格生成的解碼 189
5.11 用語言模型重打分提升識別率 192
6 深度學習聲學建模技術 195
6.1 基于神經(jīng)網(wǎng)絡的聲學模型 195
6.2 神經(jīng)網(wǎng)絡在Kaldi中的實現(xiàn) 200
6.3 神經(jīng)網(wǎng)絡模型訓練 214
6.4 神經(jīng)網(wǎng)絡的區(qū)分性訓練 228
6.5 與其他深度學習框架的結合 242
7 關鍵詞搜索與語音喚醒 245
7.1 關鍵詞搜索技術介紹 245
7.2 語音檢索 247
7.3 語音喚醒 263
……

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號