注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能解析深度學(xué)習(xí):語音識別實踐

解析深度學(xué)習(xí):語音識別實踐

解析深度學(xué)習(xí):語音識別實踐

定 價:¥79.00

作 者: 俞棟
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 計算機/網(wǎng)絡(luò) 計算機理論

ISBN: 9787121287961 出版時間: 2016-06-01 包裝: 平塑
開本: 頁數(shù): 336 字數(shù):  

內(nèi)容簡介

  本書是首部介紹語音識別中深度學(xué)習(xí)技術(shù)細節(jié)的專著。全書首先概要介紹了傳統(tǒng)語音識別理論和經(jīng)典的深度神經(jīng)網(wǎng)絡(luò)核心算法。接著全面而深入地介紹了深度學(xué)習(xí)在語音識別中的應(yīng)用,包括“深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫混合模型”的訓(xùn)練和優(yōu)化,特征表示學(xué)習(xí)、模型融合、自適應(yīng),以及以循環(huán)神經(jīng)網(wǎng)絡(luò)為代表的若干先進深度學(xué)習(xí)技術(shù)。本書適合有一定機器學(xué)習(xí)或語音識別基礎(chǔ)的學(xué)生、研究者或從業(yè)者閱讀,所有的算法及技術(shù)細節(jié)都提供了詳盡的參考文獻,給出了深度學(xué)習(xí)在語音識別中應(yīng)用的全景。

作者簡介

  俞棟博士和鄧力博士正是語音識別這一突破的最早也是最主要的推動者和實踐者。他們與 Geoffrey Hinton 合作,最早將深度學(xué)習(xí)引入語音識別并取得初步成功,后續(xù)又連續(xù)突破一系列技術(shù)瓶頸,在大尺度連續(xù)語音識別系統(tǒng)上取得了研究界和工業(yè)界廣泛認可的突破。在幾乎所有的語音識別應(yīng)用深度學(xué)習(xí)的核心領(lǐng)域上都有這兩位學(xué)者的影響。

圖書目錄

作者及譯者簡介  譯者序  序  前言  術(shù)語縮寫  符號  1簡介  1.1自動語音識別:更好的溝通之橋  1.1.1人類之間的交流  1.1.2人機交流  1.2語音識別系統(tǒng)的基本結(jié)構(gòu)  1.3全書結(jié)構(gòu)  1.3.1第一部分:傳統(tǒng)聲學(xué)模型  1.3.2第二部分:深度神經(jīng)網(wǎng)絡(luò)  1.3.3第三部分:語音識別中的DNN—HMM混合系統(tǒng)  1.3.4第四部分:深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí)  1.3.5第五部分:高級的深度模型  第一部分傳統(tǒng)聲學(xué)模型  2混合高斯模型  2.1隨機變量  2.2高斯分布和混合高斯隨機變量  2.3參數(shù)估計  2.4采用混合高斯分布對語音特征建模  3隱馬爾可夫模型及其變體  3.1介紹  3.2馬爾可夫鏈  3.3序列與模型  3.3.1隱馬爾可夫模型的性質(zhì)  3.3.2隱馬爾可夫模型的仿真  3.3.3隱馬爾可夫模型似然度的計算  3.3.4計算似然度的高效算法  3.3.5前向與后向遞歸式的證明  3.4期望最大化算法及其在學(xué)習(xí)HMM參數(shù)中的應(yīng)用  3.4.1期望最大化算法介紹  3.4.2使用EM算法來學(xué)習(xí)HMM參數(shù)—Baum—Welch算法  3.5用于解碼HMM狀態(tài)序列的維特比算法  3.5.1動態(tài)規(guī)劃和維特比算法  3.5.2用于解碼HMM狀態(tài)的動態(tài)規(guī)劃算法  3.6隱馬爾可夫模型和生成語音識別模型的變體  3.6.1用于語音識別的GMM—HMM模型  3.6.2基于軌跡和隱藏動態(tài)模型的語音建模和識別  3.6.3使用生成模型HMM及其變體解決語音識別問題  第二部分深度神經(jīng)網(wǎng)絡(luò)  4深度神經(jīng)網(wǎng)絡(luò)  4.1深度神經(jīng)網(wǎng)絡(luò)框架  4.2使用誤差反向傳播來進行參數(shù)訓(xùn)練  4.2.1訓(xùn)練準則  4.2.2訓(xùn)練算法  4.3實際應(yīng)用  4.3.1數(shù)據(jù)預(yù)處理  4.3.2模型初始化  4.3.3權(quán)重衰減  4.3.4丟棄法  4.3.5批量塊大小的選擇  4.3.6取樣隨機化  4.3.7慣性系數(shù)  4.3.8學(xué)習(xí)率和停止準則  4.3.9網(wǎng)絡(luò)結(jié)構(gòu)  4.3.10可復(fù)現(xiàn)性與可重啟性  5高級模型初始化技術(shù)  5.1受限玻爾茲曼機  5.1.1受限玻爾茲曼機的屬性  5.1.2受限玻爾茲曼機參數(shù)學(xué)習(xí)  5.2深度置信網(wǎng)絡(luò)預(yù)訓(xùn)練  5.3降噪自動編碼器預(yù)訓(xùn)練  5.4鑒別性預(yù)訓(xùn)練  5.5混合預(yù)訓(xùn)練  5.6采用丟棄手法的預(yù)訓(xùn)練  第三部分語音識別中的深度神經(jīng)網(wǎng)絡(luò)一隱馬爾可夫混合模型  6深度神經(jīng)網(wǎng)絡(luò)—隱馬爾可夫模型混合系統(tǒng)  6.1DNN—HMM混合系統(tǒng)  6.1.1結(jié)構(gòu)  6.1.2用CD—DNN—HMM解碼  6.1.3CD—DNN—HMM訓(xùn)練過程  6.1.4上下文窗口的影響  6.2CD—DNN—HMM的關(guān)鍵模塊及分析  6.2.1進行比較和分析的數(shù)據(jù)集和實驗  6.2.2對單音素或者三音素的狀態(tài)進行建模  6.2.3越深越好  6.2.4利用相鄰的語音幀  6.2.5預(yù)訓(xùn)練  6.2.6訓(xùn)練數(shù)據(jù)的標注質(zhì)量的影響  6.2.7調(diào)整轉(zhuǎn)移概率  6.3基于KL距離的隱馬爾可夫模型  7訓(xùn)練和解碼的加速  7.1訓(xùn)練加速  7.1.1使用多GPU流水線反向傳播  7.1.2異步隨機梯度下降  7.1.3增廣拉格朗日算法及乘子方向交替算法  7.1.4減小模型規(guī)模  7.1.5其他方法  7.2加速解碼  7.2.1并行計算  7.2.2稀疏網(wǎng)絡(luò)  7.2.3低秩近似  7.2.4用大尺寸DNN訓(xùn)練小尺寸DNN  7.2.5多幀DNN  8深度神經(jīng)網(wǎng)絡(luò)序列鑒別性訓(xùn)練  8.1序列鑒別性訓(xùn)練準則  8.1.1最大相互信息  8.1.2增強型MMI  8.1.3最小音素錯誤/狀態(tài)級最小貝葉斯風(fēng)險  8.1.4統(tǒng)一的公式  8.2具體實現(xiàn)中的考量  8.2.1詞圖產(chǎn)生  8.2.2詞圖補償  8.2.3幀平滑  8.2.4學(xué)習(xí)率調(diào)整  8.2.5訓(xùn)練準則選擇  8.2.6其他考量  8.3噪聲對比估計  8.3.1將概率密度估計問題轉(zhuǎn)換為二分類設(shè)計問題  8.3.2拓展到未歸一化的模型  8.3.3在深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練中應(yīng)用噪聲對比估計算法  第四部分深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí)  9深度神經(jīng)網(wǎng)絡(luò)中的特征表示學(xué)習(xí)  9.1特征和分類器的聯(lián)合學(xué)習(xí)  9.2特征層級  9.3使用隨意輸入特征的靈活性  9.4特征的魯棒性  9.4.1對說話人變化的魯棒性  9.4.2對環(huán)境變化的魯棒性  9.5對環(huán)境的魯棒性  9.5.1對噪聲的魯棒性  9.5.2對語速變化的魯棒性  9.6缺乏嚴重信號失真情況下的推廣能力  10深度神經(jīng)網(wǎng)絡(luò)和混合高斯模型的融合  10.1在GMM—HMM系統(tǒng)中使用由DNN衍生的特征  10.1.1使用Tandem和瓶頸特征的GMM—HMM模型  10.1.2DNN—HMM混合系統(tǒng)與采用深度特征的GMM—HMM系統(tǒng)的比較  10.2識別結(jié)果融合技術(shù)  10.2.1識別錯誤票選降低技術(shù)(ROVER)  10.2.2分段條件隨機場(SCARF)  10.2.3最小貝葉斯風(fēng)險詞圖融合  10.3幀級別的聲學(xué)分數(shù)融合  10.4多流語音識別  11深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)技術(shù)  11.1深度神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)問題  11.2線性變換  11.2.1線性輸入網(wǎng)絡(luò)  11.2.2線性輸出網(wǎng)絡(luò)  11.3線性隱層網(wǎng)絡(luò)  11.4保守訓(xùn)練  11.4.1L2正則項  11.4.2KL距離正則項  11.4.3減少每個說話人的模型開銷  11.5子空間方法  11.5.1通過主成分分析構(gòu)建子空間  11.5.2噪聲感知、說話人感知及設(shè)備感知訓(xùn)練  11.5.3張量  11.6DNN說話人自適應(yīng)的效果  11.6.1基于KL距離的正則化方法  11.6.2說話人感知訓(xùn)練  ……  第五部分先進的深度學(xué)習(xí)模型  參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號