注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)圖形圖像、多媒體、網(wǎng)頁(yè)制作AI數(shù)字人原理與實(shí)現(xiàn)

AI數(shù)字人原理與實(shí)現(xiàn)

AI數(shù)字人原理與實(shí)現(xiàn)

定 價(jià):¥89.80

作 者: 方進(jìn)
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787115642851 出版時(shí)間: 2024-12-01 包裝: 平裝-膠訂
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)是一部系統(tǒng)介紹 AI 數(shù)字人技術(shù)的專業(yè)著作,涵蓋了數(shù)字人的定義、發(fā)展歷程、關(guān)鍵技術(shù)及應(yīng)用實(shí)踐等內(nèi)容,全書(shū)共分 3 部分。在技術(shù)基礎(chǔ)部分,首先介紹了數(shù)字人的定義、發(fā)展歷程、分類和應(yīng)用場(chǎng)景,接著詳細(xì)解析了數(shù)字人系統(tǒng)的架構(gòu)設(shè)計(jì)、視覺(jué)算法和語(yǔ)音合成技術(shù)的原理,以及語(yǔ)義理解和知識(shí)表示技術(shù)如何提升數(shù)字人的智能和表現(xiàn)力。在應(yīng)用實(shí)踐部分,帶領(lǐng)讀者深入探索數(shù)字人的創(chuàng)作流程,從內(nèi)容策劃、角色建模到交互設(shè)計(jì),每一步都進(jìn)行了詳細(xì)講解。此外,還討論了數(shù)字人的身份認(rèn)知和技術(shù)規(guī)范,為數(shù)字人的應(yīng)用實(shí)踐提供了必要的知識(shí)。在展望未來(lái)部分,探討了數(shù)字人技術(shù)的未來(lái)發(fā)展趨勢(shì),為讀者描繪了數(shù)字人與人類和諧共生的美好藍(lán)圖。本書(shū)內(nèi)容豐富,結(jié)構(gòu)清晰,適合對(duì)數(shù)字人技術(shù)感興趣的讀者,包括數(shù)字人技術(shù)的研究者、開(kāi)發(fā)者、相關(guān)行業(yè)的從業(yè)人員及愛(ài)好者等閱讀。

作者簡(jiǎn)介

  方進(jìn) 資深軟件架構(gòu)師,長(zhǎng)期深耕于前沿技術(shù)領(lǐng)域,曾在多家知名企業(yè)成功推動(dòng)機(jī)器學(xué)習(xí)平臺(tái)建設(shè),領(lǐng)導(dǎo)模型創(chuàng)新工作。在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)和語(yǔ)音合成等領(lǐng)域積累了豐富的算法研發(fā)經(jīng)驗(yàn),并對(duì)生成式AI技術(shù)及預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行了深入研究。密切關(guān)注數(shù)字人行業(yè),通過(guò)開(kāi)源項(xiàng)目和學(xué)術(shù)研究,不斷提升自己的數(shù)字人系統(tǒng)構(gòu)建技能;精通SD圖生成、VITS語(yǔ)音合成等技術(shù),實(shí)現(xiàn)了數(shù)字人在形象、語(yǔ)音和情感等方面的創(chuàng)新創(chuàng)作。

圖書(shū)目錄

技術(shù)基礎(chǔ)
第 1 章 數(shù)字人概述 3
1.1 什么是數(shù)字人 3
1.1.1 數(shù)字人的定義 4
1.1.2 數(shù)字人的特征 4
1.2 數(shù)字人的發(fā)展歷史 5
1.2.1 早期虛擬角色 5
1.2.2 人工智能與數(shù)字人的融合 5
1.3 數(shù)字人的分類 5
1.3.1 根據(jù)外觀分類 6
1.3.2 根據(jù)用途分類 6
1.3.3 根據(jù)智能級(jí)別分類 7
1.4 數(shù)字人的應(yīng)用場(chǎng)景 7
1.4.1 娛樂(lè)場(chǎng)景 7
1.4.2 教育場(chǎng)景 8
1.4.3 客服場(chǎng)景 9
1.5 數(shù)字人技術(shù)的發(fā)展趨勢(shì) 9
1.6 數(shù)字人的社會(huì)影響 10
1.7 本章小結(jié) 11
第 2 章 數(shù)字人系統(tǒng)的架構(gòu) 12
2.1 系統(tǒng)的組成模塊 12
2.1.1 輸入模塊 13
2.1.2 內(nèi)容生成模塊 16
2.1.3 渲染模塊 19
2.1.4 交互模塊 22
2.2 多模態(tài)信息融合流程 25
2.2.1 文本生成 25
2.2.2 語(yǔ)音合成 26
2.2.3 表情映射 28
2.2.4 唇型同步 29
2.3 數(shù)字人云服務(wù)架構(gòu) 30
2.3.1 云平臺(tái)選型 31
2.3.2 模型倉(cāng)庫(kù) 32
2.3.3 多模態(tài)處理 33
2.3.4 在線服務(wù) 34
2.4 數(shù)字人的數(shù)據(jù)表示 35
2.4.1 文本數(shù)據(jù)表示 36
2.4.2 音頻數(shù)據(jù)表示 37
2.4.3 視頻數(shù)據(jù)表示 38
2.4.4 多模態(tài)數(shù)據(jù)表示 38
2.5 本章小結(jié) 39
第 3 章 數(shù)字人視覺(jué)算法 41
3.1 3D 人臉建模 42
3.1.1 建模流程 42
3.1.2 參數(shù)調(diào)整 45
3.1.3 3D 人臉重建技術(shù) 47
3.1.4 建模軟件比較 51
3.2 表情分析 54
3.2.1 表情識(shí)別 54
3.2.2 表情生成 62
3.2.3 表情跟蹤 69
3.2.4 表情融合 74
3.3 姿態(tài)估計(jì) 81
3.3.1 2D 姿態(tài)估計(jì) 81
3.3.2 3D 姿態(tài)估計(jì) 87
3.3.3 手勢(shì)估計(jì) 92
3.3.4 手勢(shì)生成 96
3.4 唇形檢測(cè)和口型匹配 99
3.4.1 2D 唇型檢測(cè) 99
3.4.2 2D 口型匹配 105
3.4.3 3D 唇型檢測(cè) 109
3.4.4 3D 口型匹配 115
3.4.5 唇型同步評(píng)價(jià) 119
3.5 本章小結(jié) 125
第 4 章 數(shù)字人語(yǔ)音合成 126
4.1 語(yǔ)音數(shù)字化原理 127
4.1.1 音頻采樣 127
4.1.2 語(yǔ)音編碼 130
4.2 基于拼接的語(yǔ)音合成 137
4.2.1 段音拼接 137
4.2.2 語(yǔ)音跨段平滑 141
4.3 基于深度學(xué)習(xí)的語(yǔ)音合成 144
4.3.1 LSTM 在語(yǔ)音合成中的應(yīng)用 145
4.3.2 基于注意力機(jī)制的 Tacotron 模型 147
4.3.3 Tacotron2 與 WaveNet 集成 151
4.3.4 基于 Transformer 的語(yǔ)音合成 154
4.3.5 基于非自回歸結(jié)構(gòu)的實(shí)時(shí)語(yǔ)音合成 155
4.4 語(yǔ)音風(fēng)格遷移 158
4.4.1 聲紋提取 159
4.4.2 風(fēng)格轉(zhuǎn)換 159
4.5 個(gè)性化語(yǔ)音合成 162
4.6 語(yǔ)音風(fēng)格增強(qiáng) 164
4.7 多語(yǔ)種語(yǔ)音合成 165
4.7.1 多語(yǔ)言模型訓(xùn)練 165
4.7.2 語(yǔ)言嵌入 166
4.7.3 語(yǔ)言自適應(yīng)模型 167
4.7.4 語(yǔ)音后處理 168
4.8 本章小結(jié) 169
第 5 章 數(shù)字人語(yǔ)義理解 171
5.1 語(yǔ)義解析 172
5.1.1 詞法分析 172
5.1.2 句法分析 175
5.1.3 語(yǔ)義分析 179
5.2 情感分析 183
5.2.1 情感識(shí)別 184
5.2.2 情感分類 188
5.3 語(yǔ)義編碼器 - 解碼器 191
5.3.1 編碼器架構(gòu) 191
5.3.2 解碼器架構(gòu) 195
5.3.3 注意力機(jī)制 197
5.3.4 應(yīng)用場(chǎng)景 200
5.4 本章小結(jié) 203
第 6 章 數(shù)字人知識(shí)表示 204
6.1 知識(shí)表示基礎(chǔ) 205
6.1.1 符號(hào)主義知識(shí)表示 205
6.1.2 連接主義知識(shí)表示 210
4.4 語(yǔ)音風(fēng)格遷移 158
4.4.1 聲紋提取 159
4.4.2 風(fēng)格轉(zhuǎn)換 159
4.5 個(gè)性化語(yǔ)音合成 162
4.6 語(yǔ)音風(fēng)格增強(qiáng) 164
4.7 多語(yǔ)種語(yǔ)音合成 165
4.7.1 多語(yǔ)言模型訓(xùn)練 165
4.7.2 語(yǔ)言嵌入 166
4.7.3 語(yǔ)言自適應(yīng)模型 167
4.7.4 語(yǔ)音后處理 168
4.8 本章小結(jié) 169
第 5 章 數(shù)字人語(yǔ)義理解 171
5.1 語(yǔ)義解析 172
5.1.1 詞法分析 172
5.1.2 句法分析 175
5.1.3 語(yǔ)義分析 179
5.2 情感分析 183
5.2.1 情感識(shí)別 184
5.2.2 情感分類 188
5.3 語(yǔ)義編碼器 - 解碼器 191
5.3.1 編碼器架構(gòu) 191
5.3.2 解碼器架構(gòu) 195
5.3.3 注意力機(jī)制 197
5.3.4 應(yīng)用場(chǎng)景 200
5.4 本章小結(jié) 203
第 6 章 數(shù)字人知識(shí)表示 204
6.1 知識(shí)表示基礎(chǔ) 205
6.1.1 符號(hào)主義知識(shí)表示 205
6.1.2 連接主義知識(shí)表示 210
7.4.4 數(shù)字人表情及動(dòng)作生成實(shí)例 265
7.5 語(yǔ)音及視頻合成 266
7.5.1 語(yǔ)音驅(qū)動(dòng)的唇型動(dòng)畫(huà) 266
7.5.2 體積感渲染 267
7.5.3 數(shù)字人語(yǔ)音及視頻合成實(shí)例 268
7.6 內(nèi)容編輯和后期制作 268
7.6.1 視頻編輯 269
7.6.2 后期特效制作 270
7.6.3 渲染與輸出 270
7.6.4 數(shù)字人后期編輯與渲染實(shí)例 271
7.7 交互設(shè)計(jì)與內(nèi)容運(yùn)營(yíng) 272
7.7.1 交互設(shè)計(jì) 273
7.7.2 內(nèi)容運(yùn)營(yíng)策略 275
7.7.3 數(shù)字人交互設(shè)計(jì)與內(nèi)容運(yùn)營(yíng)
實(shí)例 278
7.8 本章小結(jié) 279
第 8 章 數(shù)字人身份認(rèn)知 280
8.1 數(shù)字人的身份定位 280
8.1.1 個(gè)體或工具 280
8.1.2 數(shù)字人的角色定位 281
8.2 數(shù)字人的權(quán)利保障 283
8.2.1 知識(shí)產(chǎn)權(quán) 283
8.2.2 隱私權(quán) 285
8.3 數(shù)字人的成長(zhǎng)與沒(méi)落 286
8.3.1 持續(xù)學(xué)習(xí) 287
8.3.2 版本迭代 288
8.4 數(shù)字人的倫理問(wèn)題 290
8.4.1 摒棄偏見(jiàn)和歧視 290
8.4.2 透明可解釋性 292
8.4.3 尊重多樣性 293
8.5 本章小結(jié) 295
第 9 章 數(shù)字人技術(shù)規(guī)范 296
9.1 數(shù)字人信息安全規(guī)范 296
9.1.1 數(shù)據(jù)隔離規(guī)范 297
9.1.2 訪問(wèn)控制規(guī)范 298
9.2 數(shù)字人內(nèi)容審核規(guī)范 300
9.2.1 內(nèi)容審核方式 300
9.2.2 違規(guī)處理機(jī)制 302
9.3 數(shù)字人應(yīng)用管理規(guī)范 303
9.3.1 應(yīng)用接入管理 303
9.3.2 應(yīng)用監(jiān)測(cè)與審計(jì) 305
9.4 本章小結(jié) 308
展望未來(lái)
第 10 章 人機(jī)共生 311
10.1 人機(jī)共生的美好時(shí)代 311
10.1.1 人機(jī)共生的定義與理念 312
10.1.2 人機(jī)共生時(shí)代的社會(huì)生態(tài) 312
10.2 數(shù)字人與人類的深度互動(dòng) 313
10.2.1 互動(dòng)模式的多樣性 313
10.2.2 數(shù)字人與人類文化的交融 314
10.3 社區(qū)共建 315
10.3.1 數(shù)字人與人類社區(qū)的融合 315
10.3.2 共同學(xué)習(xí)的平臺(tái)與機(jī)制 316
10.3.3 社區(qū)共建與數(shù)字人技術(shù)的創(chuàng)新 316
10.4 本章小結(jié) 317

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)