注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)工業(yè)技術(shù)一般工業(yè)技術(shù)多模態(tài)深度學(xué)習(xí)技術(shù)基礎(chǔ)

多模態(tài)深度學(xué)習(xí)技術(shù)基礎(chǔ)

多模態(tài)深度學(xué)習(xí)技術(shù)基礎(chǔ)

定 價(jià):¥99.00

作 者: 馮方向,王小捷
出版社: 清華大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787302637479 出版時(shí)間: 2023-09-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 241 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  深度學(xué)習(xí)技術(shù)的引入使得多模態(tài)信息處理領(lǐng)域取得了巨大的突破。本書(shū)在介紹多模態(tài)信息處理的基礎(chǔ)概念和典型任務(wù)的基礎(chǔ)上,重點(diǎn)介紹 通用、 基礎(chǔ)的基于深度學(xué)習(xí)的多模態(tài)信息處理技術(shù)。本書(shū)內(nèi)容包括初識(shí)多模態(tài)信息處理、單模態(tài)深度學(xué)習(xí)表示技術(shù)、多模態(tài)深度學(xué)習(xí)基礎(chǔ)技術(shù)、多模態(tài)預(yù)訓(xùn)練技術(shù)4部分:初識(shí)多模態(tài)信息處理部分介紹多模態(tài)信息處理的基礎(chǔ)概念和典型任務(wù);單模態(tài)深度學(xué)習(xí)表示技術(shù)部分介紹多模態(tài)深度學(xué)習(xí)模型中常用的文本表示和圖像表示技術(shù);多模態(tài)深度學(xué)習(xí)基礎(chǔ)技術(shù)部分介紹多模態(tài)表示、對(duì)齊、融合和轉(zhuǎn)換這4種技術(shù);多模態(tài)預(yù)訓(xùn)練技術(shù)部分介紹多模態(tài)預(yù)訓(xùn)練技術(shù)。此外,為了讓讀者 好地理解理論的細(xì)節(jié)并實(shí)踐這些多模態(tài)深度學(xué)習(xí)技術(shù),本書(shū)提供了4個(gè)可運(yùn)行的完整的實(shí)戰(zhàn)案例,分別對(duì)應(yīng)多模態(tài)表示、對(duì)齊、融合和轉(zhuǎn)換這4種技術(shù)。本書(shū)既可作為多模態(tài)信息處理、多模態(tài)深度學(xué)習(xí)等相關(guān)課程的教學(xué)參考書(shū),適用于高等院校智能科學(xué)與技術(shù)和人工智能等專業(yè)的本科生、研究生,同時(shí)可供為對(duì)多模態(tài)深度學(xué)習(xí)技術(shù)感興趣的工程師和研究人員參考。

作者簡(jiǎn)介

暫缺《多模態(tài)深度學(xué)習(xí)技術(shù)基礎(chǔ)》作者簡(jiǎn)介

圖書(shū)目錄

第1章 緒論
1.1 多模態(tài)信息處理的概念
1.2 多模態(tài)信息處理的難點(diǎn)
1.3 使用深度學(xué)習(xí)技術(shù)的動(dòng)機(jī)
1.4 多模態(tài)信息處理的基礎(chǔ)技術(shù)
1.4.1 表示技術(shù)
1.4.2 對(duì)齊技術(shù)
1.4.3 融合技術(shù)
1.4.4 轉(zhuǎn)換技術(shù)
1.5 多模態(tài)深度學(xué)習(xí)技術(shù)的發(fā)展歷史
1.6 小結(jié)
1.7 習(xí)題
第2章 多模態(tài)任務(wù)
2.1 圖文跨模態(tài)檢索
2.1.1 數(shù)據(jù)集
2.1.2 評(píng)測(cè)指標(biāo)
2.2 圖像描述
2.2.1 數(shù)據(jù)集
2.2.2 評(píng)測(cè)指標(biāo)
2.3 視覺(jué)問(wèn)答
2.3.1 數(shù)據(jù)集
2.3.2 評(píng)測(cè)指標(biāo)
2.4 文本生成圖像
2.4.1 數(shù)據(jù)集
2.4.2 評(píng)測(cè)指標(biāo)
2.5 指稱表達(dá)
2.5.1 數(shù)據(jù)集
2.5.2 評(píng)測(cè)指標(biāo)
2.6 小結(jié)
2.7 習(xí)題
第3章 文本表示
3.1 基于詞嵌入的靜態(tài)詞表示
3.1.1 Word2vec
3.1.2 GloVe
3.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)詞表示
3.2.1 循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
3.2.2 現(xiàn)代循環(huán)神經(jīng)網(wǎng)絡(luò)
3.2.3 動(dòng)態(tài)詞表示和整體表示
3.3 基于注意力的預(yù)訓(xùn)練語(yǔ)言模型表示
3.3.1 自注意力
3.3.2 transformer編碼器
3.3.3 BERT
3.3.4 BERT詞表示和整體表示
3.4 小結(jié)
3.5 習(xí)題
第4章 圖像表示
4.1 基于卷積神經(jīng)網(wǎng)絡(luò)的整體表示和網(wǎng)格表示
4.1.1 卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
4.1.2 現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)
4.1.3 整體表示和網(wǎng)格表示
4.2 基于目標(biāo)檢測(cè)模型的區(qū)域表示
4.2.1 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)基礎(chǔ)
4.2.2 區(qū)域表示
4.3 基于視覺(jué)transformer的整體表示和塊表示
4.3.1 使用自注意力代替卷積
4.3.2 視覺(jué)transformer
4.3.3 整體表示和塊表示
4.4 基于自編碼器的壓縮表示
4.4.1 量化自編碼器:VQ-VAE
4.4.2 量化生成對(duì)抗網(wǎng)絡(luò):VQGAN
4.4.3 變分生成對(duì)抗網(wǎng)絡(luò):KLGAN
4.4.4 壓縮表示
4.5 小結(jié)
4.6 習(xí)題
第5章 多模態(tài)表示
5.1 共享表示
5.1.1 多模態(tài)深度自編碼器
5.1.2 多模態(tài)深度生成模型
5.2 對(duì)應(yīng)表示
5.2.1 基于重構(gòu)損失的方法
5.2.2 基于排序損失的方法
5.2.3 基于對(duì)抗損失的方法
5.3 實(shí)戰(zhàn)案例:基于對(duì)應(yīng)表示的跨模態(tài)檢索
5.3.1 跨模態(tài)檢索技術(shù)簡(jiǎn)介
5.3.2 模型訓(xùn)練流程
5.3.3 讀取數(shù)據(jù)
5.3.4 定義模型
5.3.5 定義損失函數(shù)
5.3.6 選擇優(yōu)化方法
5.3.7 評(píng)估指標(biāo)
5.3.8 訓(xùn)練模型
5.4 小結(jié)
5.5 習(xí)題
第6章 多模態(tài)對(duì)齊
6.1 基于注意力的方法
6.1.1 交叉注意力
6.1.2 基于交叉注意力的圖文對(duì)齊和相關(guān)性計(jì)算
6.2 基于圖神經(jīng)網(wǎng)絡(luò)的方法
6.2.1 圖神經(jīng)網(wǎng)絡(luò)基礎(chǔ)
6.2.2 單模態(tài)表示提取
6.2.3 單模態(tài)圖表示學(xué)習(xí)
6.2.4 多模態(tài)圖對(duì)齊
6.3 實(shí)戰(zhàn)案例:基于交叉注意力的跨模態(tài)檢索
6.3.1 讀取數(shù)據(jù)
6.3.2 定義模型
6.3.3 定義損失函數(shù)
6.3.4 選擇優(yōu)化方法
6.3.5 評(píng)估指標(biāo)
6.3.6 訓(xùn)練模型
6.4 小結(jié)
6.5 習(xí)題
第7章 多模態(tài)融合
7.1 基于雙線性融合的方法
7.1.1 多模態(tài)低秩雙線性池化
7.1.2 多模態(tài)因子雙線性池化
7.1.3 多模態(tài)Tucker融合
7.2 基于注意力的方法
7.2.1 基于交叉注意力的基礎(chǔ)方法
7.2.2 基于多步交叉注意力的方法
7.2.3 基于交叉transformer編碼器的方法
7.3 實(shí)戰(zhàn)案例:基于MFB的視覺(jué)問(wèn)答
7.3.1 視覺(jué)問(wèn)答技術(shù)簡(jiǎn)介
7.3.2 讀取數(shù)據(jù)
7.3.3 定義模型
7.3.4 定義損失函數(shù)
7.3.5 選擇優(yōu)化方法
7.3.6 選擇評(píng)估指標(biāo)
7.3.7 訓(xùn)練模型
7.4 小結(jié)
7.5 習(xí)題
第8章 多模態(tài)轉(zhuǎn)換
8.1 基于編解碼框架的方法
8.1.1 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的編解碼模型
8.1.2 基于注意力的編解碼模型
8.1.3 基于transformer的編解碼模型
8.2 基于生成對(duì)抗網(wǎng)絡(luò)的方法
8.2.1 基于條件生成對(duì)抗網(wǎng)絡(luò)的基本方法
8.2.2 基于多階段生成網(wǎng)絡(luò)的方法
8.2.3 基于注意力生成網(wǎng)絡(luò)的方法
8.3 實(shí)戰(zhàn)案例:基于注意力的圖像描述
8.3.1 圖像描述技術(shù)簡(jiǎn)介
8.3.2 讀取數(shù)據(jù)
8.3.3 定義模型
8.3.4 定義損失函數(shù)
8.3.5 選擇優(yōu)化方法
8.3.6 選擇評(píng)估指標(biāo)
8.3.7 訓(xùn)練模型
8.4 小結(jié)
8.5 習(xí)題
第9章 多模態(tài)預(yù)訓(xùn)練
9.1 總體框架
9.2 預(yù)訓(xùn)練數(shù)據(jù)集
9.3 模型結(jié)構(gòu)
9.3.1 基于編碼器的模型
9.3.2 基于編解碼框架的模型
9.4 預(yù)訓(xùn)練任務(wù)
9.4.1 掩碼語(yǔ)言模型
9.4.2 掩碼視覺(jué)模型
9.4.3 圖像文本匹配
9.4.4 跨模態(tài)對(duì)比學(xué)習(xí)
9.5 下游任務(wù)
9.5.1 視覺(jué)常識(shí)推理
9.5.2 視覺(jué)語(yǔ)言推理
9.5.3 視覺(jué)蘊(yùn)含
9.6 典型模型
9.6.1 基于融合編碼器的雙流模型:LXMERT
9.6.2 基于融合編碼器的單流模型:V

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)