注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能深度強(qiáng)化學(xué)習(xí)落地指南

深度強(qiáng)化學(xué)習(xí)落地指南

深度強(qiáng)化學(xué)習(xí)落地指南

定 價(jià):¥109.00

作 者: 魏寧 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787121416446 出版時(shí)間: 2021-08-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 202 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)從工業(yè)界一線算法工作者的視角,對(duì)深度強(qiáng)化學(xué)習(xí)落地實(shí)踐中的工程經(jīng)驗(yàn)和相關(guān)方法論做出了深度思考和系統(tǒng)歸納。本書(shū)跳出了原理介紹加應(yīng)用案例的傳統(tǒng)敘述模式,轉(zhuǎn)而在橫向上對(duì)深度強(qiáng)化學(xué)習(xí)落地過(guò)程中的核心環(huán)節(jié)進(jìn)行了完整復(fù)盤(pán)。主要內(nèi)容包括需求分析和算法選擇的方法,動(dòng)作空間、狀態(tài)空間和回報(bào)函數(shù)設(shè)計(jì)的理念,訓(xùn)練調(diào)試和性能沖刺的技巧等。本書(shū)既是前人智慧與作者個(gè)人經(jīng)驗(yàn)的交叉印證和精心整合,又構(gòu)成了從理論到實(shí)踐再到統(tǒng)一方法論的認(rèn)知閉環(huán),與市面上側(cè)重于算法原理和代碼實(shí)現(xiàn)的強(qiáng)化學(xué)習(xí)書(shū)籍形成了完美互補(bǔ)。

作者簡(jiǎn)介

  魏 寧本科和碩士分別畢業(yè)于西安交通大學(xué)和中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)專業(yè),在國(guó)際頂級(jí)會(huì)議和期刊上發(fā)表多篇學(xué)術(shù)論文,曾就職于德國(guó)KUKA Robotics從事協(xié)作機(jī)器人智能應(yīng)用研發(fā)工作,目前在海康威視研究院任算法專家,負(fù)責(zé)深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等領(lǐng)域的創(chuàng)新研究和落地應(yīng)用,同時(shí)也是互聯(lián)網(wǎng)社區(qū)“深度強(qiáng)化學(xué)習(xí)實(shí)驗(yàn)室”核心成員。

圖書(shū)目錄

第1章 需求分析\t1
1.1 需求分析:勿做DRL鐵錘人\t1
1.2 一問(wèn)“是不是”\t2
1.2.1 Agent和環(huán)境定義\t2
1.2.2 馬爾可夫決策過(guò)程和強(qiáng)化學(xué)習(xí)\t3
1.3 二問(wèn)“值不值”\t5
1.3.1 試試規(guī)則和啟發(fā)式搜索\t5
1.3.2 別忘了傳統(tǒng)強(qiáng)化學(xué)習(xí)\t7
1.3.3 使用DRL的理由\t7
1.4 三問(wèn)“能不能”\t9
1.4.1 場(chǎng)景固定:兩個(gè)分布一致\t9
1.4.2 數(shù)據(jù)廉價(jià):多、快、好、費(fèi)\t13
1.5 四問(wèn)“邊界在哪里”\t16
1.6 本章小結(jié)\t18
參考文獻(xiàn)\t19
第2章 動(dòng)作空間設(shè)計(jì)\t23
2.1 動(dòng)作空間設(shè)計(jì):這里大有可為\t23
2.1.1 被忽視的價(jià)值\t23
2.1.2 動(dòng)作空間的常見(jiàn)類型\t24
2.1.3 動(dòng)作空間設(shè)計(jì)的基本原則\t26
2.2 動(dòng)作空間的完備性\t26
2.2.1 功能完備\t27
2.2.2 時(shí)效完備\t29
2.3 動(dòng)作空間的高效性\t30
2.3.1 化整為零:以精度換效率\t31
2.3.2 有機(jī)組合:尺度很重要\t33
2.4 動(dòng)作空間的合法性\t35
2.4.1 非法動(dòng)作屏蔽機(jī)制\t36
2.4.2 Agent的知情權(quán)\t37
2.5 本章小結(jié)\t39
參考文獻(xiàn)\t40
第3章 狀態(tài)空間設(shè)計(jì)\t43
3.1 狀態(tài)空間設(shè)計(jì):特征工程的誘惑\t43
3.2 狀態(tài)空間設(shè)計(jì)的兩種常見(jiàn)誤區(qū)\t44
3.2.1 過(guò)分依賴端到端特征學(xué)習(xí)\t44
3.2.2 極致特征工程\t44
3.3 與動(dòng)作空間和回報(bào)函數(shù)的協(xié)同設(shè)計(jì)\t45
3.3.1 與動(dòng)作空間尺度一致\t45
3.3.2 以回報(bào)函數(shù)為中心\t46
3.4 狀態(tài)空間設(shè)計(jì)的四個(gè)步驟\t47
3.4.1 任務(wù)分析\t47
3.4.2 相關(guān)信息篩選\t49
3.4.3 泛化性考量\t53
3.4.4 效果驗(yàn)證\t58
3.5 本章小結(jié)\t61
參考文獻(xiàn)\t62
第4章 回報(bào)函數(shù)設(shè)計(jì)\t64
4.1 回報(bào)函數(shù)設(shè)計(jì):面向強(qiáng)化學(xué)習(xí)的編程\t64
4.2 稀疏回報(bào)問(wèn)題\t65
4.2.1 孤獨(dú)無(wú)援的主線回報(bào)\t65
4.2.2 稀疏回報(bào)問(wèn)題的本質(zhì)\t66
4.3 輔助回報(bào)\t67
4.3.1 子目標(biāo)回報(bào)\t67
4.3.2 塑形回報(bào)\t70
4.3.3 內(nèi)驅(qū)回報(bào)\t76
4.3.4 回報(bào)取值的注意事項(xiàng)\t77
4.4 回報(bào)函數(shù)設(shè)計(jì)的常見(jiàn)陷阱\t78
4.4.1 魯莽\t79
4.4.2 貪婪\t80
4.4.3 懦弱\t82
4.5 最優(yōu)回報(bào)問(wèn)題\t83
4.6 基于學(xué)習(xí)的回報(bào)函數(shù)\t84
4.6.1 經(jīng)典方法\t84
4.6.2 前沿方法\t85
4.7 本章小結(jié)\t87
參考文獻(xiàn)\t88
第5章 算法選擇\t92
5.1 算法選擇:拿來(lái)主義和改良主義\t92
5.1.1 DRL算法的發(fā)展脈絡(luò)\t92
5.1.2 一篩、二比、三改良\t94
5.1.3 從獨(dú)當(dāng)一面到眾星捧月\t96
5.2 牢記經(jīng)典勿忘本\t97
5.2.1 DQN\t98
5.2.2 DDPG\t99
5.2.3 A3C\t102
5.3 關(guān)注SOTA算法別留戀\t105
5.3.1 TD3\t105
5.3.2 SAC\t107
5.3.3 PPO\t110
5.4 其他算法\t112
5.5 本章小結(jié)\t113
參考文獻(xiàn)\t113
第6章 訓(xùn)練調(diào)試\t119
6.1 訓(xùn)練調(diào)試:此事要躬行\(zhòng)t119
6.2 訓(xùn)練前的準(zhǔn)備工作\t120
6.2.1 制定訓(xùn)練方案\t120
6.2.2 選擇網(wǎng)絡(luò)結(jié)構(gòu)\t124
6.2.3 隨機(jī)漫步\t128
6.2.4 數(shù)據(jù)預(yù)處理\t129
6.3 訓(xùn)練進(jìn)行時(shí)\t131
6.3.1 反脆弱:擁抱不確定性\t131
6.3.2 調(diào)節(jié)超參數(shù)\t134
6.3.3 監(jiān)控訓(xùn)練狀態(tài)\t143
6.4 給初學(xué)者的建議\t146
6.5 本章小結(jié)\t148
參考文獻(xiàn)\t149
第7章 性能沖刺\t154
7.1 性能沖刺:為DRL注入強(qiáng)心劑\t154
7.2 課程學(xué)習(xí)\t155
7.2.1 源任務(wù)及其分類\t155
7.2.2 應(yīng)用方式\t157
7.3 額外監(jiān)督信號(hào)\t162
7.3.1 有監(jiān)督預(yù)訓(xùn)練\t163
7.3.2 輔助任務(wù)\t164
7.4 進(jìn)化策略\t169
7.4.1 基本原理\t169
7.4.2 關(guān)鍵細(xì)節(jié)\t170
7.4.3 應(yīng)用方式\t174
7.5 本章小結(jié)\t175
參考文獻(xiàn)\t176

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)