注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡軟件與程序設計強化學習:原理與Python實現(xiàn)

強化學習:原理與Python實現(xiàn)

強化學習:原理與Python實現(xiàn)

定 價:¥89.00

作 者: 肖智清 著
出版社: 機械工業(yè)出版社
叢編項: 智能系統(tǒng)與技術叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111631774 出版時間: 2019-07-01 包裝: 平裝
開本: 16開 頁數(shù): 239 字數(shù):  

內容簡介

  全書分為三個部分。第壹部分了解強化學習應用,了解強化學習基本知識,搭建強化學習測試環(huán)境。該部分包括:強化學習的概況、強化學習簡單示例、強化學習算法的常見思想、強化學習的應用、強化學習測試環(huán)境的搭建。第二部分介紹強化學習理論與深度強化學習算法。強化學習理論部分:Markov決策過程的數(shù)學描述、Monte Carlo方法和時序差分方法的數(shù)學理論;深度強化學習算法部分:詳細剖析全部具有重要影響力的深度強化學習算法,結合TensorFlow實現(xiàn)源碼。第三部分介紹強化學習綜合應用案例。

作者簡介

  肖智清強化學習一線研發(fā)人員,清華大學工學博士,現(xiàn)就職于全球知名投資銀行。擅長概率統(tǒng)計和機器學習,近5年發(fā)表SCI/EI論文十余篇,是多個國際性知名期刊和會議審稿人。在國內外多項程序設計和數(shù)據科學競賽上獲得冠軍。

圖書目錄

前言
第1章 初識強化學習 1
1.1 強化學習及其關鍵元素 1
1.2 強化學習的應用 3
1.3 智能體/環(huán)境接口 4
1.4 強化學習的分類 6
1.4.1 按任務分類 6
1.4.2 按算法分類 7
1.5 如何學習強化學習 8
1.5.1 學習路線 9
1.5.2 學習資源 9
1.6 案例:基于Gym庫的智能體/環(huán)境交互 9
1.6.1 安裝Gym庫 10
1.6.2 使用Gym庫 10
1.6.3 小車上山 12
1.7 本章小結 14
第2章 Markov決策過程 16
2.1 Markov決策過程模型 16
2.1.1 離散時間Markov決策過程 16
2.1.2 環(huán)境與動力 18
2.1.3 智能體與策略 19
2.1.4 獎勵、回報與價值函數(shù) 19
2.2 Bellman期望方程 21
2.3 最優(yōu)策略及其性質 25
2.3.1 最優(yōu)策略與最優(yōu)價值函數(shù) 25
2.3.2 Bellman最優(yōu)方程 25
2.3.3 用Bellman最優(yōu)方程求解最優(yōu)策略 29
2.4 案例:懸崖尋路 31
2.4.1 實驗環(huán)境使用 31
2.4.2 求解Bellman期望方程 32
2.4.3 求解Bellman最優(yōu)方程 33
2.5 本章小結 35
第3章 有模型數(shù)值迭代 37
3.1 度量空間與壓縮映射 37
3.1.1 度量空間及其完備性 37
3.1.2 壓縮映射與Bellman算子 38
3.1.3 Banach不動點定理 39
3.2 有模型策略迭代 40
3.2.1 策略評估 40
3.2.2 策略改進 42
3.2.3 策略迭代 44
3.3 有模型價值迭代 45
3.4 動態(tài)規(guī)劃 46
3.4.1 從動態(tài)規(guī)劃看迭代算法 46
3.4.2 異步動態(tài)規(guī)劃 47
3.5 案例:冰面滑行 47
3.5.1 實驗環(huán)境使用 48
3.5.2 有模型策略迭代求解 49
3.5.3 有模型價值迭代求解 51
3.6 本章小結 52
第4章 回合更新價值迭代 54
4.1 同策回合更新 54
4.1.1 同策回合更新策略評估 54
4.1.2 帶起始探索的同策回合更新 58
4.1.3 基于柔性策略的同策回合更新 60
4.2 異策回合更新 62
4.2.1 重要性采樣 62
4.2.2 異策回合更新策略評估 64
4.2.3 異策回合更新最優(yōu)策略求解 65
4.3 案例:21點游戲 66
4.3.1 實驗環(huán)境使用 66
4.3.2 同策策略評估 67
4.3.3 同策最優(yōu)策略求解 70
4.3.4 異策策略評估 72
4.3.5 異策最優(yōu)策略求解 73
4.4 本章小結 74
第5章 時序差分價值迭代 76
5.1 同策時序差分更新 76
5.1.1 時序差分更新策略評估 78
5.1.2 SARSA算法 81
5.1.3 期望SARSA算法 83
5.2 異策時序差分更新 85
5.2.1 基于重要性采樣的異策算法 85
5.2.2 Q學習 86
5.2.3 雙重Q學習 87
5.3 資格跡 89
5.3.1 λ回報 89
5.3.2 TD(λ) 90
5.4 案例:出租車調度 92
5.4.1 實驗環(huán)境使用 93
5.4.2 同策時序差分學習調度 94
5.4.3 異策時序差分學習調度 97
5.4.4 資格跡學習調度 99
5.5 本章小結 100
第6章 函數(shù)近似方法 101
6.1 函數(shù)近似原理 101
6.1.1 隨機梯度下降 101
6.1.2 半梯度下降 103
6.1.3 帶資格跡的半梯度下降 105
6.2 線性近似 107
6.2.1 精確查找表與線性近似的關系 107
6.2.2 線性最小二乘策略評估 107
6.2.3 線性最小二乘最優(yōu)策略求解 109
6.3 函數(shù)近似的收斂性 109
6.4 深度Q學習 110
6.4.1 經驗回放 111
6.4.2 帶目標網絡的深度Q學習 112
6.4.3 雙重深度Q網絡 114
6.4.4 對偶深度Q網絡 114
6.5 案例:小車上山 115
6.5.1 實驗環(huán)境使用 116
6.5.2 用線性近似求解最優(yōu)策略 117
6.5.3 用深度Q學習求解最優(yōu)策略 120
6.6 本章小結 123
第7章 回合更新策略梯度方法 125
7.1 策略梯度算法的原理 125
7.1.1 函數(shù)近似與動作偏好 125
7.1.2 策略梯度定理 126
7.2 同策回合更新策略梯度算法 128
7.2.1 簡單的策略梯度算法 128
7.2.2 帶基線的簡單策略梯度算法 129
7.3 異策回合更新策略梯度算法 131
7.4 策略梯度更新和極大似然估計的關系 132
7.5 案例:車桿平衡 132
7.5.1 同策策略梯度算法求解最優(yōu)策略 133
7.5.2 異策策略梯度算法求解最優(yōu)策略 135
7.6 本章小結 137
第8章 執(zhí)行者/評論者方法 139
8.1 同策執(zhí)行者/評論者算法 139
8.1.1 動作價值執(zhí)行者/評論者算法 140
8.1.2 優(yōu)勢執(zhí)行者/評論者算法 141
8.1.3 帶資格跡的執(zhí)行者/評論者算法 143
8.2 基于代理優(yōu)勢的同策算法 143
8.2.1 代理優(yōu)勢 144
8.2.2 鄰近策略優(yōu)化 145
8.3 信任域算法 146
8.3.1 KL散度 146
8.3.2 信任域 147
8.3.3 自然策略梯度算法 148
8.3.4 信任域策略優(yōu)化 151
8.3.5 Kronecker因子信任域執(zhí)行者/評論者算法 152
8.4 重要性采樣異策執(zhí)行者/評論者算法 153
8.4.1 基本的異策算法 154
8.4.2 帶經驗回放的異策算法 154
8.5 柔性執(zhí)行者/評論者算法 157
8.5.1 熵 157
8.5.2 獎勵工程和帶熵的獎勵 158
8.5.3 柔性執(zhí)行者/評論者的網絡設計 159
8.6 案例:雙節(jié)倒立擺 161
8.6.1 同策執(zhí)行者/評論者算法求解最優(yōu)策略 162
8.6.2 異策執(zhí)行者/評論者算法求解最優(yōu)策略 168
8.7 本章小結 170
第9章 連續(xù)動作空間的確定性策略 172
9.1 同策確定性算法 172
9.

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號