注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能強(qiáng)化學(xué)習(xí)(第2版)

強(qiáng)化學(xué)習(xí)(第2版)

強(qiáng)化學(xué)習(xí)(第2版)

定 價(jià):¥168.00

作 者: [加] RichardS.Sutton,(美)AndrewG.Barto 著
出版社: 電子工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787121295164 出版時(shí)間: 2019-09-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 548 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《強(qiáng)化學(xué)習(xí)(第2版)》作為強(qiáng)化學(xué)習(xí)思想的深度解剖之作,被業(yè)內(nèi)公認(rèn)為是一本強(qiáng)化學(xué)習(xí)基礎(chǔ)理論的經(jīng)典著作。它從強(qiáng)化學(xué)習(xí)的基本思想出發(fā),深入淺出又嚴(yán)謹(jǐn)細(xì)致地介紹了馬爾可夫決策過(guò)程、蒙特卡洛方法、時(shí)序差分方法、同軌離軌策略等強(qiáng)化學(xué)習(xí)的基本概念和方法,并以大量的實(shí)例幫助讀者理解強(qiáng)化學(xué)習(xí)的問(wèn)題建模過(guò)程以及核心的算法細(xì)節(jié)。 《強(qiáng)化學(xué)習(xí)(第2版)》適合所有對(duì)強(qiáng)化學(xué)習(xí)感興趣的讀者閱讀、收藏。

作者簡(jiǎn)介

  Richard Sutton(理查德?薩頓) 埃德蒙頓 DeepMind 公司的杰出科學(xué)家,阿爾伯塔大學(xué)計(jì)算科學(xué)系教授。他于2003年加入阿爾伯塔大學(xué),2017年加入DeepMind。之前,曾在美國(guó)電話電報(bào)公司(AT&T)和通用電話電子公司(GTE)實(shí)驗(yàn)室工作,在馬薩諸塞大學(xué)做學(xué)術(shù)研究。 1978年獲得斯坦福大學(xué)心理學(xué)學(xué)士學(xué)位,1984年獲得馬薩諸塞大學(xué)計(jì)算機(jī)科學(xué)博士學(xué)位,加拿大皇家學(xué)會(huì)院士和人工智能促進(jìn)會(huì)的會(huì)士。 主要研究興趣是在決策者與環(huán)境相互作用時(shí)所面臨的學(xué)習(xí)問(wèn)題,他認(rèn)為這是智能的核心問(wèn)題。其他研究興趣有:動(dòng)物學(xué)習(xí)心理學(xué)、聯(lián)結(jié)主義網(wǎng)絡(luò),以及能夠不斷學(xué)習(xí)和改進(jìn)環(huán)境表征和環(huán)境模型的系統(tǒng)。 他的科學(xué)出版物被引用超過(guò)7萬(wàn)次。 他也是一名自由主義者,國(guó)際象棋選手和癌癥幸存者。 Andrew Barto (安德魯?巴圖) 馬薩諸塞大學(xué)阿默斯特分校信息與計(jì)算機(jī)科學(xué)學(xué)院名譽(yù)教授。1970年獲得密歇根大學(xué)數(shù)學(xué)專業(yè)的杰出學(xué)士學(xué)位,并于1975年獲該校計(jì)算機(jī)科學(xué)專業(yè)的博士學(xué)位。1977年他加入馬薩諸塞州阿默斯特大學(xué)計(jì)算機(jī)科學(xué)系。在2012年退休之前,他帶領(lǐng)了馬薩諸塞大學(xué)的自主學(xué)習(xí)實(shí)驗(yàn)室,該實(shí)驗(yàn)室培養(yǎng)了許多著名的機(jī)器學(xué)習(xí)研究者。 目前擔(dān)任Neural Computation (《神經(jīng)計(jì)算》)期刊的副主編,Journal of Machine Learning Research (《機(jī)器學(xué)習(xí)研究》)期刊的顧問(wèn)委員會(huì)成員,以及Adaptive Behavior (《自適應(yīng)行為》)期刊的編委員會(huì)成員。 他是美國(guó)科學(xué)促進(jìn)會(huì)的會(huì)員,IEEE(國(guó)際電子電氣工程師協(xié)會(huì))的終身會(huì)士(Life Fellow),也是神經(jīng)科學(xué)學(xué)會(huì)的成員。 2004年,因強(qiáng)化學(xué)習(xí)領(lǐng)域的貢獻(xiàn)榮獲IEEE神經(jīng)網(wǎng)絡(luò)學(xué)會(huì)先鋒獎(jiǎng),并因在強(qiáng)化學(xué)習(xí)理論和應(yīng)用方面的開(kāi)創(chuàng)、富有影響力的研究獲得 IJCAI-17卓越研究獎(jiǎng);2019年獲得馬薩諸塞大學(xué)神經(jīng)科學(xué)終身成就獎(jiǎng)。 他在各類期刊、會(huì)議和研討會(huì)上發(fā)表了100多篇論文,參與撰寫(xiě)多部圖書(shū)的相關(guān)章節(jié)。 譯者簡(jiǎn)介 俞凱 上海交通大學(xué)計(jì)算科學(xué)與工程系教授,思必馳公司創(chuàng)始人、首席科學(xué)家。清華大學(xué)自動(dòng)化系本科、碩士,劍橋大學(xué)工程系博士。青年千人,國(guó)家自然科學(xué)基金委優(yōu)青,上海市“東方學(xué)者”特聘教授。IEEE 高級(jí)會(huì)員,現(xiàn)任 IEEE Speech and Language Processing Technical Committee 委員,中國(guó)人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟學(xué)術(shù)和知識(shí)產(chǎn)權(quán)組組長(zhǎng),中國(guó)計(jì)算機(jī)學(xué)會(huì)語(yǔ)音對(duì)話及聽(tīng)覺(jué)專業(yè)組副主任。 長(zhǎng)期從事交互式人工智能,尤其是智能語(yǔ)音及自然語(yǔ)言處理的研究和產(chǎn)業(yè)化工作。發(fā)表國(guó)際期刊和會(huì)議論文 150 余篇,獲得Computer Speech and Language, Speech Communication 等多個(gè)國(guó)際期刊及InterSpeech等國(guó)際會(huì)議的優(yōu)論文獎(jiǎng),所搭建的工程系統(tǒng)曾獲美國(guó)國(guó)家標(biāo)準(zhǔn)局語(yǔ)音識(shí)別評(píng)測(cè)冠軍,對(duì)話系統(tǒng)國(guó)際研究挑戰(zhàn)賽冠軍等。 獲評(píng)2014“吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”進(jìn)步獎(jiǎng),“2016科學(xué)中國(guó)人年度人物”,2018中國(guó)計(jì)算機(jī)學(xué)會(huì)“青竹獎(jiǎng)”。

圖書(shū)目錄

第1章 導(dǎo)論 1
1.1 強(qiáng)化學(xué)習(xí) 1
1.2 示例 4
1.3 強(qiáng)化學(xué)習(xí)要素 5
1.4 局限性與適用范圍 7
1.5 擴(kuò)展實(shí)例:井字棋 8
1.6 本章小結(jié) 12
1.7 強(qiáng)化學(xué)習(xí)的早期歷史 13

第I部分 表格型求解方法 23

第2章 多臂賭博機(jī) 25
2.1 一個(gè) k 臂賭博機(jī)問(wèn)題 25
2.2 動(dòng)作-價(jià)值方法 27
2.3 10 臂測(cè)試平臺(tái) 28
2.4 增量式實(shí)現(xiàn) 30
2.5 跟蹤一個(gè)非平穩(wěn)問(wèn)題 32
2.6 樂(lè)觀初始值 34
2.7 基于置信度上界的動(dòng)作選擇 35
2.8 梯度賭博機(jī)算法 37
2.9 關(guān)聯(lián)搜索 (上下文相關(guān)的賭博機(jī)) 40
2.10 本章小結(jié) 41

第3章 有限馬爾可夫決策過(guò)程 45
3.1 “智能體-環(huán)境”交互接口 45
3.2 目標(biāo)和收益 51
3.3 回報(bào)和分幕 52
3.4 分幕式和持續(xù)性任務(wù)的統(tǒng)一表示法 54
3.5 策略和價(jià)值函數(shù) 55
3.6 最優(yōu)策略和最優(yōu)價(jià)值函數(shù) 60
3.7 最優(yōu)性和近似算法 65
3.8 本章小結(jié) 66

第4章 動(dòng)態(tài)規(guī)劃 71
4.1 策略評(píng)估 (預(yù)測(cè)) 72
4.2 策略改進(jìn) 75
4.3 策略迭代 78
4.4 價(jià)值迭代 80
4.5 異步動(dòng)態(tài)規(guī)劃 83
4.6 廣義策略迭代 84
4.7 動(dòng)態(tài)規(guī)劃的效率 85
4.8 本章小結(jié) 86

第5章 蒙特卡洛方法 89
5.1 蒙特卡洛預(yù)測(cè) 90
5.2 動(dòng)作價(jià)值的蒙特卡洛估計(jì) 94
5.3 蒙特卡洛控制 95
5.4 沒(méi)有試探性出發(fā)假設(shè)的蒙特卡洛控制 98
5.5 基于重要度采樣的離軌策略 101
5.6 增量式實(shí)現(xiàn) 107
5.7 離軌策略蒙特卡洛控制 108
5.8 ? 折扣敏感的重要度采樣 110
5.9 ? 每次決策型重要度采樣 112
5.10 本章小結(jié) 113

第 6 章 時(shí)序差分學(xué)習(xí) 117
6.1 時(shí)序差分預(yù)測(cè) 117
6.2 時(shí)序差分預(yù)測(cè)方法的優(yōu)勢(shì) 122
6.3 TD(0) 的最優(yōu)性 124
6.4 Sarsa:同軌策略下的時(shí)序差分控制 127
6.5 Q 學(xué)習(xí):離軌策略下的時(shí)序差分控制 129
6.6 期望 Sarsa 131
6.7 最大化偏差與雙學(xué)習(xí) 133
6.8 游戲、后位狀態(tài)和其他特殊例子 135
6.9 本章小結(jié) 136

第7章 n 步自舉法 139
7.1 n 步時(shí)序差分預(yù)測(cè) 140
7.2 n 步 Sarsa 144
7.3 n 步離軌策略學(xué)習(xí) 146
7.4 ? 帶控制變量的每次決策型方法 148
7.5 不需要使用重要度采樣的離軌策略學(xué)習(xí)方法:n 步樹(shù)回溯算法 150
7.6 ? 一個(gè)統(tǒng)一的算法:n 步 Q(σ) 153
7.7 本章小結(jié) 155

第8章 基于表格型方法的規(guī)劃和學(xué)習(xí) 157
8.1 模型和規(guī)劃 157
8.2 Dyna:集成在一起的規(guī)劃、動(dòng)作和學(xué)習(xí) 159
8.3 當(dāng)模型錯(cuò)誤的時(shí)候 164
8.4 優(yōu)先遍歷 166
8.5 期望更新與采樣更新的對(duì)比 170
8.6 軌跡采樣 173
8.7 實(shí)時(shí)動(dòng)態(tài)規(guī)劃 176
8.8 決策時(shí)規(guī)劃 179
8.9 啟發(fā)式搜索 180
8.10 預(yù)演算法 182
8.11 蒙特卡洛樹(shù)搜索 184
8.12 本章小結(jié) 187
8.13 第I部分總結(jié) 188

第II部分 表格型近似求解方法 193

第9章 基于函數(shù)逼近的同軌策略預(yù)測(cè) 195
9.1 價(jià)值函數(shù)逼近 195
9.2 預(yù)測(cè)目標(biāo) (VE ) 196
9.3 隨機(jī)梯度和半梯度方法 198
9.4 線性方法 202
9.5 線性方法的特征構(gòu)造 207
9.5.1 多項(xiàng)式基 208
9.5.2 傅立葉基 209
9.5.3 粗編碼 212
9.5.4 瓦片編碼 214
9.5.5 徑向基函數(shù) 218
9.6 手動(dòng)選擇步長(zhǎng)參數(shù) 219
9.7 非線性函數(shù)逼近:人工神經(jīng)網(wǎng)絡(luò) 220
9.8 最小二乘時(shí)序差分 225
9.9 基于記憶的函數(shù)逼近 227
9.10 基于核函數(shù)的函數(shù)逼近 229
9.11 深入了解同軌策略學(xué)習(xí):“興趣”與“強(qiáng)調(diào)” 230
9.12 本章小結(jié) 232

第10章 基于函數(shù)逼近的同軌策略控制 239
10.1 分幕式半梯度控制 239
10.2 半梯度 n 步 Sarsa 242
10.3 平均收益:持續(xù)性任務(wù)中的新的問(wèn)題設(shè)定 245
10.4 棄用折扣 249
10.5 差分半梯度 n 步 Sarsa 251
10.6 本章小結(jié) 252

第11 章 ? 基于函數(shù)逼近的離軌策略方法 253
11.1 半梯度方法 254
11.2 離軌策略發(fā)散的例子 256
11.3 致命三要素 260
11.4 線性價(jià)值函數(shù)的幾何性質(zhì) 262
11.5 對(duì)貝爾曼誤差做梯度下降 266
11.6 貝爾曼誤差是不可學(xué)習(xí)的 270
11.7 梯度 TD 方法 274
11.8 強(qiáng)調(diào) TD 方法 278
11.9 減小方差 279
11.10 本章小結(jié) 280

第12章 資格跡 283
12.1 λ-回報(bào) 284
12.2 TD(λ) 287
12.3 n-步截?cái)?λ- 回報(bào)方法 291
12.4 重做更新:在線 λ-回報(bào)算法 292
12.5 真實(shí)的在線 TD(λ) 294
12.6 ? 蒙特卡洛學(xué)習(xí)中的荷蘭跡 296
12.7 Sarsa(λ) 298
12.8 變量 λ 和 γ 303
12.9 帶有控制變量的離軌策略資格跡 304
12.10 從 Watkins 的 Q(λ) 到樹(shù)回溯 TB(λ) 308
12.11 采用資格跡保障離軌策略方法的穩(wěn)定性 310
12.12 實(shí)現(xiàn)中的問(wèn)題 312
12.13 本章小結(jié) 312

第13章 策略梯度方法 317
13.1 策略近似及其優(yōu)勢(shì) 318
13.2 策略梯度定理 320
13.3 REINFORCE:蒙特卡洛策略梯度 322
13.4 帶有基線的 REINFORCE 325
13.5 “行動(dòng)器-評(píng)判器”方法 327
13.6 持續(xù)性問(wèn)題的策略梯度 329
13.7 針對(duì)連續(xù)動(dòng)作的策略參數(shù)化方法 332
13.8 本章小結(jié) 333

第III部分 表格型深入研究 337

第14章 心理學(xué) 339
14.1 預(yù)測(cè)與控制 340
14.2 經(jīng)典條件反射 341
14.2.1 阻塞與高級(jí)條件反射 342
14.2.2 Rescorla-Wagner 模型 344
14.2.3 TD 模型 347
14.2.4 TD 模型模擬 348
14.3 工具性條件反射 355
14.4 延遲強(qiáng)化 359
14.5 認(rèn)知圖 361
14.6 習(xí)慣行為與目標(biāo)導(dǎo)向行為 362
14.7 本章小結(jié) 366

第15章 神經(jīng)科學(xué) 373
15.1 神經(jīng)科學(xué)基礎(chǔ) 374
15.2 收益信號(hào)、強(qiáng)化信號(hào)、價(jià)值和預(yù)測(cè)誤差 375
15.3 收益預(yù)測(cè)誤差假說(shuō) 377
15.4 多巴胺 379
15.5 收益預(yù)測(cè)誤差假說(shuō)的實(shí)驗(yàn)支持 382
15.6 TD 誤差/多巴胺對(duì)應(yīng) 385
15.7 神經(jīng)“行動(dòng)器-評(píng)判器” 390
15.8 行動(dòng)器與評(píng)判器學(xué)習(xí)規(guī)則 393
15.9 享樂(lè)主義神經(jīng)元 397
15.10 集體強(qiáng)化學(xué)習(xí) 399
15.11 大腦中的基于模型的算法 402
15.12 成癮 403
15.13 本章小結(jié) 404

第 16 章 應(yīng)用及案例分析 413
16.1 TD-Gammon 413
16.2 Samuel 的跳棋程序 418
16.3 Watson 的每日雙倍投注 421
16.4 優(yōu)化內(nèi)存控制 424
16.5 人類級(jí)別的視頻游戲 428
16.6 主宰圍棋游戲 433
16.6.1 AlphaGo 436
16.6.2 AlphaGo Zero 439
16.7 個(gè)性化網(wǎng)絡(luò)服務(wù) 442
16.8 熱氣流滑翔 446

第17章 前沿技術(shù) 451
17.1 廣義價(jià)值函數(shù)和輔助任務(wù) 451
17.2 基于選項(xiàng)理論的時(shí)序摘要 453
17.3 觀測(cè)量和狀態(tài) 456
17.4 設(shè)計(jì)收益信號(hào) 460
17.5 遺留問(wèn)題 464
17.6 人工智能的未來(lái) 467

參考文獻(xiàn) 473

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)