注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)人工智能白話強化學習與PyTorch

白話強化學習與PyTorch

白話強化學習與PyTorch

定 價:¥99.00

作 者: 高揚,葉振斌 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121367472 出版時間: 2019-08-01 包裝: 平裝
開本: 16開 頁數(shù): 432 字數(shù):  

內(nèi)容簡介

  以平實的語言風格講解強化學習和深度學習的結(jié)合,以及他們在Pytorch上的應(yīng)用。內(nèi)容將從幾個方面來進行落實,一個是原理,一個是相關(guān)論文的精講,一個是工程實現(xiàn),是一本脈絡(luò)清晰,內(nèi)容詳實的科普讀物。本書第一章到第五章,講的是傳統(tǒng)強化學習的研究目標與脈絡(luò),主要講的是從一個程序員的角度怎么理解強化學習過渡為輕松,側(cè)重理解方式的誘導。第六章到第十一章,是本書的核心內(nèi)容,講的是深度學習的原理,Pytorch框架的基本知識,以及深度強化學習的常用算法模型。第十二章到第十五章,講的是擴展性的知識,例如其它幫助我們訓練模型的算法思路,第三方工具插件,可供實驗的環(huán)境,以及比較有趣的強化學習算法和觀點,甚至還包括模型落地中的優(yōu)化與壓縮。

作者簡介

  高揚,金山辦公軟件人工智能組技術(shù)負責人,歷任歡聚時代人工智能算法專家,金山軟件西山居大數(shù)據(jù)架構(gòu)師等職。重慶工商大學研究生導師,電子工業(yè)出版社博文視點大數(shù)據(jù)技術(shù)圖書專家委員會專家委員,有多年海外工作經(jīng)驗。有多部白話系列大數(shù)據(jù)與機器學習相關(guān)著作。 葉振斌,現(xiàn)任網(wǎng)易游戲伏羲人工智能實驗室高級深度學習研發(fā)工程師。多年從事機器學習,特別是強化學習智能算法的研究及開發(fā)工作。擁有豐富的軟件開發(fā)經(jīng)驗,豐富的人工智能算法訓練平臺開發(fā)經(jīng)驗。于2014年獲東北大學軟件工程專業(yè)學士學位,2017年獲重慶大學計算機科學與技術(shù)專業(yè)碩士學位。

圖書目錄

第1章 強化學習是什么
1.1 題設(shè)
1.1.1 多智能才叫智能
1.1.2 人工智能的定義
1.2 強化學習的研究對象
1.2.1 什么場合需要強化學習
1.2.2 強化學習的建模
1.3 本章小結(jié)
第2章 強化學習的脈絡(luò)
2.1 什么是策略
2.2 什么是好的策略
2.3 什么是模型
2.4 如何得到一個好的策略
2.4.1 直接法
2.4.2 間接法
2.5 馬爾可夫決策過程
2.5.1 狀態(tài)轉(zhuǎn)移
2.5.2 策略與評價
2.5.3 策略優(yōu)化
2.6 MODEL-BASED和MODEL-FREE
2.6.1 Model-Based
2.6.2 規(guī)劃問題
2.6.3 Model-Free
2.7 本章小結(jié)
第3章 動態(tài)規(guī)劃
3.1 狀態(tài)估值
3.2 策略優(yōu)化
3.3 本章小結(jié)
第4章 蒙特卡羅法
4.1 狀態(tài)估值
4.2 兩種估值方法
4.2.1 首次訪問策略估值
4.2.2 每次訪問策略估值
4.3 策略優(yōu)化
4.4 本章小結(jié)
第5章 時間差分
5.1 SARSA算法
5.1.1 偽代碼
5.1.2 SARSA的優(yōu)缺點
5.2 Q-LEARNING
5.2.1 偽代碼
5.2.2 Q-Learning的優(yōu)缺點
5.3 ON-POLICY和OFF-POLICY
5.4 ON-LINE學習和OFF-LINE學習
5.5 比較與討論
5.6 本章小結(jié)
第6章 深度學習
6.1 PyTorch簡介
6.1.1 歷史淵源
6.1.2 支持
6.2 神經(jīng)元
6.3 線性回歸
6.4 激勵函數(shù)
6.4.1 Sigmoid函數(shù)
6.4.2 Tanh函數(shù)
6.4.3 ReLU函數(shù)
6.4.4 Linear函數(shù)
6.5 神經(jīng)網(wǎng)絡(luò)
6.6 網(wǎng)絡(luò)訓練
6.6.1 輸入
6.6.2 輸出
6.6.3 網(wǎng)絡(luò)結(jié)構(gòu)
6.6.4 損失函數(shù)
6.6.5 求解極小值
6.6.6 線性回歸
6.6.7 凸函數(shù)
6.6.8 二元(多元)凸函數(shù)
6.6.9 導數(shù)補充
6.6.10 導數(shù)怎么求
6.6.11 “串聯(lián)式”神經(jīng)元
6.6.12 模型的工作
6.6.13 損失函數(shù)的理解
6.7 深度學習的優(yōu)勢
6.7.1 線性和非線性的疊加
6.7.2 不用再提取特征
6.7.3 處理線性不可分
6.8 手寫數(shù)字識別公開數(shù)據(jù)集
6.9 全連接網(wǎng)絡(luò)
6.9.1 輸入輸出
6.9.2 代碼解讀
6.9.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
6.9.2.2 交叉熵損失函數(shù)
6.9.3 運行結(jié)果
6.10 卷積網(wǎng)絡(luò)
6.10.1 代碼解讀
6.10.2 理解卷積網(wǎng)絡(luò)結(jié)構(gòu)
6.10.3 卷積核結(jié)構(gòu)
6.11 循環(huán)神經(jīng)網(wǎng)絡(luò)
6.11.1 網(wǎng)絡(luò)結(jié)構(gòu)
6.11.2 RNN應(yīng)用案例
6.11.3 代碼解讀
6.12 其它注意事項
6.12.1 并行計算
6.12.2 梯度消失與梯度爆炸
6.12.3 歸一化
6.12.4 超參數(shù)設(shè)置
6.12.5 正則化
6.12.6 不唯一的模型
6.13 深度神經(jīng)網(wǎng)絡(luò)的發(fā)展趨勢
6.14 本章小結(jié)
第7章 GYM——不要錢的試驗場
7.1 簡介
7.2 安裝
7.3 類別介紹
7.4 接口
7.5 本章小結(jié)
第8章 DQN算法族
8.1 DQN 2013
8.1.1 模型結(jié)構(gòu)
8.1.2 訓練過程
8.1.3 Replay Memory
8.1.4 小結(jié)
8.2 DQN 2015
8.2.1 模型結(jié)構(gòu)
8.2.2 訓練過程
8.2.3 Target網(wǎng)絡(luò)
8.2.4 小結(jié)
8.3 DOUBLE DQN
8.3.1 模型結(jié)構(gòu)
8.3.2 訓練過程
8.3.3 效果
8.3.4 小結(jié)
8.4 DUELING DQN
8.4.1 模型結(jié)構(gòu)
8.4.2 效果
8.4.3 小結(jié)
8.5 優(yōu)先回放DQN
8.6 GORILA DQN
8.7 本章小結(jié)
第9章 PG算法族
9.1 策略梯度
9.2 ACTOR-CRITIC
9.3 DPG
9.4 DDPG
9.5 本章小結(jié)
第10章 A3C
10.1 模型結(jié)構(gòu)
10.1.1 A3C DQN
10.1.2 A3C DDPG
10.2 本章小結(jié)
第11章、UNREAL
11.1 主任務(wù)
11.2 像素控制任務(wù)
11.3 獎勵值預測
11.4 值函數(shù)回放
11.5 損失函數(shù)
11.6 本章小結(jié)
第12章 NEAT
12.1 遺傳算法
12.1.1 進化過程
12.1.2 算法流程
12.1.3 背包問題
12.1.4 極大(小)值問題
12.2 NEAT原理
12.2.1 基因組
12.2.2 變異和遺傳
12.3 NEAT示例
12.3.1 Cartpole
12.3.2 Lunar Lander
12.4 本章小結(jié)
第13章 SERPENTAI
13.1 簡介
13.2 安裝配置
13.3 示例
13.3.1 創(chuàng)建Game Plugin
13.3.2 創(chuàng)建Game Agent
13.3.3 訓練Context Classifier
13.3.4 模型設(shè)計
13.3.5 訓練Agent
13.4 本章小結(jié)
第14章 案例詳解
14.1 ALPHAGO
14.1.1 AlphaGO的前世今生
14.1.2 深藍是誰
14.1.3 圍棋到底有多復雜
14.1.4 論文要義
14.1.5 成績
14.1.6 開源項目
14.2 ALPHAGO ZERO
14.2.1 改進之處
14.2.2 成績
14.2.3 開源項目
14.3 試驗場大觀
14.3.1 《星際爭霸2》
14.3.2 VizDoom
14.3.3 Universe
14.3.4 DOTA2
14.4 本章小結(jié)
第15章 擴展討論
15.1 TRPO
15.2 反向強化學習
15.3 模型壓縮
15.3.1 剪枝
15.3.2 量化
15.3.3 結(jié)構(gòu)壓縮
15.3.4 矩陣分解
15.4 本章小結(jié)
后記
附錄
參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號