強化學習作為機器學習及人工智能領域的一種重要方法,在游戲、自動駕駛、機器人路線規(guī)劃等領域得到了廣泛的應用。本書結合了李宏毅老師的“深度強化學習”、周博磊老師的“強化學習綱要”、李科澆老師的“世界冠軍帶你從零實踐強化學習”公開課的精華內容,在理論嚴謹的基礎上深入淺出地介紹馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、Sarsa、Q 學習等傳統(tǒng)強化學習算法,以及策略梯度、近端策略優(yōu)化、深度Q 網絡、深度確定性策略梯度等常見深度強化學習算法的基本概念和方法,并以大量生動有趣的例子幫助讀者理解強化學習問題的建模過程以及核心算法的細節(jié)。此外,本書還提供較為全面的習題解答以及Python 代碼實現,可以讓讀者進行端到端、從理論到輕松實踐的全生態(tài)學習,充分掌握強化學習算法的原理并能進行實戰(zhàn)。本書適合對強化學習感興趣的讀者閱讀,也可以作為相關課程的配套教材。