注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)人工智能隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法

隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法

隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法

定 價:¥49.00

作 者: (美)曹希仁 著,陳曦 譯
出版社: 清華大學(xué)出版社
叢編項: 信息技術(shù)和電氣工程學(xué)科國際知名教材中譯本系列
標(biāo) 簽: 人工智能

ISBN: 9787302242925 出版時間: 2011-02-01 包裝: 平裝
開本: 16 頁數(shù): 425 字?jǐn)?shù):  

內(nèi)容簡介

  隨機學(xué)習(xí)與優(yōu)化在現(xiàn)代工程、社會、金融問題中具有廣泛的應(yīng)用。《隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法》以一個統(tǒng)一的框架,涵蓋了離散事件動態(tài)系統(tǒng)的攝動分析、馬爾可大決策過程、強化學(xué)習(xí)、辨識和自適應(yīng)控制等學(xué)習(xí)和優(yōu)化的不同學(xué)科;并利用基于性能差分公式的簡單方法介紹馬爾可夫決策過程理論,通過該方法能求得以長期平均代價為準(zhǔn)則的n階偏差優(yōu)化策略以及無折扣的Blackwell優(yōu)化策略。《隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法》還包含有最近發(fā)展出來的基于事件的優(yōu)化方法,它為利用系統(tǒng)的特性來克服或減輕數(shù)災(zāi)的研究開辟了個新方向。《隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法》強調(diào)以樣本路徑的構(gòu)造為基礎(chǔ)的物理解釋,物理上的直觀認(rèn)識可以為完善已有的優(yōu)化方法提供新思路。為幫助讀者理解掌握書中的內(nèi)容,《隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法》提供了大量的示例和豐富的習(xí)題?!峨S機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法》適合作為相關(guān)專業(yè)的研究生教材,學(xué)生可從一門課程中學(xué)到原本屬于多個不同學(xué)科的內(nèi)容?!峨S機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法》有助于促進學(xué)習(xí)和優(yōu)化領(lǐng)域中各學(xué)科之間的合作,對該領(lǐng)域的研究人員也大有裨益。

作者簡介

暫缺《隨機學(xué)習(xí)與優(yōu)化:基于靈敏度的方法》作者簡介

圖書目錄

1 引言
 1.1 學(xué)習(xí)和優(yōu)化概述
  1.1.1 問題描述
  1.1.2 最優(yōu)策略
  1.1.3 學(xué)習(xí)和優(yōu)化的基本局限
  1.1.4 學(xué)習(xí)和優(yōu)化的基于靈敏度的觀點
 1.2 不同學(xué)科中問題的描述
  1.2.1 攝動分析(PA)
  1.2.2 馬爾可夫決策過程
  1.2.3 強化學(xué)習(xí)
  1.2.4 辨識和自適應(yīng)控制
  1.2.5 基于事件的優(yōu)化和性能勢集結(jié)
 1.3 學(xué)習(xí)和優(yōu)化學(xué)科關(guān)系圖
 1.4 術(shù)語和符號
 習(xí)題
第1部分 學(xué)習(xí)與優(yōu)化的四門學(xué)科
 2 攝動分析
  2.1 馬爾可夫鏈的攝動分析
   2.1.1 構(gòu)造攝動樣本路徑
   2.1.2 攝動實現(xiàn)因子和性能勢
   2.1.3 性能導(dǎo)數(shù)公式
   2.1.4 折扣報酬準(zhǔn)則的梯度
   2.1.5 高階導(dǎo)數(shù)和麥克勞林級數(shù)
  2.2 馬爾可夫過程的性能靈敏度
  2.3 半馬爾可夫過程的性能靈敏度
   2.3.1 半馬爾可夫過程的基礎(chǔ)知識
   2.3.2 性能靈敏度公式
  2.4 排隊系統(tǒng)的攝動分析
   2.4.1 構(gòu)造攝動樣本路徑
   2.4.2 攝動實現(xiàn)
   2.4.3 性能導(dǎo)數(shù)
   2.4.4 相關(guān)理論問題的評注
  2.5 其他方法
  習(xí)題
 3 利用攝動分析的學(xué)習(xí)與優(yōu)化
  3.1 性能勢
   3.1.1 數(shù)值方法
   3.1.2 從樣本路徑學(xué)習(xí)性能勢
   3.1.3 耦合
  3.2 性能梯度
   3.2.1 通過性能勢估計
   3.2.2 直接學(xué)習(xí)
  3.3 利用攝動分析的優(yōu)化
   3.3.1 梯度方法和隨機逼近
   3.3.2 利用長樣本路徑的優(yōu)化
   3.3.3 應(yīng)用
  習(xí)題
 4 馬爾可夫決策過程
 ……
第2部分 基于事件的優(yōu)化——一種新方法
第3部分 附錄:數(shù)學(xué)基礎(chǔ)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號