Reinforcement Learning: State-of-the-Art
譯者序
序言
前言
作者清單
第一部分 緒論
第1章 強化學習和馬爾可夫決策過程 2
1.1 簡介 2
1.2 時序決策 3
1.2.1 接近時序決策 4
1.2.2 在綫學習與離綫學習 4
1.2.3 貢獻分配 5
1.2.4 探索–運用的平衡 5
1.2.5 反饋、目標和性能 5
1.2.6 錶達 6
1.3 正式的框架 6
1.3.1 馬爾可夫決策過程 7
1.3.2 策略 9
1.3.3 最優準則和減量 9
1.4 價值函數和貝爾曼方程 10
1.5 求解馬爾可夫決策過程 12
1.6 動態規劃:基於模型的解決方案 13
1.6.1 基本的動態規劃算法 13
1.6.2 高效的動態規劃算法 17
1.7 強化學習:無模型的解決方案 19
1.7.1 時序差分學習 20
1.7.2 濛特卡羅方法 23
1.7.3 高效的探索和價值更新 24
1.8 總結 27
參考文獻 27
第二部分 高效的解決方案框架
第2章 批處理強化學習 32
2.1 簡介 32
2.2 批處理強化學習問題 33
2.2.1 批處理學習問題 33
2.2.2 增長批處理學習問題 34
2.3 批處理強化學習算法的基礎 34
2.4 批處理強化學習算法 37
2.4.1 基於核的近似動態規劃 37
2.4.2 擬閤Q迭代 39
2.4.3 基於最小二乘的策略迭代 40
2.4.4 識彆批處理算法 41
2.5 批處理強化學習理論 42
2.6 批處理強化學習的實現 43
2.6.1 神經擬閤Q迭代 44
2.6.2 控製應用中的神經擬閤Q迭代算法 45
2.6.3 麵嚮多學習器的批處理強化學習 46
2.6.4 深度擬閤Q迭代 48
2.6.5 應用/發展趨勢 49
2.7 總結 50
參考文獻 50
第3章 策略迭代的最小二乘法 53
3.1 簡介 53
3.2 預備知識:經典策略迭代算法 54
3.3 近似策略評估的最小二乘法 55
3.3.1 主要原則和分類 55
3.3.2 綫性情況下和矩陣形式的方程 57
3.3.3 無模型算法的實現 60
3.3.4 參考文獻 62
3.4 策略迭代的在綫最小二乘法 63
3.5 例子:car-on-the-hill 64
3.6 性能保障 66
3.6.1 漸近收斂性和保證 66
3.6.2 有限樣本的保證 68
3.7 延伸閱讀 73
參考文獻 74
第4章 學習和使用模型 78
4.1 簡介 78
4.2 什麼是模型 79
4.3 規劃 80
4.4 聯閤模型和規劃 82
4.5 樣本復雜度 84
4.6 分解域 86
4.7 探索 88
4.8 連續域 91
4.9 實證比較 93
4.10 擴展 95
4.11 總結 96
參考文獻 97
第5章 強化學習中的遷移:框架和概觀 101
5.1 簡介 101
5.2 強化學習遷移的框架和分類 102
5.2.1 遷移框架 102
5.2.2 分類 104
5.3 固定狀態–動作空間中從源到目標遷移的方法 108
5.3.1 問題形式化 108
5.3.2 錶示遷移 109
5.3.3 參數遷移 110
5.4 固定狀態–動作空間中跨多任務遷移的方法 111
5.4.1 問題形式化 111
5.4.2 實例遷移 111
5.4.3 錶示遷移 112
5.4.4 參數遷移 113
5.5 不同狀態–動作空間中從源到目標任務遷移的方法 114
5.5.1 問題形式化 114
5.5.2 實例遷移 115
5.5.3 錶示遷移 115
5.5.4 參數遷移 116
5.6 總結和開放性問題 116
參考文獻 117
第6章 探索的樣本復雜度邊界 122
6.1 簡介 122
6.2 預備知識 123
6.3 形式化探索效率 124
6.3.1 探索的樣本復雜度和PAC-MDP 124
6.3.2 遺憾最小化 125
6.3.3 平均損失 127
6.3.4 貝葉斯框架 127
6.4 通用PAC-MDP定理 128
6.5 基於模型的方法 130
6.5.1 Rmax 130
6.5.2 Rmax的泛化 132
6.6 無模型方法 138
6.7 總結 141
參考文獻 141
第三部分 建設性的錶徵方嚮
第7章 連續狀態和動作空間中的強化學習 146
7.1 簡介 146
7.1.1 連續域中的馬爾可夫決策過程 147
7.1.2 求解連續MDP的方法 148
7.2 函數逼近 149
7.2.1 綫性函數逼近 150
7.2.2 非綫性函數逼近 153
7.2.3 更新參數 154
7.3 近似強化學習 157
7.3.1 數值逼近 157
7.3.2 策略逼近 162
7.4 雙極車杆實驗 168
7.5 總結 171
參考文獻 171
第8章 綜述:求解一階邏輯馬爾可夫決策過程 179
8.1 關係世界中的順序決策簡介 179
8.1.1 馬爾可夫決策過程:代錶性和可擴展性 180
8.1.2 簡短的曆史和與其他領域的聯係 181
8.2 用麵嚮對象和關係擴展馬爾可夫決策過程 183
8.2.1 關係錶示與邏輯歸納 183
8.2.2 關係型馬爾可夫決策過程 184
8.2.3 抽象問題和求解 184
8.3 基於模型的解決方案 186
8.3.1 貝爾曼備份的結構 186
8.3.2 確切的基於模型的算法 187
8.3.3 基於近似模型的算法 190
8.4 無模型的解決方案 192
8.4.1 固定泛化的價值函數學習 192
8.4.2 帶自適應泛化的價值函數 193
8.4.3 基於策略的求解技巧 196
8.5 模型、層級、偏置 198
8.6 現在的發展 201
8.7 總結和展望 203
參考文獻 204
第9章 層次式技術 213
9.1 簡介 213
9.2 背景 215
9.2.1 抽象動作 215
9.2.2 半馬爾可夫決策問題 216
9.2.3 結構 217
9.2.4 狀態抽象 218
9.2.5 價值函數分解 219
9.2.6 優化 220
9.3 層次式強化學習技術 220
9.3.1 選項 221
9.3.2 HAMQ學習 222
9.3.3 MAXQ 223
9.4 學習結構 226
9.5 相關工作和當前研究 228
9.6 總結 230
參考文獻 230
第10章 針對強化學習的演化計算 235
10.1 簡介 235
10.2 神經演化 237
10.3 TWEANN 239
10.3.1 挑戰 239
10.3.2 NEAT 240
10.4 混閤方法 241
10.4.1 演化函數近似 242
10.4.2 XCS 243
10.5 協同演化 245
10.5.1 閤作式協同演化 245
10.5.2 競爭式協同演化 246
10.6 生成和發展係統 247
10.7 在綫方法 249
10.7.1 基於模型的技術 249
10.7.2 在綫演化計算 250
10.8 總結 251
參考文獻 251
第四部分 概率模型
第11章 貝葉斯強化學習 260
11.1 簡介 260
11.2 無模型貝葉斯強化學習 261
11.2.1 基於價值函數的算法 261
11.2.2 策略梯度算法 264
11.2.3 演員–評論傢算法 266
11.3 基於模型的貝葉斯強化學習 268
11.3.1 由POMDP錶述的貝葉斯強化學習 268
11.3.2 通過動態規劃的貝葉斯強化學習 269
11.3.3 近似在綫算法 271
11.3.4 貝葉斯多任務強化學習 272
11.3.5 集成先驗知識 273
11.4 有限樣本分析和復雜度問題 274
11.5 總結和討論 275
參考文獻 275
第12章 部分可觀察的馬爾可夫決策過程 279
12.1 簡介 279
12.2 部分可觀察環境中的決策 280
12.2.1 POMDP模型 280
12.2.2 連續和結構化的錶達 281
12.2.3 優化決策記憶 282
12.2.4 策略和價值函數 284
12.3 基於模型的技術 285
12.3.1 基於MDP的啓發式解決方案 285
12.3.2 POMDP的值迭代 286
12.3.3 確切的值迭代 288
12.3.4 基於點的值迭代方法 290
12.3.5 其他近似求解方法 291
12.4 無先驗模型的決策 292
12.4.1 無記憶技術 292
12.4.2 學習內部記憶 292
12.5 近期研究趨勢 294
參考文獻 295
第13章 預測性定義狀態錶示 300
13.1 簡介 300
13.1.1 狀態是什麼 301
13.1.2 哪一個狀態錶示 301
13.1.3 為什麼使用預測性定義模型 302
13.2 PSR 303
13.2.1 曆史及測試 303
13.2.2 測試的預測 304
13.2.3 係統動態嚮量 304
13.2.4 係統動態矩陣 305
13.2.5 充分的數據集 305
13.2.6 狀態 306
13.2.7 更新狀態 306
13.2.8 綫性PSR 307
13.2.9 綫性PSR與POMDP的關聯 307
13.2.10 綫性PSR的理論結果 308
13.3 PSR模型學習 308
13.3.1 發現問題 308
13.3.2 學習問題 309
13.3.3 估計係統動態矩陣 309
13.4 規劃與PSR 309
13.5 PSR的擴展 310
13.6 其他具有預測性定義狀態的模型 311
13.6.1 可觀測算子模型 311
13.6.2 預測綫性高斯模型 312
13.6.3 時序差分網絡 312
13.6.4 分集自動機 312
13.6.5 指數族PSR 313
13.6.6 轉換PSR 313
13.7 總結 313
參考文獻 314
第14章 博弈論和多學習器強化學習 317
14.1 簡介 317
14.2 重復博弈 319
14.2.1 博弈論 319
14.2.2 重復博弈中的強化學習 322
14.3 順序博弈 325
14.3.1 馬爾可夫博弈 326
14.3.2 馬爾可夫博弈中的強化學習 327
14.4 在多學習器係統中的稀疏交互 330
14.4.1 多等級學習 330
14.4.2 協調學習與稀疏交互 331
14.5 延伸閱讀 334
參考文獻 334
第15章 去中心化的部分可觀察馬爾可夫決策過程 338
15.1 簡介 338
15.2 Dec-POMDP框架 339
15.3 曆史狀態與策略 340
15.3.1 曆史狀態 341
15.3.2 策略 341
15.3.3 策略的結構 342
15.3.4 聯閤策略的質量 343
15.4 有限域的Dec-POMDP的解決方案 344
15.4.1 窮舉搜索和Dec-POMDP復雜性 344
15.4.2 交替最大化 344
15.4.3 Dec-POMDP的最優價值函數 345
15.4.4 前推法:啓發式搜索 348
15.4.5 後推法:動態規劃 350
15.4.6 其他有限域的方法 353
15.5 延伸閱讀 353
15.5.1 一般化和特殊問題 353
15.5.2 有限Dec-POMDP 354
15.5.3 強化學習 355
15.5.4 通信 356
參考文獻 356
第五部分 其他應用領域
第16章 強化學習與心理和神經科學之間的關係 364
16.1 簡介 364
16.2 經典(巴甫洛夫)條件反射 365
16.2.1 行為 365
16.2.2 理論 366
16.2.3 小結和其他注意事項 367
16.3 操作性(工具性)條件反射 368
16.3.1 動作 368
16.3.2 理論 369
16.3.3 基於模型的控製與無模型的控製 370
16.3.4 小結和其他注意事項 371
16.4 多巴胺 371
16.4.1 多巴胺作為奬勵預測誤差 372
16.4.2 多巴胺的強化信號的作用 372
16.4.3 小結和其他注意事項 373
16.5 基底神經節 373
16.5.1 基底神經節概述 374
16.5.2 紋狀體的神經活動 374
16.5.3 皮質基神經節丘腦循環 375
16.5.4 小結和其他注意事項 377
16.6 總結 378
參考文獻 378
第17章 遊戲領域的強化學習 387
17.1 簡介 387
17.1.1 目標和結構 387
17.1.2 範圍 388
· · · · · · (
收起)