Richard S.Sutton/共著 -- 森北出版 -- 2022.10 -- 007.13

所蔵

所蔵件数は 1 件です。現在の予約件数は 0 件です。

所蔵場所 請求記号 資料コード 資料区分 帯出区分 状態
閲覧室 /007.1/サ/ 117154625 成人一般 可能 iLisvirtual

資料詳細

タイトル 強化学習
タイトルカナ キョウカ ガクシュウ
著者 Richard S.Sutton /共著, Andrew G.Barto /共著, 奥村 エルネスト純 /監訳, 鈴木 雅大 /監訳, 松尾 豊 /監訳, 三上 貞芳 /監訳, 山川 宏 /監訳, 今井 翔太 /共訳, 川尻 亮真 /共訳, 菊池 悠太 /共訳, 鮫島 和行 /共訳, 陣内 佑 /共訳, 高橋 将文 /共訳, 谷口 尚平 /共訳, 藤田 康博 /共訳, 前田 新一 /共訳, 松嶋 達也 /共訳  
著者カナ サットン R.S.,バルト A.G.,オクムラ エルネスト ジュン,スズキ マサヒロ,マツオ ユタカ,ミカミ サダヨシ,ヤマカワ ヒロシ,イマイ ショウタ,カワジリ リョウマ,キクチ ユウタ,サメジマ カズユキ,ジンナイ ユウ,タカハシ マサフミ,タニグチ ショウヘイ,フジタ ヤスヒロ,マエダ シンイチ,マツシマ タツヤ
出版者 森北出版
出版年 2022.10
ページ数 18,469p
大きさ 25cm
一般件名 人工知能 , アルゴリズム
ISBN13桁 978-4-627-82662-5 国立国会図書館 カーリル GoogleBooks WebcatPlus
言語 jpn
分類記号 007.13
内容紹介 強化学習の主要な考え方やアルゴリズムについて明確かつ簡潔な形で解説した入門書。発展的手法、心理学・神経科学との関係、AlphaGoなどの新しい話題を盛り込んだ第2版。

目次

第1章 序
  1.1 強化学習
  1.2 強化学習の例
  1.3 強化学習の構成要素
  1.4 強化学習の制約と範囲
  1.5 拡張された例:三目並べ(tic‐tac‐toe)
  1.6 ここまでのまとめ
  1.7 強化学習の成り立ち
第Ⅰ部 テーブル形式の解法
第2章 多腕バンディット問題
  2.1 k本腕バンディット問題
  2.2 行動価値手法
  2.3 10本腕バンディットによる実験
  2.4 逐次的実装
  2.5 非定常問題を調べる
  2.6 楽観的初期値
  2.7 上限信頼区間行動選択
  2.8 勾配バンディットアルゴリズム
  2.9 連想探索(文脈付きバンディット)
第3章 有限マルコフ決定過程
  3.1 エージェントと環境の境界
  3.2 目標と報酬
  3.3 収益とエピソード
  3.4 エピソード的タスクと連続タスクの統一的記法
  3.5 方策と価値関数
  3.6 最適方策と最適価値関数
  3.7 最適性と近似
  3.8 まとめ
第4章 動的計画法
  4.1 方策評価(予測)
  4.2 方策改善
  4.3 方策反復
  4.4 価値反復
  4.5 非同期動的計画法
  4.6 一般化方策反復
  4.7 動的計画法の効率
  4.8 まとめ
第5章 モンテカルロ法
  5.1 モンテカルロ予測
  5.2 行動価値のモンテカルロ推定
  5.3 モンテカルロ制御
  5.4 開始点探索を使わないモンテカルロ制御
  5.5 重点サンプリングによる方策オフ型予測
  5.6 逐次的実装
  5.7 方策オフ型モンテカルロ制御
  5.8 割引を考慮した重点サンプリング
  5.9 意思決定ごとの重点サンプリング
第6章 TD学習
  6.1 TD予測
  6.2 TD予測の利点
  6.3 TD(0)法の最適性
  6.4 Sarsa法:方策オン型TD制御
  6.5 Q学習:方策オフ型TD制御
  6.6 期待Sarsa法
  6.7 最大化バイアスと二重学習
  6.8 ゲーム,事後状態,その他の特別な場合
  6.9 まとめ
第7章 nステップ・ブートストラップ法
  7.1 nステップTD予測
  7.2 nステップSarsa法
  7.3 nステップ方策オフ型学習
  7.4 制御変量法による意思決定ごとの手法
  7.5 重点サンプリングなしの方策オフ型学習;nステップ・ツリー・バックアップ法
  7.6 統一的なアルゴリズム:nステップQ(σ)法
  7.7 まとめ
第8章 テーブル形式手法におけるプランニングと学習
  8.1 モデルとプランニング
  8.2 Dyna:プランニング,行動,そして学習の統合
  8.3 モデルに誤りがある場合
  8.4 優先掃き出し法
  8.5 期待更新とサンプル更新
  8.6 遷移軌道サンプリング
  8.7 リアルタイム動的計画法
  8.8 意思決定時のプランニング
  8.9 ヒューリスティック探索
第Ⅱ部 近似による解法
第9章 近似を用いた方策オン型予測
  9.1 価値関数の近似
  9.2 予測の目的関数(VE)
  9.3 確率的勾配法と擬似勾配法
  9.4 線形手法
  9.5 線形手法のための特徴量設計
  9.6 ステップサイズパラメータの手動による選択
  9.7 非線形関数による近似:人工ニューラルネットワーク
  9.8 最小二乗TD法
  9.9 メモリベースの関数近似法
第10章 関数近似を用いた方策オン型制御
  10.1 エピソード的擬似勾配制御
  10.2 擬似勾配nステップSarsa法
  10.3 平均報酬:連続タスクのための新たな問題設定
  10.4 割引設定を批判する
  10.5 差分擬似勾配nステップSarsa法
  10.6 まとめ
第11章 近似を用いた方策オフ型手法
  11.1 擬似勾配法
  11.2 方策オフ型の発散の例
  11.3 死の三人衆
  11.4 線形状態価値の幾何
  11.5 ベルマン誤差の勾配降下
  11.6 ベルマン誤差の学習不可能性
  11.7 勾配TD法
  11.8 強調TD法
  11.9 分散の低減
第12章 適格度トレース
  12.1 λ収益
  12.2 TD(λ)法
  12.3 nステップ打ち切りλ収益法
  12.4 繰り返し更新:オンラインλ収益アルゴリズム
  12.5 真のオンラインTD(λ)法
  12.6 モンテカルロ学習におけるダッチトレース
  12.7 Sarsa(λ)法
  12.8 可変のλとγ
  12.9 制御変量法を用いた方策オフ型適格度トレース
第13章 方策勾配法
  13.1 方策近似とその利点
  13.2 方策勾配定理
  13.3 REINFORCEアルゴリズム:モンテカルロ方策勾配
  13.4 ベースライン付きREINFORCEアルゴリズム
  13.5 アクター・クリティック法
  13.6 連続問題に対する方策勾配法
  13.7 連続行動に対する方策のパラメータ化
  13.8 まとめ
第Ⅲ部 さらに深く
第14章 心理学
  14.1 予測と制御
  14.2 古典的条件づけ
  14.3 道具的条件づけ
  14.4 遅延強化
  14.5 認知地図
  14.6 習慣行動と目標指向行動
  14.7 まとめ
第15章 神経科学
  15.1 神経科学の基礎
  15.2 報酬信号,強化信号,価値,予測誤差
  15.3 細酬予測誤差仮説
  15.4 ドーパミン
  15.5 報酬予測誤差仮説を支持する実験的事実
  15.6 TD誤差とドーパミンとの対応関係
  15.7 ニューラル・アクター・クリティック
  15.8 アクターとクリティックの学習則
  15.9 ヘドニスティックニューロン
第16章 応用と事例紹介
  16.1 TD-Gammon
  16.2 Samuelのチェッカープレイヤー
  16.3 Watsonによるデイリーダブルの賭け戦略
  16.4 メモリ制御の最適化
  16.5 人間レベルのビデオゲームプレイ
  16.6 囲碁の修得
  16.7 Webサービスのパーソナライズ
  16.8 サーマルソアリング
第17章 強化学習のこれから
  17.1 汎用価値関数と補助タスク
  17.2 オプションによる時間方向の抽象化
  17.3 観測と状態
  17.4 報酬信号の設計
  17.5 残された課題
  17.6 報酬予測誤差仮説の実験的支持