資料詳細

強化学習貸出可

Richard S.Sutton／共著 -- 森北出版 -- 2022.10 -- 007.13

所蔵

所蔵件数は 1 件です。現在の予約件数は 0 件です。

所蔵場所	請求記号	資料コード	資料区分	帯出区分	状態
閲覧室	/007.1/ｻ/	117154625	成人一般	可能

ページの先頭へ

資料詳細

タイトル	強化学習
タイトルカナ	キョウカガクシュウ
著者	Richard S.Sutton ／共著, Andrew G.Barto ／共著, 奥村エルネスト純／監訳, 鈴木雅大／監訳, 松尾豊／監訳, 三上貞芳／監訳, 山川宏／監訳, 今井翔太／共訳, 川尻亮真／共訳, 菊池悠太／共訳, 鮫島和行／共訳, 陣内佑／共訳, 高橋将文／共訳, 谷口尚平／共訳, 藤田康博／共訳, 前田新一／共訳, 松嶋達也／共訳
著者カナ	サットン R.S.,バルト A.G.,オクムラエルネストジュン,スズキマサヒロ,マツオユタカ,ミカミサダヨシ,ヤマカワヒロシ,イマイショウタ,カワジリリョウマ,キクチユウタ,サメジマカズユキ,ジンナイユウ,タカハシマサフミ,タニグチショウヘイ,フジタヤスヒロ,マエダシンイチ,マツシマタツヤ
出版者	森北出版
出版年	2022.10
ページ数	18,469p
大きさ	25cm
一般件名	人工知能 , アルゴリズム
ISBN13桁	978-4-627-82662-5
言語	jpn
分類記号	007.13
内容紹介	強化学習の主要な考え方やアルゴリズムについて明確かつ簡潔な形で解説した入門書。発展的手法、心理学・神経科学との関係、AlphaGoなどの新しい話題を盛り込んだ第2版。

ページの先頭へ

第1章序: 1.1 強化学習; 1.2 強化学習の例; 1.3 強化学習の構成要素; 1.4 強化学習の制約と範囲; 1.5 拡張された例:三目並べ(tic‐tac‐toe); 1.6 ここまでのまとめ; 1.7 強化学習の成り立ち
第Ⅰ部テーブル形式の解法
第2章多腕バンディット問題: 2.1 k本腕バンディット問題; 2.2 行動価値手法; 2.3 10本腕バンディットによる実験; 2.4 逐次的実装; 2.5 非定常問題を調べる; 2.6 楽観的初期値; 2.7 上限信頼区間行動選択; 2.8 勾配バンディットアルゴリズム; 2.9 連想探索(文脈付きバンディット)
第3章有限マルコフ決定過程: 3.1 エージェントと環境の境界; 3.2 目標と報酬; 3.3 収益とエピソード; 3.4 エピソード的タスクと連続タスクの統一的記法; 3.5 方策と価値関数; 3.6 最適方策と最適価値関数; 3.7 最適性と近似; 3.8 まとめ
第4章動的計画法: 4.1 方策評価(予測); 4.2 方策改善; 4.3 方策反復; 4.4 価値反復; 4.5 非同期動的計画法; 4.6 一般化方策反復; 4.7 動的計画法の効率; 4.8 まとめ
第5章モンテカルロ法: 5.1 モンテカルロ予測; 5.2 行動価値のモンテカルロ推定; 5.3 モンテカルロ制御; 5.4 開始点探索を使わないモンテカルロ制御; 5.5 重点サンプリングによる方策オフ型予測; 5.6 逐次的実装; 5.7 方策オフ型モンテカルロ制御; 5.8 割引を考慮した重点サンプリング; 5.9 意思決定ごとの重点サンプリング
第6章 TD学習: 6.1 TD予測; 6.2 TD予測の利点; 6.3 TD(0)法の最適性; 6.4 Sarsa法:方策オン型TD制御; 6.5 Q学習:方策オフ型TD制御; 6.6 期待Sarsa法; 6.7 最大化バイアスと二重学習; 6.8 ゲーム,事後状態,その他の特別な場合; 6.9 まとめ
第7章 nステップ・ブートストラップ法: 7.1 nステップTD予測; 7.2 nステップSarsa法; 7.3 nステップ方策オフ型学習; 7.4 制御変量法による意思決定ごとの手法; 7.5 重点サンプリングなしの方策オフ型学習;nステップ・ツリー・バックアップ法; 7.6 統一的なアルゴリズム:nステップQ(σ)法; 7.7 まとめ
第8章テーブル形式手法におけるプランニングと学習: 8.1 モデルとプランニング; 8.2 Dyna:プランニング,行動,そして学習の統合; 8.3 モデルに誤りがある場合; 8.4 優先掃き出し法; 8.5 期待更新とサンプル更新; 8.6 遷移軌道サンプリング; 8.7 リアルタイム動的計画法; 8.8 意思決定時のプランニング; 8.9 ヒューリスティック探索
第Ⅱ部近似による解法
第9章近似を用いた方策オン型予測: 9.1 価値関数の近似; 9.2 予測の目的関数(VE); 9.3 確率的勾配法と擬似勾配法; 9.4 線形手法; 9.5 線形手法のための特徴量設計; 9.6 ステップサイズパラメータの手動による選択; 9.7 非線形関数による近似:人工ニューラルネットワーク; 9.8 最小二乗TD法; 9.9 メモリベースの関数近似法
第10章関数近似を用いた方策オン型制御: 10.1 エピソード的擬似勾配制御; 10.2 擬似勾配nステップSarsa法; 10.3 平均報酬:連続タスクのための新たな問題設定; 10.4 割引設定を批判する; 10.5 差分擬似勾配nステップSarsa法; 10.6 まとめ
第11章近似を用いた方策オフ型手法: 11.1 擬似勾配法; 11.2 方策オフ型の発散の例; 11.3 死の三人衆; 11.4 線形状態価値の幾何; 11.5 ベルマン誤差の勾配降下; 11.6 ベルマン誤差の学習不可能性; 11.7 勾配TD法; 11.8 強調TD法; 11.9 分散の低減
第12章適格度トレース: 12.1 λ収益; 12.2 TD(λ)法; 12.3 nステップ打ち切りλ収益法; 12.4 繰り返し更新:オンラインλ収益アルゴリズム; 12.5 真のオンラインTD(λ)法; 12.6 モンテカルロ学習におけるダッチトレース; 12.7 Sarsa(λ)法; 12.8 可変のλとγ; 12.9 制御変量法を用いた方策オフ型適格度トレース
第13章方策勾配法: 13.1 方策近似とその利点; 13.2 方策勾配定理; 13.3 REINFORCEアルゴリズム:モンテカルロ方策勾配; 13.4 ベースライン付きREINFORCEアルゴリズム; 13.5 アクター・クリティック法; 13.6 連続問題に対する方策勾配法; 13.7 連続行動に対する方策のパラメータ化; 13.8 まとめ
第Ⅲ部さらに深く
第14章心理学: 14.1 予測と制御; 14.2 古典的条件づけ; 14.3 道具的条件づけ; 14.4 遅延強化; 14.5 認知地図; 14.6 習慣行動と目標指向行動; 14.7 まとめ
第15章神経科学: 15.1 神経科学の基礎; 15.2 報酬信号,強化信号,価値,予測誤差; 15.3 細酬予測誤差仮説; 15.4 ドーパミン; 15.5 報酬予測誤差仮説を支持する実験的事実; 15.6 TD誤差とドーパミンとの対応関係; 15.7 ニューラル・アクター・クリティック; 15.8 アクターとクリティックの学習則; 15.9 ヘドニスティックニューロン
第16章応用と事例紹介: 16.1 TD-Gammon; 16.2 Samuelのチェッカープレイヤー; 16.3 Watsonによるデイリーダブルの賭け戦略; 16.4 メモリ制御の最適化; 16.5 人間レベルのビデオゲームプレイ; 16.6 囲碁の修得; 16.7 Webサービスのパーソナライズ; 16.8 サーマルソアリング
第17章強化学習のこれから: 17.1 汎用価値関数と補助タスク; 17.2 オプションによる時間方向の抽象化; 17.3 観測と状態; 17.4 報酬信号の設計; 17.5 残された課題; 17.6 報酬予測誤差仮説の実験的支持

ページの先頭へ

資料詳細

所蔵

資料詳細

目次