ストア徳マッピング（すとあとくまぴんぐ）

最終更新：2026/4/22

ストア徳マッピングは、強化学習における価値関数近似の一手法であり、状態空間を離散的なストアに分割し、各ストアに対して価値を推定する。

別名・同義語価値関数近似強化学習

ポイント

この手法は、大規模な状態空間を持つ問題において、価値関数の学習を効率化することを目的とする。特に、状態空間が連続的である場合に有効である。

ストア徳マッピングとは

ストア徳マッピング（Store-Value Mapping, SVM）は、強化学習の分野で提案された価値関数近似の手法です。従来の価値関数近似手法では、状態空間全体を直接近似するため、状態空間が大規模になると計算コストが増大するという問題がありました。ストア徳マッピングは、この問題を解決するために、状態空間を複数の「ストア」と呼ばれる離散的な領域に分割し、各ストアに対して価値を推定します。

ストアの定義

ストアは、状態空間の特定の領域を表すものであり、通常はハッシュ関数やk-d木などのデータ構造を用いて定義されます。各ストアは、そのストアに含まれる状態の集合を表し、ストアの価値は、そのストアに含まれる状態の平均的な価値として推定されます。

学習プロセス

ストア徳マッピングの学習プロセスは、以下のステップで構成されます。

ストアの定義: 状態空間を複数のストアに分割します。
価値の初期化: 各ストアの価値を初期値に設定します。
エピソードの実行: 環境内でエピソードを実行し、状態、行動、報酬の系列を収集します。
価値の更新: 各ストアの価値を、収集された報酬に基づいて更新します。価値の更新には、TD学習などの手法が用いられます。
収束判定: 価値が収束するまで、ステップ3と4を繰り返します。

特徴と利点

ストア徳マッピングの主な特徴と利点は以下の通りです。

スケーラビリティ: 大規模な状態空間を持つ問題に対して適用可能です。
汎化性能: ストアを用いることで、未知の状態に対する価値を推定することができます。
計算効率: 状態空間全体を直接近似するよりも、計算コストを削減することができます。

応用例

ストア徳マッピングは、ロボット制御、ゲームAI、資源管理など、様々な分野に応用されています。特に、状態空間が連続的で大規模な問題において、その有効性が示されています。