行動勾配階層（こうどうこうばいかいそう）

最終更新：2026/4/22

行動勾配階層は、強化学習における方策勾配法を拡張し、複数の時間スケールで方策を学習する手法である。

別名・同義語階層型強化学習マルチタイムスケール強化学習

ポイント

この手法は、長期的な報酬と短期的な報酬の両方を考慮することで、より効率的な学習を可能にする。ロボット制御などの複雑なタスクに有効である。

行動勾配階層とは

行動勾配階層（Hierarchical Reinforcement Learning with Action Gradients）は、強化学習における方策勾配法の拡張であり、複雑なタスクを効率的に学習するための手法です。従来の強化学習では、エージェントは単一の行動空間から行動を選択しますが、行動勾配階層では、複数の時間スケールで行動を選択します。

階層構造

行動勾配階層は、通常、以下の2つのレベルで構成されます。

上位レベル（Manager）: 長期的な目標を達成するための大まかな行動を選択します。例えば、「部屋の掃除をする」といった高レベルな行動です。
下位レベル（Worker）: 上位レベルから指示された行動を具体的な行動に分解し、実行します。例えば、「掃除機をかける」、「拭き掃除をする」といった低レベルな行動です。

学習方法

上位レベルと下位レベルは、それぞれ独立した方策勾配法を用いて学習されます。上位レベルは、下位レベルの行動の結果に基づいて報酬を受け取り、長期的な目標を達成するように方策を更新します。下位レベルは、上位レベルからの指示に基づいて行動し、その結果に基づいて報酬を受け取り、指示された行動を効率的に実行するように方策を更新します。

利点

行動勾配階層の利点は以下の通りです。

複雑なタスクへの適用: 複雑なタスクを、より小さなサブタスクに分割することで、学習を容易にします。
効率的な学習: 複数の時間スケールで学習することで、探索空間を効率的に削減し、学習速度を向上させます。
転移学習: 学習済みの下位レベルの方策を、他のタスクに再利用することができます。

応用例

行動勾配階層は、ロボット制御、ゲーム、ナビゲーションなど、様々な分野に応用されています。特に、ロボット制御においては、複雑な動作を学習するために有効な手法として注目されています。