行動勾配階層(こうどうこうばいかいそう)
最終更新:2026/4/22
行動勾配階層は、強化学習における方策勾配法を拡張し、複数の時間スケールで方策を学習する手法である。
別名・同義語 階層型強化学習マルチタイムスケール強化学習
ポイント
この手法は、長期的な報酬と短期的な報酬の両方を考慮することで、より効率的な学習を可能にする。ロボット制御などの複雑なタスクに有効である。
行動勾配階層とは
行動勾配階層(Hierarchical Reinforcement Learning with Action Gradients)は、強化学習における方策勾配法の拡張であり、複雑なタスクを効率的に学習するための手法です。従来の強化学習では、エージェントは単一の行動空間から行動を選択しますが、行動勾配階層では、複数の時間スケールで行動を選択します。
階層構造
行動勾配階層は、通常、以下の2つのレベルで構成されます。
- 上位レベル(Manager): 長期的な目標を達成するための大まかな行動を選択します。例えば、「部屋の掃除をする」といった高レベルな行動です。
- 下位レベル(Worker): 上位レベルから指示された行動を具体的な行動に分解し、実行します。例えば、「掃除機をかける」、「拭き掃除をする」といった低レベルな行動です。
学習方法
上位レベルと下位レベルは、それぞれ独立した方策勾配法を用いて学習されます。上位レベルは、下位レベルの行動の結果に基づいて報酬を受け取り、長期的な目標を達成するように方策を更新します。下位レベルは、上位レベルからの指示に基づいて行動し、その結果に基づいて報酬を受け取り、指示された行動を効率的に実行するように方策を更新します。
利点
行動勾配階層の利点は以下の通りです。
- 複雑なタスクへの適用: 複雑なタスクを、より小さなサブタスクに分割することで、学習を容易にします。
- 効率的な学習: 複数の時間スケールで学習することで、探索空間を効率的に削減し、学習速度を向上させます。
- 転移学習: 学習済みの下位レベルの方策を、他のタスクに再利用することができます。
応用例
行動勾配階層は、ロボット制御、ゲーム、ナビゲーションなど、様々な分野に応用されています。特に、ロボット制御においては、複雑な動作を学習するために有効な手法として注目されています。