強化学習(きょうかがくしゅう)
最終更新:2026/4/19
強化学習は、試行錯誤を通じて最適な行動を学習する機械学習の一手法である。
別名・同義語 学習機械報酬最大化学習
ポイント
報酬を最大化するように行動を選択する過程をモデル化し、ロボット制御やゲームAIなどに応用されている。
概要
強化学習は、エージェントが環境との相互作用を通じて、累積報酬を最大化するような行動戦略(ポリシー)を学習する機械学習のパラダイムである。教師あり学習や教師なし学習とは異なり、強化学習は明示的な正解データを与えられず、試行錯誤を通じて最適な行動を自律的に発見する点が特徴である。
歴史
強化学習の起源は、心理学における行動主義学習理論に遡る。1980年代には、動的計画法やモンテカルロ法などのアルゴリズムが開発され、理論的な基盤が確立された。近年では、深層学習との組み合わせである深層強化学習が注目を集めており、Atariゲームや囲碁などの複雑なタスクにおいて、人間を超える性能を発揮している。
基本要素
強化学習における基本的な要素は以下の通りである。
- エージェント: 環境内で行動する主体。
- 環境: エージェントが行動する対象。
- 状態: 環境の現在の状況。
- 行動: エージェントが選択できる操作。
- 報酬: エージェントの行動に対する評価。
- ポリシー: 状態に基づいて行動を選択する戦略。
主要なアルゴリズム
- Q学習: 状態と行動の組み合わせに対する価値(Q値)を学習するアルゴリズム。
- SARSA: 現在の状態、行動、報酬、次の状態、次の行動に基づいてポリシーを更新するアルゴリズム。
- Policy Gradient: ポリシーを直接最適化するアルゴリズム。
- Actor-Critic: ポリシーと価値関数を同時に学習するアルゴリズム。