強化学習（きょうかがくしゅう）

最終更新：2026/4/19

強化学習は、試行錯誤を通じて最適な行動を学習する機械学習の一手法である。

別名・同義語学習機械報酬最大化学習

ポイント

報酬を最大化するように行動を選択する過程をモデル化し、ロボット制御やゲームAIなどに応用されている。

概要

強化学習は、エージェントが環境との相互作用を通じて、累積報酬を最大化するような行動戦略（ポリシー）を学習する機械学習のパラダイムである。教師あり学習や教師なし学習とは異なり、強化学習は明示的な正解データを与えられず、試行錯誤を通じて最適な行動を自律的に発見する点が特徴である。

歴史

強化学習の起源は、心理学における行動主義学習理論に遡る。1980年代には、動的計画法やモンテカルロ法などのアルゴリズムが開発され、理論的な基盤が確立された。近年では、深層学習との組み合わせである深層強化学習が注目を集めており、Atariゲームや囲碁などの複雑なタスクにおいて、人間を超える性能を発揮している。

基本要素

強化学習における基本的な要素は以下の通りである。

エージェント: 環境内で行動する主体。
環境: エージェントが行動する対象。
状態: 環境の現在の状況。
行動: エージェントが選択できる操作。
報酬: エージェントの行動に対する評価。
ポリシー: 状態に基づいて行動を選択する戦略。

主要なアルゴリズム

Q学習: 状態と行動の組み合わせに対する価値（Q値）を学習するアルゴリズム。
SARSA: 現在の状態、行動、報酬、次の状態、次の行動に基づいてポリシーを更新するアルゴリズム。
Policy Gradient: ポリシーを直接最適化するアルゴリズム。
Actor-Critic: ポリシーと価値関数を同時に学習するアルゴリズム。

応用例

ロボット制御: ロボットの動作計画や制御。
ゲームAI: ゲームにおけるAIエージェントの作成。
推薦システム: ユーザーの行動履歴に基づいて最適なアイテムを推薦。
金融取引: 株価の予測やポートフォリオの最適化。