SPONSORED

強化学習(きょうかがくしゅう)

最終更新:2026/4/19

強化学習は、試行錯誤を通じて最適な行動を学習する機械学習の一手法である。

別名・同義語 学習機械報酬最大化学習

ポイント

報酬を最大化するように行動を選択する過程をモデル化し、ロボット制御やゲームAIなどに応用されている。

概要

強化学習は、エージェントが環境との相互作用を通じて、累積報酬を最大化するような行動戦略(ポリシー)を学習する機械学習のパラダイムである。教師あり学習や教師なし学習とは異なり、強化学習は明示的な正解データを与えられず、試行錯誤を通じて最適な行動を自律的に発見する点が特徴である。

歴史

強化学習の起源は、心理学における行動主義学習理論に遡る。1980年代には、動的計画法やモンテカルロ法などのアルゴリズムが開発され、理論的な基盤が確立された。近年では、深層学習との組み合わせである深層強化学習が注目を集めており、Atariゲームや囲碁などの複雑なタスクにおいて、人間を超える性能を発揮している。

基本要素

強化学習における基本的な要素は以下の通りである。

  • エージェント: 環境内で行動する主体。
  • 環境: エージェントが行動する対象。
  • 状態: 環境の現在の状況。
  • 行動: エージェントが選択できる操作。
  • 報酬: エージェントの行動に対する評価。
  • ポリシー: 状態に基づいて行動を選択する戦略。

主要なアルゴリズム

  • Q学習: 状態と行動の組み合わせに対する価値(Q値)を学習するアルゴリズム。
  • SARSA: 現在の状態、行動、報酬、次の状態、次の行動に基づいてポリシーを更新するアルゴリズム。
  • Policy Gradient: ポリシーを直接最適化するアルゴリズム。
  • Actor-Critic: ポリシーと価値関数を同時に学習するアルゴリズム。

応用例

  • ロボット制御: ロボットの動作計画や制御。
  • ゲームAI: ゲームにおけるAIエージェントの作成。
  • 推薦システム: ユーザーの行動履歴に基づいて最適なアイテムを推薦。
  • 金融取引: 株価の予測やポートフォリオの最適化。

SPONSORED