マルチアームバンディット（むるちあーむばんぢっと）

最終更新：2026/4/25

マルチアームバンディットは、複数の選択肢（アーム）から一つを選び、それぞれ異なる確率で報酬が得られる問題をモデル化したものである。

別名・同義語ラスベガススロットマシン問題強盗問題

ポイント

強化学習の基本的な問題設定の一つであり、探索と活用のトレードオフを考える上で重要な概念である。ラスベガススロットマシン問題とも呼ばれる。

マルチアームバンディット問題とは

マルチアームバンディット問題は、複数のスロットマシン（アーム）があり、それぞれが異なる確率で報酬を出すという状況を想定したものです。プレイヤーは各アームを繰り返し選択し、累積報酬を最大化することを目指します。各アームの報酬分布は未知であり、プレイヤーは試行錯誤を通じて最適なアームを見つけ出す必要があります。

この問題は、強化学習における基本的な問題設定の一つであり、探索（どの腕を引くか試すか）と活用（現在最も良いとわかっている腕を引くか）のトレードオフを考える上で重要な概念です。探索を重視しすぎると、現在の最良のアームから離れてしまう可能性があります。一方、活用を重視しすぎると、より良いアームを見逃してしまう可能性があります。

アルゴリズム

マルチアームバンディット問題を解決するための様々なアルゴリズムが存在します。

ε-greedy法: 確率εでランダムにアームを選択し、1-εの確率で最も報酬の期待値が高いアームを選択します。
UCB (Upper Confidence Bound) 法: 各アームの報酬の期待値に、その不確実性を考慮した上限信頼区間を加算し、最も高い値を持つアームを選択します。
Thompson Sampling: 各アームの報酬分布を確率的に推定し、その分布からサンプルを生成して、最も高いサンプル値を持つアームを選択します。

これらのアルゴリズムは、探索と活用のバランスを調整することで、累積報酬の最大化を目指します。

応用例

マルチアームバンディット問題は、様々な分野に応用されています。

オンライン広告: どの広告を表示するかを決定する。
臨床試験: どの治療法を患者に適用するかを決定する。
レコメンデーションシステム: どの商品をユーザーに推奨するかを決定する。
A/Bテスト: どのデザインがより効果的かを決定する。