MoEルーティング（もえーるーてぃんぐ）

最終更新：2026/4/28

MoEルーティングは、大規模言語モデルにおいて、入力トークンごとに異なる専門家ネットワーク（MoE層）を選択的に活性化する手法である。

別名・同義語 Mixture of Expertsルーティングスパースゲートルーティング

ポイント

MoEルーティングは、モデルのパラメータ数を効率的に増やしつつ、計算コストを抑制する技術であり、性能向上に貢献する。

MoEルーティングとは

MoE（Mixture of Experts）ルーティングは、大規模言語モデル（LLM）の性能を向上させるための技術の一つです。従来のLLMでは、すべてのパラメータがすべての入力に対して計算に使用されますが、MoEルーティングでは、入力トークンごとに異なる「専門家」ネットワーク（MoE層）を選択的に活性化します。

MoEルーティングの仕組み

MoEルーティングは、主に以下の要素で構成されます。

専門家ネットワーク（Experts）: 複数の独立したニューラルネットワーク。それぞれが異なる種類の知識やタスクを専門とします。
ゲートネットワーク（Gating Network）: 入力トークンを受け取り、どの専門家ネットワークを活性化するかを決定します。通常、ソフトマックス関数を用いて、各専門家ネットワークに対する重みを計算します。
ルーティング: ゲートネットワークの出力に基づいて、入力トークンを適切な専門家ネットワークに割り当てます。

MoEルーティングの利点

パラメータ効率: モデル全体のパラメータ数を増やさずに、モデルの表現力を向上させることができます。
計算効率: すべてのパラメータを常に使用するわけではないため、計算コストを削減できます。
専門化: 各専門家ネットワークが特定のタスクや知識に特化することで、モデル全体の性能を向上させることができます。

MoEルーティングの課題

負荷分散: ゲートネットワークが特定の専門家ネットワークに偏ってルーティングしてしまうと、負荷分散がうまくいかず、性能が低下する可能性があります。
学習の安定性: MoEルーティングは、学習が不安定になりやすい傾向があります。適切な学習戦略や正則化手法が必要です。

MoEルーティングの応用例

MoEルーティングは、GPT-3やSwitch Transformersなどの大規模言語モデルで採用されています。これらのモデルは、MoEルーティングによって、より高い性能と効率を実現しています。