Paged Attention（ぺーじどあてんしょん）

最終更新：2026/4/28

Paged Attentionは、TransformerモデルにおけるAttention機構の計算効率を向上させる手法である。

ポイント

特に長い系列データを扱う際に、メモリ使用量を削減し、処理速度を改善することを目的とする。

Paged Attentionとは

Paged Attentionは、大規模言語モデル(LLM)の推論時に、Attention機構の計算に必要なメモリを効率的に管理するための手法です。従来のAttention機構では、系列長が長くなるにつれて、Attentionスコアを保存するために必要なメモリ量が2乗で増加するという問題がありました。Paged Attentionは、この問題を解決するために、仮想メモリのページング技術をAttention機構に適用します。

従来のAttention機構の問題点

従来のAttention機構では、入力系列の各トークン間のAttentionスコアをすべて計算し、保存する必要があります。系列長がNの場合、必要なメモリ量はO(N^2)となります。大規模なモデルや長い系列データを扱う場合、このメモリ量がボトルネックとなり、計算効率が低下します。

Paged Attentionの仕組み

Paged Attentionでは、Attentionスコアを固定長のブロック（ページ）に分割し、必要なページのみをメモリにロードします。これにより、メモリ使用量を削減し、計算効率を向上させることができます。具体的には、以下の手順でAttentionスコアが計算されます。

入力系列を固定長のブロックに分割します。
各ブロック間のAttentionスコアを計算します。
必要なブロックのAttentionスコアのみをメモリにロードします。
ロードされたAttentionスコアを使用して、Attention重みを計算します。

Paged Attentionの利点

メモリ使用量の削減: Attentionスコアをページングすることで、メモリ使用量を大幅に削減できます。
計算効率の向上: 必要なページのみをメモリにロードすることで、計算効率を向上させることができます。
長い系列データの処理: 長い系列データでも、効率的にAttention機構を計算できます。

Paged Attentionの応用例

Paged Attentionは、大規模言語モデルの推論だけでなく、画像処理や音声認識など、様々な分野に応用できます。特に、長い系列データを扱う必要があるタスクにおいて、その効果を発揮します。