Paged Attention(ぺーじど あてんしょん)
最終更新:2026/4/28
Paged Attentionは、TransformerモデルにおけるAttention機構の計算効率を向上させる手法である。
ポイント
特に長い系列データを扱う際に、メモリ使用量を削減し、処理速度を改善することを目的とする。
Paged Attentionとは
Paged Attentionは、大規模言語モデル(LLM)の推論時に、Attention機構の計算に必要なメモリを効率的に管理するための手法です。従来のAttention機構では、系列長が長くなるにつれて、Attentionスコアを保存するために必要なメモリ量が2乗で増加するという問題がありました。Paged Attentionは、この問題を解決するために、仮想メモリのページング技術をAttention機構に適用します。
従来のAttention機構の問題点
従来のAttention機構では、入力系列の各トークン間のAttentionスコアをすべて計算し、保存する必要があります。系列長がNの場合、必要なメモリ量はO(N^2)となります。大規模なモデルや長い系列データを扱う場合、このメモリ量がボトルネックとなり、計算効率が低下します。
Paged Attentionの仕組み
Paged Attentionでは、Attentionスコアを固定長のブロック(ページ)に分割し、必要なページのみをメモリにロードします。これにより、メモリ使用量を削減し、計算効率を向上させることができます。具体的には、以下の手順でAttentionスコアが計算されます。
- 入力系列を固定長のブロックに分割します。
- 各ブロック間のAttentionスコアを計算します。
- 必要なブロックのAttentionスコアのみをメモリにロードします。
- ロードされたAttentionスコアを使用して、Attention重みを計算します。
Paged Attentionの利点
- メモリ使用量の削減: Attentionスコアをページングすることで、メモリ使用量を大幅に削減できます。
- 計算効率の向上: 必要なページのみをメモリにロードすることで、計算効率を向上させることができます。
- 長い系列データの処理: 長い系列データでも、効率的にAttention機構を計算できます。
Paged Attentionの応用例
Paged Attentionは、大規模言語モデルの推論だけでなく、画像処理や音声認識など、様々な分野に応用できます。特に、長い系列データを扱う必要があるタスクにおいて、その効果を発揮します。