エントロピーLB（えんとろぴーえるびー）

最終更新：2026/4/28

エントロピーLBは、大規模言語モデル（LLM）の評価指標の一つで、出力の多様性と品質を同時に測るために提案された指標である。

ポイント

従来のPerplexityやBLEUスコアでは捉えきれない、LLMの生成するテキストの予測不可能性と人間による評価との相関が高いとされる。多様性と品質のバランス評価に用いられる。

エントロピーLBとは

エントロピーLB（Entropy-LB）は、大規模言語モデル（LLM）が生成するテキストの多様性と品質を評価するための指標です。従来の評価指標であるPerplexityは、モデルがどれだけテキストを正確に予測できるかを示しますが、必ずしも人間にとって自然で多様なテキストを生成できているとは限りません。また、BLEUスコアは、生成されたテキストと参照テキストとの類似度を測りますが、多様性を考慮していません。

エントロピーLBは、これらの課題を克服するために提案されました。この指標は、LLMが生成するテキストのエントロピー（予測不可能性）と、人間による評価（Likelihood-Based）を組み合わせることで、多様性と品質を同時に評価します。具体的には、LLMが生成したテキストの各単語の出現確率に基づいてエントロピーを計算し、そのエントロピーと人間による評価スコアとの相関を分析します。

エントロピーLBの計算方法

エントロピーLBの計算は、以下のステップで行われます。

テキスト生成: LLMにプロンプトを与え、テキストを生成させます。
単語の出現確率の計算: 生成されたテキストの各単語の出現確率を計算します。これは、LLMが学習したデータに基づいて行われます。
エントロピーの計算: 計算された単語の出現確率に基づいて、テキストのエントロピーを計算します。エントロピーは、テキストの予測不可能性を示す指標です。
人間による評価: 生成されたテキストを人間が評価し、品質スコアを付与します。
相関分析: 計算されたエントロピーと人間による評価スコアとの相関を分析します。相関が高いほど、エントロピーLBはLLMの性能を正確に評価していると言えます。

エントロピーLBの活用

エントロピーLBは、LLMの開発と評価において、以下のような活用が期待されます。

モデルの改善: エントロピーLBを活用することで、LLMの多様性と品質を向上させるための改善点を見つけることができます。
ハイパーパラメータの調整: LLMのハイパーパラメータを調整する際に、エントロピーLBを指標として使用することで、最適なパラメータを見つけることができます。
モデルの比較: 複数のLLMを比較する際に、エントロピーLBを指標として使用することで、それぞれのモデルの性能を客観的に評価することができます。