言語密度モデル（げんごみつどもでる）

最終更新：2026/4/22

言語密度モデルは、テキストデータにおける単語の出現頻度と分布に基づいて、その言語的特徴を数値的に表現する統計モデルである。

別名・同義語テキストベクトルモデル単語頻度モデル

ポイント

言語密度モデルは、テキストの分類、著者特定、言語識別など、様々な自然言語処理タスクに応用される。特に、短いテキストからの情報抽出に有効である。

概要

言語密度モデルは、テキストに含まれる単語の出現頻度をベクトルとして表現し、テキスト間の類似度を計算することで、その言語的特徴を捉える手法である。従来のBag-of-Wordsモデルと比較して、単語の順序や文法構造を考慮しない点が特徴である。

言語密度モデルの概念は、1950年代に情報検索の分野で提唱された。当初は、キーワードの出現頻度に基づいて文書の関連性を評価するために用いられていた。その後、機械学習の発展に伴い、より高度な言語モデルが登場したが、言語密度モデルは依然として、そのシンプルさと計算効率の高さから、広く利用されている。

言語密度モデルには、様々な種類が存在する。代表的なものとしては、以下のものが挙げられる。

TF-IDF (Term Frequency-Inverse Document Frequency): 単語の出現頻度と、その単語が文書全体でどれだけ珍しいかを考慮したモデル。
BM25: TF-IDFを改良したモデルで、より高い精度を実現する。
Word Embedding: 単語を低次元のベクトル空間に埋め込むことで、単語間の意味的な関係を捉えるモデル。

言語密度モデルは、様々な自然言語処理タスクに応用できる。

近年、深層学習の発展により、より高度な言語モデルが登場しているが、言語密度モデルは、そのシンプルさと計算効率の高さから、依然として重要な役割を果たしている。今後は、深層学習モデルと組み合わせることで、より高い精度を実現することが期待される。