象徴密度モデル（しょうちょうみつどもでる）

最終更新：2026/4/22

象徴密度モデルは、テキスト中の単語の共起関係を基に、テキストの意味構造を表現する自然言語処理のモデルである。

別名・同義語潜在意味解析LSA

ポイント

潜在意味解析(LSA)の一種であり、単語間の意味的な関連性を捉えることで、文書の主題や内容を把握することを目的とする。

概要

象徴密度モデルは、テキストデータを数値ベクトルで表現し、そのベクトル空間における単語間の距離や角度を計算することで、単語間の意味的な類似度を評価する。このモデルは、テキストマイニング、情報検索、自然言語理解などの分野で応用されている。

歴史的背景

象徴密度モデルの基礎は、1960年代に遡る。当初は、心理学における意味空間モデルの研究から発展し、その後、情報科学や計算言語学の分野で研究が進められた。1990年代には、潜在意味解析(LSA)が登場し、象徴密度モデルの理論的な基盤となった。LSAは、特異値分解(SVD)を用いてテキストデータを次元削減し、潜在的な意味構造を抽出する手法である。

技術的詳細

象徴密度モデルは、通常、以下の手順で構築される。

テキストデータの収集と前処理: 分析対象となるテキストデータを収集し、不要な文字や記号を除去する。また、単語の正規化（ステミングやレンマ化）を行う。
共起行列の作成: テキストデータ中の単語の共起頻度をカウントし、共起行列を作成する。共起行列の各要素は、特定の単語ペアがテキストデータ中に同時に出現する回数を示す。
次元削減: 共起行列に対して、特異値分解(SVD)などの次元削減手法を適用する。これにより、行列の次元数を削減し、計算コストを低減する。
意味空間の構築: 次元削減された行列を用いて、単語の意味空間を構築する。意味空間における各単語は、ベクトルで表現され、そのベクトルの方向と長さが単語の意味を表す。

応用例

情報検索: 検索クエリと関連性の高い文書を検索する。
テキスト分類: テキストデータを特定のカテゴリに分類する。
感情分析: テキストデータに含まれる感情（ポジティブ、ネガティブ、ニュートラル）を分析する。
質問応答: 質問に対して適切な回答を生成する。