象徴分散モデル(しょうちょうぶんさんもでる)
最終更新:2026/4/24
象徴分散モデルは、意味的特徴を少数の象徴的次元に分散させて表現する、自然言語処理における単語埋め込みの手法である。
別名・同義語 分散表現意味分散モデル
ポイント
このモデルは、単語の意味を低次元空間にマッピングすることで、単語間の意味的類似性を効率的に計算することを可能にする。
概要
象徴分散モデル(Distributed Symbolic Representation, DSR)は、単語の意味をベクトル空間に埋め込む手法の一つであり、特に意味的類似性の計算や類推問題への応用が期待されている。従来の単語埋め込みモデル(Word2Vec, GloVeなど)が、大規模なテキストコーパスから単語の共起関係を学習するのに対し、DSRは、より明示的に意味的特徴を捉え、それを少数の次元に分散させることを目的とする。
特徴
DSRの主な特徴は以下の通りである。
- 象徴的次元: 単語の意味を表現する次元が、具体的な意味的特徴(例:動物、色、感情)に対応している。
- 分散表現: 各単語は、複数の次元にわたって表現されるため、単語の意味の曖昧性や多義性を捉えることができる。
- 計算効率: 低次元空間でのベクトル演算により、意味的類似性の計算を高速に行うことができる。
手法
DSRの学習には、通常、知識ベース(WordNetなど)や辞書などの外部知識源が利用される。これらの知識源から得られた意味的特徴を、単語のベクトル表現に反映させることで、より意味的に豊かな埋め込みを生成することができる。具体的な学習アルゴリズムとしては、制約付き最適化や教師あり学習などが用いられる。
応用
DSRは、様々な自然言語処理タスクに応用することができる。
- 意味的類似性計算: 単語や文の意味的類似性を評価する。
- 類推問題: 「AはBであるように、Cは何であるか」といった類推問題を解く。
- 質問応答: 質問文と知識ベースに基づいて、適切な回答を生成する。
- テキスト分類: テキストの内容に基づいて、適切なカテゴリに分類する。