象徴分布モデル（しょうちょうぶんぷもでる）

最終更新：2026/4/22

象徴分布モデルは、データ内の各観測値を、潜在的なカテゴリまたは「象徴」の確率分布として表現する統計モデルである。

別名・同義語潜在クラス分析混合モデル

ポイント

このモデルは、カテゴリカルデータや混合データに対して特に有効であり、潜在的な構造を明らかにするために用いられる。

概要

象徴分布モデル（Latent Class Analysis, LCA）は、観測された変数間の共起パターンに基づいて、潜在的なクラスまたはグループを特定するための統計的手法です。各観測値は、複数の潜在クラスに属する確率を持ち、各クラスは特定の変数の値のパターンに関連付けられます。

歴史的背景

LCAの起源は、1950年代に遡り、心理測定学や教育測定学の分野で発展しました。当初は、テストの回答パターンに基づいて生徒を異なる能力グループに分類するために使用されていました。その後、マーケティング、社会学、生物学など、幅広い分野に応用されるようになりました。

モデルの構造

象徴分布モデルは、以下の要素で構成されます。

観測変数: 測定または記録される変数（例：アンケートの回答、購買履歴）。
潜在クラス: 観測変数間のパターンに基づいて定義される、観測されないグループ。
クラス所属確率: 各観測値が各潜在クラスに属する確率。
クラス条件分布: 各潜在クラスにおける観測変数の値の確率分布。

推定方法

象徴分布モデルのパラメータは、最尤推定法（Maximum Likelihood Estimation, MLE）を用いて推定されます。MLEは、観測されたデータが最も起こりうるパラメータの値を探索する手法です。EMアルゴリズム（Expectation-Maximization algorithm）は、MLEを効率的に計算するための一般的な手法です。

応用例

顧客セグメンテーション: 顧客の購買履歴や属性に基づいて、異なる顧客グループを特定する。
疾患分類: 患者の症状や検査結果に基づいて、異なる疾患タイプを特定する。
教育評価: 生徒のテストの回答パターンに基づいて、異なる学習スタイルや能力グループを特定する。