次元削減(じげんさくげん)
最終更新:2026/4/25
次元削減は、多次元データを、情報損失を最小限に抑えつつ、より少ない次元で表現する手法である。
別名・同義語 次元圧縮特徴抽出
ポイント
機械学習やデータ分析において、計算コストの削減や過学習の抑制、可視化の容易化を目的として用いられる。
次元削減とは
次元削減とは、高次元のデータを、その重要な情報を保持したまま、より低次元のデータに変換する技術です。データに含まれる特徴量(次元)が多すぎると、計算コストが増大したり、モデルが過剰に学習してしまい、汎化性能が低下する「次元の呪い」と呼ばれる問題が生じることがあります。次元削減は、このような問題を解決するための有効な手段となります。
次元削減の主な手法
次元削減の手法は大きく分けて、特徴選択と特徴抽出の2種類があります。
- 特徴選択: 元のデータに含まれる特徴量の中から、重要なものだけを選択する方法です。例えば、相関の高い特徴量を削除したり、重要度の低い特徴量を排除したりします。代表的な手法としては、フィルタ法、ラッパー法、埋め込み法などがあります。
- 特徴抽出: 元のデータに含まれる特徴量を組み合わせて、新しい特徴量を作成する方法です。これにより、元のデータよりも少ない次元で、より効果的にデータを表現することができます。代表的な手法としては、主成分分析(PCA)、線形判別分析(LDA)、t-SNEなどがあります。
主成分分析(PCA)
PCAは、最も広く用いられている次元削減手法の一つです。データの分散が最大となる方向(主成分)を軸として、データを射影することで、次元を削減します。PCAは、データのノイズ除去や可視化にも利用されます。
t-SNE
t-SNEは、高次元データの可視化に特化した次元削減手法です。データの類似性を保ちながら、2次元または3次元にデータを射影することで、データの分布を視覚的に把握することができます。
次元削減の応用例
次元削減は、様々な分野で応用されています。