特徴選択(とくちょうせんたく)
最終更新:2026/4/25
特徴選択とは、機械学習モデルの性能向上を目的として、データに含まれる特徴量の中から重要なものを選択する手法である。
別名・同義語 特徴量選択変数選択
ポイント
特徴選択は、過学習の抑制や計算コストの削減に貢献する。適切な特徴量の選択は、モデルの解釈性を高める効果も期待できる。
特徴選択とは
特徴選択は、機械学習や統計モデリングにおいて、モデルの学習に使用する特徴量(説明変数)の集合を決定するプロセスです。データセットに含まれるすべての特徴量をそのまま使用するのではなく、モデルの性能に貢献する重要な特徴量のみを選択することで、モデルの精度向上、過学習の抑制、計算コストの削減、そしてモデルの解釈性の向上を目指します。
特徴選択の目的
特徴選択の主な目的は以下の通りです。
- モデルの精度向上: 不要な特徴量(ノイズ)を取り除くことで、モデルが重要な特徴量に集中しやすくなり、汎化性能が向上します。
- 過学習の抑制: 高次元データにおいて、特徴量が増えすぎると過学習が発生しやすくなります。特徴選択によって特徴量の数を減らすことで、過学習を抑制できます。
- 計算コストの削減: 特徴量の数が減ることで、モデルの学習や予測に必要な計算量が減少し、処理速度が向上します。
- モデルの解釈性の向上: 重要な特徴量のみを使用することで、モデルの予測根拠を理解しやすくなり、解釈性が向上します。
特徴選択の手法
特徴選択の手法は大きく分けて、フィルタ法、ラッパー法、組み込み法の3種類があります。
- フィルタ法: 各特徴量の統計的な指標(分散、相関係数、カイ二乗検定など)に基づいて特徴量を評価し、重要度の低い特徴量を削除します。計算コストが低いのが特徴です。
- ラッパー法: 特徴量の部分集合を評価するために、機械学習モデルを繰り返し学習させます。前方選択、後方除去、再帰的特徴除去などが代表的な手法です。計算コストが高いですが、モデルの性能を直接評価できるのが特徴です。
- 組み込み法: モデルの学習過程で特徴量の重要度を評価し、重要度の低い特徴量を削除します。L1正則化(LASSO)などが代表的な手法です。
注意点
特徴選択は、データセットやモデルの種類によって最適な手法が異なります。また、特徴選択の結果は、モデルの性能に大きな影響を与えるため、慎重に検討する必要があります。