特徴スケーリング（とくちょうすけーりんぐ）

最終更新：2026/4/25

特徴スケーリングは、機械学習において、各特徴量の値を特定の範囲に揃えることで、データの尺度（スケール）の差異を調整する前処理手法である。

別名・同義語データスケーリング正規化

ポイント

特徴量のスケールが異なる場合、一部の特徴量が他の特徴量に支配されてしまう問題を回避するために用いられる。代表的な手法として、Min-Maxスケーリングや標準化がある。

特徴スケーリングとは

特徴スケーリングは、機械学習モデルの性能を向上させるための重要な前処理ステップです。多くの機械学習アルゴリズムは、特徴量のスケール（値の範囲）に敏感であり、スケールが大きく異なる特徴量が存在すると、学習が不安定になったり、精度が低下したりする可能性があります。

例えば、あるデータセットに「年齢」（0歳から100歳程度）と「年収」（0円から数億円）という特徴量が含まれているとします。年収の範囲は年齢の範囲よりもはるかに大きいため、そのままモデルに学習させると、年収の特徴量が年齢の特徴量を圧倒し、モデルが年収に偏った学習をしてしまう可能性があります。このような問題を回避するために、特徴スケーリングが用いられます。

主な特徴スケーリング手法

Min-Maxスケーリング

Min-Maxスケーリングは、特徴量の値を0から1の範囲に収める手法です。以下の式で計算されます。

scaled_value = (value - min_value) / (max_value - min_value)

この手法は、特徴量の分布が分かっている場合に有効です。

標準化 (Standardization)

標準化は、特徴量の値を平均0、標準偏差1になるように変換する手法です。以下の式で計算されます。

scaled_value = (value - mean) / standard_deviation

この手法は、特徴量の分布が正規分布に近い場合に有効です。外れ値の影響を受けにくいという利点もあります。

ロバストスケーリング

ロバストスケーリングは、外れ値の影響を受けにくいスケーリング手法です。中央値と四分位範囲を用いて値を変換します。

特徴スケーリングの注意点

学習データとテストデータで同じスケーリングを適用する: モデルの評価を正しく行うためには、学習データとテストデータで同じスケーリング手法とパラメータを使用する必要があります。
スケーリング手法の選択: データの特徴やモデルの要件に応じて、適切なスケーリング手法を選択する必要があります。
パイプラインの利用: スケーリング処理をパイプラインに組み込むことで、処理の効率化と再現性の向上を図ることができます。