特徴量ドリフト(とくちょうりょうどりふと)
最終更新:2026/4/27
特徴量ドリフトとは、機械学習モデルの学習に使用したデータと、モデルが実際に運用されるデータとの間に、特徴量の分布が時間経過とともに変化する現象である。
別名・同義語 概念ドリフトデータドリフト
ポイント
特徴量ドリフトは、モデルの予測精度低下を引き起こす主な原因の一つであり、定期的なモデルの再学習や、ドリフトを検知・修正する仕組みの導入が重要となる。
特徴量ドリフトとは
特徴量ドリフトは、機械学習モデルの性能を時間経過とともに低下させる現象です。モデルの学習時に使用したデータ(学習データ)と、モデルが実際に運用されるデータ(推論データ)の間で、入力特徴量の統計的な分布が変化することで発生します。例えば、顧客の年齢層や購買行動が時間とともに変化した場合、それらの特徴量を用いたモデルは、徐々に予測精度を失っていく可能性があります。
特徴量ドリフトの原因
特徴量ドリフトの原因は様々ですが、主なものとして以下のものが挙げられます。
- データの変化: 社会情勢の変化、季節変動、流行などにより、データの分布が変化する。
- センサーの劣化: センサーの精度が低下したり、故障したりすることで、測定される値に誤差が生じる。
- データ収集方法の変更: データ収集方法が変更された場合、データの分布が変化する。
- ソフトウェアのアップデート: ソフトウェアのアップデートにより、データの形式や意味が変化する。
特徴量ドリフトの検出方法
特徴量ドリフトを検出するためには、様々な統計的な手法が用いられます。
- 分布の比較: 学習データと推論データの分布を比較し、統計的な有意差があるかどうかを検定する(例:Kolmogorov-Smirnov検定、Chi-squared検定)。
- ドリフト検出アルゴリズム: ドリフトを検知するために設計された専用のアルゴリズムを使用する(例:ADWIN、DDM)。
- モデルの性能監視: モデルの予測精度を定期的に監視し、精度が低下した場合にドリフトを疑う。
特徴量ドリフトへの対策
特徴量ドリフトに対処するためには、以下の対策が考えられます。