データリバランサ(でーたりばらんさ)
最終更新:2026/4/28
データリバランサは、機械学習の学習データにおけるクラス間の不均衡を解消し、データ分布を調整するための手法やツールである。
別名・同義語 不均衡データ対策クラスバランス調整
ポイント
データリバランサは、少数クラスの予測精度を向上させることを目的とする。過学習を防ぎ、モデルの汎化性能を高める効果が期待できる。
データリバランサとは
データリバランサは、機械学習モデルの学習において、各クラスのデータ数が大きく異なる場合に用いられる手法群の総称です。例えば、不正検知や異常検知といったタスクでは、正常データに比べて不正データや異常データの数が圧倒的に少ないことが一般的です。このような状況で、データセット全体のバランスを考慮せずにモデルを学習させると、多数派のクラスに偏ったモデルとなり、少数派のクラスの予測精度が著しく低下する可能性があります。
データリバランサの主な手法
データリバランサには、主に以下の3つの手法があります。
- オーバーサンプリング: 少数派のクラスのデータを複製または生成することで、データ数を増やす手法です。代表的な手法として、Random OversamplingやSMOTE (Synthetic Minority Oversampling Technique) などがあります。
- アンダーサンプリング: 多数派のクラスのデータを削除することで、データ数を減らす手法です。代表的な手法として、Random UndersamplingやTomek Linksなどがあります。
- コスト感度学習: 各クラスの誤分類に対するコストを調整することで、少数派のクラスの誤分類をより重視する学習を行う手法です。
各手法のメリット・デメリット
- オーバーサンプリング: 少数派のクラスの情報を有効活用できる一方、過学習を引き起こす可能性があります。
- アンダーサンプリング: 計算コストを削減できる一方、多数派のクラスの情報を失う可能性があります。
- コスト感度学習: データセットを変更せずに済む一方、適切なコスト設定が難しい場合があります。
データリバランサの注意点
データリバランサは、必ずしも常に有効な手法ではありません。データセットの特性やモデルの種類によっては、効果が見られない場合や、むしろ性能を低下させる場合もあります。そのため、データリバランサを適用する際には、様々な手法を試したり、交差検証などの評価手法を用いて、最適な手法を選択することが重要です。