データリバランサ（でーたりばらんさ）

最終更新：2026/4/28

データリバランサは、機械学習の学習データにおけるクラス間の不均衡を解消し、データ分布を調整するための手法やツールである。

別名・同義語不均衡データ対策クラスバランス調整

ポイント

データリバランサは、少数クラスの予測精度を向上させることを目的とする。過学習を防ぎ、モデルの汎化性能を高める効果が期待できる。

データリバランサとは

データリバランサは、機械学習モデルの学習において、各クラスのデータ数が大きく異なる場合に用いられる手法群の総称です。例えば、不正検知や異常検知といったタスクでは、正常データに比べて不正データや異常データの数が圧倒的に少ないことが一般的です。このような状況で、データセット全体のバランスを考慮せずにモデルを学習させると、多数派のクラスに偏ったモデルとなり、少数派のクラスの予測精度が著しく低下する可能性があります。

データリバランサの主な手法

データリバランサには、主に以下の3つの手法があります。

オーバーサンプリング: 少数派のクラスのデータを複製または生成することで、データ数を増やす手法です。代表的な手法として、Random OversamplingやSMOTE (Synthetic Minority Oversampling Technique) などがあります。
アンダーサンプリング: 多数派のクラスのデータを削除することで、データ数を減らす手法です。代表的な手法として、Random UndersamplingやTomek Linksなどがあります。
コスト感度学習: 各クラスの誤分類に対するコストを調整することで、少数派のクラスの誤分類をより重視する学習を行う手法です。

各手法のメリット・デメリット

オーバーサンプリング: 少数派のクラスの情報を有効活用できる一方、過学習を引き起こす可能性があります。
アンダーサンプリング: 計算コストを削減できる一方、多数派のクラスの情報を失う可能性があります。
コスト感度学習: データセットを変更せずに済む一方、適切なコスト設定が難しい場合があります。

データリバランサの注意点

データリバランサは、必ずしも常に有効な手法ではありません。データセットの特性やモデルの種類によっては、効果が見られない場合や、むしろ性能を低下させる場合もあります。そのため、データリバランサを適用する際には、様々な手法を試したり、交差検証などの評価手法を用いて、最適な手法を選択することが重要です。