半教師あり学習(はんきょうしありがくしゅう)
最終更新:2026/4/25
半教師あり学習とは、ラベル付きデータとラベルなしデータを組み合わせて機械学習モデルを訓練する手法である。
別名・同義語 弱教師あり学習部分教師あり学習
ポイント
ラベル付きデータの収集コストを削減しつつ、ラベルなしデータを利用することでモデルの汎化性能を向上させることを目的とする。
半教師あり学習とは
半教師あり学習(Semi-Supervised Learning, SSL)は、機械学習における学習パラダイムの一つであり、少量のラベル付きデータと大量のラベルなしデータを活用してモデルを学習させる手法です。教師あり学習と教師なし学習の中間に位置し、両者の利点を組み合わせることで、より効率的な学習を目指します。
背景と動機
現実の機械学習タスクにおいては、ラベル付きデータの取得は時間とコストがかかることが多く、一方、ラベルなしデータは比較的容易に収集できます。半教師あり学習は、このような状況下で、ラベルなしデータを有効活用することで、ラベル付きデータのみを用いた教師あり学習の性能を向上させることを目的としています。
代表的な手法
半教師あり学習には、様々な手法が存在します。代表的なものとしては、以下のものが挙げられます。
- 自己学習 (Self-Training): ラベル付きデータで学習したモデルを用いてラベルなしデータに疑似ラベルを付与し、その疑似ラベル付きデータを追加して再学習を行う手法です。
- 共学習 (Co-Training): 異なる特徴量集合を持つ複数のモデルを学習させ、互いに疑似ラベルを付与し合うことで学習を進める手法です。
- グラフベース学習 (Graph-Based Learning): データ間の類似度をグラフ構造で表現し、ラベル付きデータからラベルなしデータへとラベルを伝播させる手法です。
- 生成モデル (Generative Models): データ分布をモデル化し、そのモデルを用いてラベルなしデータのラベルを推定する手法です。
応用分野
半教師あり学習は、画像認識、自然言語処理、音声認識など、様々な分野で応用されています。特に、ラベル付きデータの入手が困難な分野において、その有効性が発揮されます。