教師なし学習(きょしなしがくしゅう)
最終更新:2026/4/25
教師なし学習とは、ラベル付けされていないデータからパターンや構造を発見するための機械学習の手法である。
別名・同義語 非教師型学習自己教師学習
ポイント
教師なし学習は、データの隠れた構造を明らかにし、クラスタリングや次元削減などのタスクに利用される。
概要
教師なし学習は、機械学習の一分野であり、入力データに正解ラベルが与えられない状況下で、データそのものの内在する構造やパターンを発見することを目的とします。教師あり学習とは異なり、アルゴリズムはデータから自己学習し、データのグループ化、異常検知、特徴抽出などを行います。
主な手法
教師なし学習には、いくつかの主要な手法が存在します。
- クラスタリング: データを類似性に基づいてグループに分割します。代表的なアルゴリズムとして、k-means法、階層的クラスタリング、DBSCANなどがあります。
- 次元削減: データの次元数を減らし、重要な特徴を保持しながらデータ量を削減します。主成分分析(PCA)やt-SNEなどが用いられます。
- アソシエーション分析: データ間の関連性や相関ルールを発見します。マーケットバスケット分析などが代表例です。
- 異常検知: データセットの中で、他のデータとは異なる異常なパターンを検出します。
応用例
教師なし学習は、様々な分野で応用されています。
- 顧客セグメンテーション: 顧客の購買履歴や行動データから、類似した顧客グループを特定し、マーケティング戦略に活用します。
- 画像認識: 画像データから特徴を抽出し、類似した画像をグループ化します。
- 自然言語処理: テキストデータからトピックを抽出したり、文書を分類したりします。
- 不正検知: クレジットカードの不正利用やネットワークの異常アクセスを検出します。
教師あり学習との比較
教師なし学習は、教師あり学習と対比されることが多くあります。教師あり学習では、入力データと正解ラベルのペアを用いてモデルを学習させますが、教師なし学習では、正解ラベルがありません。そのため、教師なし学習は、データの探索的な分析や、ラベル付けが困難なデータに対して有効です。