音声分類（おんせいぶんるい）

最終更新：2026/4/25

音声分類とは、録音された音声データから、話者、感情、環境音などを自動的に識別・分類する技術である。

別名・同義語音声認識音声分析

ポイント

音声分類は、音声認識技術と異なり、音声の内容を理解するのではなく、音声そのものの特徴を分析して分類します。セキュリティ、マーケティング、コールセンターなどで活用されています。

音声分類の概要

音声分類は、音声信号の特性を分析し、事前に定義されたカテゴリに分類する技術です。この技術は、音声認識、話者認識、感情認識、環境音認識など、様々な応用分野で使用されます。

音声分類には、主に以下の技術的アプローチが用いられます。

特徴量抽出: 音声信号から、音響的な特徴量を抽出します。メル周波数ケプストラム係数 (MFCC) や、線形予測係数 (LPC) などがよく用いられます。
機械学習モデル: 抽出された特徴量を用いて、機械学習モデルを訓練します。代表的なモデルとしては、ガウス混合モデル (GMM)、サポートベクターマシン (SVM)、深層学習モデル (DNN, CNN, RNN) などがあります。
分類: 訓練されたモデルを用いて、未知の音声データを分類します。

音声分類は、様々な分野で応用されています。

音声分類には、以下の課題があります。