言語信号エネルギー(ごがおしんごうえねるぎー)
最終更新:2026/4/22
言語信号エネルギーとは、音声信号に含まれるエネルギーの総量を表す指標であり、音量や発話強度と関連する。
別名・同義語 音声エネルギー音響エネルギー
ポイント
言語信号エネルギーは、音声認識や音声分析において重要な特徴量として利用され、雑音環境下での音声検出などに役立つ。
言語信号エネルギーとは
言語信号エネルギーは、音声信号の振幅の二乗を時間軸に沿って積分した値で、音声の強さを示す指標です。具体的には、音声波形を一定時間間隔で区切り、各区間における波形の二乗和を計算することで求められます。
計算方法
言語信号エネルギーの計算式は以下の通りです。
E = Σ[x(n)^2]
ここで、Eは言語信号エネルギー、x(n)はn番目のサンプル点の振幅、Σは総和を表します。
用途
言語信号エネルギーは、様々な音声処理技術で利用されています。
- 音声認識: 音声認識システムでは、言語信号エネルギーを特徴量として利用し、音声の区切りや音素の認識を行います。
- 音声強調: 雑音環境下では、言語信号エネルギーを利用して音声と雑音を分離し、音声の明瞭度を向上させることができます。
- 話者認識: 言語信号エネルギーは、話者の声の特徴を表すため、話者認識システムでも利用されます。
- 音声検出: 音声が存在するかどうかを判断するために、言語信号エネルギーの閾値判定が用いられます。
注意点
言語信号エネルギーは、音量に依存するため、話者の発話強度や録音環境によって値が変動します。そのため、言語信号エネルギーのみで音声を評価するのではなく、他の特徴量と組み合わせて利用することが重要です。