調和密度モデル（ちょうわみつどもでる）

最終更新：2026/4/22

調和密度モデルは、音声信号のスペクトル包絡を表現する手法であり、音響特徴量として音声認識や音声合成に用いられる。

別名・同義語スペクトル包絡モデル音響モデル

ポイント

調和密度モデルは、音声を調和成分と非調和成分に分解し、調和成分の密度分布をモデル化することで、効率的な音響表現を可能にする。

調和密度モデルとは

調和密度モデル（Harmonic Density Model: HDM）は、音声信号のスペクトル包絡を効率的に表現するための音響モデルである。従来のスペクトルモデルと比較して、少ないパラメータで高精度な音響表現が可能となるため、音声認識や音声合成などの分野で注目されている。

調和密度モデルは、音声信号を調和成分（基音とその整数倍の周波数成分）と非調和成分に分解する。人間の音声は、声帯振動によって生成される基音とその整数倍の周波数成分を主要な構成要素として持つ。調和密度モデルは、これらの調和成分の密度分布を確率モデルとして表現する。

具体的には、以下の手順でモデル化が行われる。

調和密度モデルの主な特徴は以下の通りである。

調和密度モデルは、以下の分野で応用されている。