音声合成（おんせいごうせい）

最終更新：2026/4/25

音声合成は、テキストなどのデータを基に、人間の音声を人工的に生成する技術である。

別名・同義語テキスト読み上げ音声生成

ポイント

音声合成技術は、読み上げソフトや音声アシスタント、コミュニケーション支援機器など、幅広い分野で活用されている。近年では、深層学習の発展により、より自然な音声合成が可能になっている。

音声合成の概要

音声合成は、テキスト情報やその他のデータを入力として、人間の音声に近い音声を生成する技術です。その歴史は古く、1950年代には既に研究が開始されていました。初期の音声合成は、機械的で不自然な音声しか生成できませんでしたが、技術の進歩により、近年では非常に自然な音声合成が可能になっています。

音声合成の方式は大きく分けて、連結合成方式、パラメータ合成方式、そして近年主流となっている統計的パラメトリック合成方式（HMM合成、DNN合成など）があります。

連結合成方式: あらかじめ録音された音声の断片（音素）を繋ぎ合わせて音声を作成します。自然な音声になりやすい反面、音素の組み合わせによっては不自然な音声になることがあります。
パラメータ合成方式: 音声のパラメータ（基本周波数、音量、スペクトルなど）を制御して音声を作成します。柔軟性が高い反面、自然な音声を作成するには高度な技術が必要です。
統計的パラメトリック合成方式: 大量の音声データから統計モデルを学習し、そのモデルに基づいて音声を作成します。自然な音声合成が可能であり、近年最も主流の方式です。

音声合成技術は、様々な分野で応用されています。

音声合成技術は、近年飛躍的に進歩していますが、まだ課題も残されています。例えば、感情表現やイントネーションの自然さ、話者の個性などをより豊かに表現することが求められています。今後の展望としては、深層学習のさらなる発展により、より人間らしい自然な音声合成が可能になることが期待されています。