機械翻訳評価（きかいほんやくひょうか）

最終更新：2026/4/25

機械翻訳の出力結果の品質を測定・判定する行為であり、通常は人間による評価と自動指標を用いる。

別名・同義語翻訳評価機械翻訳品質評価

ポイント

機械翻訳評価は、翻訳の正確性、流暢性、適切性を客観的に判断し、翻訳システムの改善に役立てる。

機械翻訳評価の概要

機械翻訳評価は、機械翻訳システムの性能を向上させるために不可欠なプロセスです。翻訳の品質は、文法的な正確さだけでなく、意味の忠実性、自然さ、文脈への適合性など、多岐にわたる要素によって評価されます。

評価方法

機械翻訳評価は、大きく分けて人間による評価と自動指標による評価の2種類があります。

人間による評価

人間による評価は、翻訳の品質を最も正確に判断できる方法ですが、時間とコストがかかります。評価者は、通常、原文と翻訳文を比較し、以下の基準に基づいて評価を行います。

正確性 (Adequacy): 原文の意味が正確に翻訳されているか。
流暢性 (Fluency): 翻訳文が自然で読みやすいか。
適切性 (Acceptability): 翻訳文が文脈に適合しているか。

自動指標による評価

自動指標は、人間による評価を代替するために開発されたものであり、BLEU、METEOR、TERなどが代表的です。これらの指標は、翻訳文と参照訳文（人間が翻訳した文）との間の類似度を計算し、スコアとして品質を評価します。自動指標は、高速かつ低コストで評価できますが、人間の判断とは異なる場合があります。

機械翻訳評価の課題

機械翻訳評価には、いくつかの課題があります。例えば、自動指標は、翻訳の微妙なニュアンスや文脈を捉えることが苦手であり、人間の評価との相関が必ずしも高くありません。また、人間による評価は、評価者の主観に左右される可能性があります。これらの課題を克服するために、より高度な評価方法の開発が求められています。