カナリア推論（かなりあすいろん）

最終更新：2026/4/27

カナリア推論は、訓練データに挿入した特定の識別文字列（カナリア）をモデルに出力させることで、データの記憶や漏洩を検証する手法である。

別名・同義語間接的プロンプト攻撃レッドチーミング

ポイント

LLMが直接的な指示には従わない場合でも、巧妙に設計されたプロンプトを通じて、潜在的な危険性や脆弱性を特定するために用いられる。

カナリア推論とは

カナリア推論は、LLMの安全性評価において、直接的な有害な出力を促すのではなく、間接的な方法で潜在的なリスクを検出する手法です。その名前は、炭鉱でカナリアが有害なガスを検知するために使用されたことに由来します。LLMに対するプロンプトは、一見無害に見えますが、巧妙に設計されており、モデルが有害な情報を生成する可能性を引き出すことを意図しています。

カナリア推論の仕組み

カナリア推論では、LLMに特定のタスクを実行させ、その過程でモデルが有害な情報を生成するかどうかを観察します。例えば、モデルに物語を作成させ、その物語の中に有害な要素が含まれていないかを確認したり、モデルにコードを生成させ、そのコードにセキュリティ上の脆弱性がないかを確認したりします。重要なのは、プロンプトが直接的に有害な出力を要求するのではなく、モデルの潜在的なリスクを間接的に引き出すように設計されている点です。

カナリア推論の応用

カナリア推論は、LLMの安全性評価だけでなく、モデルのバイアスや偏見を検出するためにも使用できます。例えば、モデルに特定のグループに関する情報を生成させ、その情報に偏見が含まれていないかを確認したり、モデルに特定のトピックに関する意見を生成させ、その意見が公平であるかどうかを確認したりします。また、カナリア推論は、LLMのロバスト性を評価するためにも使用できます。例えば、モデルにノイズの多い入力や曖昧な指示を与え、モデルがそれでも正確な出力を生成できるかどうかを確認します。

カナリア推論の課題

カナリア推論は、LLMの安全性評価において有効な手法ですが、いくつかの課題も存在します。まず、効果的なプロンプトを設計することが難しい場合があります。プロンプトが巧妙に設計されていない場合、モデルは有害な情報を生成しない可能性があります。また、カナリア推論は、モデルの潜在的なリスクをすべて検出できるわけではありません。モデルは、予期しない方法で有害な情報を生成する可能性があります。さらに、カナリア推論の結果を解釈することが難しい場合があります。モデルが有害な情報を生成した場合、それがプロンプトの設計に起因するのか、モデル自体の問題に起因するのかを判断する必要があります。