カオスインジェクション(かおすいんじぇくしょん)
最終更新:2026/4/28
カオスインジェクションは、大規模言語モデル(LLM)の挙動を制御するために設計されたプロンプト技術であり、モデルの安全機構を回避することを目的とする。
ポイント
この技術は、LLMが本来禁止するような有害なコンテンツを生成させたり、機密情報を漏洩させたりする可能性があるため、倫理的な懸念が指摘されている。
カオスインジェクションとは
カオスインジェクションは、2023年以降に注目を集めたプロンプトエンジニアリングの手法の一つです。LLMの内部構造や学習データに存在する脆弱性を利用し、モデルの意図しない挙動を引き出すことを目的とします。従来のプロンプトでは回避されていた、有害なコンテンツの生成、個人情報の漏洩、倫理的に問題のある応答などを引き出すことが可能です。
技術的な背景
LLMは、大量のテキストデータに基づいて学習されています。この学習データには、意図的に悪意のある情報や、モデルが学習すべきではない情報が含まれている可能性があります。カオスインジェクションは、これらの情報にアクセスし、モデルの応答を操作するために、特殊なプロンプト構造や隠れた指示を使用します。具体的には、プロンプト内に矛盾した命令や、モデルの安全機構を混乱させるような指示を組み込むことで、モデルのフィルタリング機能を無効化します。
カオスインジェクションの例
具体的な手法としては、以下のようなものが挙げられます。
- 指示の矛盾: 「有害な情報を生成しないでください」と同時に、「〇〇について詳しく説明してください(〇〇が有害な情報を含む場合)」という矛盾した指示を与える。
- 役割の偽装: モデルに特定の役割(例:悪意のあるハッカー)を演じさせ、その役割に基づいて有害な行動を指示する。
- 文脈の操作: プロンプトの文脈を巧妙に操作し、モデルが本来禁止するような応答を生成させる。
カオスインジェクションへの対策
LLMの開発者は、カオスインジェクションに対抗するために、様々な対策を講じています。例えば、プロンプトのフィルタリング強化、モデルの学習データの精査、安全機構の改良などが挙げられます。しかし、カオスインジェクションの手法は常に進化しており、完全な対策は困難です。ユーザーは、LLMの利用に際して、常にリスクを認識し、慎重な判断を行う必要があります。