トークンリーク（とーけんりーく）

最終更新：2026/4/28

トークンリークとは、大規模言語モデルが学習データに含まれる情報を不適切に再現する現象。

別名・同義語情報漏洩データ再現

ポイント

特に機密情報や個人情報が漏洩するリスクがあり、モデルの安全性評価において重要な課題となっている。

トークンリークとは

トークンリークは、大規模言語モデル（LLM）が、学習に使用したデータセットに含まれる情報を、意図せず出力してしまう現象を指します。これは、モデルが学習データ内のパターンを記憶し、それを再現してしまうことで発生します。例えば、学習データに特定の人物の住所や電話番号が含まれていた場合、モデルがそれらの情報を質問に応じて出力してしまう可能性があります。

トークンリークのメカニズム

LLMは、テキストをトークンと呼ばれる小さな単位に分割して処理します。トークンリークは、モデルがこれらのトークンの出現パターンを学習し、特定の入力に対して、学習データ内の特定のトークン列を生成することで発生します。モデルは、文脈を理解しているように見えますが、実際には単にトークンの統計的な関係性を利用しているに過ぎない場合があります。

トークンリークのリスク

トークンリークは、プライバシー侵害、機密情報の漏洩、悪意のある情報の拡散など、様々なリスクを引き起こす可能性があります。特に、個人情報や企業秘密などが学習データに含まれていた場合、その情報が漏洩する危険性があります。また、モデルが誤った情報を生成し、社会的な混乱を引き起こす可能性も指摘されています。

トークンリークへの対策

トークンリークを防ぐためには、様々な対策が講じられています。例えば、学習データのクリーニング、差分プライバシーの導入、モデルのファインチューニングなどが挙げられます。学習データのクリーニングでは、個人情報や機密情報が含まれていないかを確認し、必要に応じて削除または匿名化します。差分プライバシーは、学習データにノイズを加えることで、個々のデータの識別を困難にする技術です。モデルのファインチューニングでは、特定のタスクに対してモデルを再学習させることで、トークンリークのリスクを低減することができます。

今後の展望

トークンリークは、LLMの安全性における重要な課題であり、今後も継続的な研究と対策が必要です。より安全で信頼性の高いLLMを開発するためには、トークンリークのメカニズムをより深く理解し、効果的な対策を講じることが不可欠です。