AI安全性（えあいあんぜんせい）

/ˌeɪˈaɪ ˈseɪfti/

最終更新：2026/4/12

AI安全性は、AIシステムが設計者の意図に沿って動作し、人間や社会への予期せぬ危害や誤用を防止するための技術、倫理、制度に基づく枠組みである。

ポイント

AIが社会にもたらすリスクを制御し、信頼性を担保する学問・実践分野。技術的な脆弱性への対策と、倫理的・法的なガバナンスの両面からアプローチする。

AIシステムが意図しない動作、誤用、悪用によって生じるリスクを予測、防止、および緩和するための学術的研究と産業上の実務の総称。AIの「安全性（Safety）」には、技術的な堅牢性（Robustness）、信頼性（Reliability）、セキュリティ（Security）だけでなく、AIの挙動が人間の価値観や意図と合致しているかというアライメント（Alignment）、および社会的なガバナンスや法規制への準拠も含まれる。

AI安全性の課題は、短期的な「安全性（Safety）」と長期的・広範な「調整（Alignment）」に大別される。前者は、AIがハルシネーション（嘘）の生成、偏見の助長、あるいはサイバー攻撃への悪用といった実害を防ぐことを指す。一方、後者はAIの目的関数を人類の価値観や意図と整合させ、超知能に至った際にも制御不能な状態に陥らないことを目指す。近年では、生成AIの急速な普及に伴い、ディープフェイクや著作権侵害への対策も重要なトピックとなっている。国際的な開発競争が激化する中で、AI開発の透明性確保、監査プロトコルの策定、および法的規制を通じたガバナンス体制の構築が喫緊の課題として認識されている。

具体的には、強化学習を用いた人間からのフィードバックによる学習（RLHF）や、モデルの脆弱性を探るためのレッドチーミング、解釈可能性（Interpretability）の研究などが含まれる。これらの手法を通じて、AIが予期せぬ攻撃に対して耐性を持ち、かつ人間の倫理的規範を逸脱しないような制御技術の確立が求められている。また、AIが自律的に判断を下す場面が増えるにつれ、責任の所在を明確にするための法的議論や、国際的な標準化活動も加速している。

また、技術的な側面では、敵対的攻撃（Adversarial Attacks）に対する堅牢性の向上や、モデルの決定プロセスを人間が理解可能にする技術が重要視されている。社会的な側面では、NIST（米国国立標準技術研究所）によるAIリスクマネジメントフレームワークの策定など、国際的な枠組みを通じた安全基準の統一が進められている。