ベクトル埋め込み(べくとるうめこみ)
最終更新:2026/4/25
ベクトル埋め込みは、単語や文章などの高次元データを、意味的な類似性を持つように低次元のベクトル空間に変換する技術である。
別名・同義語 単語埋め込み分散表現
ポイント
自然言語処理や機械学習において、テキストデータの数値表現として利用され、データの比較や分析を可能にする。
概要
ベクトル埋め込み(Vector Embedding)は、自然言語処理(NLP)や機械学習の分野で広く用いられる技術であり、単語、文、ドキュメントなどのテキストデータを、数値ベクトルとして表現する手法です。このベクトル表現は、元のテキストデータが持つ意味的な情報を保持するように設計されており、ベクトル空間における距離が、テキスト間の意味的な類似性に対応します。
歴史的背景
初期のテキスト表現手法としては、One-Hot Encodingなどが用いられていましたが、高次元かつ疎な表現となるため、計算効率や意味的な表現力の面で課題がありました。その後、Word2Vec、GloVe、FastTextなどの分散表現モデルが登場し、より低次元で密なベクトル表現が可能になりました。近年では、Transformerモデルに基づくBERTやGPTなどの事前学習済みモデルが、文脈を考慮した高品質なベクトル埋め込みを提供しています。
主な手法
- Word2Vec: 周囲の単語からターゲットの単語を予測する、またはその逆を行うことで、単語のベクトル表現を獲得します。
- GloVe: コーパス全体の単語の共起統計量に基づいて、ベクトル表現を学習します。
- FastText: Word2Vecと同様の原理ですが、単語をサブワード(n-gram)に分割することで、未知語や稀少語に対する表現力を向上させます。
- BERT (Bidirectional Encoder Representations from Transformers): 双方向の文脈を考慮したTransformerモデルであり、文全体の意味を捉えたベクトル埋め込みを生成します。
- GPT (Generative Pre-trained Transformer): 生成的なTransformerモデルであり、テキスト生成タスクに特化したベクトル埋め込みを生成します。