ViT（ぶいえいてぃー）

最終更新：2026/4/27

ViTは、画像認識のための深層学習モデルであり、Transformerアーキテクチャを画像に適用したものである。

ポイント

従来の画像認識モデルとは異なり、ViTは画像をパッチに分割し、それらを単語のように扱うことで、画像全体の関係性を捉えることを可能にする。

ViTとは

ViT (Vision Transformer) は、2020年にGoogle Researchによって発表された画像認識モデルです。従来の画像認識モデルの主流であった畳み込みニューラルネットワーク (CNN) とは異なり、自然言語処理で高い性能を発揮していたTransformerアーキテクチャを画像認識に応用した点が特徴です。

Transformerアーキテクチャの応用

Transformerは、Attentionメカニズムを用いて、入力データ内の要素間の関係性を捉えることに優れています。ViTでは、画像を一定サイズのパッチに分割し、各パッチをTransformerの入力として扱います。これにより、画像内の各パッチ間の関係性を学習し、画像全体を理解することが可能になります。

CNNとの比較

CNNは、局所的な特徴を捉えることに優れていますが、画像全体の関係性を捉えるには限界があります。一方、ViTは、Attentionメカニズムにより、画像全体の関係性を捉えることができ、よりグローバルな視点での画像認識を実現できます。しかし、ViTは学習に大量のデータが必要となる傾向があります。

ViTの応用

ViTは、画像分類、物体検出、セマンティックセグメンテーションなど、様々な画像認識タスクに応用されています。また、医療画像解析や自動運転など、幅広い分野での活用が期待されています。

今後の展望

ViTは、画像認識の分野に新たな可能性をもたらしました。今後は、ViTの改良や、他のモデルとの組み合わせにより、さらなる高性能化が期待されます。