DINO（だいの）

最終更新：2026/4/27

DINOは、自己教師あり学習を用いて画像認識を行う、Facebook AI Researchが開発した視覚トランスフォーマーモデルである。

別名・同義語自己教師あり学習視覚トランスフォーマー

ポイント

DINOは、ラベルなしの画像データから特徴量を学習できるため、多様なダウンストリームタスクへの応用が期待されている。特に、セグメンテーションや物体検出において高い性能を示す。

DINOの概要

DINO (Self-Distillation with no labels) は、2021年に発表された自己教師あり学習 (Self-Supervised Learning) のフレームワークであり、画像認識モデルの学習にラベル付きデータを用いずに、大量のラベルなし画像データから有用な特徴量を抽出することを目的としています。従来の自己教師あり学習手法と比較して、DINOはより安定した学習と高い性能を実現しています。

DINOの仕組み

DINOの核となる技術は、知識蒸留 (Knowledge Distillation) とコントラスト学習 (Contrastive Learning) を組み合わせたものです。具体的には、教師モデルと生徒モデルを用意し、教師モデルが生成する疑似ラベルを生徒モデルが学習する形で学習を進めます。この際、教師モデルは生徒モデル自身によって生成されるため、自己蒸留 (Self-Distillation) と呼ばれます。

コントラスト学習においては、画像の一部分を別の画像と区別するように学習することで、画像の特徴を捉える能力を高めます。DINOでは、中心クロップとグローバルビューという2つの異なるビューを用いてコントラスト学習を行い、よりロバストな特徴量学習を実現しています。

DINOの応用

DINOで学習された特徴量は、様々なダウンストリームタスクに応用できます。例えば、画像分類、物体検出、セマンティックセグメンテーションなど、幅広いタスクにおいて高い性能を発揮します。特に、ラベル付きデータが少ない状況や、ドメイン適応が必要な状況において、DINOの有効性が示されています。

DINOの派生モデル

DINOをベースとした様々な派生モデルが開発されています。これらのモデルは、DINOの基本的な枠組みを維持しつつ、学習方法やネットワーク構造を改良することで、さらなる性能向上を目指しています。

参考文献

DINO: Self-Distillation with no labels