Tensor Core（てんそーこあ）

最終更新：2026/4/27

テンソルコアは、NVIDIAが開発したGPUに搭載された専用のハードウェアユニットであり、深層学習における行列演算を高速化する。

別名・同義語行列演算アクセラレータ深層学習アクセラレータ

ポイント

テンソルコアは、特に混合精度演算（FP16/BF16）において高い性能を発揮し、AI推論や学習の効率を大幅に向上させる。

概要

Tensor Coreは、NVIDIAのVolta、Turing、Ampere、Ada Lovelace、HopperアーキテクチャのGPUに搭載されている特殊な演算ユニットです。深層学習のワークロード、特に行列積などのテンソル演算を高速化するために設計されました。

歴史

Tensor Coreは、VoltaアーキテクチャのV100 GPUで初めて導入されました。当初はFP16/FP32混合精度演算に特化していましたが、TuringアーキテクチャではINT8/INT4演算のサポートが追加され、さらにAmpereアーキテクチャではBF16演算のサポートが強化されました。Ada Lovelaceアーキテクチャでは、FP8演算のサポートが追加され、HopperアーキテクチャではTransformer Engineという新しい機能と組み合わせて、さらに性能が向上しています。

動作原理

Tensor Coreは、複数のFP16/BF16/INT8/INT4値をまとめて処理することで、従来のGPUコアよりも高いスループットを実現します。これは、行列積などの演算を効率的に実行するために最適化されたハードウェア構造によるものです。特に、混合精度演算を用いることで、精度を維持しつつメモリ使用量を削減し、計算速度を向上させることができます。

用途

Tensor Coreは、主に以下の用途で使用されます。

深層学習の学習: 大規模なニューラルネットワークの学習を高速化します。
深層学習の推論: 学習済みのモデルを用いて、画像認識、自然言語処理などの推論処理を高速化します。
HPC (High Performance Computing): 科学技術計算など、大規模な行列演算を必要とする分野。

アーキテクチャごとの特徴

Volta: FP16/FP32混合精度演算
Turing: INT8/INT4演算のサポート追加
Ampere: BF16演算のサポート強化、スループット向上
Ada Lovelace: FP8演算のサポート追加
Hopper: Transformer Engineによる性能向上