Gemini（じぇみに）

/ˈdʒɛmɪnaɪ/

最終更新：2026/4/19

✓ 監修済み

Geminiは、Googleが開発したテキスト、画像、音声、動画を統合的に処理・生成するマルチモーダル対応の大規模言語モデルのシリーズである。

ポイント

Googleが提供する生成AIの旗艦モデル。ネイティブ・マルチモーダルな設計

定義

「Gemini」は、Googleが開発した次世代AIモデル群および対話型AIサービスのブランド名である。名称は星座の「ふたご座」に由来する。従来のモデルとは異なり、最初から多様な種類の情報を同時に扱うことを前提とした「ネイティブ・マルチモーダル」な設計を特徴とする。テキスト、画像、音声、動画、プログラミングコードなどを統合的に理解し、生成や対話を行うことが可能である。

解説

Geminiは、GoogleのAI研究部門であるGoogle DeepMindによって構築された最新のAIモデルです。

主な特徴

ネイティブ・マルチモーダル: テキストだけでなく、画像、音声、動画、プログラミングコードといった異なる形式の情報を同時に理解・推論し、生成することができます。
スケーラビリティ: 非常に複雑なタスクに対応する「Ultra」、幅広いタスクに対応する「Pro」、高速応答に優れた「Flash」、モバイル端末などデバイス上での実行に最適化された「Nano」など、用途に応じた複数のモデルサイズが展開されています。
高度な推論能力: 複雑なマルチモーダル情報を横断的に解析し、論理的な推論や高度な問題解決を行う能力を備えています。

活用シーン

日常的な情報検索や文章作成の支援、プログラミングのコード生成、大量のドキュメントの要約に加え、動画や画像の内容を読み取って回答する高度な分析など、多岐にわたる分野で活用されています。また、Googleの各サービス（Workspace、Androidなど）にも統合され、エコシステム全体で利用が拡大しています。