SPONSORED

Delta Lake(でるたれいく)

最終更新:2026/4/25

Delta Lakeは、データレイクにおいてACIDトランザクションなどのデータ管理機能を提供するオープンソースのストレージレイヤーである。

別名・同義語 Delta Lake Storage Layer

ポイント

Delta Lakeは、Apache Sparkとの統合により、データレイクにおけるACIDトランザクションやスキーマ強制、バージョン管理などを可能にする。

概要

Delta Lakeは、データレイクの課題であるデータの信頼性、パフォーマンス、管理性を向上させるために開発されたオープンソースのストレージレイヤーです。Apache Sparkを基盤としており、既存のデータレイク(例:Amazon S3、Azure Data Lake Storage、Google Cloud Storage)上に構築できます。

特徴

  • ACIDトランザクション: 複数のユーザーが同時にデータを読み書きしても、データの整合性を保証します。
  • スキーマ強制: データ品質を維持するために、書き込まれるデータのスキーマを検証します。
  • バージョン管理: データの変更履歴を追跡し、過去のバージョンへのロールバックを可能にします。
  • 統一されたバッチ処理とストリーミング処理: バッチ処理とストリーミング処理の両方で、同じデータソースを使用できます。
  • データレイクの信頼性向上: データの破損や不整合を防ぎ、データ品質を向上させます。

アーキテクチャ

Delta Lakeは、Parquet形式でデータを保存し、トランザクションログ(Delta Log)と呼ばれるメタデータ層を追加することで、上記の能を実現しています。Delta Logには、データの変更履歴やスキーマ情報などが記録されます。

利用事例

  • データウェアハウス: データレイク上に構築されたデータウェアハウスの信頼性とパフォーマンスを向上させます。
  • リアルタイム分析: ストリーミングデータとバッチデータを統合し、リアルタイム分析を可能にします。
  • 機械学習: 機械学習モデルの学習に使用するデータの品質を向上させます。

関連技術

  • Apache Spark
  • Apache Parquet
  • データレイク

SPONSORED