Delta Lake(でるたれいく)
最終更新:2026/4/25
Delta Lakeは、データレイクにおいてACIDトランザクションなどのデータ管理機能を提供するオープンソースのストレージレイヤーである。
別名・同義語 Delta Lake Storage Layer
ポイント
Delta Lakeは、Apache Sparkとの統合により、データレイクにおけるACIDトランザクションやスキーマ強制、バージョン管理などを可能にする。
概要
Delta Lakeは、データレイクの課題であるデータの信頼性、パフォーマンス、管理性を向上させるために開発されたオープンソースのストレージレイヤーです。Apache Sparkを基盤としており、既存のデータレイク(例:Amazon S3、Azure Data Lake Storage、Google Cloud Storage)上に構築できます。
特徴
- ACIDトランザクション: 複数のユーザーが同時にデータを読み書きしても、データの整合性を保証します。
- スキーマ強制: データ品質を維持するために、書き込まれるデータのスキーマを検証します。
- バージョン管理: データの変更履歴を追跡し、過去のバージョンへのロールバックを可能にします。
- 統一されたバッチ処理とストリーミング処理: バッチ処理とストリーミング処理の両方で、同じデータソースを使用できます。
- データレイクの信頼性向上: データの破損や不整合を防ぎ、データ品質を向上させます。
アーキテクチャ
Delta Lakeは、Parquet形式でデータを保存し、トランザクションログ(Delta Log)と呼ばれるメタデータ層を追加することで、上記の機能を実現しています。Delta Logには、データの変更履歴やスキーマ情報などが記録されます。
利用事例
- データウェアハウス: データレイク上に構築されたデータウェアハウスの信頼性とパフォーマンスを向上させます。
- リアルタイム分析: ストリーミングデータとバッチデータを統合し、リアルタイム分析を可能にします。
- 機械学習: 機械学習モデルの学習に使用するデータの品質を向上させます。
関連技術
- Apache Spark
- Apache Parquet
- データレイク