Hudiテーブル(ふでぃてーぶる)
最終更新:2026/4/25
Hudiテーブルは、Apache Hudiプロジェクトで提供される、データレイク上に構築されたトランザクション型のテーブル形式である。
別名・同義語 HudiApache Hudi
ポイント
Hudiは、Apache SparkやApache Flinkなどの分散処理エンジンと連携し、高速なデータ取り込み、更新、削除を可能にする。
Hudiテーブルとは
Hudi(Hadoop Upserts and Incremental Data)は、データレイク上に構築されたトランザクション型のテーブル形式です。従来のデータレイクでは、データの更新や削除が困難でしたが、Hudiを用いることで、これらの操作を効率的に行うことができます。
Hudiの主な特徴
- トランザクション性: データの整合性を保証します。複数の同時書き込み操作があっても、データの矛盾が発生することはありません。
- インクリメンタル処理: 変更されたデータのみを効率的に処理できます。これにより、バッチ処理の時間を短縮し、リアルタイムに近いデータ分析を可能にします。
- スキーマ進化: スキーマの変更に柔軟に対応できます。新しいカラムの追加や既存のカラムの型変更などを、データへの影響を最小限に抑えながら行うことができます。
- 多様なデータソースとの連携: Apache Spark、Apache Flink、Prestoなどの様々な分散処理エンジンと連携できます。
Hudiのテーブルタイプ
Hudiには、主に以下の2つのテーブルタイプがあります。
- Copy on Write (CoW): データの更新時に、既存のデータファイルをコピーして変更を適用します。読み込み性能が高いですが、書き込み性能は低くなります。
- Merge on Read (MoR): データの更新時に、デルタファイルを生成し、読み込み時にデルタファイルとベースファイルをマージします。書き込み性能が高いですが、読み込み性能は低くなります。