Hudiテーブル（ふでぃてーぶる）

最終更新：2026/4/25

Hudiテーブルは、Apache Hudiプロジェクトで提供される、データレイク上に構築されたトランザクション型のテーブル形式である。

別名・同義語 HudiApache Hudi

ポイント

Hudiは、Apache SparkやApache Flinkなどの分散処理エンジンと連携し、高速なデータ取り込み、更新、削除を可能にする。

Hudiテーブルとは

Hudi（Hadoop Upserts and Incremental Data）は、データレイク上に構築されたトランザクション型のテーブル形式です。従来のデータレイクでは、データの更新や削除が困難でしたが、Hudiを用いることで、これらの操作を効率的に行うことができます。

トランザクション性: データの整合性を保証します。複数の同時書き込み操作があっても、データの矛盾が発生することはありません。
インクリメンタル処理: 変更されたデータのみを効率的に処理できます。これにより、バッチ処理の時間を短縮し、リアルタイムに近いデータ分析を可能にします。
スキーマ進化: スキーマの変更に柔軟に対応できます。新しいカラムの追加や既存のカラムの型変更などを、データへの影響を最小限に抑えながら行うことができます。
多様なデータソースとの連携: Apache Spark、Apache Flink、Prestoなどの様々な分散処理エンジンと連携できます。

Hudiには、主に以下の2つのテーブルタイプがあります。

Copy on Write (CoW): データの更新時に、既存のデータファイルをコピーして変更を適用します。読み込み性能が高いですが、書き込み性能は低くなります。
Merge on Read (MoR): データの更新時に、デルタファイルを生成し、読み込み時にデルタファイルとベースファイルをマージします。書き込み性能が高いですが、読み込み性能は低くなります。