ReAir

Hive データウェアハウス間のテーブルやパーティションを複製するための使いやすいツールのコレクション
261
著者ポール・ヤン

ReAir は、Hive データウェアハウス間のテーブルやパーティションを複製するための使いやすいツールのコレクションです。これらのツールは、Hadoop および Hive に基づくウェアハウスの操作に多少の習熟のある開発者を対象としています。

概要

ReAir の複製機能は、以下のユースケースで役立ちます。

  • Hive ウェアハウスの移行
  • 2 つのウェアハウス間の増分レプリケーション
  • 災害復旧

ReAir は、Hive ウェアハウスの移行時に、既存のデータを新しいウェアハウスにコピーするために使用できます。ReAir はデータとメタデータの両方をコピーするため、コピーが完了するとすぐにデータセットのクエリを実行できるようになります。

多くの組織は単一の Hive ウェアハウスから始まりますが、本番ワークロードとアドホックワークロードをより分離したいと考えることがよくあります。2 つの分離された Hive ウェアハウスは、このニーズに適しており、2 つのウェアハウスでは、進化するデータセットを複製する必要があります。ReAir を使用して、あるウェアハウスから別のウェアハウスにデータを複製し、変更が発生したときに増分的に更新を伝達できます。

最後に、ReAir は、災害復旧シナリオで迅速なフェイルオーバーを実現するため、ホットスタンバイウェアハウスにデータセットを複製するために使用できます。

これらのユースケースに対応するため、ReAir にはバッチレプリケーションツールと増分レプリケーションツールの両方が含まれています。バッチレプリケーションは、テーブルのリストの一括コピーを実行します。増分レプリケーションは、ソースウェアハウスでオブジェクトが作成または変更されたときにオブジェクトをコピーする永続プロセスです。