Big Data
ここでは、10.2の新しいBig Data機能について説明します。
Big Data Managementのインストール
バージョン10.2では、データ統合サービスは、クラスタ上にBig Data Management管理バイナリを自動的にインストールします。
マッピングの実行時 データ統合サービスは、クラスタ上のバイナリファイルをチェックします。ファイルが存在しない場合、または同期されていない場合、データ統合サービスは転送用にファイルを準備します。このファイルは、HDFSのInformatica Hadoopステージングディレクトリを介して、分散キャッシュに転送されます。デフォルトでは、ステージングディレクトリは/tmpです。このプロセスで、Hadoopクラスタに配布パッケージをインストールするための要件を置き換えます。
詳細については、『Informatica Big Data Management 10.2 Hadoop統合ガイド』を参照してください。
クラスタ設定
クラスタ設定は、Hadoopクラスタに関する設定情報が含まれているドメイン内のオブジェクトです。このクラスタ設定により、データ統合サービスはHadoop環境にマッピングロジックをプッシュできます。
クラスタ設定を作成するときは、設定サイトファイルに含まれているクラスタ設定のプロパティをインポートします。これらのプロパティは、クラスタまたはクラスタ設定アーカイブファイルから直接インポートできます。また、クラスタ設定に関連付ける接続を作成することもできます。
以前は、Hadoop設定マネージャユーティリティを実行して接続およびその他の情報を設定することで、Informaticaドメインを有効にしてクラスタと通信しました。
クラスタ設定の詳細については、『Informatica Big Data Management 10.2管理者ガイド』の「クラスタ設定」の章を参照してください。
階層データの処理
バージョン10.2では、Sparkエンジンで実行されるマッピングで、配列、構造体、マップなどの複雑なデータ型を使用できます。複雑なデータ型を使用すると、Sparkエンジンは、Avro、JSON、およびParquetの複雑なファイル内の階層データの読み取り、処理、および書き込みを直接行います。
複雑なポート、演算子、および関数を使用してマッピングを作成し、次のタスクを実行します。
- •階層データを生成および変更します。
- •リレーショナルデータを階層データに変換します。
- •階層データをリレーショナルデータに変換します。
- •1つの複雑なファイル形式から別の形式にデータを変換します。
階層データを処理するときに、階層変換ウィザードを使用して、マッピング開発タスクを簡略化できます。以下のシナリオでは、これらのウィザードを使用します。
- •1つまたは複数のポートから構造型の階層データを生成する場合。
- •2つのトランスフォーメーションのポートから、ネストされた構造型の階層データを生成する場合。
- •複雑なポート内の階層データから要素を抽出する場合。
- •複雑なポートで階層データをフラット化する場合。
詳細については、『Informatica Big Data Management 10.2ユーザーガイド』の「Sparkエンジン」の章を参照してください。
Sparkエンジンのステートフルコンピューティング
バージョン10.2では、式トランスフォーメーションでウィンドウ関数を使用して、Sparkエンジンでステートフルな計算を実行できます。ウィンドウ関数は、行のグループで動作し、すべての入力行の1つの戻り値を計算します。ウィンドウ関数を使用して、次のタスクを実行できます。
- •前または後続の行からデータを取得します。
- •行のグループに基づいて累積合計を計算します。
- •行のグループに基づいて累積平均を計算します。
詳細については、『Big Data Management 10.2ユーザーガイド』の「Sparkエンジンのステートフルコンピューティング」の章を参照してください。
データ統合サービスのキュー
バージョン10.2では、複数のマッピングジョブまたはワークフローマッピングタスクを同時にデプロイする場合、データ統合サービスは、永続キューのジョブをキューに格納し、リソースが使用可能になったときにジョブを実行します。マッピングジョブの現在のステータスは、Administratorツールの[モニタ]タブに表示できます。
すべてのキューはデフォルトで保持されます。データ統合サービスノードが予期せずシャットダウンした場合、データ統合サービスがフェールオーバーするときに、キューはフェールオーバーしません。キューはデータ統合サービスのマシン上に残り、データ統合サービスは再起動時にキューの処理を再開します。
デフォルトでは、各キューは一度に1万ジョブを保持できます。キューがいっぱいになると、データ統合サービスはジョブ要求を拒否し、失敗したとしてマークします。データ統合サービスがキューでジョブの実行を開始すると、追加のジョブを展開できます。
詳細については、『Informatica Big Data Management 10.2管理者ガイド』の「Queuing」を参照してください。
Blazeジョブ監視
バージョン10.2では、ホストとポート番号を設定して、Hadoop接続プロパティでBlazeジョブ監視アプリケーションを起動することができます。デフォルト値は<hostname>:9080です。ホスト名を設定しない場合、Blazeエンジンはクラスタ内の最初のアルファベットのノードを使用します。
詳細については、『Big Data Management 10.2ユーザーガイド』の「接続」を参照してください。
Hadoop統合のためのデータ統合サービスのプロパティ
バージョン10.2では、データ統合サービスは、Hadoop環境とドメインを統合するために必要なプロパティを追加しました。
以下の表に、新しいプロパティを示します。
プロパティ | 説明 |
|---|
Hadoopステージングディレクトリ | データ統合サービスがInformatica Hadoopバイナリをプッシュし、処理中に一時ファイルを格納するHDFSディレクトリ。デフォルトは/tmpです。 |
Hadoopステージングユーザー | データ統合サービスユーザーが空の場合に必要です。Hadoopステージングディレクトリで操作を実行するHDFSユーザー。ユーザーはHadoopステージングディレクトリに対する書き込み権限が必要です。デフォルトは、データ統合サービスユーザーです。 |
カスタムHadoop OSパス | Hadoopオペレーティングシステムと互換性のあるInformatica Hadoopバイナリへのローカルパス。Hadoopクラスタとデータ統合サービスが、サポートされている異なるオペレーティングシステム上にある場合に必要です。 データ統合サービスをホストするマシン上のHadoopクラスタのInformaticaバイナリをダウンロードして抽出します。データ統合サービスは、このディレクトリ内のバイナリを使用して、ドメインをHadoopクラスタに統合します。 データ統合サービスは、次のオペレーティングシステムを同期できます。 変更は、データ統合サービスを再起動した後に反映されます。 |
クラスタ統合の変更により、次のプロパティがデータ統合サービスから削除されます。
- •Hadoop上のInformatica Homeディレクトリ
- •Hadoopディストリビューションディレクトリ
詳細については、『Informatica 10.2 Hadoop統合ガイド』を参照してください。
Sqoop
バージョン10.2では、Sqoopデータオブジェクトを使用する場合、次の特殊なSqoopコネクタを使用してSparkエンジンでマッピングを実行できます。
- •Cloudera Connector Powered by Teradata
- •Hortonworks Connector for Teradata
これらの専用コネクタは、ネイティブプロトコルを使用して、Teradataデータベースに接続します。
詳細については、『Informatica Big Data Management 10.2ユーザーガイド』を参照してください。
Amazon EMRクラスタでの自動スケーリング
バージョン10.2では、Big Data Managementは、Amazon EMRクラスタでの自動スケーリングを活用するためのSparkマッピングのサポートを追加します。
自動スケーリングにより、EMRクラスタ管理者は、クラスタタスクおよびコアノードを乗算および減算するためのしきい値ベースのルールを確立できます。Big Data Managementは、自動スケーリングが有効なEMRクラスタで実行するSparkマッピングのサポートを認定します。
Blazeエンジンでのトランスフォーメーションサポート
バージョン10.2では、次のトランスフォーメーションがBlazeエンジンで追加でサポートされています。
- •アップデートストラテジ。ORCがすべてのカラムでバケット化されているターゲットをサポートします。
詳細については、『Informatica Big Data Management 10.2ユーザーガイド』の「Hadoop環境でのマッピングオブジェクト」の章を参照してください。
BlazeエンジンのHive機能
バージョン10.2では、Blazeエンジンで実行されるマッピングは、バケットおよびソートされたターゲットに読み取りおよび書き込みをすることができます。
Blazeエンジンのマッピングを設定する方法については、『Informatica Big Data Management 10.2ユーザーガイド』の「Hadoop環境でのマッピング」の章を参照してください。
Sparkエンジンでのトランスフォーメーションサポート
バージョン10.2では、Sparkエンジンの制限で次のトランスフォーメーションがサポートされています。
バージョン10.2では、次のトランスフォーメーションがSparkエンジンで追加でサポートされています。
- •ルックアップ。フィルタ、アグリゲータ、ルータ、式、およびアップデートストラテジトランスフォーメーションからの未接続のルックアップをサポートします。
詳細については、『Informatica Big Data Management 10.2ユーザーガイド』の「Hadoop環境でのマッピングオブジェクト」の章を参照してください。
SparkエンジンのHive機能
バージョン10.2では、Sparkエンジンで実行されるマッピングに対して次の機能がサポートされます。
- •Amazon S3バケットのHiveリソースへの読み取りと書き込み
- •トランザクショナルHiveテーブルの読み取りと書き込み
- •厳密に定義されたSQL承認で保護されたHiveテーブルカラムの読み取りと書き込み
Sparkエンジンのマッピングを設定する方法の詳細については、『Informatica Big Data Management 10.2ユーザーガイド』の「Hadoop環境でのマッピング」の章を参照してください。