Big Data

マッピングの実行時データ統合サービスは、クラスタ上のバイナリファイルをチェックします。ファイルが存在しない場合、または同期されていない場合、データ統合サービスは転送用にファイルを準備します。このファイルは、HDFSのInformatica Hadoopステージングディレクトリを介して、分散キャッシュに転送されます。デフォルトでは、ステージングディレクトリは/tmpです。このプロセスで、Hadoopクラスタに配布パッケージをインストールするための要件を置き換えます。

クラスタ設定

クラスタ設定を作成するときは、設定サイトファイルに含まれているクラスタ設定のプロパティをインポートします。これらのプロパティは、クラスタまたはクラスタ設定アーカイブファイルから直接インポートできます。また、クラスタ設定に関連付ける接続を作成することもできます。

階層データの処理

バージョン10.2では、Sparkエンジンで実行されるマッピングで、配列、構造体、マップなどの複雑なデータ型を使用できます。複雑なデータ型を使用すると、Sparkエンジンは、Avro、JSON、およびParquetの複雑なファイル内の階層データの読み取り、処理、および書き込みを直接行います。

Sparkエンジンのステートフルコンピューティング

バージョン10.2では、式トランスフォーメーションでウィンドウ関数を使用して、Sparkエンジンでステートフルな計算を実行できます。ウィンドウ関数は、行のグループで動作し、すべての入力行の1つの戻り値を計算します。ウィンドウ関数を使用して、次のタスクを実行できます。

データ統合サービスのキュー

バージョン10.2では、複数のマッピングジョブまたはワークフローマッピングタスクを同時にデプロイする場合、データ統合サービスは、永続キューのジョブをキューに格納し、リソースが使用可能になったときにジョブを実行します。マッピングジョブの現在のステータスは、Administratorツールの［モニタ］タブに表示できます。

すべてのキューはデフォルトで保持されます。データ統合サービスノードが予期せずシャットダウンした場合、データ統合サービスがフェールオーバーするときに、キューはフェールオーバーしません。キューはデータ統合サービスのマシン上に残り、データ統合サービスは再起動時にキューの処理を再開します。

デフォルトでは、各キューは一度に1万ジョブを保持できます。キューがいっぱいになると、データ統合サービスはジョブ要求を拒否し、失敗したとしてマークします。データ統合サービスがキューでジョブの実行を開始すると、追加のジョブを展開できます。

Blazeジョブ監視

バージョン10.2では、ホストとポート番号を設定して、Hadoop接続プロパティでBlazeジョブ監視アプリケーションを起動することができます。デフォルト値は<hostname>:9080です。ホスト名を設定しない場合、Blazeエンジンはクラスタ内の最初のアルファベットのノードを使用します。

Hadoop統合のためのデータ統合サービスのプロパティ

プロパティ	説明
Hadoopステージングディレクトリ	データ統合サービスがInformatica Hadoopバイナリをプッシュし、処理中に一時ファイルを格納するHDFSディレクトリ。デフォルトは/tmpです。
Hadoopステージングユーザー	データ統合サービスユーザーが空の場合に必要です。Hadoopステージングディレクトリで操作を実行するHDFSユーザー。ユーザーはHadoopステージングディレクトリに対する書き込み権限が必要です。デフォルトは、データ統合サービスユーザーです。
カスタムHadoop OSパス	Hadoopオペレーティングシステムと互換性のあるInformatica Hadoopバイナリへのローカルパス。Hadoopクラスタとデータ統合サービスが、サポートされている異なるオペレーティングシステム上にある場合に必要です。データ統合サービスをホストするマシン上のHadoopクラスタのInformaticaバイナリをダウンロードして抽出します。データ統合サービスは、このディレクトリ内のバイナリを使用して、ドメインをHadoopクラスタに統合します。データ統合サービスは、次のオペレーティングシステムを同期できます。 - SUSE 11およびRedhat 6.5 変更は、データ統合サービスを再起動した後に反映されます。

Sqoop

Amazon EMRクラスタでの自動スケーリング

自動スケーリングにより、EMRクラスタ管理者は、クラスタタスクおよびコアノードを乗算および減算するためのしきい値ベースのルールを確立できます。Big Data Managementは、自動スケーリングが有効なEMRクラスタで実行するSparkマッピングのサポートを認定します。

Big Data

Big Data Managementのインストール

クラスタ設定

階層データの処理

Sparkエンジンのステートフルコンピューティング

データ統合サービスのキュー

Blazeジョブ監視

Hadoop統合のためのデータ統合サービスのプロパティ

Sqoop

Amazon EMRクラスタでの自動スケーリング

Blazeエンジンでのトランスフォーメーションサポート

BlazeエンジンのHive機能

Sparkエンジンでのトランスフォーメーションサポート

SparkエンジンのHive機能