リリースガイド > 部 IV: バージョン10.2 > 新機能(10.2) > Big Data
  

Big Data

ここでは、10.2の新しいBig Data機能について説明します。

Big Data Managementのインストール

バージョン10.2では、データ統合サービスは、クラスタ上にBig Data Management管理バイナリを自動的にインストールします。
マッピングの実行時 データ統合サービスは、クラスタ上のバイナリファイルをチェックします。ファイルが存在しない場合、または同期されていない場合、データ統合サービスは転送用にファイルを準備します。このファイルは、HDFSのInformatica Hadoopステージングディレクトリを介して、分散キャッシュに転送されます。デフォルトでは、ステージングディレクトリは/tmpです。このプロセスで、Hadoopクラスタに配布パッケージをインストールするための要件を置き換えます。
詳細については、『Informatica Big Data Management 10.2 Hadoop統合ガイド』を参照してください。

クラスタ設定

クラスタ設定は、Hadoopクラスタに関する設定情報が含まれているドメイン内のオブジェクトです。このクラスタ設定により、データ統合サービスはHadoop環境にマッピングロジックをプッシュできます。
クラスタ設定を作成するときは、設定サイトファイルに含まれているクラスタ設定のプロパティをインポートします。これらのプロパティは、クラスタまたはクラスタ設定アーカイブファイルから直接インポートできます。また、クラスタ設定に関連付ける接続を作成することもできます。
以前は、Hadoop設定マネージャユーティリティを実行して接続およびその他の情報を設定することで、Informaticaドメインを有効にしてクラスタと通信しました。
クラスタ設定の詳細については、『Informatica Big Data Management 10.2管理者ガイド』の「クラスタ設定」の章を参照してください。

階層データの処理

バージョン10.2では、Sparkエンジンで実行されるマッピングで、配列、構造体、マップなどの複雑なデータ型を使用できます。複雑なデータ型を使用すると、Sparkエンジンは、Avro、JSON、およびParquetの複雑なファイル内の階層データの読み取り、処理、および書き込みを直接行います。
複雑なポート、演算子、および関数を使用してマッピングを作成し、次のタスクを実行します。
階層データを処理するときに、階層変換ウィザードを使用して、マッピング開発タスクを簡略化できます。以下のシナリオでは、これらのウィザードを使用します。
詳細については、『Informatica Big Data Management 10.2ユーザーガイド』の「Sparkエンジン」の章を参照してください。

Sparkエンジンのステートフルコンピューティング

バージョン10.2では、式トランスフォーメーションでウィンドウ関数を使用して、Sparkエンジンでステートフルな計算を実行できます。ウィンドウ関数は、行のグループで動作し、すべての入力行の1つの戻り値を計算します。ウィンドウ関数を使用して、次のタスクを実行できます。
詳細については、『Big Data Management 10.2ユーザーガイド』の「Sparkエンジンのステートフルコンピューティング」の章を参照してください。

データ統合サービスのキュー

バージョン10.2では、複数のマッピングジョブまたはワークフローマッピングタスクを同時にデプロイする場合、データ統合サービスは、永続キューのジョブをキューに格納し、リソースが使用可能になったときにジョブを実行します。マッピングジョブの現在のステータスは、Administratorツールの[モニタ]タブに表示できます。
すべてのキューはデフォルトで保持されます。データ統合サービスノードが予期せずシャットダウンした場合、データ統合サービスがフェールオーバーするときに、キューはフェールオーバーしません。キューはデータ統合サービスのマシン上に残り、データ統合サービスは再起動時にキューの処理を再開します。
デフォルトでは、各キューは一度に1万ジョブを保持できます。キューがいっぱいになると、データ統合サービスはジョブ要求を拒否し、失敗したとしてマークします。データ統合サービスがキューでジョブの実行を開始すると、追加のジョブを展開できます。
詳細については、『Informatica Big Data Management 10.2管理者ガイド』の「Queuing」を参照してください。

Blazeジョブ監視

バージョン10.2では、ホストとポート番号を設定して、Hadoop接続プロパティでBlazeジョブ監視アプリケーションを起動することができます。デフォルト値は<hostname>:9080です。ホスト名を設定しない場合、Blazeエンジンはクラスタ内の最初のアルファベットのノードを使用します。
詳細については、『Big Data Management 10.2ユーザーガイド』の「接続」を参照してください。

Hadoop統合のためのデータ統合サービスのプロパティ

バージョン10.2では、データ統合サービスは、Hadoop環境とドメインを統合するために必要なプロパティを追加しました。
以下の表に、新しいプロパティを示します。
プロパティ
説明
Hadoopステージングディレクトリ
データ統合サービスがInformatica Hadoopバイナリをプッシュし、処理中に一時ファイルを格納するHDFSディレクトリ。デフォルトは/tmpです。
Hadoopステージングユーザー
データ統合サービスユーザーが空の場合に必要です。Hadoopステージングディレクトリで操作を実行するHDFSユーザー。ユーザーはHadoopステージングディレクトリに対する書き込み権限が必要です。デフォルトは、データ統合サービスユーザーです。
カスタムHadoop OSパス
Hadoopオペレーティングシステムと互換性のあるInformatica Hadoopバイナリへのローカルパス。Hadoopクラスタとデータ統合サービスが、サポートされている異なるオペレーティングシステム上にある場合に必要です。
データ統合サービスをホストするマシン上のHadoopクラスタのInformaticaバイナリをダウンロードして抽出します。データ統合サービスは、このディレクトリ内のバイナリを使用して、ドメインをHadoopクラスタに統合します。
データ統合サービスは、次のオペレーティングシステムを同期できます。
  • - SUSE 11およびRedhat 6.5
変更は、データ統合サービスを再起動した後に反映されます。
クラスタ統合の変更により、次のプロパティがデータ統合サービスから削除されます。
詳細については、『Informatica 10.2 Hadoop統合ガイド』を参照してください。

Sqoop

バージョン10.2では、Sqoopデータオブジェクトを使用する場合、次の特殊なSqoopコネクタを使用してSparkエンジンでマッピングを実行できます。
これらの専用コネクタは、ネイティブプロトコルを使用して、Teradataデータベースに接続します。
詳細については、『Informatica Big Data Management 10.2ユーザーガイド』を参照してください。

Amazon EMRクラスタでの自動スケーリング

バージョン10.2では、Big Data Managementは、Amazon EMRクラスタでの自動スケーリングを活用するためのSparkマッピングのサポートを追加します。
自動スケーリングにより、EMRクラスタ管理者は、クラスタタスクおよびコアノードを乗算および減算するためのしきい値ベースのルールを確立できます。Big Data Managementは、自動スケーリングが有効なEMRクラスタで実行するSparkマッピングのサポートを認定します。

Blazeエンジンでのトランスフォーメーションサポート

バージョン10.2では、次のトランスフォーメーションがBlazeエンジンで追加でサポートされています。
詳細については、『Informatica Big Data Management 10.2ユーザーガイド』の「Hadoop環境でのマッピングオブジェクト」の章を参照してください。

BlazeエンジンのHive機能

バージョン10.2では、Blazeエンジンで実行されるマッピングは、バケットおよびソートされたターゲットに読み取りおよび書き込みをすることができます。
Blazeエンジンのマッピングを設定する方法については、『Informatica Big Data Management 10.2ユーザーガイド』の「Hadoop環境でのマッピング」の章を参照してください。

Sparkエンジンでのトランスフォーメーションサポート

バージョン10.2では、Sparkエンジンの制限で次のトランスフォーメーションがサポートされています。
バージョン10.2では、次のトランスフォーメーションがSparkエンジンで追加でサポートされています。
詳細については、『Informatica Big Data Management 10.2ユーザーガイド』の「Hadoop環境でのマッピングオブジェクト」の章を参照してください。

SparkエンジンのHive機能

バージョン10.2では、Sparkエンジンで実行されるマッピングに対して次の機能がサポートされます。
Sparkエンジンのマッピングを設定する方法の詳細については、『Informatica Big Data Management 10.2ユーザーガイド』の「Hadoop環境でのマッピング」の章を参照してください。