リリースガイド > 部 III: バージョン10.2.1 > 変更点(10.2.1) > Big Data Management
  

Big Data Management

ここでは、バージョン10.2.1のBig Data Managementへの変更内容について説明します。

Azureストレージアクセス

バージョン10.2.1では、Azure HDInsightクラスタでマッピングを実行する前に、クラスタ設定のcore-site.xmlでプロパティをオーバーライドする必要があります。
WASB
ストレージとしてWASBでクラスタを使用する場合は、管理者からHDInsightクラスタに関連付けられているストレージアカウントキーを取得するか、暗号化されたストレージアカウントキーを復号化して、クラスタ設定のcore-site.xmlで復号化された値をオーバーライドできます。
ADLS
ストレージとしてADLSでクラスタを使用する場合は、Webアプリケーションからクライアント資格情報をコピーし、クラスタ設定のcore-site.xmlの値をオーバーライドする必要があります。
以前は、HadoopクラスタからData Integration Serviceを実行するマシンにファイルをコピーしていました。

Hadoopディストリビューションの設定

ここでは、Hadoopディストリビューション設定への変更について説明します。

Hadoopディストリビューション設定

バージョン10.2.1では、クラスタ設定プロパティでHadoopディストリビューションを設定します。
クラスタからクラスタ設定をインポートするときに、ディストリビューション名とディストリビューションバージョンのプロパティが設定されます。インポート処理が完了した後、ディストリビューションバージョンを編集できます。
以前は、Hadoopディストリビューションは、Data Integration Serviceをホストするマシン上のディストリビューションディレクトリへのパスによって識別されていました。
バージョン10.2.1では、次のプロパティがData Integration Serviceのプロパティから削除されます。
ディストリビューション名とディストリビューションバージョンのプロパティの詳細については、『 Big Data Management 10.2.1管理者ガイド』を参照してください。

MapRの設定

バージョン10.2.1では、Big Data ManagementをMapRで使用する場合のドメインについてデータ統合サービスプロセスプロパティで設定する必要はなくなりました。Big Data Managementでは、何らのユーザーアクションも必要とせずにKerberos認証をサポートします。
以前は、JVM OptionプロパティをData Integration Serviceカスタムプロパティと環境変数で設定して、Kerberos認証のサポートを有効化しました。
ドメインとMapRクラスタの統合の詳細については、『Big Data Management 10.2.1統合ガイド』を参照してください。

Developer tool設定

バージョン10.2.1では、メタデータアクセスサービスを作成できます。メタデータアクセスサービスは、Developer toolがHadoop接続情報にアクセスしてメタデータをインポートおよびプレビューできるようにするアプリケーションサービスです。Hadoopクラスタからオブジェクトをインポートすると、次に示すアダプタでメタデータアクセスサービスが使用され、指定時刻にオブジェクトメタデータが抽出されます。
以前は、各Developer toolで次の手順を手動で実行し、設計時にDeveloper toolのマシンとHadoopクラスタ間の通信を確立しました。
メタデータアクセスサービスを利用すると、設計時接続の各Developer toolマシンをHadoopクラスタに設定する必要がなくなります。
詳細については、『Informatica 10.2.1アプリケーションサービスガイド』の「メタデータアクセスサービス」を参照してください。

Hadoop接続変更内容

バージョン10.2.1では、Hadoop接続には、新規で別のプロパティと機能が含まれています。これには、他の接続または設定ファイルで以前に設定したいくつかのプロパティやその他の変更が含まれます。
ここでは、バージョン10.2.1のHadoop接続への変更内容について説明します。

プロパティをhadoopEnv.propertiesから Hadoop接続に移動

バージョン10.2.1では、以前はファイルhadoopEnv.propertiesで設定したプロパティが、Hadoop接続の詳細プロパティで設定できるようになりました。
Hive接続とHadoop接続の詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。Big Data Managementの設定の詳細については、『Informatica Big Data Management 10.2.1 Hadoop統合ガイド』を参照してください。

プロパティをHive接続から Hadoop接続に移動

マッピングのHadoopクラスタでの実行を有効化する次のHive接続プロパティは、Hadoop接続に移りました。
以前は、これらのプロパティはHive接続で設定しました。
Hive接続とHadoop接続の詳細については、『nformatica Big Data Management 10.2.1管理者ガイド』を参照してください。

Hadoopランタイムエンジンの詳細プロパティ

バージョン10.2.1では、Hadoop接続プロパティでBlaze、Spark、Hiveのランタイムエンジンの詳細プロパティを設定できます。
Informaticaでは、ランタイムエンジン関連のプロパティのプロパティ名を標準化しました。次の表に、新旧の名前を示します。
10.2.1より前のプロパティ名
10.2.1 Hadoop接続プロパティセクション
10.2.1プロパティ名
Blazeサービスのカスタムプロパティ
Blaze設定
詳細プロパティ
Spark実行パラメータ
Spark設定
詳細プロパティ
Hiveカスタムプロパティ
Hiveプッシュダウン設定
詳細プロパティ
以前は、hadoopRes.propertiesまたはhadoopEnv.propertiesファイル、またはAdministratorツールの[共通プロパティ]の下の[Hadoopエンジンのカスタムプロパティ]フィールドで、ランタイムエンジンの詳細プロパティを設定しました。

Blazeエンジンの追加プロパティ

バージョン10.2.1では、Hadoop接続プロパティの[Blaze設定プロパティ]セクションで追加のプロパティを設定できます。
以下の表に、プロパティを示します。
プロパティ
説明
Blaze YARNノードラベル
Blazeエンジンが実行されるHadoopクラスタ上のノードを決定するノードラベル。ノードラベルを指定しない場合、Blazeエンジンはデフォルトのパーティションのノードで実行されます。
Hadoopクラスタがノードラベルの論理演算子をサポートしている場合は、ノードラベルの一覧を指定できます。ノードラベルを一覧表示するには、演算子&&(AND)、||(OR)、および! (NOT)を使用します。
Blazeエンジンでのノードラベルの使用の詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピングの監視」の章を参照してください。

Hive接続プロパティ

バージョン10.2.1では、Hive接続プロパティが変更されました。
次のHive接続プロパティが削除されました。
以前に、これらのプロパティは廃止されました。バージョン10.2.1では、廃止されます。
Hadoop接続で、次のHive接続プロパティを設定します。
以前は、これらのプロパティはHive接続で設定しました。
HiveとHadoop設定の詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。

監視

ここでは、バージョン10.2.1のBig Data Managementでの監視への変更内容について説明します。

Spark監視

バージョン10.2.1では、Spark監視は次の領域に関連して変更されています。

イベントの変更

バージョン10.2.1では、監視情報のみがセッションログのSparkイベントでチェックされます。
以前は、すべてのSparkイベントが、SparkアプリケーションからSpark実行プログラムへ、そのままリレーされていました。イベントのリレーに時間がかかると、パフォーマンスの問題が発生しました。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。

[サマリ統計]ビュー

バージョン10.2.1では、Spark実行の統計情報を実行ステージに基づいて表示できます。たとえば、[Spark実行ステージ]には、Sparkアプリケーション実行ステージの統計が表示されます。Stage_0には、SparkアプリケーションでID=0の実行ステージに関連する統計情報が表示されます。[行]と[平均行/秒]には、ステージから書き出された行数と、それに対応するスループットが表示されます。[バイト]と[平均バイト/秒]には、ステージでブロードキャストされたバイトとスループットが表示されます。
以前は、Spark実行で処理されたソース/ターゲット行数と各秒の平均行数のみが表示できました。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。

Hiveエンジンでの精度およびスケール

バージョン10.2.1では、次の条件がtrueの場合、Hiveエンジンで乗算を実行するユーザー定義関数の出力で、スケールの最大値が6になりました。
以前は、スケールは0になる可能性がありました。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピング」の章を参照してください。

Sqoop

バージョン10.2.1では、次の変更がSqoopに適用されます。

Hiveエンジンでのトランスフォーメーションサポート

バージョン10.2.1では、確率解析を実行するラベラーまたはパーサートランスフォーメーションを有効化するには、それが実行されるすべてのノードにJava 8 Development Kitが必要です。
以前は、このトランスフォーメーションに必要なのはJava 7 Development Kitでした。
確率分析用に設定したラベラーまたはパーサートランスフォーメーションを含むマッピングを実行する場合は、HiveノードのJavaバージョンを確認します。
注: BlazeまたはSparkノードでは、データ統合サービスで、InformaticaエンジンとともにインストールされたJava Development Kitが使用されます。Informatica 10.2.1は、Java Development Kitのバージョン8とともにインストールされます。
詳細については、アップグレードするInformaticaのバージョンに適用される『Informatica 10.2.1インストールガイド』または『Informatica 10.2.1アップグレードガイド』を参照してください。