リリースガイド > 部 III: バージョン10.2.1 > 変更点（10.2.1） > Big Data Management

Big Data Management

ここでは、バージョン10.2.1のBig Data Managementへの変更内容について説明します。

Azureストレージアクセス

バージョン10.2.1では、Azure HDInsightクラスタでマッピングを実行する前に、クラスタ設定のcore-site.xmlでプロパティをオーバーライドする必要があります。

WASB: ストレージとしてWASBでクラスタを使用する場合は、管理者からHDInsightクラスタに関連付けられているストレージアカウントキーを取得するか、暗号化されたストレージアカウントキーを復号化して、クラスタ設定のcore-site.xmlで復号化された値をオーバーライドできます。
ADLS: ストレージとしてADLSでクラスタを使用する場合は、Webアプリケーションからクライアント資格情報をコピーし、クラスタ設定のcore-site.xmlの値をオーバーライドする必要があります。

以前は、HadoopクラスタからData Integration Serviceを実行するマシンにファイルをコピーしていました。

Hadoopディストリビューションの設定

ここでは、Hadoopディストリビューション設定への変更について説明します。

Hadoopディストリビューション設定

バージョン10.2.1では、クラスタ設定プロパティでHadoopディストリビューションを設定します。

クラスタからクラスタ設定をインポートするときに、ディストリビューション名とディストリビューションバージョンのプロパティが設定されます。インポート処理が完了した後、ディストリビューションバージョンを編集できます。

以前は、Hadoopディストリビューションは、Data Integration Serviceをホストするマシン上のディストリビューションディレクトリへのパスによって識別されていました。

バージョン10.2.1では、次のプロパティがData Integration Serviceのプロパティから削除されます。

•Data Integration ServiceのHadoopディストリビューションディレクトリ

ディストリビューション名とディストリビューションバージョンのプロパティの詳細については、『 Big Data Management 10.2.1管理者ガイド』を参照してください。

MapRの設定

バージョン10.2.1では、Big Data ManagementをMapRで使用する場合のドメインについてデータ統合サービスプロセスプロパティで設定する必要はなくなりました。Big Data Managementでは、何らのユーザーアクションも必要とせずにKerberos認証をサポートします。

以前は、JVM OptionプロパティをData Integration Serviceカスタムプロパティと環境変数で設定して、Kerberos認証のサポートを有効化しました。

ドメインとMapRクラスタの統合の詳細については、『Big Data Management 10.2.1統合ガイド』を参照してください。

Developer tool設定

バージョン10.2.1では、メタデータアクセスサービスを作成できます。メタデータアクセスサービスは、Developer toolがHadoop接続情報にアクセスしてメタデータをインポートおよびプレビューできるようにするアプリケーションサービスです。Hadoopクラスタからオブジェクトをインポートすると、次に示すアダプタでメタデータアクセスサービスが使用され、指定時刻にオブジェクトメタデータが抽出されます。

•PowerExchange for HBase
•PowerExchange for HDFS
•PowerExchange for Hive
•PowerExchange for MapR-DB

以前は、各Developer toolで次の手順を手動で実行し、設計時にDeveloper toolのマシンとHadoopクラスタ間の通信を確立しました。

•抽出されたクラスタ設定ファイル。
•krb5.iniファイルを実行し、Hive、HBase、およびkerberos対応のHadoopクラスタからの複雑なファイルソースからメタデータをインポートします。

メタデータアクセスサービスを利用すると、設計時接続の各Developer toolマシンをHadoopクラスタに設定する必要がなくなります。

詳細については、『Informatica 10.2.1アプリケーションサービスガイド』の「メタデータアクセスサービス」を参照してください。

Hadoop接続変更内容

バージョン10.2.1では、Hadoop接続には、新規で別のプロパティと機能が含まれています。これには、他の接続または設定ファイルで以前に設定したいくつかのプロパティやその他の変更が含まれます。

ここでは、バージョン10.2.1のHadoop接続への変更内容について説明します。

プロパティをhadoopEnv.propertiesから Hadoop接続に移動

バージョン10.2.1では、以前はファイルhadoopEnv.propertiesで設定したプロパティが、Hadoop接続の詳細プロパティで設定できるようになりました。

Hive接続とHadoop接続の詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。Big Data Managementの設定の詳細については、『Informatica Big Data Management 10.2.1 Hadoop統合ガイド』を参照してください。

プロパティをHive接続から Hadoop接続に移動

マッピングのHadoopクラスタでの実行を有効化する次のHive接続プロパティは、Hadoop接続に移りました。

•データベース名。テーブルの名前空間。指定されたデータベース名を持たないテーブルには、名前としてdefaultを使用してください。
•Hive/Hadoopの詳細プロパティ。データ統合サービスが実行されているマシンのhive-site.xml構成セットで、HiveまたはHadoopクラスタのプロパティを設定またはオーバーライドします。複数のプロパティを指定できます。
•一時テーブル圧縮コーデック。圧縮コーデッククラス名のHadoop圧縮ライブラリ。
•コーデッククラス名。データ圧縮を有効にし、一時ステージングテーブルのパフォーマンスを改善するコーデッククラス名。

以前は、これらのプロパティはHive接続で設定しました。

Hive接続とHadoop接続の詳細については、『nformatica Big Data Management 10.2.1管理者ガイド』を参照してください。

Hadoopランタイムエンジンの詳細プロパティ

バージョン10.2.1では、Hadoop接続プロパティでBlaze、Spark、Hiveのランタイムエンジンの詳細プロパティを設定できます。

Informaticaでは、ランタイムエンジン関連のプロパティのプロパティ名を標準化しました。次の表に、新旧の名前を示します。

10.2.1より前のプロパティ名	10.2.1 Hadoop接続プロパティセクション	10.2.1プロパティ名
Blazeサービスのカスタムプロパティ	Blaze設定	詳細プロパティ
Spark実行パラメータ	Spark設定	詳細プロパティ
Hiveカスタムプロパティ	Hiveプッシュダウン設定	詳細プロパティ

以前は、hadoopRes.propertiesまたはhadoopEnv.propertiesファイル、またはAdministratorツールの［共通プロパティ］の下の［Hadoopエンジンのカスタムプロパティ］フィールドで、ランタイムエンジンの詳細プロパティを設定しました。

Blazeエンジンの追加プロパティ

バージョン10.2.1では、Hadoop接続プロパティの［Blaze設定プロパティ］セクションで追加のプロパティを設定できます。

以下の表に、プロパティを示します。

プロパティ	説明
Blaze YARNノードラベル	Blazeエンジンが実行されるHadoopクラスタ上のノードを決定するノードラベル。ノードラベルを指定しない場合、Blazeエンジンはデフォルトのパーティションのノードで実行されます。 Hadoopクラスタがノードラベルの論理演算子をサポートしている場合は、ノードラベルの一覧を指定できます。ノードラベルを一覧表示するには、演算子&&（AND）、\|\|（OR）、および! （NOT）を使用します。

プロパティ

説明

Blaze YARNノードラベル

Blazeエンジンが実行されるHadoopクラスタ上のノードを決定するノードラベル。ノードラベルを指定しない場合、Blazeエンジンはデフォルトのパーティションのノードで実行されます。

Hadoopクラスタがノードラベルの論理演算子をサポートしている場合は、ノードラベルの一覧を指定できます。ノードラベルを一覧表示するには、演算子&&（AND）、||（OR）、および! （NOT）を使用します。

Blazeエンジンでのノードラベルの使用の詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピングの監視」の章を参照してください。

Hive接続プロパティ

バージョン10.2.1では、Hive接続プロパティが変更されました。

次のHive接続プロパティが削除されました。

•ソースまたはターゲットとして、Hiveにアクセス
•Hiveを使用し、Hadoopクラスタでマッピングを実行

以前に、これらのプロパティは廃止されました。バージョン10.2.1では、廃止されます。

Hadoop接続で、次のHive接続プロパティを設定します。

•データベース名
•Hive/Hadoopの詳細プロパティ
•一時テーブル圧縮コーデック
•コーデッククラス名

以前は、これらのプロパティはHive接続で設定しました。

HiveとHadoop設定の詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。

監視

ここでは、バージョン10.2.1のBig Data Managementでの監視への変更内容について説明します。

Spark監視

バージョン10.2.1では、Spark監視は次の領域に関連して変更されています。

•イベントの変更
•［サマリ統計］ビューでの更新

イベントの変更

バージョン10.2.1では、監視情報のみがセッションログのSparkイベントでチェックされます。

以前は、すべてのSparkイベントが、SparkアプリケーションからSpark実行プログラムへ、そのままリレーされていました。イベントのリレーに時間がかかると、パフォーマンスの問題が発生しました。

詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。

［サマリ統計］ビュー

バージョン10.2.1では、Spark実行の統計情報を実行ステージに基づいて表示できます。たとえば、［Spark実行ステージ］には、Sparkアプリケーション実行ステージの統計が表示されます。Stage_0には、SparkアプリケーションでID=0の実行ステージに関連する統計情報が表示されます。［行］と［平均行/秒］には、ステージから書き出された行数と、それに対応するスループットが表示されます。［バイト］と［平均バイト/秒］には、ステージでブロードキャストされたバイトとスループットが表示されます。

以前は、Spark実行で処理されたソース/ターゲット行数と各秒の平均行数のみが表示できました。

詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。

Hiveエンジンでの精度およびスケール

バージョン10.2.1では、次の条件がtrueの場合、Hiveエンジンで乗算を実行するユーザー定義関数の出力で、スケールの最大値が6になりました。

•精度とスケールの差が32以上である。
•結果の精度が38より大きい。

以前は、スケールは0になる可能性がありました。

詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピング」の章を参照してください。

Sqoop

バージョン10.2.1では、次の変更がSqoopに適用されます。

•SqoopマッピングをSparkエンジンで実行すると、データ統合サービスによってSqoopログイベントがマッピングログに出力されます。以前は、データ統合サービスはSqoopログイベントをHadoopクラスタログに出力しました。

詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。

•externaljdbcjarsディレクトリからのSqoop接続に必要なType 4 JDBCドライバ.jarファイルを追加または削除した場合、変更が有効になるのはデータ統合サービスを再起動してからです。マッピングをBlazeエンジンで実行した場合、変更が有効になるのはデータ統合サービスとBlazeグリッドマネージャを再起動してからです。

注: マッピングを初めて実行する場合には、データ統合サービスとBlazeグリッドマネージャを再起動する必要はありません。データ統合サービスとBlazeグリッドマネージャを再起動する必要があるのは、それに続いてマッピングが実行された場合のみです。

以前は、Sqoop .jarファイルを追加または削除しても、データ統合サービスとBlazeグリッドマネージャを再起動する必要はありませんでした。

詳細については、『Informatica Big Data Management 10.2.1 Hadoop統合ガイド』を参照してください。

Hiveエンジンでのトランスフォーメーションサポート

バージョン10.2.1では、確率解析を実行するラベラーまたはパーサートランスフォーメーションを有効化するには、それが実行されるすべてのノードにJava 8 Development Kitが必要です。

以前は、このトランスフォーメーションに必要なのはJava 7 Development Kitでした。

確率分析用に設定したラベラーまたはパーサートランスフォーメーションを含むマッピングを実行する場合は、HiveノードのJavaバージョンを確認します。

注: BlazeまたはSparkノードでは、データ統合サービスで、InformaticaエンジンとともにインストールされたJava Development Kitが使用されます。Informatica 10.2.1は、Java Development Kitのバージョン8とともにインストールされます。

詳細については、アップグレードするInformaticaのバージョンに適用される『Informatica 10.2.1インストールガイド』または『Informatica 10.2.1アップグレードガイド』を参照してください。