Big Data Management
ここでは、バージョン10.2.2のBig Data Managementへの変更について説明します。
Hive接続
バージョン10.2.2では、次のHive接続プロパティの名前が変更されました。
- •プロパティの名前「Observe Fine Grained SQL Authorization」が「Fine Grained Authorization」に変更されました。
- •プロパティの名前「User Name」が「LDAP username」に変更されました。
以下の表に、プロパティを示します。
プロパティ | 説明 |
|---|
厳密に定義された認証 | Hiveソースで厳密に定義された認証に従うオプションを選択すると、マッピングでは次のことに従います。 - - 行レベルとカラムレベルの制限。SentryまたはRangerのセキュリティモードが有効になっているHadoopクラスタに適用されます。
- - データマスキングルール。Dynamic Data Maskingによって機密データを含むカラムに設定されたマスキングルールに適用されます。
このオプションを選択しない場合、BlazeおよびSparkエンジンは制限とマスキングルールを無視し、制限されたデータまたは機密データが結果に含まれます。 |
LDAPユーザー名 | Hadoopクラスタでマッピングを実行するためにデータ統合サービスが偽装するユーザーのLDAPユーザー名。ユーザー名は、ネイティブ環境の[メタデータ接続文字列]または[データアクセス接続文字列]に指定するJDBC接続文字列によって決まります。 HadoopクラスタがKerberos認証を使用する場合、JDBC接続文字列のプリンシパル名とこのユーザー名が同じである必要があります。HadoopクラスタがKerberos認証を使用しない場合、ユーザー名はJDBCドライバの動作によって異なります。Hive JDBCドライバを使用すると、さまざまな方法でユーザー名を指定することができ、そのユーザー名をJDBC URLの一部にすることができます。 HadoopクラスタがKerberos認証を使用しない場合、ユーザー名はJDBCドライバの動作によって決まります。 ユーザー名を指定しないと、Hadoopクラスタは次の基準に基づいてジョブを認証します。 - - HadoopクラスタがKerberos認証を使用しない。データ統合サービスを実行するマシンのオペレーティングシステムのプロファイルユーザー名に基づいてジョブを認証します。
- - HadoopクラスタがKerberos認証を使用する。ジョブの認証は、データ統合サービスのSPNに基づいて行います。LDAPユーザー名は無視されます。
|
詳細については、『Informatica Big Data Management 10.2.2ユーザーガイド』を参照してください。
一括取り込み
バージョン10.2.2では、デプロイ済みの一括取り込みの仕様がSparkエンジンで実行されるようになりました。バージョン10.2.2より前にデプロイされた一括取り込みの仕様は、アップグレードされても再デプロイされるまでは、引き続きBlazeエンジンおよびSparkエンジンで実行されます。
詳細については、『Informatica Big Data Management 10.2.2一括取り込みガイド』を参照してください。
Spark監視
バージョン10.2.2では、Spark監視がデフォルトで有効化されました。
以前は、Spark監視はデフォルトで無効化されていました。
Spark監視の詳細については、『Informatica Big Data Management 10.2.2ユーザーガイド』を参照してください。
Sqoop
バージョン10.2.2では、次の変更がSqoopに適用されます。
- •Hadoop接続のSparkステージングディレクトリに、Sqoopジョブの一時ファイルを格納するためのファイルパスを指定できます。SparkエンジンでSqoopジョブが実行されると、データ統合サービスでは次のように、一時ファイルを格納するためのSqoopステージングディレクトリがSparkステージングディレクトリ内に作成されます。<Sparkステージングディレクトリ>/sqoop_staging
以前は、Sqoopステージングディレクトリがハードコーディングされていて、データ統合サービスでは次のステージングディレクトリが使用されていました。/tmp/sqoop_staging
詳細については、『Informatica Big Data Management 10.2.2ユーザーガイド』を参照してください。
- •Sparkエンジン上でのSqoopマッピングでは、InformaticaインストーラにパッケージされているOpenJDK(AzulJDK)が使用されます。データ統合サービスでJDKホームディレクトリプロパティを指定する必要はなくなりました。
以前は、Sparkエンジン上でSqoopマッピングを実行するためには、データ統合サービスを実行するマシンにJava Development Kit(JDK)をインストールしました。続いて、Informatica Administratorのデータ統合サービス実行オプションの下で、JDKインストールディレクトリの場所をJDKホームディレクトリプロパティに指定しました。
Hadoop環境でのトランスフォーメーション
ここでは、バージョン10.2.2のHadoop環境でのトランスフォーメーションへの変更内容について説明します。
Pythonトランスフォーメーション
バージョン10.2.2では、PythonトランスフォーメーションによるSparkエンジンでのデータ処理が、バージョン10.2.1のPythonトランスフォーメーションと比較して、より効率的になります。加えて、PythonトランスフォーメーションではJepをインストールする必要がなく、Pythonのいずれのバージョンを使用してもトランスフォーメーションを実行できます。
以前は、PythonトランスフォーメーションではJepとの互換性がある特定のバージョンのPythonのみをサポートしていました。
注: この改善はBig Data Managementのみで得られます。
Pythonのインストールの詳細については、『Informatica Big Data Management 10.2.2統合ガイド』を参照してください。
Pythonトランスフォーメーションの詳細については、『Informatica 10.2.2 Developerトランスフォーメーションガイド』の「Pythonトランスフォーメーション」を参照してください。
書き込みトランスフォーメーション
バージョン10.2.2では、リレーショナル、Netezza、およびTeradataのデータオブジェクトで、書き込みトランスフォーメーションの詳細プロパティの名前「Create or Replace Target Tables」が「Target Schema Strategy」に変更されました。
書き込みトランスフォーメーションを設定する際、ターゲットデータオブジェクトに次のターゲットスキーマストラテジオプションを選択できます。
- •RETAIN - 既存のターゲットスキーマを維持。データ統合サービスは、既存のターゲットスキーマを維持します。
- •CREATE - 実行時にテーブルを作成または置換。データ統合サービスは、実行時にターゲットテーブルを削除して、指定したターゲットデータオブジェクトに基づくテーブルで置換します。
- •パラメータの割り当て。ターゲットスキーマストラテジオプションをパラメータ値で指定します。
以前は、詳細プロパティ[Create or Replace Target Tables]を選択すると、データ統合サービスは、実行時にターゲットテーブルを削除して、指定したターゲットテーブルに基づくテーブルで置換しました。詳細プロパティ[Create or Replace Target Tables]を選択しない場合、データ統合サービスはターゲットテーブルの既存のスキーマを維持します。
[Create or Replace Target Tables]プロパティが有効になっている既存のマッピングでは、バージョン10.2.2にアップグレード後、デフォルトで、[ターゲットスキーマストラテジ]プロパティの[CREATE - 実行時にテーブルを作成または置換]オプションが有効と表示されます。[Create or Replace Target Tables]プロパティが選択されていないマッピングでは、アップグレード後、[ターゲットスキーマストラテジ]プロパティの[RETAIN - 既存のターゲットスキーマを維持]オプションが有効となります。アップグレード後、正しいターゲットスキーマストラテジオプションが選択されていない場合は、必要なオプションを[ターゲットスキーマストラテジ]リストから手動で選択してから、マッピングを実行する必要があります。
ターゲットスキーマストラテジの設定の詳細については、『Informaticaトランスフォーメーションガイド』の「書き込みトランスフォーメーション」の章、または『Informatica Developerマッピングガイド』の「動的マッピング」の章を参照してください。