Big Data
ここでは、バージョン10.1.1の新しいBig Data機能について説明します。
Blazeエンジン
バージョン10.1.1では、Blazeエンジンは次の新機能を備えています。
Blazeエンジン上のHiveソースおよびターゲット
バージョン10.1.1では、Blazeエンジン上のHiveソースおよびターゲットで、以下が新たにサポートされます。
- •精度38のHive 10進データ型の値
- •Hiveテーブル名、カラム名、およびスキーマ名での引用識別子
- •ターゲットとしてパーティション化されたHiveテーブル
- •ソースおよびターゲットとしてバケット化されたHiveテーブル
- •Hiveソースに対するSQLオーバーライド
- •Hiveソースおよびターゲットに対するテーブルロック
- •Hiveターゲット用のターゲットテーブルの作成または置換
- •Hiveターゲット用のターゲットテーブルとHiveパーティション化テーブルの切り詰め
詳細については、『Informatica Big Data Management® 10.1.1ユーザーガイド』の「Hadoop環境でのマッピングオブジェクト」の章を参照してください。
Blazeエンジンでのトランスフォーメーションサポート
バージョン10.1.1になり、トランスフォーメーションは、Blazeエンジン上で新たに以下をサポートするようになりました。
- •ルックアップトランスフォーメーション。Hiveルックアップソースに対して、SQLオーバーライドとフィルタクエリを使用できます。
- •ソータートランスフォーメーション。ソータートランスフォーメーションがフラットファイルターゲットに接続されるときは、グローバルソートがサポートされます。グローバルソートの順序を維持するには、フラットファイルターゲットの[行順序を保持]プロパティを有効にする必要があります。ソータートランスフォーメーションがマッピングのミッドストリームの場合、行はローカルでソートされます。
- •アップデートストラテジトランスフォーメーション。アップデートストラテジトランスフォーメーションが制限付きでサポートされています。
詳細については、『Informatica Big Data Management 10.1.1ユーザーガイド』の「Hadoop環境でのマッピングオブジェクト」の章を参照してください。
Blazeエンジンの監視
バージョン10.1.1では、マッピングジョブに関するより詳細な統計がBlaze集計レポートに表示されます。Blazeジョブ監視では、成功したグリッドタスク名の隣に緑の集計レポートボタンが表示されます。このボタンをクリックすると、Blaze集計レポートが開きます。
Blaze集計レポートには、マッピングジョブに関する次の情報が含まれています。
- •個々のセグメントで費やされる時間。グリッドタスク内のセグメントの円グラフ。
- •マッピングプロパティ。テーブルには、マッピングジョブに関する基本的な情報が含まれています。
- •タスクレットの実行時間。選択したセグメント内のすべてのタスクレットの時系列グラフ。
- •選択したタスクレットの情報。個々のタスクレットのソースおよびターゲットの行数とキャッシュ情報。
注: Blaze集計レポートは、ベータ版です。主要な機能のほとんどが含まれていますが、まだ完全ではありません。
Blazeエンジンのログ
バージョン10.1.1では、Blazeエンジンのエラーロギングが次のように強化されています。
- •ログトレースレベルを[詳細 - 初期化]または[詳細 - データ]に設定すると、実行統計がLDTMログに記録されます。ログには、マッピング実行に関する次の詳細情報が含まれています。
- - 各タスクの開始時刻、終了時刻、および状態
- - Blazeジョブ監視のURL
- - タスクレット総数、成功したタスクレット数、失敗したタスクレット数、およびキャンセルされたタスクレット数
- - ソースおよびターゲットの処理された行数と拒否された行数
- - 実行された各セグメントのトランスフォーメーションのデータエラー。データエラーが発生した場合に含まれます
- •LDTMログには、次のトランスフォーメーション統計が含まれています。
- - ソースおよびターゲットの出力行数
- - ソースおよびターゲットのエラー行数
- •セッションログには、グリッドタスク内のすべてのセグメントのリストと、Blazeジョブ監視への対応するリンクも表示されます。リンクをクリックすると、そのセグメントの実行の詳細が表示されます。
詳細については、『Informatica Big Data Management 10.1.1ユーザーガイド』の「Hadoop環境でのマッピングの監視」の章を参照してください。
インストールと環境設定
ここでは、Big Dataのインストールと環境設定に関する新機能について説明します。
アドレス参照データのインストール
バージョン10.1.1では、Informatica Big Data Managementとともにインストールされるシェルスクリプトを使用して、アドレス参照データファイルをインストールできます。このスクリプトにより、参照データファイルは、指定した計算ノードにインストールされます。
Hadoop環境でアドレス検証マッピングを実行するときは、マッピングを実行する各計算ノードに参照データファイルが存在している必要があります。スクリプトを使用すると、1回の操作で複数のノードに参照データファイルをインストールできます。
このシェルスクリプトの名前は、copyRefDataToComputeNodes.shです。
このスクリプトは、Informatica Big Data Managementインストール済み環境の次のディレクトリに含まれています。
[Informatica installation directory]/tools/dq/av
スクリプトを実行するときは、次の情報を入力します。
- •参照データファイルの現在の場所。
- •スクリプトがファイルをインストールするディレクトリ。
- •計算ノード名が含まれているファイルの場所。
- •スクリプトを実行するユーザーの名前。
これらの情報を入力しない場合は、一連のデフォルト値を使用して、ファイルの場所とユーザー名が指定されます。
詳細については、『Informatica Big Data Management 10.1.1インストール&環境設定ガイド』を参照してください。
サイレントモードでのHadoop設定マネージャ
バージョン10.1.1では、Hadoop設定マネージャをサイレントモードで使用して、Big Data Mangementを設定できます。
サイレントモードでBig Data Managementを設定する方法の詳細については、『Informatica Big Data Management 10.1.1インストール&環境設定ガイド』を参照してください。
Ambariスタックへのインストール
バージョン10.1.1では、Ambariコンフィギュレーションマネージャを使用して、Big Data ManagementをサービスとしてAmbariスタックにインストールできます。
Big Data ManagementをAmbariスタックにインストールする方法の詳細については、『Informatica 10.1.1 Big Data Managementインストール&環境設定ガイド』を参照してください。
HDInsightクラスタのHDFSにデータを取り込むためのスクリプト
バージョン10.1.1では、Big Data Management用にクラスタを設定すると、スクリプトを使用してAzure HDInsightクラスタのHDFSファイルシステムにデータを取り込むことができます。
スクリプトを使用してHDFSファイルシステムにデータを設定する方法の詳細については、『Informatica Big Data Management 10.1.1インストール&環境設定ガイド』を参照してください。
Sparkエンジン
バージョン10.1.1では、Sparkエンジンは次の新機能を備えています。
バイナリデータタイプ
バージョン10.1.1では、Sparkエンジンは、次の関数でバイナリデータ型をサポートします。
- •DEC_BASE64
- •ENC_BASE64
- •MD5
- •UUID4
- •UUID_UNPARSE
- •CRC32
- •COMPRESS
- •DECOMPRESS(精度は無視)
- •AES暗号化
- •AES復号化
注: Sparkエンジンは、結合条件およびルックアップ条件では、バイナリデータ型をサポートしていません。
詳細については、『Informatica Big Data Management 10.1.1ユーザーガイド』の「関数リファレンス」の章を参照してください。
Sparkエンジンでのトランスフォーメーションサポート
バージョン10.1.1になり、トランスフォーメーションは、Sparkエンジン上で新たに以下をサポートするようになりました。
- •Javaトランスフォーメーションが制限付きでサポートされています。
- •ルックアップトランスフォーメーションで、Hiveルックアップソースにアクセスできます。
詳細については、『Informatica Big Data Management 10.1.1ユーザーガイド』の「Hadoop環境でのマッピングオブジェクト」の章を参照してください。
Sparkエンジンでジョブを実行した場合の実行時の統計
バージョン10.1.1では、Sparkエンジンで実行されたマッピングジョブのサマリ統計と詳細統計を表示できます。
[サマリ統計]ビューには、次のSparkサマリ統計が表示されます。
- •ソース。マッピングソースファイルの名前。
- •ターゲット。ターゲットファイルの名前。
- •行。 読み取られたソースおよびターゲットの行数。
[詳細統計]ビューには、Sparkエンジンでジョブを実行したときの行数のグラフが表示されます。
詳細については、『Informatica Big Data Management 10.1.1ユーザーガイド』の「Hadoop環境でのマッピングオブジェクト」の章を参照してください。
セキュリティ
ここでは、バージョン10.1.1の新しいBig Dataセキュリティ機能について説明します。
Hiveソースに対する厳密に定義されたSQL認証のサポート
バージョン10.1.1では、厳密に定義されたSQL認証がHiveソーステーブルで使用されているときは、このレベルのSQL認証に従うようにHive接続を設定できます。Hive接続の[厳密に定義されたSQL認証に従う]オプションを有効にすると、Hiveテーブルおよびビューに対して設定された行レベルおよびカラムレベルの制限に従うことができます。
詳細については、『Informatica 10.1.1 Big Data Managementセキュリティガイド』の「Big Data Managementのセキュリティの概要」の章を参照してください。
Sparkエンジンのセキュリティに関するサポート
バージョン10.1.1では、Sparkエンジンは、次のセキュリティシステムを追加でサポートするようになりました。
- •Cloudera CDHクラスタのApache Sentry
- •Hortonworks HDPクラスタのApache Ranger
- •SparkエンジンでサポートされるHadoopディストリビューションのHDFSトランスポート暗号化
- •SparkエンジンでサポートされるHadoopディストリビューションのオペレーティングシステムプロファイル
詳細については、『Informatica Big Data Management 10.1.1セキュリティガイド』の「Big Data Managementのセキュリティの概要」を参照してください。
Sqoop
バージョン10.1.1では、Sqoopを設定すると次の新機能を使用できます。
詳細については、『Informatica 10.1.1 Big Data Managementユーザーガイド』を参照してください。