Big Data Management
ここでは、バージョン10.2.1の新しいBig Data Management機能について説明します。
Blazeエンジンリソースの保存
バージョン10.2.1では、Blazeエンジンインフラストラクチャが使用するリソースを保持できます。
リソースを解放する前にBlazeエンジンがアイドル状態のままの時間を分単位で指定するには、infagrid.blaze.service.idle.timeoutプロパティを設定します。Blazeオーケストレータサービスの最大時間数を指定するには、infagrid.orchestrator.svc.sunset.timeプロパティを設定します。infacmd isp createConnectionコマンドを使用したり、AdministratorツールまたはDeveloper toolのHadoop接続のBlazeの詳細プロパティでプロパティを設定したりできます。
これらのプロパティの詳細については、『Informatica Big Data Management 10.2.1管理者ガイド』を参照してください。
クラスタワークフロー
新しいワークフロータスクを使用して、クラスタワークフローを作成できます。
クラスタワークフローは、クラスタをクラウドプラットフォーム上に作成し、クラスタ上でマッピングおよびその他のワークフロータスクを実行します。ワークフロータスクが完了してクラスタリソースを保存したら、クラスタを終了して削除することができます。
2つの新しいワークフロータスクを使用すると、クラスタワークフローの一部としてHadoopクラスタを作成および削除できます。
- クラスタタスクの作成
- [クラスタタスクの作成]を使用すると、次のクラウドプラットフォーム上でHadoopクラスタを作成、設定、および開始できます。
- - Amazon Webサービス(AWS)。Amazon EMRクラスタを作成できます。
- - Microsoft Azure。HDInsightクラスタを作成できます。
- クラスタタスクの削除
- オプションの[クラスタタスクの削除]を使用すると、マッピングタスクの後にクラスタの削除が可能となり、ワークフロー内の他のタスクが完了します。コストを節約するにはこれを実行する必要がある場合があります。
以前は、ワークフローのコマンドタスクを使用して、クラウドプラットフォーム上にクラスタを作成しました。クラスタワークフローとワークフロータスクの詳細については、『Informatica 10.2.1 Developerワークフローガイド』を参照してください。
注: 10.2.1では、クラスタを作成および削除するコマンドタスクメソッドは、AWS上でCloudera Altusクラスタをサポートするようになりました。詳細については、Informaticaネットワークの記事「How to Create Cloudera Altus Clusters with a Cluster Workflow on Big Data Management」を参照してください。
- マッピングタスク
- [マッピングタスク]詳細プロパティには、新しいClusterIdentifierプロパティが含まれます。ClusterIdentifierは、マッピングタスクを実行するために使用するクラスタを識別します。
クラスタワークフローの詳細については、『Informatica 10.2.1 Developerワークフローガイド』を参照してください。
クラウドプロビジョニング設定
クラウドプロビジョニング設定は、Hadoopクラスタへの接続に関する情報を含むオブジェクトです。
クラウドプロビジョニング設定には、ドメインとHadoopアカウントの認証および記憶域リソースを統合する方法に関する情報が含まれています。クラスタワークフローでは、クラウドプロビジョニング設定の情報を使用して、Amazon WebサービスやMicrosoft Azureなどのクラウドプラットフォームに接続してクラスタを作成します。
クラウドプロビジョニングの詳細については、『Informatica Big Data Management 10.2.1管理者ガイド』の「クラウドプロビジョニング設定」の章を参照してください。
高可用性
バージョン10.2.1では、Cloudera CDH、Hortonworks HDP、およびMapR HadoopディストリビューションのHadoop環境で、次のサービスおよびセキュリティシステムの高可用性を有効にすることができます。
- •Apache Ranger
- •Apache Ranger KMS
- •Apache Sentry
- •Cloudera Navigator暗号化
- •HBase
- •Hive Metastore
- •HiveServer2
- •ネームノード
- •リソースマネージャ
Hadoop環境でのHive機能
ここでは、バージョン10.2.1のHadoop環境におけるHive機能の新機能について説明します。
Hiveテーブルの切り詰め
バージョン10.2.1では、すべてのランタイムエンジンで外部パーティションHiveテーブルを切り詰めることができます。
次のHiveストレージ形式でテーブルを切り詰めることができます。
- •Avro
- •ORC
- •Parquet
- •RCFile
- •シーケンス
- •テキスト
次のHive外部テーブル形式でテーブルを切り詰めることができます。
- •HDFSのHive
- •Amazon S3のHive
- •Azure BlobのHive
- •WASBのHive
- •ADLSのHive
Hiveターゲットの切り詰めの詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピングターゲット」の章を参照してください。
マッピング実行前および実行後のSQLコマンド
バージョン10.2.1では、Sparkエンジンで実行されるマッピング内のHiveソースおよびターゲットに対してPreSQLとPostSQLコマンドを設定できます。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。
PowerCenterからのインポート
ここでは、バージョン10.2.1の新しいPowerCenterからのインポート機能について説明します。
PowerCenterからのセッションプロパティのインポート
バージョン10.2.1では、セッションのプロパティ(リレーショナルソースとターゲットでのSQLベースのオーバーライドやルックアップトランスフォーメーションのオーバーライドなど)をPowerCenter リポジトリからモデルリポジトリへインポートできます。
PowerCenterからのインポート機能の詳細については、『Informatica 10.2.1 Developerマッピングガイド』の「PowerCenterからのインポート」の章を参照してください。
:SQLパラメータ
バージョン10.2.1では、SQLパラメータのタイプを指定すれば、SQLベースのすべてのオーバーライドをモデルリポジトリにインポートすることができます。それ以外のセッションオーバーライドプロパティは、Stringまたは対応するパラメータのタイプにマップされます。
詳細については、『Informatica 10.2.1 Developerマッピングガイド』の「PowerCenterからのインポート」の章を参照してください。
PowerCenterからのコマンドタスクのインポート
バージョン10.2.1では、コマンドタスクをPowerCenterからモデルリポジトリにインポートできます。
詳細については、『Informatica 10.2.1 Developerワークフローガイド』の「ワークフロー」の章を参照してください。
インテリジェント構造モデル
バージョン10.2.1では、Big Data Managementでインテリジェント構造モデルを使用できます。
- インテリジェント構造モデルによるデータオブジェクトのSparkエンジンでのサポート
インテリジェント構造モデルは、Amazon S3、Microsoft Azure Blob、または複合ファイルデータオブジェクトに組み込むことができます。Sparkエンジンで実行されるマッピングにデータオブジェクトを追加すると、モデルが解析できる入力タイプであれば処理できます。
データオブジェクトは、モデルの作成に使用したファイルに基づいて、PDF形式、JSON、Microsoft Excel、Microsoft Wordの表、CSV、テキスト、XMLの入力ファイルで入力を受け付けてパースすることができます。
複合ファイル、Amazon S3、および Microsoft Azure Blobによるデータオブジェクトのインテリジェント構造モデルは、テクニカルプレビューで利用できます。テクニカルプレビュー機能はサポートされていますが、保証されてはおらず、本番環境には対応していません。こうした機能は非本番環境でのみ使用することをお勧めします。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。
一括取り込み
バージョン10.2.1では、一括取り込みジョブを実行して、使用するための大量のデータや、データベース内またはリポジトリ内のストレージを取り込みまたは複製できます。一括取り込みジョブを実行するには、一括取り込みツールを使用して一括取り込み仕様を作成します。一括取り込み仕様を設定するのは、リレーショナルデータベースからHiveまたはHDFSターゲットにデータを取り込むためです。また、パラメータを指定して、取り込んだデータをクレンジングすることもできます。
一括取り込み仕様があれば、マッピングを手動で作成して実行する必要がなくなります。作成する一括取り込み仕様を1つにして、すべてのデータを一度に取り込むことができます。
一括取り込みの詳細については、『Informatica Big Data Management 10.2.1一括取り込みガイド』を参照してください。
監視
ここでは、バージョン10.2.1のBig Data Managementでの監視に関連する新機能について説明します。
Hadoopクラスタの監視
バージョン10.2.1では、Hadoopクラスタを監視するアプリケーションログに表示される情報量を設定できます。
アプリケーションログの情報量は、Developer toolでマッピングを設定するトレースレベルによって異なります。次のテーブルは、各トレースレベルのアプリケーションログに表示される情報量を示しています。
トレースレベル | メッセージ |
|---|
なし | ログにFATALメッセージが表示されます。FATALメッセージには、サービスがシャットダウンする、または利用不可能になる修復不能なシステム障害が含まれます。 |
簡易 | ログには、FATALとERRORのコードメッセージが表示されます。ERRORメッセージには、接続障害、メタデータの保存や取得の失敗、サービスエラーが含まれます。 |
ノーマル | ログには、FATAL、ERROR、およびWARNINGのメッセージが表示されます。WARNINGエラーには、修復可能なシステム障害や警告が含まれます。 |
Verbose initialization。 | ログには、FATAL、ERROR、WARNING、およびINFOの各メッセージが表示されます。INFOメッセージには、システムおよびサービスの変更メッセージが含まれます。 |
冗長データ。 | ログには、FATAL、ERROR、WARNING、INFO、およびDEBUGの各メッセージが表示されます。DEBUGメッセージは、ユーザー要求のログです。 |
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピングの監視」の章を参照してください。
Spark監視
バージョン10.2.1では、Spark実行プログラムでSpark監視サポートの一部としてSparkイベントのポートをリッスンするので、SparkMonitoringPortを設定する必要はありません。
データ統合サービスには利用可能なポートの範囲があり、Spark実行プログラムはその利用可能な範囲からポートを選択します。エラーが発生している間もポート接続は引き続き使用できるので、マッピングを実行する前にデータ統合サービスを再起動する必要はありません。
監視ポートのカスタムプロパティは保持されます。プロパティを設定すると、データ統合サービスは指定のポートを使用してSparkイベントをリッスンします。
以前は、データ統合サービスのカスタムプロパティ、Spark監視ポートで、Sparkリスニングポートを設定していました。このプロパティを設定しなかった場合、Spark監視はデフォルトで無効化されていました。
Tez監視
10.2.1では、Tezエンジン監視サポート関連のプロパティを表示できます。Hiveエンジンを使用すると、マッピングをMapReduceまたはTezで実行できます。Tezエンジンは、Hortonworks HDP、Azure HDInsight、およびAmazon Elastic MapReduceのジョブを処理できます。SparkマッピングをTezで実行するには、Tezでサポートされるクラスタのいずれも使用できます。
Administratorツールでは、Hiveエンジンを監視するときにTezのHiveクエリプロパティを確認することもできます。HiveセッションログとTezでは、Tez統計に関連する情報(DAGのトラッキングURL、頂点数の合計、DAGの進行状況など)を表示できます。
Tezエンジンでは、いずれのHiveクエリも監視できます。冗長データまたはVerbose Initializationのログ記録を有効化すると、Tezエンジン情報がAdministratorツールまたはセッションログに表示されます。Tezエンジンでのマッピングのステータスは、Administratorツールの[監視]タブで監視することもできます。
Tez監視の詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』および『Informatica Big Data Management 10.2.1 Hadoop統合ガイド』を参照してください。
階層データの処理(Sparkエンジン)
バージョン10.2.1では、Sparkエンジンに次の追加機能が搭載され、階層データを処理できるようになっています。
- Mapデータ型
- Mapデータ型を使用すると、複合ファイル内でマップデータの生成および処理ができます。
- Amazon S3上の複合ファイル
- 複合データ型を使用すると、Amazon S3上ではAvroファイル形式やParquetファイル形式で階層データの読み取りおよび書き込みをすることができます。データオブジェクトの読み取りおよび書き込み操作で、複合データ型としてカラムを射影します。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Sparkエンジン」の章を参照してください。
Sparkエンジンのルール仕様サポート
バージョン10.2.1では、BlazeエンジンとHiveエンジンに加えて、Sparkエンジンでもルール仕様を含むマッピングを実行できます。
また、BlazeエンジンとHiveエンジンだけでなくSparkエンジンでも、ルール仕様から生成したマップレットを含むマッピングを実行することができます。
仕様の詳細については、『Informatica 10.2.1 ルール仕様ガイド』を参照してください。
セキュリティ
ここでは、バージョン10.2.1のBig Data Managementでのセキュリティに関連する新機能について説明します。
Cloudera Navigator暗号化
バージョン10.2.1では、Clouderaナビゲータの暗号化を使用してデータを保護し、残りのデータの透過的な暗号化を実装することができます。
EMRファイルシステム認証
バージョン10.2.1では、EMRファイルシステム(EMRFS)認証を使用して、Sparkエンジン上でAmazon S3のデータにアクセスできます。
IAMロール
バージョン10.2.1では、EMR File SystemにIAMロールを使用することで、Amazon EMRクラスタバージョン5.10でクラスタからAmazon S3に対してデータの読み取りおよび書き込みをすることができます。
Kerberos認証
バージョン10.2.1では、次のクラスタに対してKerberos認証を有効化することができます。
- •Amazon EMR
- •Azure HDInsight(ストレージはWASB)
LDAP認証
バージョン10.2.1では、Lightweight Directory Access Protocol(LDAP)認証をAmazon EMRクラスタバージョン5.10に対して設定できます。
Sqoop
バージョン10.2.1では、Sqoopの次の新機能を利用できます。
- MapR Connector for Teradataのサポート
MapR Connector for Teradataを使用すると、Sparkエンジン上のTeradataについて、データの読み取りや書き込みができます。MapR Connector for Teradataは、SqoopのTDCH(Teradata Connector for Hadoop)専用コネクタです。SqoopマッピングをSparkエンジンで実行すると、デフォルトではデータ統合サービスによってコネクタが呼び出されます。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。
- Sqoopパススルーマッピング向けのSparkエンジン最適化
SqoopパススルーマッピングをSparkエンジンで実行すると、データ統合サービスでは次のシナリオでマッピングパフォーマンスを最適化します。
- - Sqoopソースからデータを読み取り、テキスト形式を使用するHiveターゲットにデータを書き込みます。
- - Sqoopソースからデータを読み取り、Flat、Avro、またはParquet形式を使用するHDFSターゲットにデータを書き込みます。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』を参照してください。
- 高可用性機能とセキュリティ機能のSparkエンジンでのサポート
Sqoopでは、Sparkエンジンでサポートされるすべての高可用性機能とセキュリティ機能(KerberosキータブログインやKMS暗号化など)が認められます。
詳細については、『Informatica 10.2.1アプリケーションサービスガイド』の「データ統合サービス」の章および『Informatica 10.2.1コマンドリファレンスガイド』の「infacmd disコマンドリファレンス」の章を参照してください。
- TeradataデータオブジェクトのSparkエンジンでのサポート
Teradataデータオブジェクトを使用し、マッピングをSparkエンジンやHortonworks/Clouderaクラスタで実行すると、データ統合サービスではマッピングがSqoop経由で実行されます。
Hortonworksクラスタを使用する場合、データ統合サービスでは実行時にHortonworks Connector for Teradataが呼び出されます。Clouderaクラスタを使用する場合、データ統合サービスでは実行時にCloudera Connector Powered by Teradataが呼び出されます。
詳細については、『Informatica PowerExchange for Teradata Parallel Transporter API 10.2.1ユーザーガイド』を参照してください。
Hadoop環境でのトランスフォーメーションサポート
ここでは、バージョン10.2.1のHadoop環境での新しいトランスフォーメーション機能について説明します。
Sparkエンジンでのトランスフォーメーションサポート
ここでは、バージョン10.2.1のSparkエンジンでの新しいトランスフォーメーション機能について説明します。
トランスフォーメーションサポート
バージョン10.2.1では、次のトランスフォーメーションがSparkエンジンでサポートされています。
- •大文字小文字変換プログラム
- •分類子
- •比較
- •キージェネレータ
- •ラべラ
- •マージ
- •パーサー
- •Python
- •標準化
- •加重平均
バージョン10.2.1では、Sparkエンジンの制限で次のトランスフォーメーションがサポートされています。
- •アドレスバリデータ
- •統合
- •ディシジョン
- •一致
- •Sequence Generator
バージョン10.2.1では、次のトランスフォーメーションがSparkエンジンで追加でサポートされています。
- •Java。階層データを処理するために、複雑なデータ型(配列、Map、構造体など)をサポートします。
トランスフォーメーションサポートの詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピングトランスフォーメーション」の章を参照してください。
トランスフォーメーション操作の詳細については、『Informatica 10.2.1 Developerトランスフォーメーションガイド』を参照してください。
Pythonトランスフォーメーション
バージョン10.2.1では、PythonトランスフォーメーションをDeveloper toolで作成できます。Pythonトランスフォーメーションを使用して、Sparkエンジンで実行されるマッピングでPythonコードを実行します。
Pythonトランスフォーメーションを使用すると、トランスフォーメーションを経由するデータにマシンモデルを実装できます。たとえば、Pythonトランスフォーメーションを使用して、事前トレーニング済みモデルをロードするPythonコードを書き込む、などです。事前トレーニング済みモデルを使用すると、入力データを分類したり予測を作成したりできます。
注: Pythonトランスフォーメーションは、テクニカルプレビューで利用できます。テクニカルプレビュー機能はサポートされていますが、本番環境には対応していません。非本番環境でのみ使用することをお勧めします。
詳細については、『Informatica 10.2.1 Developerトランスフォーメーションガイド』の「Pythonトランスフォーメーション」の章を参照してください。
Update Strategyトランスフォーメーション
バージョン10.2.1では、Sparkエンジンで実行されるマッピングにHive MERGEステートメントを使用すると、アップデートストラテジタスクを実行できます。クエリでMERGEを使用すると通常、より効率的になり、パフォーマンスを向上させることができます。
Hive MERGEステートメントは、次のHadoopディストリビューションでサポートされています。
- •Amazon EMR 5.10
- •Azure HDInsight 3.6
- •Hortonworks HDP 2.6
Hive MERGEを使用するには、アップデートストラテジトランスフォーメーションの詳細プロパティで当該オプションを選択します。
以前は、データ統合サービスは、任意のランタイムエンジンを使用して、このタスクを実行するINSERT、UPDATE、およびDELETEステートメントを使用していました。これらのステートメントは、アップデートストラテジトランスフォーメーションでも次のシナリオで使用されます。
- •Hive MERGEオプションを選択しない。
- •マッピングがHiveエンジンかBlazeエンジンで実行される。
- •HadoopディストリビューションがHive MERGEをサポートしていない場合。
アップデートストラテジトランスフォーメーションでのMERGEステートメントの使用の詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「アップデートストラテジトランスフォーメーション」の章を参照してください。
Blazeエンジンでのトランスフォーメーションサポート
ここでは、バージョン10.2.1のBlazeエンジンでの新しいトランスフォーメーション機能について説明します。
Aggregatorトランスフォーメーション
バージョン10.2.1では、Aggregatorトランスフォーメーションのデータキャッシュは可変長を使用して、Blazeエンジンにバイナリデータ型とstringデータ型を格納します。可変長にすると、Aggregatorトランスフォーメーションの実行時にデータキャッシュに格納されるデータの量が低減されます。
Aggregatorトランスフォーメーションを経由するデータが可変長を使用してデータキャッシュに格納される場合、Aggregatorトランスフォーメーションはソート済み入力を使用するよう最適化され、ソータートランスフォーメーションはランタイムマッピングでAggregatorトランスフォーメーションの前に挿入されます。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピングトランスフォーメーション」の章を参照してください。
一致トランスフォーメーション
バージョン10.2.1では、BlazeエンジンでのID分析用に設定した一致トランスフォーメーションを含むマッピングを実行できます。
一致トランスフォーメーションを設定して、IDインデックスデータをキャッシュファイルに書き込みます。インデックスデータをデータベーステーブルに書き込むよう一致トランスフォーメーションを設定した場合、マッピングは検証に失敗します。
トランスフォーメーションサポートの詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピングトランスフォーメーション」の章を参照してください。
Rankトランスフォーメーション
バージョン10.2.1では、Rankトランスフォーメーションのデータキャッシュは可変長を使用して、Blazeエンジンにバイナリデータ型とstringデータ型を格納します。可変長にすると、Rankトランスフォーメーションの実行時にデータキャッシュに格納されるデータの量が低減されます。
Rankトランスフォーメーションを経由するデータが可変長を使用してデータキャッシュに格納される場合、Rankトランスフォーメーションはソート済み入力を使用するよう最適化され、ソータートランスフォーメーションはランタイムマッピングでRankトランスフォーメーションの前に挿入されます。
詳細については、『Informatica Big Data Management 10.2.1ユーザーガイド』の「Hadoop環境でのマッピングトランスフォーメーション」の章を参照してください。
トランスフォーメーション操作の詳細については、『Informatica 10.2.1 Developerトランスフォーメーションガイド』を参照してください。