Big Data Management

バージョン10.2.2では、InformaticaドメインをAzure Databricks環境と統合できるようになりました。

Azure Databricksは、Microsoft Azureクラウドサービス用に最適化された分析クラウドプラットフォームです。オープンソースのApache Sparkクラスタのテクノロジと機能が組み込まれています。

Informaticaドメインは、Azure VM上またはオンプレミスでインストールできます。統合プロセスは、Hadoop環境との統合と同様です。統合タスクは、Databricks環境からのクラスタ設定のインポートを含めて実行します。Informaticaドメインでは、Databricks環境にアクセスするためにトークン認証を使用します。DatabricksトークンIDはDatabricks接続に格納されます。

ソースおよびターゲット

Databricks環境内では次のソースとターゲットに対してマッピングを実行できます。

トランスフォーメーション

Databricksマッピングに、以下のトランスフォーメーションを追加することができます。

Databricks Sparkエンジンでのトランスフォーメーションの処理は、Hadoop環境でSparkエンジンが処理するのとほぼ同じ方法です。

データ型

次のデータ型がサポートされます。

マッピング

マッピングを設定する際、Databricks環境でマッピングを検証して実行することを選択できます。マッピングを実行する際、データ統合サービスはScalaコードを生成し、Databricks Sparkエンジンに渡します。

ワークフロー

クラスタワークフローを作成すると、Databricks環境で一時クラスタを作成できます。

詳細については、次のガイドを参照してください。

階層データ

ここでは、バージョン10.2.2の階層データの新しい機能について説明します。

動的複合ポート

バージョン10.2.2では、Sparkエンジンで実行される動的マッピングに動的複合ポートを追加できるようになりました。動的複合ポートを使用して、複合ファイル内の階層データでのスキーマの頻繁な変更を管理します。

動的複合ポートでは、実行時のスキーマの変更に基づいて、複合ポートの新しい要素または変更された要素を受け取ります。入力ルールが動的複合ポートの要素を決定します。入力ルールに基づいて、動的複合ポートでは、アップストリームトランスフォーメーションから複合ポートの要素を1つ以上受け取ります。Sparkエンジンの一部のトランスフォーメーションでは、動的配列、動的マップ、動的構造といった動的複合ポートが使用できます。

詳細については、『Informatica Big Data Management 10.2.2ユーザーガイド』の「スキーマの変更に伴う階層データの処理」の章を参照してください。

階層データのプレビュー

バージョン10.2.2では、Developer toolでマッピング内の階級データをプレビューできるようになりました。階級データのプレビューは、ビッグデータのマッピングを設計およびデバッグする際に役立ちます。

次の階層タイプを含むマッピングで、ソースとトランスフォーメーションをプレビューポイントとして選択できます。

階層データのプレビューは、テクニカルプレビューで利用できます。テクニカルプレビュー機能はサポートされていますが、保証対象外で本番環境には対応していません。これらの機能は、非本番環境でのみ使用することをお勧めします。

詳細については、『Informatica Big Data Management 10.2.2ユーザーガイド』を参照してください。

高可用性

ここでは、バージョン10.2.2の新しい高可用性機能について説明します。

Big Dataジョブリカバリ

バージョン10.2.2では、データ統合サービスノードが突然停止した場合に、データ統合サービスではSparkエンジンで実行するよう設定されたビッグデータジョブをリカバリできるようになりました。データ統合サービスノードがジョブの完了前に失敗した場合、データ統合サービスはジョブを別のノードに送信し、そこではノードの失敗が発生したポイントからジョブタスクの処理が再開されます。

ビッグデータマッピングをリカバリするには、ビッグデータジョブリカバリをデータ統合サービスプロパティで有効化してinfacmdでジョブを実行する必要があります。

詳細については、『Informatica Big Data Management 10.2.2管理者ガイド』の「データ統合サービスの処理」を参照してください。

分散データ統合サービスのキュー

バージョン10.2.2では、デプロイ済みのビッグデータジョブでビッグデータリカバリが有効化されている場合に、データ統合サービスでは分散キューを使用してジョブ情報を格納できるようになりました。分散キューはモデルリポジトリに格納され、利用可能なデータ統合サービスがあれば、リソースが利用可能な場合、キューにあるジョブを実行できます。

詳細については、『Informatica Big Data Management 10.2.2管理者ガイド』の「データ統合サービスの処理」を参照してください。

インテリジェント構造モデル

ここでは、バージョン10.2.2の新しいインテリジェント構造モデル機能について説明します。

XMLファイル内のエイリアス

バージョン10.2.2では、Intelligent Structure Discoveryは、インテリジェント構造モデル作成時のXMLファイルで使用されたのと同じ名前空間を識別するために異なるエイリアスを使用するXMLファイルを処理できるようになりました。

データ型

バージョン10.2.2では、Informatica Intelligent Cloud Servicesの2019年3月冬リリース以降、複合型ファイルリーダーでインテリジェント構造モデルを使用する場合、Intelligent Structure Discoveryではデータ型を出力データポートに渡すようになりました。

例えば、Intelligent Structure Discoveryでフィールドに日付が含まれていることが検出された場合、データを文字列ではなく日付として出力データポートに渡します。

フィールド名

バージョン10.2.2では、Informatica Intelligent Cloud Servicesの2019年3月冬リリース以降、インテリジェント構造モデルからインポートする複合型ファイルデータオブジェクトのフィールド名は数字と予約語で始まり、また次の特殊文字を含めることができます。\.[ ] { } ( ) * + - ? . ^ $ |

フィールド名が数字または予約語で始まる場合、Big Data Managementマッピングではアンダースコア（_）をフィールド名の最初に追加します。例えば、インテリジェント構造モデルのフィールドがORで始まる場合、マッピングではフィールドを_ORとしてインポートします。フィールド名に特殊文字を含む場合、マッピングではその文字をアンダースコアに変換します。

大きいXMLファイルの処理

バージョン10.2.2では、チャンクで反復する要素について、Intelligent Structure DiscoveryでXMLファイルのストリーミングとデータ処理ができるようになりました。これにより、大きいXMLファイルの処理がより効率的になります。

データドリフト

バージョン10.2.2では、Informatica Intelligent Cloud Servicesの2019年3月冬リリース以降、Intelligent Structure Discoveryでデータドリフトの処理が強化されました。

Intelligent Structure Discoveryでは、サンプルファイルに含まれていなかったフィールドが入力データに含まれている場合、データドリフトが発生します。この場合、Intelligent Structure Discoveryでは、データを破棄するのではなく、未定義データをターゲットの未割り当てデータポートに渡します。

一括取り込み

バージョン10.2.2では、増分ロードを実行することで、増分データを取り込めるようになりました。増分ロードを実行すると、SparkエンジンはタイムスタンプかIDカラムに基づいて増分データを取り込み、その増分データをHiveターゲットまたはHDFSターゲットにロードします。データをHiveターゲットに取り込んだ場合、Sparkエンジンはソーステーブル上で行われたスキーマの変更をプロパゲートすることもできます。

増分データを取り込んだ場合、一括取り込みサービスではSqoopの増分インポートモードを活用します。

詳細については、『Informatica Big Data Management 10.2.2一括取り込みガイド』を参照してください。

監視

ここでは、バージョン10.2.2のBig Data Managementでの監視に関連する新機能について説明します。

Spark監視

バージョン10.2.2では、Spark監視の［サマリ統計］ペイン内でプレジョブとポストジョブの両方のタスクが表示されます。

プレジョブとポストジョブのタスクの詳細については、『Informatica Big Data Management 10.2.2ユーザーガイド』を参照してください。

セキュリティ

ここでは、バージョン10.2.2のBig Data Managementでのセキュリティに関連する新機能について説明します。

エンタープライズセキュリティパッケージ

バージョン10.2.2では、InformaticaではAzure HDInsightクラスタをエンタープライズセキュリティパッケージでサポートします。

エンタープライズセキュリティパッケージでは、認証にKerberosとApache Rangerを使用します。

エンタープライズセキュリティパッケージの詳細については、『Informatica Big Data Management 10.2.2管理者ガイド』を参照してください。

ターゲット

ここでは、バージョン10.2.2のターゲットの新しい機能について説明します。

HDFSフラットファイルターゲット

バージョン10.2.2では、出力データをHDFSターゲットファイルおよび拒否ファイルの末尾に追加できるようになりました。出力データを追加するには、HDFSターゲットが存在する場合にデータの追加を選択します。

末尾に追加したデータを含むファイルの管理ができるよう、データ統合サービスでは、ターゲットファイルおよび拒否ファイルの名前の末尾にマッピング実行IDを追加します。

詳細については、『Informatica Big Data Management 10.2.2ユーザーガイド』の「ターゲット」の章を参照してください。

Big Data Management

Azure Databricksの統合

ソースおよびターゲット

トランスフォーメーション

データ型

マッピング

ワークフロー

階層データ

動的複合ポート

階層データのプレビュー

高可用性

Big Dataジョブリカバリ

分散データ統合サービスのキュー

インテリジェント構造モデル

XMLファイル内のエイリアス

データ型

フィールド名

大きいXMLファイルの処理

データドリフト

一括取り込み

監視

Spark監視

セキュリティ

エンタープライズセキュリティパッケージ

ターゲット

HDFSフラットファイルターゲット