Enterprise Data Lake
ここでは、バージョン10.2.2の新しいEnterprise Data Lake機能について説明します。
アクティブルールの適用
バージョン10.2.2では、プロジェクトにアクティブルールを使用できるようになりました。
アクティブルールとは、Developer toolを使用して開発されたマップレットです。アクティブルールを使用すれば、複雑なトランスフォーメーション(アグリゲータトランスフォーメーションやData Qualityトランスフォーメーションなど)をワークシートに適用して、突き合わせや統合ができます。
アクティブルールでは、データセット内のすべての行を入力として使用します。ルールへの入力として、ワークシートを複数選択して使用できます。ルール出力があるワークシートがプロジェクトに追加されます。
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
重複する行の削除
バージョン10.2.2では、重複する値を含む行をワークシートから削除できるようになりました。
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
カラムデータのクラスタと分類
バージョン10.2.2では、類似した値を1つのカラムにクラスタ化してからEnterprise Data Lakeの推奨事項に基いて値を分類できるようになりました。アプリケーションでは発音アルゴリズムを使用して類似した値をクラスタ化してから、発生頻度の高くない値を最も発生頻度の高い値に置き換えるよう提案します。
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
CLAIREベースでの推奨事項
バージョン10.2.2では、アプリケーションで埋め込みCLAIRE機械学習検出エンジンが使用され、データの準備の際に推奨事項が提供されるようになりました。
[プロジェクト]ページを参照すると、データリネージュおよび文書化されたプライマリキー/外部キー関係に基づきアップストリームデータソースから導出された代替または追加の推奨事項が表示されます。
データ準備中にワークシートでカラムを選択すると、カラムデータ型に基づくデータ改善の提案が[カラムの概要]パネルに表示されます。
2つのワークシートの結合操作を実行すると、アプリケーションではプライマリキー/外部キー関係を利用して、当該のキーペアで低オーバーラップが発生した場合に、互換性のないサンプリングを示します。
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
条件による集計
10.2.2では、AND/OR論理を使用して、プロジェクトの集計ワークシートを作成する際に使用するIF計算に複数の条件を適用できるようになりました。
- •すべての演算子にANDを使用すると、1つの条件で複数のカラムが含まれます。
- •IS、IS NOTおよびIS BETWEEN演算子にORを使用すると、1つの条件で1つのカラムに複数の値が含まれます。
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
データマスキング
バージョン10.2.2では、Enterprise Data LakeはInformatica Dynamic Data Masking(データセキュリティ製品)と統合して、データアセット内の機密データでマスキングが有効化されました。
Enterprise Data Lakeでデータマスキングを有効化するには、データレイク内のデータアセットにマスキングルールを適用するようDynamic Data Masking Serverを設定します。また、Enterprise Data LakeのDynamic Data Masking Serverへの接続を有効化するようInformaticaドメインを設定します。
Dynamic Data MaskingはEnterprise Data Lakeからデータレイクに送信される要求を遮断し、要求されたアセットでマスキングルールをカラムに適用します。Enterprise Data Lakeユーザーが、マスクされたデータを含む列の表示や実行をした場合、実際のデータは、適用されているマスキングルールに基づいて、完全または部分的に難読化されます。
詳細については、『Informatica 10.2.2 Enterprise Data Lake管理者ガイド』の「機密データのマスキング」の章を参照してください。
ローカリゼーション
バージョン10.2.2では、ユーザーインタフェースで日本語がサポートされるようになりました。また、プロジェクト名と説明に非ラテン文字を使用できるようになりました。
パーティション化されたソースおよびターゲット
バージョン10.2.2では、Enterprise Data Lakeで、インポート、パブリッシュ、またはコピー操作時に、パーティション化されたソースからデータを読み取ることができるようになりました。また、Data Lakeでは、インポート、パブリッシュ、コピー、またはアップロード操作時に、パーティション化されたターゲットの末尾にデータを追加することもできるようになりました。
レシピステップへのコメントの追加
バージョン10.2.2では、レシピステップへコメントを追加できるようになりました。コメントを使用して、監査要件を満たすためのコラボレーションを向上し詳細を提供します。
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
マッピングとしてのレシピの保存
バージョン10.2.2では、レシピをパブリッシュして新しい出力テーブルを作成する代わりに、レシピをマッピングとして保存できます。
Enterprise Data Lakeサービスに関連付けられているモデルリポジトリにマッピングを保存することも、.xmlファイルにマッピングを保存することもできます。開発者はDeveloper toolを使用してマッピングのレビューや変更をしたら、システムリソースの可用性に基づいて適時にマッピングを実行することができます。
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
データソースとしてのAmazon S3、ADLS、WASB、MapR-FS
バージョン10.2.2では、次のデータソースに格納されたファイルでデータを準備できるようになりました。
- •Amazon S3
- •MapR-FS
- •Microsoft Azure Data Lake Storage
- •Windows Azure Storage Blob
準備するデータを含む各データソースについて、Enterprise Data Catalogでリソースを作成する必要があります。リソースは、外部データソースまたはメタデータリポジトリを表すリポジトリオブジェクトです。リソースにアタッチされたスキャナは、リソースからメタデータを抽出し、Enterprise Data Catalogにメタデータを保存します。
Enterprise Data Catalogでのリソース作成の詳細については、『Informatica 10.2.2 Catalog Administratorガイド』の「リソースの管理」の章を参照してください。
統計関数
バージョン10.2.2では、統計準備の際に次の統計関数をワークシートのカラムに適用できるようになりました。
- •AVG
- •AVGIF
- •COUNT
- •COUNTIF
- •COUNTDISTINCT
- •COUNTDISTINCTIF
- •MAX
- •MAXIF
- •MIN
- •MINIF
- •STDDEV
- •STDDEVIF
- •SUM
- •SUMIF
- •VARIANCE
- •VARIANCEIF
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
日時関数
バージョン10.2.2では、データの準備の際に次の日時関数をワークシートのカラムに適用できるようになりました。
- •ADD_TO_DATE
- •CURRENT_DATETIME
- •DATETIME
- •DATE_DIFF
- •DATE_TO_UNIXTIME
- •EXTRACT_MONTH_NAME
- •UNIXTIME_TO_DATE
- •日付をテキストに変換
- •テキストを日付に変換
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
算術関数
バージョン10.2.2では、データの準備の際に次の算術関数をカラムに適用できるようになりました。
- •EXP
- •LN
- •LOG
- •PI
- •POWER
- •SQRT
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
テキスト関数
バージョン10.2.2では、データの準備の際に次のテキスト関数をカラムに適用できるようになりました。
- •ENDSWITH
- •ENDSWITH_IGNORE_CASE
- •FIND_IGNORE_CASE
- •FIND_REGEX
- •FIRST_CHARACTER_TO_NUMBER
- •NUMBER_TO_CHARACTER
- •PROPER_CASE
- •REMOVE_NON_ALPHANUMERIC_CHARACTERS
- •STARTSWITH
- •STARTSWITH_IGNORE_CASE
- •SUBSTITUTE_REGEX
- •TRIM_ALL
- •日付をテキストに変換
- •数値をテキストに変換
- •テキストを日付に変換
- •テキストを数値に変換
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
ウィンドウ関数
バージョン10.2.2では、ウィンドウ関数を使用してワークシート内の行のグループで操作を実行できるようになりました。関数が機能する行のグループをウィンドウといい、パーティションキー、キーによる順序、オプションのオフセットで定義します。ウィンドウ関数では、ウィンドウのコンテキスト内の入力行ごとに戻り値を計算します。
ウィンドウ関数を使用して、次のタスクを実行できます。
- •前または後続の行からデータを取得します。
- •行のグループに基づいて、累積合計または累積平均を計算します。
- •行のグループの各行にシーケンシャルな行番号を割り当てます。
- •行のNULL値を、行のグループ内で先行する非NULL値で置き換えます。
- •特定の期間でログファイルに記録されたWebサイト訪問数などに基づいて、行のグループ化に使用できるセッションIDを生成します。
ウィンドウ関数は1つのワークシートに複数適用できます。例えば、ウィンドウ内の現在行の後に続く各行に値の合計を計算する関数を適用してから、同じ値の平均を計算する別の関数を適用する、などが可能です。
Enterprise Data Lakeでは、ワークシートに適用する各関数の結果を含むカラムを追加します。
詳細については、『Informatica 10.2.2 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
監査イベントのパージ
バージョン10.2.2では、infacmd edl purgeeventsコマンドを実行して、ユーザーアクティビティイベントを監査履歴データベースから削除できるようになりました。オプションで、このコマンドを実行して、プロジェクト履歴イベントをデータベースから削除できます。
Spark実行エンジン
バージョン10.2.2では、Enterprise Data Lakeは、リソース消費量の多いアクティビティ(アセットパブリケーションなど)に対し、またPythonトランスフォーメーションを使用するアクティブルールマップレットを実行するために、Sparkエンジンを使用するようになりました。リソース消費量の多いアクティビティにSparkエンジンを使用することにより、パフォーマンスが向上し、Amazon Elastic MapReduce(EMR)でのEnterprise Data Lakeのデプロイメントで自動スケーリングが利用できるようになります。