Enterprise Data Lake
ここでは、バージョン10.2.1の新しいEnterprise Data Lake機能について説明します。
カラムデータ
バージョン10.2.1では、ワークシート内のカラムを操作するときに、次の機能を使用できます。
- •カラム内の関連する値をカテゴリに分類またはグループ化して、分析を容易にすることができます。
- •ワークシートで選択したカラムのデータのソースを表示できます。問題のトラブルシューティングに役立つようにカラムにデータのソースを表示することが必要になる場合があります。
- •カラムのサンプリング中に推測されたタイプまたはデータドメインをソースタイプに戻すことができます。数式でカラムデータを使用する場合は、推測されたタイプまたはデータドメインをソースタイプに戻す必要がある場合があります。
詳細については、『Informatica 10.2.1 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
Data Lakeリソースの管理
バージョン10.2.1では、Enterprise Data Lakeアプリケーションを使用してEnterprise Data Catalogを追加/削除できます。カタログリソースとは、外部データソースと、Data Lakeで使用できるメタデータをスキャナで抽出したメタデータリポジトリとをいいます。
詳細については、『Informatica 10.2.1 Enterprise Data Lake管理者ガイド』の「Data Lakeの管理」の章を参照してください。
データ準備操作
バージョン10.2.1では、データ準備時に次の操作を実行します。
- データのピボット
- ピボット操作を使用すると、ワークシートで選択した列のデータを要約形式に変換できます。ピボット操作で、データをグループ化して集計し、分析できるようにします(その年の前半に各都市で販売された一戸建て住宅の平均価格をまとめるなど)。
- データのアンピボット
- アンピボット操作を使用すると、ワークシート内の列を、キー値形式の列データを含む行に変換できます。アンピボット操作は、キーおよび対応する値に基づいてワークシート内のデータを集計して行にする場合に便利です。
- ワンホットエンコーディングを適用する
- ホットエンコーディング操作を1回利用すれば、ワークシートの各行内で選択された列に文字列値が存在するかどうかを判断できます。ワークシートのカテゴリ値を機械学習アルゴリズムで必要とされる数値へ変換するのも、ホットエンコーディング操作を1回利用することで可能です。
詳細については、『Informatica 10.2.1 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
JSONファイルの準備
バージョン10.2.1では、データ準備の最初のステップとして、プロジェクトに追加するJSONL(JavaScript Object Notation Lines)ファイルの階層データをサンプリングすることができます。Enterprise Data LakeではJSONファイル構造がフラットな構造に変換され、データをサンプリングするために使用するワークシートにデータが表示されます。
詳細については、『Informatica 10.2.1 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
レシピステップ
バージョン10.2.1では、ワークシートでレシピを操作する際、次の機能を使用できます。
- •ワークシートで作成されたレシピステップ(複雑な数式やルール定義を含むステップがある)を再利用できます。同じワークシート内のレシピステップも別のワークシート(別のプロジェクトのワークシートを含む)のレシピステップも再利用できます。レシピから選択したステップをコピーして再利用することも、レシピ全体を再利用することもできます。
- •レシピのどの位置にもステップを挿入できます。
- •フィルタを追加したり、レシピステップに適用されたフィルタを変更したりできます。
詳細については、『Informatica 10.2.1 Enterprise Data Lakeユーザーガイド』の「データの準備」の章を参照してください。
アクティビティのエクスポート、インポート、およびパブリッシュのスケジューリング
バージョン10.2.1では、データアセットのエクスポート、インポート、およびパブリッシュのスケジューリングができます。アクティビティをスケジューリングすれば、更新されたデータアセットを定期的にインポート、エクスポート、またはパブリッシュできます。
アクティビティをスケジューリングする際は、新しいスケジュールを作成することも、既存のスケジュールを選択することもできます。他のユーザーが作成したスケジュールを使用することも、作成したスケジュールを他のユーザーが使用することもできます。
詳細については、『Informatica 10.2.1 Enterprise Data Lakeユーザーガイド』の「アクティビティのエクスポート、インポート、およびパブリッシュのスケジューリング」の章を参照してください。
Security Assertion Markup Language認証
バージョン10.2.1では、Enterprise Data LakeアプリケーションはSAML(Security Assertion Markup Language)認証をサポートしています。
SAML認証の設定の詳細については、『Informatica 10.2.1セキュリティガイド』を参照してください。
プロジェクトフローとプロジェクト履歴の表示
バージョン10.2.1では、プロジェクトフロー図を表示して、プロジェクト内で実行されたアクティビティを確認することができます。
プロジェクト内のワークシートがどのように関連し、どのように派生しているかを示すフロー図が表示できます。この図は、多数のワークシートがあって多数のアセットが含まれる複雑なプロジェクトで作業する場合、特に便利です。
プロジェクト内で実行されたアクティビティ(プロジェクト内のワークシートで行われたアクティビティを含む)の完全な履歴を確認することもできます。プロジェクトの履歴を表示することは、プロジェクト内の問題の根本原因を特定するのに役立つ場合があります。
詳細については、『Informatica 10.2.1 Enterprise Data Lakeユーザーガイド』の「プロジェクトの作成と管理」の章を参照してください。