Intelligent Data Lake

バージョン10.2では、データをパブリッシュした後、データを視覚的に検証して、データがコンテンツと品質の点で分析に適していることを確認できます。これにより、レシピを修正して、反復的な準備-パブリッシュ-検証プロセスをサポートすることができます。

Intelligent Data Lakeは、Apache Zeppelinを使用して、グラフやチャートを含む視覚化ノートブックの形式でワークシートを表示します。Apache Zeppelinの詳細については、Apache Zeppelinのマニュアルを参照してください。Zeppelinの機能を使用してデータを視覚化すると、異なるカラム間のリレーションシップを表示し、複数のチャートとグラフを作成できます。

データアセットがパブリッシュされた後に初めて視覚化ノートブックを開くと、Intelligent Data LakeはCLAIREエンジンを使用して、ユーザーが作成した数値カラムのヒストグラム形式でSmart Visualizationの提案を作成します。

視覚化ノートブックの詳細については、『Informatica Intelligent Data Lake 10.2ユーザーガイド』の「Apache Zeppelinによる視覚化を使用したデータの検証と評価」の章を参照してください。

データプレビュー時にフィルタを使用したデータの評価

バージョン10.2では、データのプレビュー中にデータをフィルタ処理して、データアセットの評価を向上させることができます。複数のフィールドにフィルタを追加したり、フィルタの組み合わせを適用したりすることができます。フィルタ条件は、データ型によって異なります。使用可能な場合は、文字列値のプロファイリング中に検出されたカラムの値の頻度を表示できます。

詳細については、『Informatica Intelligent Data Lake 10.2ユーザーガイド』の「データの検出」の章を参照してください。

レシピパネルの拡張されたレイアウト

バージョン10.2では、データの準備中にレシピステップのための専用パネルを表示することができます。レシピステップにより、関数名、関係するカラム、および入力ソースを示すために、色コードが明確かつ簡潔になります。ステップを編集したり、削除したりできます。また、レシピの特定のステップに戻って、データの状態を参照することができます。ソースからレシピを更新することができます。また、このシートに使用されるソースを示す別の成分パネルを表示することができます。

詳細については、『Informatica Intelligent Data Lake 10.2ユーザーガイド』の「データの準備」の章を参照してください。

データ品質ルールの適用

バージョン10.2では、データの準備中に、対話型データ準備中に使用できる事前作成されたルールを使用できます。これらのルールは、Informatica DeveloperまたはInformatica Analystツールを使用して作成されます。Big Data品質ライセンスを取得している場合は、Intelligent Data Lakeユーザーが使用できる、数千の事前作成されたルールが用意されています。事前に作成されたルールを使用すると、ルールと知識の再利用性、使用率の整合性および拡張性を使用するビジネスとITでの効果的なコラボレーションが促進されます。

詳細については、『Informatica Intelligent Data Lake 10.2ユーザーガイド』の「データの準備」の章を参照してください。

データプレビューおよびワークシートビューでのデータアセットのビジネス用語の表示

バージョン10.2では、データプレビューに、またデータ準備中にも、データアセットのカラムに関連付けられたビジネス用語を表示できます。

詳細については、『Informatica Intelligent Data Lake 10.2ユーザーガイド』の「データの検出」の章を参照してください。

区切りファイル用データの準備

バージョン10.2では、データアナリストとして、すでにLakeにある区切られたHDFSファイルのその他の操作をクレンジング、変換、結合、集計、および実行できます。これらのファイルは、プロジェクトに追加する前にプレビューできます。その後、これらのアセットのサンプリングを設定し、そこでデータ準備操作を実行することができます。

詳細については、『Informatica Intelligent Data Lake 10.2ユーザーガイド』の「データの準備」の章を参照してください。

結合されたワークシートのジョインの編集

バージョン10.2では、結合キー、結合タイプ（内部結合や外部ジョインなど）など、既存の結合ワークシートのjoinconditionを編集できます。

詳細については、『Informatica Intelligent Data Lakeユーザーガイド』の「データの準備」の章を参照してください。

データ準備のためのサンプリング設定の編集

バージョン10.2では、データアセットの準備中にサンプリング設定を編集できます。サンプリングのために選択したカラムを変更したり、選択したフィルタを編集したり、サンプリング条件を変更したりすることができます。

詳細については、『Informatica Intelligent Data Lake 10.2ユーザーガイド』の「データの準備」の章を参照してください。

Data Lakeでの複数のEnterprise Information Catalogリソースのサポート

バージョン10.2では、複数のEnterprise Information Catalogリソースを設定して、ユーザーがすべてのタイプのアセットとLakeで適用可能なすべてのHiveスキーマを操作することができます。

データ準備サービスリポジトリでのOracleの使用

バージョン10.2では、データ準備サービスリポジトリに対してOracle 11gR2と12cを使用できるようになりました。

データ準備サービスのスケーラビリティの向上

バージョン10.2では、複数のデータ準備サービスノードを持つデータ準備サービスのグリッドを使用して、水平方向のスケーラビリティを確保できます。スケーラビリティの向上により、データ量の増加やユーザー数の増加時に、高いパフォーマンス、対話型データの準備がサポートされます。