Intelligent Data Lake

ビッグデータ技術の広がりを受け、多くの組織が、データ管理の問題を解決するために、データレイクと呼ばれる新しい情報ストレージモデルを採用するようになりました。データレイクモデルは、ビジネスインテリジェンス、分析、法規制への適合、不正検出など、さまざまなケースで採用されつつあります。

データレイクとは、各種のソースから送信されたRawデータやエンタープライズデータを保存する共有リポジトリのことです。多くの場合、データレイクは、分散Hadoopクラスタ上に構築され、経済性と拡張性を備えたパーシスタンスおよびコンピュートレイヤとして機能します。Hadoopを使用すると、組織の内外にある各種エンタープライズシステムからの膨大な構造化データおよび非構造化データを保存できるようになります。レイクには、Rawデータ、絞り込み済みデータ、マスタデータ、トランザクションデータ、ログファイル、マシンデータなどを含めることができます。

組織は、さまざまなタイプのユーザーが、すべてのエンタープライズデータや、Hadoopデータレイク内部のデータ、外部のデータにアクセスし、操作できるようにする手段を提供することにも関心があります。例えば、基盤技術の複雑さを意識したり、コーディングスキルを習得したりせずに、データアナリストやデータサイエンティストが、データレイクを使用して特定目的のセルフサービス分析を行い、事業の技術革新を推し進められるようにしたいと考えています。ITおよびデータガバナンススタッフは、企業内でのデータ関連のユーザーアクティビティを監視する必要があります。インテリジェンスを備えた強力なデータ管理およびガバナンス基盤がなければ、データレイクは単なるデータのたまり場になってしまいます。

バージョン10.1では、Intelligent Data Lakeが導入されました。これは、Hadoopベースのデータレイクからより高い価値を引き出し、組織のすべてのユーザーがデータを利用できるようにするための新製品です。

Intelligent Data Lakeは、データアナリストやデータサイエンティスト向けに開発された、ビッグデータの検出および準備を行うための共同セルフサービスソリューションです。この製品により、アナリストは、Rawデータを迅速に検出して洞察を得ることができ、ITは、品質、可視性、およびガバナンスを確保することができます。Intelligent Data Lakeを使用すると、アナリストは、データの検出や準備に費やす時間を削減して、分析にかける時間を増やすことができます。

Intelligent Data Lakeには、次の利点があります。

•データアナリストは、セマンティック検索やスマートレコメンデーション機能を使用して、データレイクの内部および外部にある信頼できるデータアセットを迅速かつ簡単に検索したり、調査したりできます。

•データアナリストは、コーディングスキルを身に付けなくても、Excelのようなスプレッドシートのインターフェイスを使用して、セルフサービス方式でデータレイク内のデータを変換、クレンジング、およびリッチ化できます。

•データアナリストは、データをパブリッシュしたり、コミュニティの他のメンバと知識を共有したり、自分で選んだBIなどの分析ツールを使ってデータを分析したりできます。

•ITおよびガバナンススタッフは、レイクのデータ使用に関するユーザーアクティビティを監視できます。

•ITは、データリネージュを追跡することにより、データが正しいソースから提供され、正しいターゲットに送信されることを確認できます。

•ITは、データレイクに対して適切なセキュリティとガバナンスを実施できます。

•ITは、データアナリストが実行する作業をデータ配信プロセスとして操作化し、その作業を反復したり、スケジュール設定したりできます。

Intelligent Data Lakeは、次の機能を備えています。

検索

- スマート検索や推論ベースの結果を使用して、レイクや他のエンタープライズシステム内のデータを検索できます。
- システム属性およびカスタム定義分類を使用して、動的ファセットに基づきアセットをフィルタリングできます。

エクスプローラ

- アセットの概要、例えば、カスタム属性、データ品質のプロファイリング統計、ビジネスコンテンツのデータドメイン、使用情報などを確認できます。
- クラウドソーシングメタデータの強化およびタギングにより、ビジネスコンテキスト情報を追加できます。
- ユーザーの資格情報に基づいて、サンプルデータをプレビューし、データアセットを把握できます。
- アセットのリネージュを取得して、データの出所と行先を理解し、データの信頼性を確保できます。
- 他のテーブルやビュー、ユーザー、レポート、データドメインとの関連付けに基づき、データアセットが企業内の他のアセットとどのような関係があるのかを把握できます。
- リネージュビューとリレーションビューを使用して、その他のアセットを段階的に検出できます。

取得

- ウィザードベースのインターフェイスを使用して、パーソナル区切りファイルをレイクにアップロードできます。

アップロード用のHiveテーブルは、最適な形式で自動的に作成されます。

- アップロードされたデータについて、アセットを作成、追加、上書きできます。

連携

- プロジェクトにデータアセットを追加して、作業を編成できます。
- さまざまなロール（共同所有者、編集者、観察者など）およびさまざまな特権が設定されたプロジェクトにコラボレータを追加できます。

推奨事項

- 他のユーザーの行動と共有知識に基づく推奨事項を使用して、生産性を高めることができます。
- プロジェクトで使用可能な代替アセットに関する推奨事項を取得できます。
- プロジェクトで使用可能な追加アセットに関する推奨事項を取得できます。
- 推奨事項は、プロジェクトの内容に応じて変化します。

準備

- Excelに似た環境で、サンプルデータを使用して、トランスフォーメーションを対話式に指定できます。
- シートレベルおよびカラムレベルの概要（値の分布や数値と日付の分布など）を確認できます。
- トランスフォーメーションをレシピステップの形式で追加し、シート上で直ちに結果を確認できます。
- 文字列演算、数値演算、日付演算、論理演算を使用して、カラムレベルのデータクレンジングおよびデータトランスフォーメーションを実行できます。
- シートレベルの演算を実行し、データの結合、マージ、集計、またはフィルタリングを行えます。
- 基礎となるテーブルのデータが変更された場合に、ワークシートのサンプルが更新されます。
- 既存のシートからシートを派生させ、親シートが変更されたときにアラートを受け取ることができます。
- トランスフォーメーションのステップは、すべてレシピに保存されます。これらのステップは、対話式に再生できます。

パブリッシュ

- 基盤となるHadoopシステムの処理能力を利用して、大規模なデータトランスフォーメーションを実行できます。コーディングやスクリプト作成は不要です。
- レイク内に実際にある巨大なデータセットに対してデータ準備ステップを実行し、新しいデータアセットを作成できます。
- レイク内のデータを目的のデータベースのHiveテーブルとしてパブリッシュできます。
- パブリッシュされたデータについて、アセットを作成、追加、上書きできます。

データアセットの操作

- レイクからCSVファイルにデータをエクスポートできます。
- データを別のデータベースまたはテーブルにコピーできます。
- ユーザーの資格情報で許可されている場合は、データアセットを削除できます。

マイアクティビティ

- アップロードアクティビティとそのステータスを追跡できます。
- パブリケーションとそのステータスを追跡できます。
- エラーが発生した場合にログファイルを表示し、必要に応じてIT管理者と情報を共有できます。

IT監視

- 監査データベースに加えてレポートを作成することにより、ユーザー、データアセット、およびプロジェクトアクティビティを追跡できます。
- 上位のアクティブユーザー、サイズを基準にした上位のデータセット、以前の更新、最も再利用されたアセット、最もアクティブなプロジェクトなどの情報を確認できます。

IT運用化

- アナリストが実行した特定目的の作業を運用可能にすることができます。
- Informatica Developerを使用して、アナリストが作成したレシピから変換されたInformatica Big Data管理マッピングをカスタマイズおよび最適化できます。
- データアセットが適切なタイミングで適切な宛先に提供されるように、Informatica Big Data管理マッピングをデプロイ、スケジュール、および監視できます。
- データレイク内の各種のデータベースとテーブルにアクセスするために、エンタイトルメントをセキュリティポリシーに確実に準拠させることができます。