CLAIREチューニング
CLAIREチューニングを使用して、詳細クラスタで実行するマッピングタスクをチューニングします。
InformaticaのAIエンジンであるCLAIREは、マッピングタスクを数回実行し、機械学習を使用して各実行のパフォーマンスを評価します。CLAIREはこの情報を使用して、タスクのパフォーマンスを最適化する一連のSparkプロパティに対するチューニングの推奨事項を作成します。CLAIREチューニングでは、マッピングの複雑性、データのサイズ、詳細クラスタの処理容量などのパラメータが考慮されます。
初期チューニングを実行するか、継続的なチューニングを有効にすることができます。初期チューニングを実行する場合、チューニングの推奨事項を表示して、推奨されるSparkプロパティおよびその値のリストを確認できます。推奨事項を適用して、マッピングタスクでその値を使用できます。継続的なチューニングを有効にすると、CLAIREはマッピングタスクをサイレントで監視し、Sparkプロパティを長期間継続して調整します。
最初に初期チューニングを実行すると、継続的なチューニングがさらに効果的になります。初期チューニング中に、CLAIREは最適化された一連のSparkプロパティを取得します。これは、継続的なチューニング中に追加の調整を行うためのベースラインとして使用できます。
ファイルを増分ロードするマッピングタスクで初期チューニングを実行する場合。チューニングはすべてのソースファイルで実行されます。推奨されるプロパティおよび値は、変更されたファイルのみをロードして処理する将来のジョブには最適ではない可能性があります。
正確な推奨事項を取得するためのガイドライン
次のガイドラインを使用して、チューニングジョブ中に正確な推奨事項を取得します。
- •マッピングタスクが処理するデータの実際の量に厳密に一致するサンプルデータを使用します。
- •マッピングロジックがターゲット内の重複データを処理することを確認します。チューニングジョブは、ターゲットにデータを複数回書き込みます。
- •マッピングタスクをチューニングする前に適切なSparkプロパティを構成して、クラウド環境にリソース制限を設定します。使用中のクラウドサービスプロバイダは、使用するリソースの料金を実行ごとに請求するとします。
例えば、Sparkドライバに4 GBのみが割り当て可能であると分かっている場合は、マッピングタスクでspark.driver.memory=4Gと設定します。CLAIREは、定義済みのSparkプロパティを適用して、他のSparkプロパティに対するチューニングの推奨事項を作成します。
チューニングの設定
マッピングタスクの詳細でCLAIREチューニングを設定します。
次の図は、マッピングタスクの詳細でチューニングの設定に関するオプションが表示される場所を示しています。
初期チューニング
初期チューニングを実行して、推奨されるSparkプロパティとその値のリストを含むチューニングの推奨事項を取得します。
初期チューニングを設定するには、CLAIREがマッピングタスクを実行する回数を設定します。最小値は10です。[チューニング]をクリックしてチューニングを開始します。チューニングを開始すると、データ統合によって、マッピングタスクの各実行を表す複数のサブタスクを持つチューニングジョブが作成されます。チューニング結果を表示するには、すべてのサブタスクが完了するのを待つ必要があります。
CLAIREがマッピングタスクを実行するたびに、CLAIREはタスクパフォーマンスデータを収集して、一連の最適なSparkプロパティに対する推奨事項を改善します。
初期チューニング結果
初期チューニングが完了すると、チューニングの推奨事項とパフォーマンスの向上を確認できます。向上したこのパフォーマンスは、推奨される一連のSparkプロパティを使用してマッピングタスクを実行するためにかかる時間として測定されます。
次の図は、特定のマッピングタスクのチューニング結果を示しています。
推奨事項を適用して、マッピングタスクでSparkプロパティ値を使用できます。Sparkプロパティを元の値に戻し、推奨事項を再度適用することもできます。
チューニングの推奨事項を適用するためのガイドライン
チューニングの推奨事項を適用する場合は、ジョブのパフォーマンスが最適になるように次のガイドラインを使用します。
- •完全な一連のSparkプロパティを使用して、パフォーマンスを向上させます。推奨される部分的な一連のSparkプロパティの使用は、最適ではない可能性があります。
- •チューニングを開始してからチューニングの推奨事項を適用するまでの間に、マッピングタスクのSparkプロパティの編集を行わないようにしてください。Sparkプロパティを大幅に変更した場合は、マッピングタスクを再度チューニングしてください。
継続的なチューニング
継続的なチューニングを有効にして、マッピングタスクのすべての実行をサイレントで監視し、Sparkプロパティを長期間継続して調整します。
例えば、開発環境でマッピングタスクを設計し、初期チューニングを実行したとします。マッピングタスクを本番環境に移行する場合、プロダクションの負荷は日々変化すると予想されます。継続的なチューニングを実行することで、さまざまなパラメータの分析とSparkプロパティの調整が行われます。
継続的なチューニング中に、CLAIREはマッピングタスクのすべての実行を分析します。調整されたSparkプロパティにより、マッピングタスクで設定したSparkプロパティ値がオーバーライドされます。調整されたSparkプロパティの値は、Sparkドライバおよびエージェントのジョブログで確認できます。
注: 継続的なチューニングを有効にしてマッピングタスクをコピーまたはインポートすると、マッピングタスクで設定したSparkプロパティから継続的なチューニングが再起動されます。