詳細モードでのドキュメントの読み取り
詳細モードでは、ソーストランスフォーメーションはPDFファイルからテキストを読み取ることができます。
ソーストランスフォーメーションは、テキスト、テーブル、見出し、メタデータなど、ドキュメントの完全な構造を抽出します。請求書やレポートなど、ドキュメント構造が異なるドキュメントから、テキストの順序を保持した状態でテキストを抽出できます。
PDFを読むには、[ソース]タブをクリックし、[ドキュメント]を選択します。データ統合は入力タイプを自動的に[PDF]に設定します。
PDFのディレクトリを読み取るには、詳細プロパティの[ソースタイプ]を[ディレクトリ]に変更します。[ファイル名のオーバーライド]には、「*.pdf」を入力します。
[フィールド]タブには、各PDFのテキスト、ファイルパス、ファイルタイプ、およびファイル名を保存するフィールドが表示されます。
テキストをダウンストリームのチャンキングトランスフォーメーションとベクトル埋め込みトランスフォーメーションに渡してRAG取り込みパイプラインを構築するか、テキストを処理して、そこから構造化データを作成し、JSONファイルに書き込むことができます。