チャンキング方法
チャンキングトランスフォーメーションでは、テキストをチャンクに分割するために使用できるさまざまなチャンキング方法が提供されています。
次のいずれかのチャンキング方法を選択して、一度に1つの入力文字列フィールドをチャンキングできます。
- 文分割
- テキストを文ごとに分割します。文分割は、テキスト構造を正確に分析して理解し、コンテンツを要約および分析するのに役立ちます。文の境界は、句読点と慣習的なリスト項目によって検出されます。例えば、文字や数字で始まるリスト項目(A)や1.など)は、末尾に句読点があるかどうかに関係なく、個々の文としてカウントされます。また、箇条書きやenダッシュで始まるリスト項目は、個々の文として自動的に検出されず、句読点に基づいてチャンキングされます。
例えば、「すばしっこい茶色のキツネがぐうたらな犬を飛び越えています。いい天気です。」は、次のような文のチャンクに分割されます。
"The quick brown fox jumps over the lazy dog.", "It is a sunny day."
- 単語分割
- 設定した単語数に基づいてテキストを分割します。単語分割は、名前や場所など、単語の意味と関係を、文の境界に合わせることなく保持する場合に便利です。一般的なフレーズや完全な文をキャプチャする可能性が高い単語のチャンキング制限を設定します。
例えば、「すばしっこい茶色のキツネがぐうたらな犬を飛び越えています。いい天気です。」は、それぞれ5つの単語からなる次のチャンクに分割されます。
"The quick brown fox jumps", "jumps over the lazy dog.", "dog. It is a sunny", "sunny day."
- 固定長の文字分割
- 設定した一定の文字数に基づいてテキストを分割します。この方法では、文の途中でテキストが分割される場合がありますが、単語全体は保持されます。固定長の文字分割は、チャンクサイズをほぼ一定にしたい場合に便利です。
例えば、「すばしっこい茶色のキツネがぐうたらな犬を飛び越えています。いい天気です。」は、それぞれ10文字からなる次のチャンクに分割されます。
"The quick ", " quick ", " brown fox", "fox jumped", "jumped ", " over the ", " lazy dog.", "It is a ", " sunny day", "day."
単語分割と固定長の文字分割では、単語全体と文を保持するために、チャンク間で10%の重複が発生します。チャンキングトランスフォーメーションは、重複を計算する際に切り上げを行います。例えば、単語のチャンキング制限が5単語に設定されている場合、10%は0.5単語の重複と等しいため、トランスフォーメーションによって1単語の重複が発生します。