ベクトル埋め込み方法
ベクトル埋め込み方法を使用して、入力テキストのベクトル埋め込みを作成します。テキストをベクトルに変換するために使用する学習済みモデルに基づいて方法を選択できます。
ベクトル埋め込みは、テキストを数値の配列として表現します。配列内の各要素は、テキストの異なる次元を表します。ベクトル埋め込みを作成するには、埋め込み用の入力カラムを選択し、次のいずれかのベクトル埋め込み方法を選択します。
- 単語の埋め込み
- 300次元(word2vec_giga_300)のWord2Vec Gigaword 5th Editionモデルを使用して、各単語をベクトルに変換します。テキスト分類およびセマンティック分析に役立ちます。
- BERT組み込み
- 768次元(small_bert_L2_768)のSmaller BERT Embedding(L-2_H-768_A-12)モデルを使用して、各文をベクトルに変換します。テキスト分類およびセマンティック検索に役立ちます。
ベクトル埋め込みでは、次のルールとガイドラインを考慮してください。
- •異なる埋め込みモデルによって作成されたベクトル埋め込みは、同じ次元であっても比較できません。埋め込みモデルを切り替える場合は、すべてのソーストランスフォーメーション、チャンキングトランスフォーメーション、ベクトル埋め込みトランスフォーメーション、およびターゲットトランスフォーメーションを含むマッピングを再実行し、新しいモデルを使用してすべてのドキュメントの埋め込みを作成します。
- •ベクトル埋め込みトランスフォーメーションは、入力行ごとに1つの出力行を生成するパッシブトランスフォーメーションであるため、NULLまたは空の文字列を含む入力カラムは空の出力ベクトルを返します。ベクトルが空の場合、Pineconeなどのベクトルデータベースは行を削除する可能性があります。
- •ベクトル埋め込みトランスフォーメーションでは、英語のテキストのみを処理できます。