Amazon Titan Text Embeddings モデル - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Titan Text Embeddings モデル

Amazon Titan Embeddings モデルには、Amazon Titan Text Embeddings V2 モデルと Titan Text Embeddings G1 モデルがあります。

テキスト埋め込みは、ドキュメント、段落、文などの非構造化テキストの意味があるベクトル表現を表します。テキストの本文を入力すると、出力は (1 x n) のベクトルになります。埋め込みベクトルは、さまざまなアプリケーションで使用できます。

Amazon Titan Text Embeddings v2 モデル (amazon.titan-embed-text-v2:0) では、最大で 8,192 のトークンまたは 50,000 文字を取り込むことができ、1,024 次元のベクトルを出力します。このモデルはテキスト検索タスク向けに最適化されていますが、セマンティック類似性やクラスタリングなどの追加タスクにも使用できます。

Amazon Titan Embeddings モデルは、ドキュメント、段落、文の意味に沿ったセマンティック表現を生成します。Amazon Titan Text Embeddings は、テキストの本文を入力とし、(1 x n) ベクトルを生成します。Amazon Titan Text Embeddings は、より高速な検索 (取得ステップで推奨) のためにレイテンシーを最適化したエンドポイント呼び出しと、より高速なインデックス作成のためにスループットを最適化したバッチジョブによって提供されます。Amazon Titan Text Embeddings v2 は長いドキュメントをサポートしていますが、検索タスクではドキュメントを段落やセクションなどの論理的なセグメントに分割することをお勧めします。

注記

Amazon Titan Text Embeddings v2 モデルと Titan Text Embeddings v1 モデルは、maxTokenCounttopP などの推論パラメータに対応していません。

Amazon Titan Text Embeddings V2 モデル

  • モデル IDamazon.titan-embed-text-v2:0

  • 入力テキストトークンの最大数 – 8,192

  • 入力テキスト文字の最大数 – 50,000

  • 言語 – 英語 (プレビューで 100 以上の言語)

  • 出力ベクトルサイズ – 1,024 (デフォルト)、512、256

  • 推論タイプ – オンデマンド、プロビジョンドスループット

  • サポートされているユースケース – RAG、ドキュメント検索、再ランキング、分類など。

注記

Titan Text Embeddings V2 は、最大で 8,192 のトークンまたは 50,000 文字を持つ空でない文字列を入力とします。英語のトークンに対する文字数の比率は、平均で 1 トークンあたり 4.7 文字です。Titan Text Embeddings V1 と Titan Text Embeddings V2 は最大 8,192 個のトークンまで対応できますが、ドキュメントを論理セグメント (段落やセクションなど) にセグメント化することをお勧めします。

Amazon Titan Embedding Text v2 モデルは英語向けに最適化されており、次の言語向けの多言語サポート機能を備えています。クロス言語クエリ (ナレッジベースを韓国語で提供してドイツ語でクエリするなど) を行うと、最適ではない結果が返されます。

  • アフリカーンス語

  • アルバニア語

  • アムハラ語

  • アラビア語

  • Armenian

  • アッサム語

  • Azerbaijani

  • バシキール語

  • バスク語

  • ベラルーシ語

  • ベンガル語

  • ボスニア語

  • ブルトン語

  • ブルガリア語

  • Burmese

  • カタロニア語

  • セブアノ語

  • Chinese

  • コルシカ語

  • クロアチア語

  • チェコ語

  • Danish

  • ディベヒ語

  • Dutch

  • 英語

  • エスペラント語

  • エストニア語

  • フェロー語

  • Finnish

  • French

  • ガリシア語

  • グルジア語

  • German

  • グジャラート語

  • ハイチ語

  • ハウサ語

  • ヘブライ語

  • ヒンディー語

  • Hungarian

  • アイスランド語

  • Indonesian

  • Irish

  • Italian

  • Japanese

  • ジャワ語

  • カンナダ語

  • カザフ語

  • クメール語

  • キニヤルワンダ語

  • キルギス語

  • Korean

  • クルド語

  • ラオス語

  • ラテン語

  • ラトビア語

  • リトアニア語

  • ルクセンブルク語

  • マケドニア語

  • マダガスカル語

  • マレー語

  • マラヤーラム語

  • Maltese

  • マオリ語

  • マラーティー語

  • 現代ギリシャ語

  • モンゴル語

  • ネパール語

  • Norwegian

  • ノルウェー語ニーノシュク

  • オクシタン語

  • オリヤー語

  • パンジャブ語

  • ペルシャ語

  • Polish

  • Portuguese

  • プシュトン語

  • Romanian

  • ロマンシュ語

  • Russian

  • サンスクリット語

  • スコティッシュゲール語

  • セルビア語

  • シンディー

  • シンハラ語

  • スロバキア語

  • スロベニア語

  • ソマリ語

  • Spanish

  • スンダ語

  • スワヒリ語

  • Swedish

  • タガログ語

  • タジク語

  • タミル語

  • タタール語

  • テルグ語

  • Thai

  • チベット語

  • Turkish

  • トルクメン語

  • ウイグル語

  • Ukrainian

  • ウルドゥー語

  • ウズベク語

  • Vietnamese

  • ワライ語

  • ウェールズ語

  • 西フリジア語

  • コサ語

  • イディッシュ語

  • ヨルバ語

  • ズールー語