Modelos Incorporador de Texto do Amazon Titan - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Modelos Incorporador de Texto do Amazon Titan

Os modelos Incorporador do Titan v2 incluem o Incorporador de Texto do Amazon Titan v2 e o Incorporador de Texto do Titan G1.

As incorporações de texto representam vetores significativos de texto não estruturado, como documentos, parágrafos e frases. Você insere um corpo de texto e a saída é um vetor (1 x n). É possível usar vetores de incorporação para uma ampla variedade de aplicações.

O modelo Incorporador de Texto do Amazon Titan v2 (amazon.titan-embed-text-v2:0) pode ingerir até 8.192 tokens ou 50 mil caracteres e gerar um vetor de saída de 1.024 dimensões. O modelo é otimizado para tarefas de recuperação de texto, mas também pode ser usado para tarefas adicionais, como similaridade semântica e agrupamento.

Os modelos de incorporação do Amazon Titan geram uma representação semântica significativa de documentos, parágrafos e frases. O Incorporador de Texto do Amazon Titan usa como entrada um corpo de texto e gera um vetor (1 x n). O Incorporador de Texto do Amazon Titan é oferecido por meio de uma invocação de endpoint otimizada para latência para uma pesquisa mais rápida (recomendada durante a etapa de recuperação), bem como de trabalhos em lote com throughput otimizado para uma indexação mais rápida. O Incorporador de Texto do Amazon Titan v2 também é compatível com documentos longos. No entanto, para tarefas de recuperação, é recomendável segmentar documentos em segmentos lógicos, como parágrafos ou seções.

nota

O modelo Incorporador de Texto do Amazon Titan v2 e o modelo Incorporador de Texto do Titan v1 não aceitam parâmetros de inferência, como maxTokenCount ou topP.

Modelo Incorporador de Texto do Amazon Titan v2

  • ID de modelo: amazon.titan-embed-text-v2:0

  • Número máximo de tokens de texto de entrada: 8.192

  • Máximo de caracteres de entrada: 50 mil caracteres

  • Idiomas: inglês (mais de 100 idiomas em versão prévia)

  • Tamanho do vetor de saída — 1.024 (padrão), 512, 256

  • Tipos de inferência: throughput sob demanda e provisionado

  • Casos de uso compatíveis: RAG, pesquisa de documentos, reclassificação, classificação etc.

nota

O Incorporador de Texto do Titan v2 usa como entrada uma string não vazia com até 8.192 tokens ou 50 mil caracteres. A proporção de caracteres por token em inglês é de 4,7 caracteres por token, em média. Embora o Incorporador de Texto do Titan v1 e o Incorporador de Texto do Titan v2 possam acomodar até 8.192 tokens, é recomendável segmentar documentos em segmentos lógicos (como parágrafos ou seções).

O modelo Incorporador de Texto do Amazon Titan v2 é otimizado para o inglês e oferece suporte multilíngue para os idiomas a seguir. Consultas em vários idiomas (como fornecer uma base de conhecimento em coreano e consultá-la em alemão) exibirão resultados abaixo do ideal.

  • Africâner

  • Albanês

  • Amárico

  • Árabe

  • Armênio

  • Assamês

  • Azerbaijana

  • Bashkir

  • Basco

  • Bielorrusso

  • Bengali

  • Bósnio

  • Bretão

  • Búlgaro

  • Birmanesa

  • Catalão

  • Cebuano

  • Chinesa

  • Corso

  • Croata

  • Tcheco

  • Dinamarquesa

  • Divehi

  • Holandesa

  • Inglês

  • Esperanto

  • Estoniano

  • Feroês

  • Finlandesa

  • Francesa

  • Galego

  • Georgiano

  • Alemã

  • Gujarati

  • Haitiano

  • Hauçá

  • Hebraico

  • Hindi

  • Húngara

  • Islandês

  • Indonésia

  • Irlandês

  • Italiana

  • Japonesa

  • Javanês

  • Kannada

  • Cazaque

  • Khmer

  • Quiniaruanda

  • Quirguiz

  • Coreana

  • Curdo

  • Laosiano

  • Latim

  • Letão

  • Lituano

  • Luxemburguês

  • Macedônio

  • Malgaxe

  • Malaio

  • Malaiala

  • Maltês

  • maori

  • Marathi

  • Grego moderno

  • Mongol

  • Nepalês

  • Norueguesa

  • Norueguês nynorsk

  • Occitano

  • Oriá

  • Panjabi

  • Persa

  • Polonesa

  • Portuguesa

  • Pastó

  • Romena

  • Tomanche

  • Russa

  • Sânscrito

  • Gaélico escocês

  • Sérvio

  • Sindi

  • Cingalês

  • Eslovaco

  • Esloveno

  • Somali

  • Espanhola

  • Sudanês

  • Suaíli

  • Sueca

  • Tagalo

  • Tadjique

  • Tâmil

  • Tatárico

  • Telugo

  • Tailandesa

  • Tibetano

  • Turca

  • Turcomano

  • Uigur

  • Ucraniana

  • Urdu

  • Uzbeque

  • Vietnamita

  • Waray

  • Galês

  • Frísio

  • Xhosa

  • Iídiche

  • Iorubá

  • Zulu