As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Modelos Incorporador de Texto do Amazon Titan
Os modelos Incorporador do Titan v2 incluem o Incorporador de Texto do Amazon Titan v2 e o Incorporador de Texto do Titan G1.
As incorporações de texto representam vetores significativos de texto não estruturado, como documentos, parágrafos e frases. Você insere um corpo de texto e a saída é um vetor (1 x n). É possível usar vetores de incorporação para uma ampla variedade de aplicações.
O modelo Incorporador de Texto do Amazon Titan v2 (amazon.titan-embed-text-v2:0) pode ingerir até 8.192 tokens ou 50 mil caracteres e gerar um vetor de saída de 1.024 dimensões. O modelo é otimizado para tarefas de recuperação de texto, mas também pode ser usado para tarefas adicionais, como similaridade semântica e agrupamento.
Os modelos de incorporação do Amazon Titan geram uma representação semântica significativa de documentos, parágrafos e frases. O Incorporador de Texto do Amazon Titan usa como entrada um corpo de texto e gera um vetor (1 x n). O Incorporador de Texto do Amazon Titan é oferecido por meio de uma invocação de endpoint otimizada para latência para uma pesquisa mais rápida (recomendada durante a etapa de recuperação), bem como de trabalhos em lote com throughput otimizado para uma indexação mais rápida. O Incorporador de Texto do Amazon Titan v2 também é compatível com documentos longos. No entanto, para tarefas de recuperação, é recomendável segmentar documentos em segmentos lógicos, como parágrafos ou seções.
nota
O modelo Incorporador de Texto do Amazon Titan v2 e o modelo Incorporador de Texto do Titan v1 não aceitam parâmetros de inferência, como maxTokenCount ou topP.
Modelo Incorporador de Texto do Amazon Titan v2
ID de modelo:
amazon.titan-embed-text-v2:0Número máximo de tokens de texto de entrada: 8.192
Máximo de caracteres de entrada: 50 mil caracteres
Idiomas: inglês (mais de 100 idiomas em versão prévia)
Tamanho do vetor de saída — 1.024 (padrão), 512, 256
Tipos de inferência: throughput sob demanda e provisionado
Casos de uso compatíveis: RAG, pesquisa de documentos, reclassificação, classificação etc.
nota
O Incorporador de Texto do Titan v2 usa como entrada uma string não vazia com até 8.192 tokens ou 50 mil caracteres. A proporção de caracteres por token em inglês é de 4,7 caracteres por token, em média. Embora o Incorporador de Texto do Titan v1 e o Incorporador de Texto do Titan v2 possam acomodar até 8.192 tokens, é recomendável segmentar documentos em segmentos lógicos (como parágrafos ou seções).
O modelo Incorporador de Texto do Amazon Titan v2 é otimizado para o inglês e oferece suporte multilíngue para os idiomas a seguir. Consultas em vários idiomas (como fornecer uma base de conhecimento em coreano e consultá-la em alemão) exibirão resultados abaixo do ideal.
Africâner
Albanês
Amárico
Árabe
Armênio
Assamês
Azerbaijana
Bashkir
Basco
Bielorrusso
Bengali
Bósnio
Bretão
Búlgaro
Birmanesa
Catalão
Cebuano
Chinesa
Corso
Croata
Tcheco
Dinamarquesa
Divehi
Holandesa
Inglês
Esperanto
Estoniano
Feroês
Finlandesa
Francesa
Galego
Georgiano
Alemã
Gujarati
Haitiano
Hauçá
Hebraico
Hindi
Húngara
Islandês
Indonésia
Irlandês
Italiana
Japonesa
Javanês
Kannada
Cazaque
Khmer
Quiniaruanda
Quirguiz
Coreana
Curdo
Laosiano
Latim
Letão
Lituano
Luxemburguês
Macedônio
Malgaxe
Malaio
Malaiala
Maltês
maori
Marathi
Grego moderno
Mongol
Nepalês
Norueguesa
Norueguês nynorsk
Occitano
Oriá
Panjabi
Persa
Polonesa
Portuguesa
Pastó
Romena
Tomanche
Russa
Sânscrito
Gaélico escocês
Sérvio
Sindi
Cingalês
Eslovaco
Esloveno
Somali
Espanhola
Sudanês
Suaíli
Sueca
Tagalo
Tadjique
Tâmil
Tatárico
Telugo
Tailandesa
Tibetano
Turca
Turcomano
Uigur
Ucraniana
Urdu
Uzbeque
Vietnamita
Waray
Galês
Frísio
Xhosa
Iídiche
Iorubá
Zulu