Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Modèles de plongement lexical Amazon Titan
Les modèles de vectorisations Amazon Titan incluent le plongement lexical Amazon Titan V2 et le modèle de plongement lexical Titan G1.
Les intégrations de texte constituent des représentations vectorielles significatives de texte non structuré telles que des documents, des paragraphes et des phrases. Vous entrez un corps de texte, et la sortie est un vecteur (1 x n). Vous pouvez utiliser les vecteurs d’intégration dans une grande variété d’applications.
Le modèle de plongement lexical Amazon Titan v2 (amazon.titan-embed-text-v2:0) peut recevoir jusqu’à 8 192 jetons ou 50 000 caractères et produit un vecteur de 1 024 dimensions. Il est optimisé pour les tâches de récupération de texte, mais peut également être utilisé pour des tâches supplémentaires, telles que la similitude sémantique et la mise en cluster.
Les modèles de vectorisations Amazon Titan génèrent une représentation sémantique significative des documents, des paragraphes et des phrases. Le plongement lexical Amazon Titan prend en entrée un corps de texte et produit un vecteur (1 x n). Le plongement lexical Amazon Titan est proposé via une invocation de point de terminaison optimisée en termes de latence pour une recherche plus rapide (recommandé lors de l’étape de récupération) ainsi que des tâches par lots optimisées en termes de débit pour une indexation plus rapide. Le plongement lexical Amazon Titan v2 prend en charge les documents longs, mais pour les tâches de récupération, il est recommandé de segmenter les documents en segments logiques, tels que des paragraphes ou des sections.
Note
Le modèle de plongement lexical Amazon Titan v2 et le modèle de plongement lexical Titan v1 ne prennent pas en charge les paramètres d’inférence tels que maxTokenCount ou topP.
Modèle de plongement lexical Amazon Titan V2
ID du modèle :
amazon.titan-embed-text-v2:0Nombre maximum de jetons de texte d'entrée : 8 192
Nombre maximal de caractères en entrée : 50 000
Langues : anglais (100 langues supplémentaires en version préliminaire)
Taille du vecteur de sortie : 1 024 (par défaut), 512, 256
Types d’inférence : débit provisionné, à la demande
Cas d’utilisation pris en charge : RAG, recherche de documents, reclassement, classification, etc.
Note
Le plongement lexical V2 prend en entrée une chaîne non vide contenant jusqu’à 8 192 jetons ou 50 000 caractères. Le ratio de caractères par jeton en anglais est de 4,7 caractères par jeton, en moyenne. Le plongement lexical V1 et le plongement lexical Titan V2 peuvent recevoir jusqu’à 8 192 jetons, mais il est recommandé de segmenter les documents en segments logiques (tels que des paragraphes ou des sections).
Le modèle de plongement lexical Amazon Titan v2 est optimisé pour l’anglais, avec un support multilingue pour les langues suivantes. Les requêtes multilingues (telles que la fourniture d’une base de connaissances en coréen et l’interrogation en allemand) produiront des résultats sous-optimaux.
Afrikaans
Albanais
Amharique
Arabe
Arménien
Assamais
Azerbaïdjanais
Bachkir
Basque
Biélorusse
Bengali
Bosniaque
Breton
Bulgare
Birman
Catalan
Cebuano
Chinois
Corse
Croate
Tchèque
Danois
Dhivehi
Néerlandais
Anglais
Espéranto
Estonian
Féroïen
Finnois
Français
Galicien
Géorgien
Allemand
Gujarati
Haïtien
Haoussa
Hébreu
Hindi
Hongrois
Islandais
Indonésien
Irlandais
Italien
Japonais
Javanais
Kannada
Kazakh
Khmer
Kinyarwanda
Kirghize
Coréen
Norvégien
Lao
Latin
Letton
Lituanien
Luxembourgeois
Macédonien
Malgache
Malais
Malayalam
Maltais
Maori
Marathi
Grec moderne
Mongol
Népalais
Norvégien
Nynorsk norvégien
Occitan
Oriya
Panjabi
Persan
Polonais
Portugais
Pushto
Roumain
Romanche
Russe
Sanskrit
Gaélique écossais
Serbe
Sindhi
Singhalais
Slovaque
Slovène
Somali
Espagnol
Soundanais
Swahili
Suédois
Tagalog
Tadjik
Tamoul
Tatar
Télougou
Thaï
Tibétain
Turc
Turkmène
Ouïghour
Ukrainien
Urdu
Ouzbek
Vietnamien
Waray
Gallois
Frison occidental
Xhosa
Yiddish
Yoruba
Zoulou