Documentation du conteneur d’inférence de modèles de grande taille (LMI)

La documentation du conteneur LMI est disponible sur le site de documentation de la bibliothèque Deep Java.

La documentation est destinée aux développeurs, aux scientifiques des données et aux ingénieurs en apprentissage automatique qui ont besoin de déployer et d'optimiser de grands modèles de langage (LLMs) sur Amazon SageMaker AI. Il vous aide à utiliser les conteneurs LMI, qui sont des conteneurs Docker spécialisés pour l'inférence LLM, fournis par. AWS Elle fournit une vue d’ensemble, des guides de déploiement, des guides de l’utilisateur pour les bibliothèques d’inférence prises en charge et des didacticiels avancés.

En utilisant la documentation du conteneur LMI, vous pouvez :

comprendre les composants et l’architecture des conteneurs LMI ;
découvrir comment sélectionner le type d’instance et le système dorsal adaptés à votre cas d’utilisation ;
Configuration et déploiement LLMs sur l' SageMaker IA à l'aide de conteneurs LMI
optimiser les performances en utilisant des caractéristiques comme la quantification, le parallélisme de tenseur et le traitement par lots continu ;
Comparez et ajustez vos points de terminaison d' SageMaker IA pour un débit et une latence optimaux

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Parallélisme des modèles et inférence de modèles de grande taille

Paramètres de point de terminaison SageMaker pour la LMI