Déploiement de modèles sur Amazon SageMaker HyperPod

Amazon va SageMaker HyperPod désormais au-delà de la formation pour proposer une plateforme d'inférence complète qui associe la flexibilité de Kubernetes à l'excellence opérationnelle des services gérés. AWS Déployez, dimensionnez et optimisez vos modèles d'apprentissage automatique avec une fiabilité de niveau professionnel en utilisant le même HyperPod calcul tout au long du cycle de vie du modèle.

Amazon SageMaker HyperPod propose des interfaces de déploiement flexibles qui vous permettent de déployer des modèles par le biais de plusieurs méthodes, notamment kubectl, le SDK Python, l'interface utilisateur Amazon SageMaker Studio ou la CLI. HyperPod Le service fournit des fonctionnalités avancées de mise à l'échelle automatique avec une allocation dynamique des ressources qui s'ajuste automatiquement en fonction de la demande. En outre, il inclut des fonctionnalités complètes d'observabilité et de surveillance qui suivent les indicateurs critiques tels que time-to-first-token la latence et l'utilisation du GPU pour vous aider à optimiser les performances.

Infrastructure unifiée pour la formation et l'inférence

Optimisez l'utilisation de votre GPU en transférant en douceur les ressources de calcul entre les charges de travail d'entraînement et d'inférence. Cela permet de réduire le coût total de possession tout en maintenant la continuité des opérations.

Options de déploiement adaptées aux entreprises

Déployez des modèles provenant de plusieurs sources, notamment des modèles à pondération ouverte et fermée d'Amazon SageMaker JumpStart et des modèles personnalisés d'Amazon S3 et Amazon, FSx avec prise en charge des architectures d'inférence à nœud unique et à nœuds multiples.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Planification basée sur la topologie

Configuration de vos HyperPod clusters pour le déploiement de modèles