Vérification de types d’instance par défaut Utilisation de composants d’inférence pour déployer plusieurs modèles vers un point de terminaison partagé Vérification des formats d’inférence d’entrée et de sortie valides Vérification du contenu pris en charge et des types d’acceptations

Déploiement de modèles de fondation accessibles au public à l’aide de la classe `JumpStartModel`

Vous pouvez déployer un algorithme intégré ou un modèle préentraîné sur un point de terminaison d' SageMaker IA en quelques lignes de code à l'aide du SageMaker Python SDK.

Commencez par rechercher l’ID de modèle de votre choix dans le tableau des algorithmes intégrés aux modèles pré-entraînés.

À l'aide de l'ID du modèle, définissez votre modèle en tant que JumpStart modèle.


from sagemaker.jumpstart.model import JumpStartModel

model_id = "huggingface-text2text-flan-t5-xl"
my_model = JumpStartModel(model_id=model_id)

Utilisez la méthode deploy pour déployer automatiquement votre modèle à des fins d’inférence. Dans cet exemple, nous utilisons le modèle Hugging Face FLAN-T5 XL.
```
predictor = my_model.deploy()
```

Vous pouvez ensuite exécuter l’inférence avec le modèle déployé, à l’aide de la méthode predict.


question = "What is Southern California often abbreviated as?"
response = predictor.predict(question)
print(response)

Note

Cet exemple utilise le modèle de fondation FLAN-T5 XL, qui convient à un large éventail de cas d’utilisation de génération de texte, notamment les réponses à des questions, la synthèse, la création de chatbot, etc. Pour plus d’informations sur les cas d’utilisation d’un modèle, consultez Modèles de fondation disponibles.

Pour plus d'informations sur la JumpStartModel classe et ses paramètres, consultez JumpStartModel.

Vérification de types d’instance par défaut

Vous pouvez éventuellement inclure des versions de modèle ou des types d’instances spécifiques lorsque vous déployez un modèle pré-entraîné à l’aide de la classe JumpStartModel. Tous les JumpStart modèles ont un type d'instance par défaut. Extrayez le type d’instance de déploiement par défaut à l’aide du code suivant :


from sagemaker import instance_types

instance_type = instance_types.retrieve_default(
    model_id=model_id,
    model_version=model_version,
    scope="inference")
print(instance_type)

Consultez tous les types d'instances pris en charge pour un JumpStart modèle donné avec la instance_types.retrieve() méthode.

Utilisation de composants d’inférence pour déployer plusieurs modèles vers un point de terminaison partagé

Un composant d'inférence est un objet d'hébergement d' SageMaker IA que vous pouvez utiliser pour déployer un ou plusieurs modèles sur un point de terminaison afin d'accroître la flexibilité et l'évolutivité. Vous devez modifier le point de terminaison endpoint_type de votre JumpStart modèle inference-component-based plutôt que le point de terminaison basé sur le modèle par défaut.


predictor = my_model.deploy(
    endpoint_name = 'jumpstart-model-id-123456789012', 
    endpoint_type = EndpointType.INFERENCE_COMPONENT_BASED
)

Pour plus d'informations sur la création de points de terminaison avec des composants d'inférence et le déploiement de modèles d' SageMaker IA, consultez. Utilisation partagée des ressources avec plusieurs modèles

Vérification des formats d’inférence d’entrée et de sortie valides

Pour vérifier les formats d’entrée et de sortie de données valides à des fins d’inférence, vous pouvez utiliser la méthode retrieve_options() des classes Serializers et Deserializers.


print(sagemaker.serializers.retrieve_options(model_id=model_id, model_version=model_version))
print(sagemaker.deserializers.retrieve_options(model_id=model_id, model_version=model_version))

Vérification du contenu pris en charge et des types d’acceptations

De même, vous pouvez utiliser la méthode retrieve_options() pour vérifier le contenu pris en charge et les types d’acceptations pour un modèle.


print(sagemaker.content_types.retrieve_options(model_id=model_id, model_version=model_version))
print(sagemaker.accept_types.retrieve_options(model_id=model_id, model_version=model_version))

Pour plus d'informations sur les utilitaires, consultez la section Utilitaire APIs.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Peaufinage d’un modèle public

Déployer un modèle propriétaire

Déploiement de modèles de fondation accessibles au public à l’aide de la classe JumpStartModel