Conditions préalables Modèles de base pris en charge Déployer un modèle personnalisé Utiliser un déploiement pour l’inférence à la demande Suppression d’un déploiement de modèle personnalisé

Déploiement d’un modèle personnalisé pour une inférence à la demande

Après avoir créé un modèle personnalisé à l'aide d'une tâche de personnalisation du modèle ou avoir importé un Amazon Nova modèle SageMaker AI-trained personnalisé, vous pouvez configurer l'inférence à la demande pour le modèle. Avec l’inférence à la demande, vous ne payez que pour ce que vous utilisez et vous n’avez pas besoin de configurer des ressources informatiques provisionnées.

Pour configurer l’inférence à la demande pour un modèle personnalisé, vous devez le déployer avec un déploiement de modèle personnalisé. Après avoir déployé votre modèle personnalisé, vous utilisez l’Amazon Resource Name (ARN) du déploiement comme paramètre modelId lorsque vous soumettez des invites et générez des réponses par inférence de modèle.

Pour plus d’informations sur la tarification de l’inférence à la demande, consultez Tarification d’Amazon Bedrock. Vous pouvez déployer un modèle personnalisé pour l’inférence à la demande dans les régions suivantes (pour plus d’informations sur les régions prises en charge par Amazon Bedrock, consultez Points de terminaison et quotas Amazon Bedrock) :

USA Est (Virginie du Nord)
USA Ouest (Oregon)

Conditions préalables au déploiement d’un modèle personnalisé pour l’inférence à la demande

Avant de déployer un modèle personnalisé pour l’inférence à la demande, vérifiez que vous respectez les conditions requises suivantes :

Vous devez utiliser la région USA Est (Virginie du Nord) ou USA Ouest (Oregon).
Vous devez personnaliser le modèle à compter de 7/16 /2025. Pour les modèles pris en charge, consultez Modèles de base pris en charge.
Votre compte doit avoir l’autorisation d’accéder au modèle que vous déployez. Pour plus d’informations sur la personnalisation, l’accès et la sécurité du modèle, consultez Personnalisation, accès et sécurité des modèles.
Si le modèle est chiffré avec une AWS KMS clé, vous devez être autorisé à utiliser cette clé. Pour de plus amples informations, veuillez consulter Chiffrement de modèles personnalisés.

Modèles de base pris en charge

Vous pouvez configurer l’inférence à la demande pour les modèles de base suivants :

Amazon Nova Lite — Région prise en charge : USA Est (Virginie du Nord)
Amazon Nova 2 Lite — Région prise en charge : USA Est (Virginie du Nord)
Amazon Nova Micro — Région prise en charge : USA Est (Virginie du Nord)
Amazon Nova Pro — Région prise en charge : USA Est (Virginie du Nord)
Meta Llama 3.3 70B Instruct — Région prise en charge : Ouest des États-Unis (Oregon)

Déployer un modèle personnalisé

Vous pouvez déployer un modèle personnalisé à l'aide de la console Amazon Bedrock ou AWS Command Line Interface des AWS kits SDK. Pour plus d’informations sur l’utilisation du déploiement à des fins d’inférence, consultez Utiliser un déploiement pour l’inférence à la demande.

Console

Vous déployez un modèle personnalisé à partir de la page Modèles personnalisés comme suit. Vous pouvez également déployer un modèle à partir de la page Modèle personnalisé à la demande avec les mêmes champs. Pour accéder à cette page, sous Déduire dans le volet de navigation, sélectionnez Modèle personnalisé à la demande.

Pour déployer un modèle personnalisé

Connectez-vous au AWS Management Console avec une identité IAM autorisée à utiliser la console Amazon Bedrock. Ouvrez ensuite la console Amazon Bedrock à https://console.aws.amazon.com/bedrockl'adresse.
Dans le volet de navigation de gauche, choisissez Modèles personnalisés sous Régler.
Dans l’onglet Modèles, cliquez sur le bouton radio correspondant au modèle que vous souhaitez déployer.
Choisissez Configurer l’inférence et choisissez Déployer avec la fonctionnalité à la demande.
Sous Détails du déploiement, fournissez les informations suivantes :
- Nom du déploiement (obligatoire) : saisissez un nom unique pour votre déploiement.
- Description (facultatif) : entrez une description de votre déploiement.
- Balises (facultatif) : ajoutez des balises pour la répartition des coûts et la gestion des ressources.
Choisissez Créer. Lorsque le statut du déploiement est Active, votre modèle personnalisé est prêt pour une inférence à la demande. Pour plus d’informations sur l’utilisation des modèles personnalisés, consultez Utiliser un déploiement pour l’inférence à la demande.

CLI

Pour déployer un modèle personnalisé à des fins d'inférence à la demande à l'aide de AWS Command Line Interface, utilisez la create-custom-model-deployment commande avec le Amazon Resource Name (ARN) de votre modèle personnalisé. Cette commande utilise l'opération CreateCustomModelDeploymentAPI. La réponse comprend l’ARN du déploiement. Lorsque le déploiement est actif, vous utilisez cet ARN comme modelId lorsque vous effectuez des demandes d’inférence. Pour plus d’informations sur l’utilisation du déploiement à des fins d’inférence, consultez Utiliser un déploiement pour l’inférence à la demande.


aws bedrock create-custom-model-deployment \
--model-deployment-name "Unique name" \
--model-arn "Custom Model ARN" \
--description "Deployment description" \
--tags '[
    {
        "key": "Environment",
        "value": "Production"
    },
    {
        "key": "Team",
        "value": "ML-Engineering"
    },
    {
        "key": "Project",
        "value": "CustomerSupport"
    }
]' \
--client-request-token "unique-deployment-token" \
--region region

API

Pour déployer un modèle personnalisé à des fins d'inférence à la demande, utilisez l'opération d'CreateCustomModelDeploymentAPI avec le Amazon Resource Name (ARN) de votre modèle personnalisé. La réponse comprend l’ARN du déploiement. Lorsque le déploiement est actif, vous utilisez cet ARN comme modelId lorsque vous effectuez des demandes d’inférence. Pour plus d’informations sur l’utilisation du déploiement à des fins d’inférence, consultez Utiliser un déploiement pour l’inférence à la demande.

Le code suivant montre comment utiliser le kit SDK for Python (Boto3) pour déployer un modèle personnalisé.


def create_custom_model_deployment(bedrock_client):
    """Create a custom model deployment
    Args:
        bedrock_client: A boto3 Amazon Bedrock client for making API calls

    Returns:
        str: The ARN of the new custom model deployment

    Raises:
        Exception: If there is an error creating the deployment
    """

    try:
        response = bedrock_client.create_custom_model_deployment(
            modelDeploymentName="Unique deployment name",
            modelArn="Custom Model ARN",
            description="Deployment description",
            tags=[
                {'key': 'Environment', 'value': 'Production'},
                {'key': 'Team', 'value': 'ML-Engineering'},
                {'key': 'Project', 'value': 'CustomerSupport'}
            ],
            clientRequestToken=f"deployment-{uuid.uuid4()}"
        )

        deployment_arn = response['customModelDeploymentArn']
        print(f"Deployment created: {deployment_arn}")
        return deployment_arn

    except Exception as e:
        print(f"Error creating deployment: {str(e)}")
        raise

Utiliser un déploiement pour l’inférence à la demande

Après avoir déployé votre modèle personnalisé, vous utilisez l’Amazon Resource Name (ARN) du déploiement comme paramètre modelId lorsque vous soumettez des invites et générez des réponses par inférence de modèle.

Pour plus d’informations sur les demandes d’inférence, consultez les rubriques suivantes :

Suppression d’un déploiement de modèle personnalisé

Une fois que vous avez fini d’utiliser votre modèle pour l’inférence à la demande, vous pouvez supprimer le déploiement. Une fois le déploiement supprimé, vous ne pouvez pas l’utiliser pour des inférences à la demande, mais la suppression du déploiement ne supprime pas le modèle personnalisé sous-jacent.

Vous pouvez supprimer un déploiement de modèle personnalisé à l'aide de la console Amazon Bedrock ou AWS Command Line Interface des AWS kits SDK.

Important

La suppression d’un déploiement de modèle personnalisé est irréversible. Assurez-vous que vous n’avez plus besoin du déploiement avant de procéder à la suppression. Si vous devez réutiliser le modèle personnalisé pour l’inférence à la demande, vous devez créer un nouveau déploiement.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Achat de débit provisionné pour un modèle personnalisé

Partage d’un modèle pour qu’un autre compte puisse l’utiliser