As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Implementar um modelo personalizado para inferência sob demanda
Depois de criar um modelo personalizado com um trabalho de personalização de modelo ou importar um Amazon Nova modelo personalizado SageMaker treinado por IA, você pode configurar a inferência sob demanda para o modelo. Com a inferência sob demanda, você paga apenas pelo que usa e não precisa configurar recursos de computação provisionados.
Para configurar a inferência sob demanda para um modelo personalizado, implante o modelo com uma implantação de modelo personalizado. Depois de implantar o modelo personalizado, use o nome do recurso da Amazon (ARN) da implantação como o parâmetro modelId ao enviar prompts e gerar respostas com inferência do modelo.
Para ter informações sobre os preços de inferência sob demanda, consulte Preços do Amazon Bedrock. Você pode implantar um modelo personalizado para inferência sob demanda nas seguintes regiões (para ter mais informações sobre as regiões em que o Amazon Bedrock está disponível, consulte Endpoints e cotas do Amazon Bedrock):
Pré-requisitos para implantar um modelo personalizado para inferência sob demanda
Para implantar um modelo personalizado para inferência sob demanda, primeiro atenda aos seguintes requisitos:
-
Você deve usar a região Leste dos EUA (Norte da Virgínia) ou Oeste dos EUA (Oregon).
-
Você deve personalizar o modelo em ou após 16/7/2025. Para ver os modelos compatíveis, consulte Modelos de base compatíveis.
-
Sua conta deve ter permissão para acessar o modelo que você está implantando. Para ter mais informações sobre personalização de modelos, acesso e segurança, consulte Acesso e segurança na personalização de modelos.
-
Se o modelo for criptografado com uma AWS KMS chave, você deverá ter permissão para usar essa chave. Para obter mais informações, consulte Criptografia de modelos personalizados.
Modelos de base compatíveis
Você pode configurar a inferência sob demanda para os seguintes modelos de base:
Implantar um modelo personalizado
Você pode implantar um modelo personalizado com o console Amazon Bedrock ou AWS SDKs. AWS Command Line Interface Para ter informações sobre como usar a implantação para inferência, consulte Usar uma implantação para inferência sob demanda.
- Console
-
Você implanta um modelo personalizado na página Modelos personalizados como se segue. Você também pode implantar um modelo na página Modelo personalizado sob demanda com os mesmos campos. Para encontrar essa página, em Inferência, no painel de navegação, escolha Modelo personalizado sob demanda.
Para implantar um modelo personalizado
-
Faça login no AWS Management Console com uma identidade do IAM que tenha permissões para usar o console Amazon Bedrock. Em seguida, abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock.
-
No painel de navegação à esquerda, escolha Modelos personalizados em Ajustar.
-
Na guia Modelos, selecione o botão de opção do modelo que você deseja implantar.
-
Escolha Configurar inferência e Implantar para uso sob demanda.
-
Na página Detalhes da implantação, forneça as seguintes informações:
-
Nome da implantação (obrigatório): insira um nome exclusivo para a implantação.
-
Descrição (opcional): insira uma descrição para a implantação.
-
Tags (opcional): adicione tags para alocação de custos e gerenciamento de recursos.
-
Escolha Criar. Quando o status da implantação for Active, seu modelo personalizado estará pronto para inferência sob demanda. Para ter mais informações sobre como usar o modelo personalizado, consulte Usar uma implantação para inferência sob demanda.
- CLI
-
Para implantar um modelo personalizado para inferência sob demanda usando o AWS Command Line Interface, use o create-custom-model-deployment comando com o Amazon Resource Name (ARN) do seu modelo personalizado. Esse comando usa a operação da API CreateCustomModelDeployment. A resposta inclui o ARN da implantação. Quando a implantação está ativa, você usa esse ARN como o modelId ao fazer solicitações de inferência. Para ter informações sobre como usar a implantação para inferência, consulte Usar uma implantação para inferência sob demanda.
aws bedrock create-custom-model-deployment \
--model-deployment-name "Unique name" \
--model-arn "Custom Model ARN" \
--description "Deployment description" \
--tags '[
{
"key": "Environment",
"value": "Production"
},
{
"key": "Team",
"value": "ML-Engineering"
},
{
"key": "Project",
"value": "CustomerSupport"
}
]' \
--client-request-token "unique-deployment-token" \
--region region
- API
-
Para implantar um modelo personalizado para inferência sob demanda, use a operação de CreateCustomModelDeploymentAPI com o Amazon Resource Name (ARN) do seu modelo personalizado. A resposta inclui o ARN da implantação. Quando a implantação está ativa, você usa esse ARN como o modelId ao fazer solicitações de inferência. Para ter informações sobre como usar a implantação para inferência, consulte Usar uma implantação para inferência sob demanda.
O código a seguir mostra como usar o SDK para Python (Boto3) para implantar um modelo personalizado.
def create_custom_model_deployment(bedrock_client):
"""Create a custom model deployment
Args:
bedrock_client: A boto3 Amazon Bedrock client for making API calls
Returns:
str: The ARN of the new custom model deployment
Raises:
Exception: If there is an error creating the deployment
"""
try:
response = bedrock_client.create_custom_model_deployment(
modelDeploymentName="Unique deployment name",
modelArn="Custom Model ARN",
description="Deployment description",
tags=[
{'key': 'Environment', 'value': 'Production'},
{'key': 'Team', 'value': 'ML-Engineering'},
{'key': 'Project', 'value': 'CustomerSupport'}
],
clientRequestToken=f"deployment-{uuid.uuid4()}"
)
deployment_arn = response['customModelDeploymentArn']
print(f"Deployment created: {deployment_arn}")
return deployment_arn
except Exception as e:
print(f"Error creating deployment: {str(e)}")
raise
Usar uma implantação para inferência sob demanda
Depois de implantar o modelo personalizado, use o nome do recurso da Amazon (ARN) da implantação como o parâmetro modelId ao enviar prompts e gerar respostas com inferência do modelo.
Para obter informações sobre como fazer solicitações de inferência, consulte os seguintes tópicos:
Excluir uma implantação de modelo personalizado
Depois que terminar de usar seu modelo para inferência sob demanda, você poderá excluir a implantação. Depois que excluir a implantação, você não poderá usá-la para inferência sob demanda, mas a exclusão da implantação não exclui o modelo personalizado subjacente.
Você pode excluir uma implantação de modelo personalizado com o console Amazon Bedrock ou AWS SDKs. AWS Command Line Interface
A exclusão de uma implantação de modelo personalizado é irreversível. Certifique-se de que não precisa mais da implantação antes de prosseguir com a exclusão. Se precisar usar o modelo personalizado para inferência sob demanda novamente, você deverá criar uma nova implantação.
- Console
-
Para excluir uma implantação de modelo personalizado
-
No painel de navegação, em Inferência, escolha Modelo personalizado sob demanda.
-
Escolha a implantação de modelo personalizado que você deseja excluir.
-
Escolha Excluir.
-
Na caixa de diálogo de confirmação, insira o nome da implantação para confirmar a exclusão.
-
Selecione Excluir para confirmar a exclusão.
- CLI
-
Para excluir uma implantação de modelo personalizado usando o AWS Command Line Interface, use o delete-custom-model-deployment comando com seu identificador de implantação. Esse comando usa a operação da API DeleteCustomModelDeployment.
aws bedrock delete-custom-model-deployment \
--custom-model-deployment-identifier "deployment-arn-or-name" \
--region region
- API
-
Para excluir programaticamente uma implantação de modelo personalizado, use a operação de DeleteCustomModelDeploymentAPI com o Amazon Resource Name (ARN) ou nome da implantação. O código a seguir mostra como usar o SDK para Python (Boto3) para excluir uma implantação de modelo personalizado.
def delete_custom_model_deployment(bedrock_client):
"""Delete a custom model deployment
Args:
bedrock_client: A boto3 Amazon Bedrock client for making API calls
Returns:
dict: The response from the delete operation
Raises:
Exception: If there is an error deleting the deployment
"""
try:
response = bedrock_client.delete_custom_model_deployment(
customModelDeploymentIdentifier="Deployment identifier"
)
print("Deleting deployment...")
return response
except Exception as e:
print(f"Error deleting deployment: {str(e)}")
raise