Parâmetros de endpoint do SageMaker AI para inferência de grandes modelos - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Parâmetros de endpoint do SageMaker AI para inferência de grandes modelos

Você pode personalizar os seguintes parâmetros para facilitar a inferência de grandes modelos (LMI) de baixa latência com o SageMaker AI:

  • Tamanho máximo do volume do Amazon EBS na instância (VolumeSizeInGB): se o tamanho do modelo for maior que 30 GB e você estiver usando uma instância sem um disco local, aumente esse parâmetro para um pouco maior que o tamanho do seu modelo.

  • Cota de tempo limite da verificação de integridade (ContainerStartupHealthCheckTimeoutInSeconds): se o seu contêiner estiver configurado corretamente e os logs do CloudWatch indicarem um tempo limite de verificação de saúde, você deverá aumentar essa cota para que o contêiner tenha tempo suficiente para responder às verificações de saúde.

  • Cota de tempo limite de download do modelo (ModelDataDownloadTimeoutInSeconds): se o tamanho do seu modelo for maior que 40 GB, você deverá aumentar essa cota para fornecer tempo suficiente para baixar o modelo do Amazon S3 para a instância.

O trecho de código a seguir demonstra como configurar programaticamente os parâmetros mencionados acima. Substitua o texto do espaço reservado em itálico no exemplo por suas próprias informações.

import boto3 aws_region = "aws-region" sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # The name of the endpoint. The name must be unique within an AWS Region in your AWS account. endpoint_name = "endpoint-name" # Create an endpoint config name. endpoint_config_name = "endpoint-config-name" # The name of the model that you want to host. model_name = "the-name-of-your-model" instance_type = "instance-type" sagemaker_client.create_endpoint_config( EndpointConfigName = endpoint_config_name ProductionVariants=[ { "VariantName": "variant1", # The name of the production variant. "ModelName": model_name, "InstanceType": instance_type, # Specify the compute instance type. "InitialInstanceCount": 1, # Number of instances to launch initially. "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume. "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds. "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds }, ], ) sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Para obter mais informações sobre as chaves de ProductionVariants, consulte ProductionVariant.

Para ver exemplos que demonstram como obter inferência de baixa latência com grandes modelos, consulte os exemplos de inferência de IA generativa no Amazon SageMaker AI no repositório aws-samples no GitHub.