SageMaker Parâmetros de endpoint de IA para inferência de modelos grandes

Você pode personalizar os seguintes parâmetros para facilitar a inferência de modelos grandes (LMI) de baixa latência com IA: SageMaker

Tamanho máximo do volume do Amazon EBS na instância (VolumeSizeInGB): se o tamanho do modelo for maior que 30 GB e você estiver usando uma instância sem um disco local, aumente esse parâmetro para um pouco maior que o tamanho do seu modelo.
Cota de tempo limite da verificação de saúde (ContainerStartupHealthCheckTimeoutInSeconds) — Se o contêiner estiver configurado corretamente e os CloudWatch registros indicarem um tempo limite da verificação de saúde, você deverá aumentar essa cota para que o contêiner tenha tempo suficiente para responder às verificações de saúde.
Cota de tempo limite de download do modelo (ModelDataDownloadTimeoutInSeconds): se o tamanho do seu modelo for maior que 40 GB, você deverá aumentar essa cota para fornecer tempo suficiente para baixar o modelo do Amazon S3 para a instância.

O trecho de código a seguir demonstra como configurar programaticamente os parâmetros mencionados acima. Substitua o italicized placeholder text no exemplo por suas próprias informações.


import boto3

aws_region = "aws-region"
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# The name of the endpoint. The name must be unique within an AWS Region in your AWS account.
endpoint_name = "endpoint-name"

# Create an endpoint config name.
endpoint_config_name = "endpoint-config-name"

# The name of the model that you want to host.
model_name = "the-name-of-your-model"

instance_type = "instance-type"

sagemaker_client.create_endpoint_config(
    EndpointConfigName = endpoint_config_name
    ProductionVariants=[
        {
            "VariantName": "variant1", # The name of the production variant.
            "ModelName": model_name,
            "InstanceType": instance_type, # Specify the compute instance type.
            "InitialInstanceCount": 1, # Number of instances to launch initially.
            "VolumeSizeInGB": 256, # Specify the size of the Amazon EBS volume.
            "ModelDataDownloadTimeoutInSeconds": 1800, # Specify the model download timeout in seconds.
            "ContainerStartupHealthCheckTimeoutInSeconds": 1800, # Specify the health checkup timeout in seconds
        },
    ],
)

sagemaker_client.create_endpoint(EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name)

Para obter mais informações sobre as chaves de ProductionVariants, consulte ProductionVariant.

Para exemplos que demonstram como obter inferência de baixa latência com modelos grandes, consulte Exemplos de inferência de IA generativa na Amazon SageMaker AI no repositório aws-samples. GitHub

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

A documentação do contêiner de LMI

Implantação de modelos não compactados