Solución de problemas de canalizaciones de inferencia - Amazon SageMaker AI

Solución de problemas de canalizaciones de inferencia

Para solucionar los problemas de canalización de inferencia, utilice los registros y mensajes de error de CloudWatch. Si está utilizando imágenes de Docker personalizadas en una canalización que incluye algoritmos de Amazon SageMaker AI integrados, es posible que también detecte problemas de permisos. Para conceder los permisos necesarios, cree una política de Amazon Elastic Container Registry (Amazon ECR).

Solución de problemas de permisos de Amazon ECR para canalizaciones de inferencia

Cuando usa imágenes de Docker personalizadas en una canalización que incluye algoritmos integrados de SageMaker AI, necesita una política de Amazon ECR. La política permite al repositorio de Amazon ECR conceder permisos a SageMaker AI para extraer la imagen. La política debe agregar los permisos siguientes:

{ "Version": "2008-10-17", "Statement": [ { "Sid": "allowSageMakerToPull", "Effect": "Allow", "Principal": { "Service": "sagemaker.amazonaws.com" }, "Action": [ "ecr:GetDownloadUrlForLayer", "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability" ] } ] }

Uso de registros de CloudWatch para solucionar problemas de canalizaciones de inferencia de SageMaker AI

SageMaker AI publica los registros de contenedor de los puntos de conexión que implementan una canalización de inferencia a Amazon CloudWatch en la siguiente ruta para cada contenedor.

/aws/sagemaker/Endpoints/{EndpointName}/{Variant}/{InstanceId}/{ContainerHostname}

Por ejemplo, los registros para este punto de conexión se publican en los siguientes grupos de registros y secuencias:

EndpointName: MyInferencePipelinesEndpoint Variant: MyInferencePipelinesVariant InstanceId: i-0179208609ff7e488 ContainerHostname: MyContainerName1 and MyContainerName2
logGroup: /aws/sagemaker/Endpoints/MyInferencePipelinesEndpoint logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName1 logStream: MyInferencePipelinesVariant/i-0179208609ff7e488/MyContainerName2

Un flujo de registro es una secuencia de eventos de registro que comparten la misma fuente. Cada fuente independiente de registros en CloudWatch constituye un flujo de registro independiente. Un grupo de registro es un grupo de flujos de registro que comparten la misma configuración de retención, monitorización y control de acceso.

Para ver los grupos de registro y secuencias
  1. Abra la consola de CloudWatch en https://console.aws.amazon.com/cloudwatch/.

  2. En el panel de navegación, elija Registros.

  3. En Grupos de registro, filtre en MyInferencePipelinesEndpoint:

    Los grupos de registro de CloudWatch filtrados para el punto de conexión de canalización de inferencia.
  4. Para ver las secuencias de registros, en la página Grupos de registros de CloudWatch, elija MyInferencePipelinesEndpoint y, a continuación, Buscar grupo de registros.

    El flujo de registro de CloudWatch para la canalización de inferencia.

Para obtener una lista de los registros que SageMaker AI publica, consulte Registros y métricas de canalización de inferencias.

Utilizar mensajes de error para solucionar problemas de canalizaciones de inferencia

Los mensajes de error de canalización de inferencia indican que los contenedores presentan errores.

Si se produce un error mientras SageMaker AI está invocando un punto de conexión, el servicio devuelve un ModelError (código de error 424), que indica que se ha producido un error en el contenedor. Si la carga útil de la solicitud (la respuesta del contenedor anterior) supera el límite de 5 MB, SageMaker AI proporciona un mensaje de error detallado como:

Se ha recibido respuesta de MyContainerName1 con código de estado 200. Sin embargo, la carga de solicitud de MyContainerName1 a MyContainerName2 es de 6000000 bytes, que ha superado el límite máximo de 5 MB.

Si un contenedor genera un error en la comprobación de estado de ping al mismo tiempo que SageMaker AI crea un punto de conexión, devuelve un ClientError e indica todos los contenedores que no han superado la comprobación de ping en la última la comprobación de estado.