Selección de la infraestructura de despliegue para un modelo de clasificación de imágenes - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Selección de la infraestructura de despliegue para un modelo de clasificación de imágenes

Recomendamos seleccionar la mejor opción de implementación para un punto final de clasificación de imágenes teniendo en cuenta tres aspectos principales:

  • Tiempo de respuesta requerido para el punto final

  • Complejidad de la solución y recursos humanos disponibles

  • Limitaciones de costos

El tiempo de respuesta del punto final y las limitaciones de costes se cuantifican más fácilmente y es mejor determinarlos primero. Las limitaciones de complejidad de la solución dependen del equilibrio entre el tiempo y los recursos del personal. Las soluciones menos complejas implican el uso de Amazon Rekognition o Amazon Rekognition Custom Labels. Los modelos de visión artificial de gran tamaño, cuando se colocan detrás de una instancia de Amazon API Gateway y una AWS Lambda función, pueden tardar hasta 1 segundo en responder. Amazon SageMaker AI Canvas también puede implementar un punto final que responda en 1 segundo o menos, con un bajo nivel de esfuerzo de desarrollo.

Los modelos de clasificación de imágenes se pueden colocar en AWS Lambda funciones mediante una imagen de Docker. Cuando se llama a una función Lambda, es posible que se produzca un arranque en frío que retrase la respuesta del punto final debido al tiempo de carga del modelo. También puede usar la opción de simultaneidad aprovisionada para hacer que una función Lambda responda en menos de 1 segundo, para un nivel específico de simultaneidad o de acuerdo con una política de autoscalamiento.

Los tiempos de respuesta del modelo varían en función del tiempo de procesamiento del modelo y del tiempo de respuesta del punto final implementado. Los siguientes son los tiempos de respuesta de cada opción de implementación, organizados por esfuerzo de implementación:

  • Menor esfuerzo: Amazon Rekognition, Amazon Rekognition SageMaker Custom Labels y AI Canvas son las opciones de implementación con menor esfuerzo. Los tiempos de respuesta de estas soluciones pueden oscilar entre menos de un segundo y horas.

  • Esfuerzo medio: la SageMaker IA es una opción de implementación de esfuerzo medio. SageMaker Los puntos finales de IA en tiempo real pueden responder en menos de un segundo, las unidades de inferencia de SageMaker IA sin servidor pueden responder en varios segundos y las transformaciones por lotes de SageMaker IA suelen responder en horas.

  • Esfuerzo máximo: Amazon ECS o los puntos de enlace y AWS Lambda funciones EKS personalizados de Amazon son la opción de implementación que requiere más esfuerzo. Los tiempos de respuesta para estos trabajos de formación personalizados pueden oscilar entre menos de un segundo y horas. Para tiempos de respuesta inferiores a un segundo, puede aprovisionar la simultaneidad de las funciones Lambda.

Las soluciones de mayor esfuerzo tienen más probabilidades de tener costes de infraestructura más bajos. Sin embargo, compare los ahorros con el costo adicional del tiempo de mantenimiento para los ingenieros.

Un patrón de implementación común es tener una API puerta de enlace y una función Lambda delante de una llamada al punto final, como se muestra en la siguiente imagen. Esto es preferible en situaciones en las que la respuesta de inferencia de Amazon Rekognition necesite un procesamiento adicional antes de ser devuelta al cliente que realiza la llamada a través de Amazon Gateway. API

Patrón de despliegue común

Sin embargo, las situaciones en las que el procesamiento es bastante pesado pueden requerir un flujo de trabajo diferente para reducir la penalización de latencia de la red resultante de la función Lambda de procesamiento. Para una latencia muy baja, se puede omitir la función Lambda a costa de forzar a Amazon Rekognition en la llamada a Gateway. API API

Para los sistemas de clasificación de imágenes que pueden tolerar unos segundos de latencia, utilice un SageMaker punto final de inferencia de IA sin servidor. Tanto para la inferencia como para las AWS Lambda implementaciones de SageMaker IA sin servidor, hay un límite de 15 minutos en el tiempo de ejecución de cada invocación. Este es un amplio margen de seguridad para los modelos de clasificación de imágenes más populares.

Para la clasificación de imágenes sin conexión o para aplicaciones en las que el tiempo de respuesta rápido no es importante, puede utilizar la inferencia por lotes con Amazon Rekognition. Para obtener más información, consulte Procesamiento de imágenes por lotes con etiquetas personalizadas de Amazon Rekognition en el AWS blog Machine Learning. También puede utilizar la transformación por lotes mediante SageMaker IA para un modelo de SageMaker IA que esté entrenado en SageMaker AI Canvas u otros medios. Para ver un ejemplo, consulte el cuaderno SageMaker AI Batch Transform for PyTorch Batch Inference en GitHub.