Siguientes pasos para inferencia con Amazon SageMaker AI - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Siguientes pasos para inferencia con Amazon SageMaker AI

Una vez que disponga de un punto de conexión y comprenda el flujo de trabajo de inferencia general, podrá utilizar las siguientes características de SageMaker AI para mejorar el flujo de trabajo de inferencia.

Monitorización

Para realizar un seguimiento del modelo a lo largo del tiempo mediante métricas como la precisión y la desviación del modelo, puede utilizar el monitor de modelos. Con el monitor de modelos, puede configurar alertas que le notifiquen cuando haya desviaciones en la calidad de su modelo. Para obtener más información, consulte la documentación del monitor de modelos.

Para obtener más información sobre las herramientas que se pueden utilizar para supervisar las implementaciones de modelos y los eventos que cambian su punto de conexión, consulte Supervisar Amazon SageMaker AI. Por ejemplo, puede supervisar el estado de su punto de conexión mediante métricas como los errores de invocación y la latencia del modelo mediante las métricas de Amazon CloudWatch. Las métricas de invocación de puntos de conexión de SageMaker AI pueden proporcionarle información valiosa sobre el rendimiento de su punto de conexión.

CI/CD para la implementación de modelos

Para crear soluciones de machine learning en SageMaker AI, puede utilizar SageMaker MLOps. Puede utilizar esta característica para automatizar los pasos de su flujo de trabajo de machine learning y practicar CI/CD. Puede utilizar las Plantillas de proyectos MLOps para facilitar la configuración e implementación de proyectos MLOps de SageMaker AI. SageMaker AI también admite el uso de su propio repositorio de Git de terceros para crear un sistema de CI/CD.

Para sus canalizaciones de ML, utilice Model Registry para gestionar las versiones de sus modelos y la implementación y automatización de los mismos.

Barreras de protección de implementación

Si desea actualizar el modelo mientras está en producción sin que ello afecte a la producción, puede utilizar las barreras de protección de implementación. Las barreras de protección de implementación son un conjunto de opciones de implementación de modelos en SageMaker AI Inference para actualizar sus modelos de machine learning en producción. Con las opciones de implementación totalmente gestionadas, puede controlar el cambio del modelo actual en producción a uno nuevo. Los modos de cambio de tráfico le permiten controlar minuciosamente el proceso de cambio de tráfico, y las medidas de seguridad integradas, como las reversiones automáticas, le ayudan a detectar los problemas desde el principio.

Para obtener más información sobre barreras de protección de implementación, consulte la documentación sobre barreras de protección de implementación.

Inferentia

Si necesita ejecutar aplicaciones de machine learning y aprendizaje profundo a gran escala, puede utilizar una instancia de Inf1 con un punto de conexión en tiempo real. Este tipo de instancia es adecuado para casos de uso como reconocimiento de imágenes o voz, procesamiento de lenguaje natural (NLP), personalización, previsión o detección de fraudes.

Las instancias Inf1 están diseñadas para ser compatibles con las aplicaciones de inferencia de machine learning y cuentan con los chips de Inferentia AWS. Las instancias Inf1 ofrecen un mayor rendimiento y un menor costo por inferencia que las instancias basadas en GPU.

Para implementar un modelo en instancias Inf1, compile su modelo con SageMaker Neo y elija una instancia Inf1 para su opción de implementación. Para obtener más información, consulte Optimizar el rendimiento de modelos con SageMaker Neo.

Optimizar el rendimiento de modelos

SageMaker AI proporciona características que permiten administrar recursos y optimizar el rendimiento de inferencias a la hora de implementar modelos de machine learning. Puede utilizar los algoritmos y modelos prediseñados integrados de SageMaker AI, así como imágenes de Docker prediseñadas, desarrolladas para machine learning.

Para entrenar modelos y optimizarlos para su implementación, consulte imágenes de Docker prediseñadasOptimización del rendimiento de los modelos con SageMaker Neo. Con SageMaker Neo puede entrenar modelos de TensorFlow, Apache MXNet, PyTorch, ONNX y XGBoost. A continuación, puede optimizarlos e implementarlos en procesadores ARM, Intel y Nvidia.

Escalado automático

Si sus puntos de conexión reciben cantidades variables de tráfico, puede probar el escalado automático. Por ejemplo, durante las horas punta, es posible que necesite más instancias para procesar solicitudes. Sin embargo, en los períodos de poco tráfico es posible que desee reducir el uso de recursos de computación. Para ajustar de forma dinámica el número de instancias que se aprovisionan como respuesta a los cambios de su carga de trabajo, consulte Escalado automático de los modelos de Amazon SageMaker AI.

Si tiene patrones de tráfico impredecibles o no quiere configurar políticas de escalado, también puede utilizar Inferencia sin servidor como punto de conexión. A continuación, SageMaker AI administra el escalado automático. Durante períodos de poco tráfico, SageMaker AI reduce verticalmente el punto de conexión y, si el tráfico aumenta, lo escala verticalmente. Para obtener más información, consulte la documentación de Implemente modelos con Amazon SageMaker Serverless Inference.