Ejecución de cargas de trabajo de inferencia en línea en tiempo real en Amazon EKS - Amazon EKS

Ayude a mejorar esta página

Para contribuir a esta guía del usuario, elija el enlace Edit this page on GitHub que se encuentra en el panel derecho de cada página.

Ejecución de cargas de trabajo de inferencia en línea en tiempo real en Amazon EKS

Esta sección está diseñada para ayudarlo a implementar y operar cargas de trabajo de inferencia en línea en tiempo real en Amazon Elastic Kubernetes Service (EKS). Encontrará instrucciones sobre cómo crear clústeres optimizados con nodos acelerados por GPU, cómo integrar servicios de AWS para almacenamiento y escalado automático, cómo implementar modelos de muestra para su validación y consideraciones clave de arquitectura, como desacoplar las tareas de CPU y GPU, seleccionar las AMI y los tipos de instancia adecuados, y garantizar una exposición de baja latencia de los puntos de conexión de inferencia.