Ejecución de cargas de trabajo de inferencia en línea en tiempo real en Amazon EKS

Esta sección está diseñada para ayudarlo a implementar y operar cargas de trabajo de inferencia en línea en tiempo real en Amazon Elastic Kubernetes Service (EKS). Encontrará instrucciones sobre cómo crear clústeres optimizados con nodos acelerados por GPU, cómo integrar servicios de AWS para almacenamiento y escalado automático, cómo implementar modelos de muestra para su validación y consideraciones clave de arquitectura, como desacoplar las tareas de CPU y GPU, seleccionar las AMI y los tipos de instancia adecuados, y garantizar una exposición de baja latencia de los puntos de conexión de inferencia.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

IA y ML en EKS

Creación de un clúster