Execução de workloads de inferência online em tempo real no Amazon EKS - Amazon EKS

Ajudar a melhorar esta página

Para contribuir com este guia de usuário, escolha o link Editar esta página no GitHub, disponível no painel direito de cada página.

Execução de workloads de inferência online em tempo real no Amazon EKS

Esta seção foi projetada para ajudar você a implantar e operar workloads de inferência online em tempo real no Amazon Elastic Kubernetes Service (EKS). Você encontrará orientações sobre como criar clusters otimizados com nós acelerados por GPU, integrar serviços da AWS para armazenamento e ajuste de escala automático, implantar modelos de amostra para validação e considerações arquitetônicas importantes, como desacoplar tarefas de CPU e GPU, selecionar AMIs e tipos de instância apropriados e garantir a exposição de baixa latência dos endpoints de inferência.