Execução de workloads de inferência online em tempo real no Amazon EKS

Esta seção foi projetada para ajudar você a implantar e operar workloads de inferência online em tempo real no Amazon Elastic Kubernetes Service (EKS). Você encontrará orientações sobre como criar clusters otimizados com nós acelerados por GPU, integrar serviços da AWS para armazenamento e ajuste de escala automático, implantar modelos de amostra para validação e considerações arquitetônicas importantes, como desacoplar tarefas de CPU e GPU, selecionar AMIs e tipos de instância apropriados e garantir a exposição de baixa latência dos endpoints de inferência.

Tópicos

Guia de configuração de cluster do melhores práticas para inferência em tempo real no Amazon EKS
Início rápido: inferência de LLM de alto throughput usando vLLM no Amazon EKS

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

IA/ML no EKS

Criação de cluster