Implantação de modelos na Amazon SageMaker HyperPod - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Implantação de modelos na Amazon SageMaker HyperPod

A Amazon SageMaker HyperPod agora vai além do treinamento para oferecer uma plataforma de inferência abrangente que combina a flexibilidade do Kubernetes com a excelência operacional dos serviços gerenciados. AWS Implante, escale e otimize seus modelos de aprendizado de máquina com confiabilidade de nível corporativo usando a mesma HyperPod computação em todo o ciclo de vida do modelo.

A Amazon SageMaker HyperPod oferece interfaces de implantação flexíveis que permitem que você implante modelos por meio de vários métodos, incluindo kubectl, Python SDK, Amazon Studio UI ou SageMaker CLI. HyperPod O serviço fornece recursos avançados de ajuste de escala automático com alocação dinâmica de recursos que se ajusta automaticamente com base na demanda. Além disso, inclui recursos abrangentes de observabilidade e monitoramento que rastreiam métricas críticas time-to-first-token, como latência e utilização da GPU, para ajudá-lo a otimizar o desempenho.

nota

Ao implantar em instâncias habilitadas para GPU, você pode usar o particionamento de GPU com a tecnologia Multi-Instance GPU (MIG) para executar várias cargas de trabalho de inferência em uma única GPU. Isso permite uma melhor utilização da GPU e otimização de custos. Para obter mais informações sobre como configurar o particionamento de GPU, consulte. Usando partições de GPU na Amazon SageMaker HyperPod

Infraestrutura unificada para treinamento e inferência

Maximize a utilização de GPU fazendo a transição perfeita dos recursos de computação entre workloads de treinamento e inferência. Isso reduz o custo total de propriedade e, ao mesmo tempo, mantém a continuidade operacional.

Opções de implantação prontas para empresas

Implante modelos de várias fontes, incluindo pesos abertos e modelos fechados da Amazon e modelos personalizados do Amazon S3 SageMaker JumpStart e da Amazon, FSx com suporte para arquiteturas de inferência de nó único e de vários nós.

Cache gerenciado de valores-chave (KV) em camadas e roteamento inteligente

O cache KV salva os vetores de valores-chave pré-computados após o processamento dos tokens anteriores. Quando o próximo token é processado, os vetores não precisam ser recalculados. Por meio de uma arquitetura de cache de duas camadas, você pode configurar um cache L1 que usa memória de CPU para reutilização local de baixa latência e um cache L2 que utiliza o Redis para permitir o compartilhamento escalável de cache em nível de nó.

O roteamento inteligente analisa as solicitações recebidas e as direciona para a instância de inferência com maior probabilidade de ter pares de valores-chave em cache relevantes. O sistema examina a solicitação e a encaminha com base em uma das seguintes estratégias de roteamento:

  1. prefixaware— Solicitações subsequentes com o mesmo prefixo de prompt são roteadas para a mesma instância

  2. kvaware— As solicitações recebidas são roteadas para a instância com a maior taxa de acerto do cache KV.

  3. session— Solicitações da mesma sessão de usuário são roteadas para a mesma instância.

  4. roundrobin— Distribuição uniforme de solicitações sem considerar o estado do cache KV.

Para obter mais informações sobre como habilitar esse recurso, consulteConfigure o cache KV e o roteamento inteligente para melhorar o desempenho.

Suporte de armazenamento hierárquico de cache L2 embutido para armazenamento em cache KV

Com base na infraestrutura de cache KV existente, HyperPod agora integra o armazenamento em camadas como uma opção adicional de back-end L2 junto com o Redis. Com o armazenamento hierárquico SageMaker gerenciado embutido, isso oferece melhor desempenho. Esse aprimoramento oferece aos clientes uma opção mais escalável e eficiente para o descarregamento de cache, particularmente benéfica para cargas de trabalho de inferência LLM de alto rendimento. A integração mantém a compatibilidade com os servidores do modelo vLLM e os recursos de roteamento existentes, ao mesmo tempo em que oferece melhor desempenho.

nota

Coletamos determinadas métricas operacionais de rotina para fornecer disponibilidade de serviços essenciais. A criação dessas métricas é totalmente automatizada e não envolve a revisão humana da carga de trabalho de inferência do modelo subjacente. Essas métricas estão relacionadas às operações de implantação, gerenciamento de recursos e registro de endpoints.