As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Implantação de modelos na Amazon SageMaker HyperPod
A Amazon SageMaker HyperPod agora vai além do treinamento para oferecer uma plataforma de inferência abrangente que combina a flexibilidade do Kubernetes com a excelência operacional dos serviços gerenciados. AWS Implante, escale e otimize seus modelos de aprendizado de máquina com confiabilidade de nível corporativo usando a mesma HyperPod computação em todo o ciclo de vida do modelo.
A Amazon SageMaker HyperPod oferece interfaces de implantação flexíveis que permitem que você implante modelos por meio de vários métodos, incluindo kubectl, Python SDK, Amazon Studio UI ou SageMaker CLI. HyperPod O serviço fornece recursos avançados de ajuste de escala automático com alocação dinâmica de recursos que se ajusta automaticamente com base na demanda. Além disso, inclui recursos abrangentes de observabilidade e monitoramento que rastreiam métricas críticas time-to-first-token, como latência e utilização da GPU, para ajudá-lo a otimizar o desempenho.
nota
Ao implantar em instâncias habilitadas para GPU, você pode usar o particionamento de GPU com a tecnologia Multi-Instance GPU (MIG) para executar várias cargas de trabalho de inferência em uma única GPU. Isso permite uma melhor utilização da GPU e otimização de custos. Para obter mais informações sobre como configurar o particionamento de GPU, consulte. Usando partições de GPU na Amazon SageMaker HyperPod
Infraestrutura unificada para treinamento e inferência
Maximize a utilização de GPU fazendo a transição perfeita dos recursos de computação entre workloads de treinamento e inferência. Isso reduz o custo total de propriedade e, ao mesmo tempo, mantém a continuidade operacional.
Opções de implantação prontas para empresas
Implante modelos de várias fontes, incluindo pesos abertos e modelos fechados da Amazon e modelos personalizados do Amazon S3 SageMaker JumpStart e da Amazon, FSx com suporte para arquiteturas de inferência de nó único e de vários nós.
Cache gerenciado de valores-chave (KV) em camadas e roteamento inteligente
O cache KV salva os vetores de valores-chave pré-computados após o processamento dos tokens anteriores. Quando o próximo token é processado, os vetores não precisam ser recalculados. Por meio de uma arquitetura de cache de duas camadas, você pode configurar um cache L1 que usa memória de CPU para reutilização local de baixa latência e um cache L2 que utiliza o Redis para permitir o compartilhamento escalável de cache em nível de nó.
O roteamento inteligente analisa as solicitações recebidas e as direciona para a instância de inferência com maior probabilidade de ter pares de valores-chave em cache relevantes. O sistema examina a solicitação e a encaminha com base em uma das seguintes estratégias de roteamento:
prefixaware— Solicitações subsequentes com o mesmo prefixo de prompt são roteadas para a mesma instânciakvaware— As solicitações recebidas são roteadas para a instância com a maior taxa de acerto do cache KV.session— Solicitações da mesma sessão de usuário são roteadas para a mesma instância.roundrobin— Distribuição uniforme de solicitações sem considerar o estado do cache KV.
Para obter mais informações sobre como habilitar esse recurso, consulteConfigure o cache KV e o roteamento inteligente para melhorar o desempenho.
Suporte de armazenamento hierárquico de cache L2 embutido para armazenamento em cache KV
Com base na infraestrutura de cache KV existente, HyperPod agora integra o armazenamento em camadas como uma opção adicional de back-end L2 junto com o Redis. Com o armazenamento hierárquico SageMaker gerenciado embutido, isso oferece melhor desempenho. Esse aprimoramento oferece aos clientes uma opção mais escalável e eficiente para o descarregamento de cache, particularmente benéfica para cargas de trabalho de inferência LLM de alto rendimento. A integração mantém a compatibilidade com os servidores do modelo vLLM e os recursos de roteamento existentes, ao mesmo tempo que oferece melhor desempenho.
nota
Criptografia de dados: os dados do cache KV (chaves e valores de atenção) são armazenados sem criptografia em repouso para otimizar a latência da inferência e melhorar o desempenho. Para cargas de trabalho com encryption-at-rest requisitos rígidos, considere a criptografia de prompts e respostas na camada do aplicativo ou desative o armazenamento em cache.
Isolamento de dados: ao usar o armazenamento em camadas gerenciado como back-end do cache L2, várias implantações de inferência em um cluster compartilham o armazenamento em cache sem isolamento. Os dados do cache L2 KV (chaves e valores de atenção) de diferentes implantações não são separados. Para cargas de trabalho que exigem isolamento de dados (cenários de vários inquilinos, diferentes níveis de classificação de dados), implante em clusters separados ou use instâncias dedicadas do Redis.
Implantação do tipo multiinstância com failover automático
HyperPod A inferência oferece suporte à implantação do tipo de várias instâncias para melhorar a confiabilidade da implantação e a utilização dos recursos. Especifique uma lista priorizada de tipos de instância em sua configuração de implantação e o sistema selecionará automaticamente as alternativas disponíveis quando seu tipo de instância preferido não tiver capacidade. O programador do Kubernetes usa a afinidade de preferredDuringSchedulingIgnoredDuringExecution nós para avaliar os tipos de instância em ordem de prioridade, colocando as cargas de trabalho no tipo de instância disponível de maior prioridade e garantindo a implantação mesmo quando os recursos preferenciais não estão disponíveis. Esse recurso evita falhas de implantação devido a restrições de capacidade e, ao mesmo tempo, mantém suas preferências de custo e desempenho, garantindo a disponibilidade contínua do serviço mesmo durante as flutuações da capacidade do cluster.
Afinidade de nós personalizada para controle de agendamento granular
HyperPod A inferência oferece suporte à afinidade de nós personalizada para controlar o posicionamento da carga de trabalho além da seleção do tipo de instância. Especifique critérios de seleção de nós, como distribuição da zona de disponibilidade, filtragem do tipo de capacidade (sob demanda versus spot) ou rótulos de nós personalizados no nodeAffinity campo. O sistema suporta restrições obrigatórias de posicionamento requiredDuringSchedulingIgnoredDuringExecution e preferências opcionaispreferredDuringSchedulingIgnoredDuringExecution, fornecendo controle total sobre as decisões de agendamento de pods e mantendo a flexibilidade de implantação.
nota
Coletamos determinadas métricas operacionais de rotina para fornecer disponibilidade de serviços essenciais. A criação dessas métricas é totalmente automatizada e não envolve a revisão humana da carga de trabalho de inferência do modelo subjacente. Essas métricas estão relacionadas às operações de implantação, ao gerenciamento de recursos e ao registro de endpoints.
Tópicos
Configurando seus HyperPod clusters para implantação de modelos
Implantar modelos de base e modelos personalizados e ajustados
Políticas de escalonamento automático para a implantação do seu modelo de HyperPod inferência
Implementando a observabilidade de inferência em clusters HyperPod
Governança de tarefas para implantação de modelos em HyperPod