As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá. # Ajuste de escala automático de endpoints com vários contêineres Se você quiser configurar o ajuste de escala automático para um endpoint de vários contêineres usando a métrica `InvocationsPerInstance`, recomendamos que o modelo em cada contêiner exiba utilização e latência de CPU semelhantes em cada solicitação de inferência. Isso é recomendado porque, se o tráfego para o endpoint de vários contêineres mudar de um modelo de baixa utilização da CPU para um modelo de alta utilização da CPU, mas o volume geral de chamadas permanecer o mesmo, o endpoint não se expandirá e talvez não haja instâncias suficientes para lidar com todas as solicitações do modelo de alta utilização da CPU. Para obter informações sobre a endpoints de ajuste de escala automático, consulte [Escalabilidade automática dos modelos de SageMaker IA da Amazon](endpoint-auto-scaling.md).