View a markdown version of this page

Problemas de implantação do modelo - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Problemas de implantação do modelo

Visão geral: esta seção aborda problemas comuns que ocorrem durante a implantação do modelo, incluindo estados pendentes, implantações com falha e monitoramento do progresso da implantação.

Implantação do modelo paralisada em estado pendente

Ao implantar um modelo, a implantação permanece em um estado “Pendente” por um longo período. Isso indica que o operador de inferência não consegue iniciar a implantação do modelo em seu HyperPod cluster.

Componentes afetados:

Durante a implantação normal, o operador de inferência deve:

  • Implemente um pod de modelo

  • Criar um load balancer

  • Crie um endpoint de SageMaker IA

Etapas de solução de problemas:

  1. Verifique o status do pod do operador de inferência:

    kubectl get pods -n hyperpod-inference-system

    Exemplo de saída esperado:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. Analise os registros do operador de inferência e examine os registros do operador em busca de mensagens de erro:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

O que procurar:

  • Mensagens de erro nos registros do operador

  • Status do pod do operador

  • Quaisquer avisos ou falhas relacionados à implantação

nota

Uma implantação saudável deve progredir além do estado “Pendente” dentro de um tempo razoável. Se os problemas persistirem, revise os registros do operador de inferência em busca de mensagens de erro específicas para determinar a causa raiz.

Solução de problemas do estado de falha na implantação do modelo

Quando a implantação de um modelo entra no estado “Falha”, a falha pode ocorrer em um dos três componentes:

  • Implantação de um pod modelo

  • Criação de balanceador de carga

  • SageMaker Criação de endpoints de IA

Etapas de solução de problemas:

  1. Verifique o status do operador de inferência:

    kubectl get pods -n hyperpod-inference-system

    Saída esperada:

    NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h
  2. Revise os registros do operador:

    kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

O que procurar:

Os registros do operador indicarão qual componente falhou:

  • Falhas na implantação do pod de modelo

  • Problemas de criação do balanceador de carga

  • SageMaker Erros de endpoint de IA

Verificando o progresso da implantação do modelo

Para monitorar o progresso da implantação do seu modelo e identificar possíveis problemas, você pode usar os comandos kubectl para verificar o status de vários componentes. Isso ajuda a determinar se a implantação está progredindo normalmente ou se encontrou problemas durante a criação do pod de modelo, a configuração do balanceador de carga ou as fases de configuração do endpoint de SageMaker IA.

Método 1: Verificar o status do JumpStart modelo

kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Principais indicadores de status a serem monitorados:

  1. Status da implantação

    • Procure porStatus.State: Deve mostrar DeploymentComplete

    • Verifique Status.Deployment Status.Available Replicas

    • Monitore Status.Conditions o progresso da implantação

  2. SageMaker Status do endpoint de IA

    • VerifiqueStatus.Endpoints.Sagemaker.State: Deve aparecer CreationCompleted

    • Verificar Status.Endpoints.Sagemaker.Endpoint Arn

  3. Status do certificado TLS

    • Exibir Status.Tls Certificate detalhes

    • Verifique a expiração do certificado em Last Cert Expiry Time

Método 2: Verificar a configuração do endpoint de inferência

kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

O status comum afirma:

  • DeploymentInProgress: Fase inicial de implantação

  • DeploymentComplete: Implantação bem-sucedida

  • Failed: Falha na implantação

nota

Monitore a seção Eventos em busca de avisos ou erros. Verifique se a contagem de réplicas corresponde à configuração esperada. Verifique se todas as condições são exibidas Status: True para uma implantação saudável.