As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Problemas de implantação do modelo
Visão geral: esta seção aborda problemas comuns que ocorrem durante a implantação do modelo, incluindo estados pendentes, implantações com falha e monitoramento do progresso da implantação.
Implantação do modelo paralisada em estado pendente
Ao implantar um modelo, a implantação permanece em um estado “Pendente” por um longo período. Isso indica que o operador de inferência não consegue iniciar a implantação do modelo em seu HyperPod cluster.
Componentes afetados:
Durante a implantação normal, o operador de inferência deve:
-
Implemente um pod de modelo
-
Criar um load balancer
-
Crie um endpoint de SageMaker IA
Etapas de solução de problemas:
-
Verifique o status do pod do operador de inferência:
kubectl get pods -n hyperpod-inference-systemExemplo de saída esperado:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Analise os registros do operador de inferência e examine os registros do operador em busca de mensagens de erro:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
O que procurar:
-
Mensagens de erro nos registros do operador
-
Status do pod do operador
-
Quaisquer avisos ou falhas relacionados à implantação
nota
Uma implantação saudável deve progredir além do estado “Pendente” dentro de um tempo razoável. Se os problemas persistirem, revise os registros do operador de inferência em busca de mensagens de erro específicas para determinar a causa raiz.
Solução de problemas do estado de falha na implantação do modelo
Quando a implantação de um modelo entra no estado “Falha”, a falha pode ocorrer em um dos três componentes:
-
Implantação de um pod modelo
-
Criação de balanceador de carga
-
SageMaker Criação de endpoints de IA
Etapas de solução de problemas:
-
Verifique o status do operador de inferência:
kubectl get pods -n hyperpod-inference-systemSaída esperada:
NAME READY STATUS RESTARTS AGE hyperpod-inference-operator-controller-manager-65c49967f5-894fg 1/1 Running 0 6d13h -
Revise os registros do operador:
kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system
O que procurar:
Os registros do operador indicarão qual componente falhou:
-
Falhas na implantação do pod de modelo
-
Problemas de criação do balanceador de carga
-
SageMaker Erros de endpoint de IA
Verificando o progresso da implantação do modelo
Para monitorar o progresso da implantação do seu modelo e identificar possíveis problemas, você pode usar os comandos kubectl para verificar o status de vários componentes. Isso ajuda a determinar se a implantação está progredindo normalmente ou se encontrou problemas durante a criação do pod de modelo, a configuração do balanceador de carga ou as fases de configuração do endpoint de SageMaker IA.
Método 1: Verificar o status do JumpStart modelo
kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>
Principais indicadores de status a serem monitorados:
-
Status da implantação
-
Procure por
Status.State: Deve mostrarDeploymentComplete -
Verifique
Status.Deployment Status.Available Replicas -
Monitore
Status.Conditionso progresso da implantação
-
-
SageMaker Status do endpoint de IA
-
Verifique
Status.Endpoints.Sagemaker.State: Deve aparecerCreationCompleted -
Verificar
Status.Endpoints.Sagemaker.Endpoint Arn
-
-
Status do certificado TLS
-
Exibir
Status.Tls Certificatedetalhes -
Verifique a expiração do certificado em
Last Cert Expiry Time
-
Método 2: Verificar a configuração do endpoint de inferência
kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>
O status comum afirma:
-
DeploymentInProgress: Fase inicial de implantação -
DeploymentComplete: Implantação bem-sucedida -
Failed: Falha na implantação
nota
Monitore a seção Eventos em busca de avisos ou erros. Verifique se a contagem de réplicas corresponde à configuração esperada. Verifique se todas as condições são exibidas Status:
True para uma implantação saudável.