Implantação do modelo paralisada em estado pendente Solução de problemas do estado de falha na implantação do modelo Verificando o progresso da implantação do modelo

Problemas de implantação do modelo

Visão geral: esta seção aborda problemas comuns que ocorrem durante a implantação do modelo, incluindo estados pendentes, implantações com falha e monitoramento do progresso da implantação.

Implantação do modelo paralisada em estado pendente

Ao implantar um modelo, a implantação permanece em um estado “Pendente” por um longo período. Isso indica que o operador de inferência não consegue iniciar a implantação do modelo em seu HyperPod cluster.

Componentes afetados:

Durante a implantação normal, o operador de inferência deve:

Implemente um pod de modelo
Criar um load balancer
Crie um endpoint de SageMaker IA

Etapas de solução de problemas:

Verifique o status do pod do operador de inferência:


kubectl get pods -n hyperpod-inference-system

Exemplo de saída esperado:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Analise os registros do operador de inferência e examine os registros do operador em busca de mensagens de erro:


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

O que procurar:

Mensagens de erro nos registros do operador
Status do pod do operador
Quaisquer avisos ou falhas relacionados à implantação

nota

Uma implantação saudável deve progredir além do estado “Pendente” dentro de um tempo razoável. Se os problemas persistirem, revise os registros do operador de inferência em busca de mensagens de erro específicas para determinar a causa raiz.

Solução de problemas do estado de falha na implantação do modelo

Quando a implantação de um modelo entra no estado “Falha”, a falha pode ocorrer em um dos três componentes:

Implantação de pod modelo
Criação de balanceador de carga
SageMaker Criação de endpoints de IA

Etapas de solução de problemas:

Verifique o status do operador de inferência:


kubectl get pods -n hyperpod-inference-system

Saída esperada:


NAME                                                           READY   STATUS    RESTARTS   AGE
hyperpod-inference-operator-controller-manager-65c49967f5-894fg   1/1     Running   0         6d13h

Revise os registros do operador:


kubectl logs hyperpod-inference-operator-controller-manager-5b5cdd7757-txq8f -n hyperpod-inference-operator-system

O que procurar:

Os registros do operador indicarão qual componente falhou:

Falhas na implantação do pod de modelo
Problemas de criação do balanceador de carga
SageMaker Erros de endpoint de IA

Verificando o progresso da implantação do modelo

Para monitorar o progresso da implantação do seu modelo e identificar possíveis problemas, você pode usar os comandos kubectl para verificar o status de vários componentes. Isso ajuda a determinar se a implantação está progredindo normalmente ou se encontrou problemas durante a criação do pod de modelo, a configuração do balanceador de carga ou as fases de configuração do endpoint de SageMaker IA.

Método 1: Verificar o status do JumpStart modelo


kubectl describe jumpstartmodel.inference.sagemaker.aws.amazon.com/<model-name> -n <namespace>

Principais indicadores de status a serem monitorados:

Status da implantação
- Procure porStatus.State: Deve mostrar DeploymentComplete
- Verifique Status.Deployment Status.Available Replicas
- Monitore Status.Conditions o progresso da implantação
SageMaker Status do endpoint de IA
- VerifiqueStatus.Endpoints.Sagemaker.State: Deve aparecer CreationCompleted
- Verificar Status.Endpoints.Sagemaker.Endpoint Arn
Status do certificado TLS
- Exibir Status.Tls Certificate detalhes
- Verifique a expiração do certificado em Last Cert Expiry Time

Método 2: Verificar a configuração do endpoint de inferência


kubectl describe inferenceendpointconfig.inference.sagemaker.aws.amazon.com/<deployment_name> -n <namespace>

O status comum afirma:

DeploymentInProgress: Fase inicial de implantação
DeploymentComplete: Implantação bem-sucedida
Failed: Falha na implantação

nota

Monitore a seção Eventos em busca de avisos ou erros. Verifique se a contagem de réplicas corresponde à configuração esperada. Verifique se todas as condições são exibidas Status: True para uma implantação saudável.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Tempo limite de download do certificado

Problema de permissão VPC ENI