Solução de problemas - SageMaker Inteligência Artificial da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas

Importante

Em 30 de novembro de 2023, a experiência anterior do Amazon SageMaker Studio agora se chama Amazon SageMaker Studio Classic. A seção a seguir é específica ao uso da experiência atualizada do Studio. Para obter informações sobre como usar a aplicação do Studio Classic, consulte Amazon SageMaker Studio Clássico.

Importante

Políticas personalizadas do IAM que permitem que o Amazon SageMaker SageMaker Studio ou o Amazon Studio Classic criem SageMaker recursos da Amazon também devem conceder permissões para adicionar tags a esses recursos. A permissão para adicionar tags aos recursos é necessária porque o Studio e o Studio Classic marcam automaticamente todos os recursos que eles criam. Se uma política do IAM permitir que o Studio e o Studio Classic criem recursos, mas não permitisse a marcação, erros AccessDenied "" podem ocorrer ao tentar criar recursos. Para obter mais informações, consulte Forneça permissões para marcar recursos de SageMaker IA.

AWS políticas gerenciadas para Amazon SageMaker AIque dão permissões para criar SageMaker recursos já incluem permissões para adicionar tags ao criar esses recursos.

Esta seção mostra como solucionar problemas comuns no Amazon SageMaker Studio.

Método de recuperação

O modo de recuperação permite que você acesse sua aplicação do Studio quando um problema de configuração impede a inicialização normal. Ele oferece um ambiente simplificado com funcionalidades essenciais para ajudar a diagnosticar e corrigir o problema.

Quando uma aplicação falhar na inicialização, provavelmente você verá uma mensagem de erro sobre o acesso ao modo de recuperação para resolver um dos problemas de configuração a seguir.

  • Arquivo .condarc corrompido.

    Para ter informações sobre como solucionar problemas com o arquivo .condarc arquivo, consulte a página Troubleshooting no Conda user guide.

  • Volume de armazenamento disponível insuficiente.

    Você pode aumentar o espaço de armazenamento do Amazon EBS disponível para a aplicação ou entrar no modo de recuperação para remover dados desnecessários.

    Para ter informações sobre como aumentar o tamanho do volume do Amazon EBS, consulte Solicitar um aumento de cota no Guia do usuário do Service Quotas.

No modo de recuperação:

  • Seu diretório inicial será diferente do diretório de sua inicialização normal. Esse diretório é temporário e garante que qualquer configuração corrompida em seu diretório inicial padrão não afete suas operações no modo de recuperação. Você pode navegar até seu diretório inicial padrão usando o comandocd /home/sagemaker-user.

    • Modo padrão: /home/sagemaker-user

    • Método de recuperação: /tmp/sagemaker-recovery-mode-home

  • O ambiente Conda usa um ambiente conda básico mínimo com apenas pacotes essenciais. A configuração simplificada do Conda ajuda a isolar problemas relacionados ao ambiente e oferece funcionalidade básica para solução de problemas.

Você pode usar a interface do usuário do Studio ou a AWS CLI para acessar o aplicativo no modo de recuperação.

A seguir são apresentadas instruções para acessar sua aplicação no modo de recuperação.

  1. Se ainda não tiver feito isso, inicie a interface de usuário do Studio seguindo as instruções em Inicie a partir do console Amazon SageMaker AI.

  2. No menu de navegação à esquerda, em Aplicações, escolha a aplicação.

  3. Escolha o espaço com o qual você está tendo problemas de configuração.

    As etapas a seguir são disponibilizadas quando você encontra um ou mais dos problemas de configuração mencionados anteriormente. Nesse caso, você verá um banner de aviso e uma mensagem do modo de recuperação.

    nota

    O banner de aviso deve ter uma solução recomendada para o problema. Anote-a antes de continuar.

  4. Escolha Espaço de execução (modo de recuperação).

  5. Para acessar seu aplicativo no modo de recuperação, escolha Abrir application (modo de recuperação).

Para acessar seu aplicativo no modo de recuperação, você deve anexar --recovery-mode ao comando AWS CLI create-app. A seguir é apresentado um exemplo sobre como acessar uma aplicação no modo de recuperação.

Para o exemplo a seguir, você precisará de:

Access Code Editor application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type CodeEditor \ --domain-id domain-id \ --space-name space-name \ --recovery-mode
Access JupyterLab application in recovery mode
aws sagemaker create-app \ --app-name app-name \ --app-type JupyterLab \ --domain-id domain-id \ --space-name space-name \ --recovery-mode

Não é possível excluir o editor de código ou o JupyterLab aplicativo

Esse problema ocorre quando um usuário cria um aplicativo do Amazon SageMaker Studio, que só está disponível no Studio, e depois reverte sua experiência padrão para o Studio Classic. Como resultado, o usuário não pode excluir um aplicativo do Editor de Código, com base no Code-OSS, no Visual Studio Code - Open Source ou JupyterLab porque não consegue acessar a interface do usuário do Studio.

Para resolver esse problema, notifique seu administrador para que ele possa excluir o aplicativo manualmente usando o AWS Command Line Interface (AWS CLI).

EC2InsufficientCapacityError

Esse problema ocorre quando você tenta executar um espaço e atualmente AWS não tem capacidade sob demanda disponível suficiente para atender à sua solicitação.

Para resolver esse problema, faça o seguinte:

  • Espere alguns minutos e envie sua solicitação novamente. A capacidade pode mudar com frequência.

  • Execute o espaço com um tamanho ou tipo de instância alternativo.

nota

A capacidade está disponível em Zonas de Disponibilidade diferentes. Para maximizar a disponibilidade da capacidade para os usuários, recomendamos configurar sub-redes em todas as Zonas de Disponibilidade. O Studio repete todas as Zonas de Disponibilidade disponíveis para o domínio.

A disponibilidade do tipo de instância difere entre as regiões. Para obter uma lista dos tipos de instâncias compatíveis por região, consulte os preços do Amazon SageMaker AI)

A tabela a seguir lista as famílias de instâncias e suas alternativas recomendadas.

Família de instâncias Tipo de CPU v CPUs Memória (GiB) Tipo de GPU GPUs Memória de GPU (GiB) Alternativa recomendada
G4dn Processadores Intel Xeon escaláveis de segunda geração De 4 a 96 De 16 a 384 NVIDIA T4 Tensor Core 1 a 8 16 por GPU G6
G5 Processadores AMD EPYC de segunda geração De 4 a 192 De 16 a 768 NVIDIA A10G Tensor Core 1 a 8 24 por GPU G6e
G6 Processadores AMD EPYC de terceira geração De 4 a 192 De 16 a 768 NVIDIA L4 Tensor Core 1 a 8 24 por GPU G4dn
G6e Processadores AMD EPYC de terceira geração De 4 a 192 De 32 a 1.536 NVIDIA L40S Tensor Core 1 a 8 48 por GPU G5, P4
P3 Processadores Intel Xeon escaláveis De 8 a 96 De 61 a 768 NVIDIA Tesla V100 1 a 8 16 por GPU (32 por GPU para P3dn) G6e, P4
P4 Processadores Intel Xeon escaláveis de segunda geração 96 1152 NVIDIA A100 Tensor Core 8 320 (640 para P4de) G6e
P5 Processadores AMD EPYC de terceira geração 192 2000 NVIDIA H100 Tensor Core 8 640 P4de

Limite insuficiente (é necessário aumentar a cota)

Esse problema ocorre quando você recebe o seguinte erro ao executar um espaço:

Error when creating application for space: ... : The account-level service limit is X Apps, with current utilization Y Apps and a request delta of 1 Apps. Please use Service Quotas to request an increase for this quota.

Há um limite padrão quanto ao número de instâncias, para cada tipo de instância, que é possível executar em cada Região da AWS. Esse erro significa que você atingiu esse limite.

Para resolver esse problema, solicite um aumento do limite de instância para o espaço em Região da AWS que você está lançando o espaço. Consulte Solicitar um aumento de cotapara ter mais informações.

Falha ao carregar a imagem personalizada

Esse problema ocorre quando uma imagem de SageMaker IA é excluída antes de separar a imagem do seu domínio. Isso pode ser visto quando você visualiza a guia Ambiente do seu domínio.

Para resolver esse problema, você precisará criar uma imagem temporária com o mesmo nome da imagem excluída, desanexar a imagem e, em seguida, excluir a temporária. Use as instruções a seguir para ver uma demonstração.

  1. Se você ainda não fez isso, inicie o console de SageMaker IA.

  2. No menu de navegação à esquerda, em Configurações de administração, escolha Domínios.

  3. Escolha o seu domínio.

  4. Escolha a guia Ambiente. Você verá a mensagem de erro nessa página.

  5. Use o ARN da imagem para copiar o nome da sua imagem.

  6. No menu de navegação à esquerda, em Configurações de administração, escolha Imagens.

  7. Escolha Criar imagem.

  8. Siga as etapas do procedimento, mas garanta que o nome da imagem seja igual ao nome da imagem acima.

    Se você não tiver uma imagem em um diretório do Amazon ECR, consulte as instruções em Criar uma imagem personalizada e enviá-la ao Amazon ECR.

  9. Depois de criar sua imagem de SageMaker IA, volte para a guia Ambiente do seu domínio. Você verá a imagem anexada ao seu domínio.

  10. Selecione a imagem e clique em Desanexar.

  11. Siga as instruções para desanexar e excluir a imagem temporária da SageMaker IA.