Gerenciamento de incidentes

Tópicos

Incidentes são problemas de AWS service (Serviço da AWS) desempenho que afetam seu ambiente gerenciado, conforme determinado pelo AWS Managed Services (AMS) ou por você. Os incidentes identificados pela equipe do AMS são primeiramente recebidos como “eventos”: uma mudança no estado do sistema capturada pelo monitoramento. Se um limite configurado for violado, o evento acionará um alarme, também chamado de alerta. A equipe de operações do AMS determina se o evento não tem impacto, é um incidente (uma interrupção ou degradação do serviço) ou um problema (a causa raiz subjacente de um ou mais incidentes resolvidos).

A equipe do AMS também recebe incidentes identificados por você por meio do Suporte centro ou programaticamente usando a API do AWS Support com o código do serviço. sentinel-report-incident

Depois que seu incidente é recebido pela equipe de operações do AMS, ele é analisado para garantir que o incidente não seja melhor classificado como uma solicitação de serviço. Se ela deve ser classificada como uma solicitação de serviço, ela é imediatamente reclassificada e a equipe de solicitação de serviço do AMS assume o controle e você é notificado. Se o incidente puder ser resolvido pelo operador receptor, serão tomadas medidas para resolvê-lo imediatamente. Os operadores do AMS consultam a documentação interna para obter uma resolução e, se necessário, encaminham o incidente para outros recursos de suporte até que o incidente seja resolvido. Para se manter informado em cada etapa do processo de resolução de incidentes, certifique-se de preencher a opção CC Emails e, se você quiser se conectar por federação, faça login antes de seguir o link no e-mail enviado pelo AMS. Depois de resolvido, a equipe de operações do AMS documenta o incidente e a resolução para uso futuro.

Se a resolução de um incidente exigir mudanças na infraestrutura, talvez seja necessária uma revisão de segurança. As mudanças na infraestrutura que podem exigir uma análise de segurança incluem aquelas relacionadas ao IAM, à política baseada em recursos ou às aprovações de risco. Esses tipos de incidentes exigem que um engenheiro de operações do AMS crie uma RFC antes de fazer a alteração, e sua aprovação para essa RFC é necessária. Por exemplo, se a resolução do incidente exigir a atualização de uma política do IAM, haveria uma análise de segurança do AMS e, em seguida, um engenheiro de operações do AMS criaria um RFC com os componentes Management | Advanced stack | Identity and Access Management (IAM) | Atualizar entidade ou tipo de alteração de política (ct-27tuth19k52b4) e aguardar a aprovação do RFC antes de continuar.

nota

O AMS agora permite a resolução de incidentes que exigem que mudanças na infraestrutura sejam feitas sem a etapa adicional da aprovação da RFC. Se as mudanças necessárias para resolver o incidente NÃO exigirem uma revisão de segurança (a alteração não está relacionada ao IAM, à política baseada em recursos ou às aprovações de risco), o AMS poderá fazer as alterações com base na aprovação recebida no incidente, sem precisar de aprovação separada em uma RFC.

Para obter definições dos termos de gerenciamento de incidentes, consulte os principais termos do AMS.

Para entender o caminho de escalonamento dos incidentes, consulte Como obter ajuda.

Para obter uma descrição da resposta do AMS aos incidentes, consulte Resposta a incidentes do AMS.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Obter suporte

O que é gerenciamento de incidentes?