Introdução às operações unificadas: integre alarmes essenciais para um gerenciamento rápido de incidentes - AWS Support

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Introdução às operações unificadas: integre alarmes essenciais para um gerenciamento rápido de incidentes

Para ajudar a notificá-lo rapidamente sobre incidentes críticos, conclua as etapas a seguir para integrar seus alarmes à Detecção e Resposta a AWS Incidentes

  1. Defina e configure seus alarmes críticos para um gerenciamento rápido de incidentes. Para obter informações detalhadas, consulte Definir e configurar alarmes em Detecção e resposta a incidentes no Guia do usuário de detecção e resposta a incidentes.

    1. Para ver as etapas para configurar alarmes usando a Amazon CloudWatch, consulte Definir e configurar alarmes em Detecção e resposta a incidentes no Guia do usuário de detecção e resposta a incidentes. Para AWS recomendações sobre tipos de alarmes críticos para vários tipos Serviços da AWS, consulte Detecção e resposta a incidentes (IDR). Entre em contato com sua equipe de operações AWS unificadas se AWS quiser automatizar a criação de AWS alarmes críticos para seus recursos marcados AWS .

    2. Para redirecionar ou ingerir alarmes críticos de ferramentas de APM de terceiros com EventBridge integração direta com a Amazon, como, etc. DataDog NewRelic, consulte Ingerir alarmes que APMs tenham integração direta com a Amazon EventBridge no Guia do usuário de detecção e resposta a AWS incidentes. Você deve implantar um conjunto de AWS recursos (AWS Lambda e regras de barramento de EventBridge eventos da Amazon) para transformar e redirecionar seu alarme (evento) para Detecção e resposta a AWS incidentes. Sua equipe de operações AWS unificadas pode ajudar a fornecer o CloudFormation modelo para instalar esses recursos.

    3. Redirecione ou consuma alarmes críticos de sua ferramenta de monitoramento personalizada por meio de uma ferramenta de APM terceirizada que não tenha integração direta com a Amazon EventBridge, como DataDog NewRelic, e assim por diante. Para obter mais informações, consulte Alarmes de ingestão APMs que tenham integração direta com a Amazon EventBridge no Guia do usuário de detecção e resposta a AWS incidentes. Você deve implantar um conjunto de AWS recursos ( AWS Lambda funções do API Gateway e regras de barramento de EventBridge eventos da Amazon) para transformar e redirecionar seu alarme (evento) para Detecção e resposta a AWS incidentes. Sua equipe de operações AWS unificadas pode ajudar a fornecer o CloudFormation modelo para instalar esses recursos.

  2. Forneça detalhes da arquitetura da carga de trabalho, informações do ponto de contato e informações do caderno de execução sobre ações de mitigação para alarmes críticos. Para fazer isso, conclua as seguintes etapas:

    1. Baixe e preencha o questionário de integração da carga de trabalho de detecção e resposta a AWS incidentes para cada carga de trabalho ou aplicativo crítico e o questionário de ingestão de alarmes relacionado a cada carga de trabalho exclusiva.

      As informações nesses questionários ajudam a AWS equipe a desenvolver um manual de remediação de incidentes. Esse runbook permite que ações apropriadas sejam tomadas para solucionar problemas e corrigir rapidamente os alarmes críticos antes que eles causem paralisações nos negócios. Para exemplos e exemplos de informações, consulte Questionários de integração da carga de trabalho e ingestão de alarmes em Detecção e resposta a AWS incidentes.

  3. Forneça acesso para integrar seus alarmes críticos à Detecção e Resposta a AWS Incidentes

    1. Implante a função AWSServiceRoleForHealth_EventProcessor vinculada ao serviço (SLR) na Conta da AWS execução da carga de trabalho crítica a ser monitorada pela equipe de gerenciamento de incidentes. AWS Para obter mais informações, consulte Provisionar acesso para ingestão de alertas à Detecção e Resposta a AWS Incidentes.

      nota

      Para ajudá-lo na integração de grandes empresas Contas da AWS, AWS podemos fornecer um AWS Command Line Interface script para acelerar o provisionamento dessa SLR.

    2. (Opcional) Se seus alarmes estiverem na Amazon CloudWatch, certifique-se de que o AWS Identity and Access Management usuário ou a função usada para o teste de alarme (antes da ativação) tenha a permissão do cloudwatch:SetAlarmState IAM Conta da AWS que está executando a carga de trabalho crítica. Isso é necessário para o teste de alarme (dia de jogo) após a integração. Para obter mais informações, consulte Testar cargas de trabalho integradas em Detecção e resposta a AWS incidentes.

  4. Crie um AWS Support caso para assinar uma carga de trabalho para gerenciamento rápido de incidentes. Observe que o seu Conta da AWS é habilitado automaticamente para o gerenciamento rápido de incidentes de entrada, o que significa que você pode encaminhar um caso para a fila de Detecção e Resposta a Incidentes do Unified Operations por meio do Support Center Console AWS Command Line Interface, do ou do AWS SDK para uma ação rápida. AWS Para monitorar e criar incidentes de forma proativa com um AWS Support caso externo, crie um AWS Support caso para sua carga de trabalho crítica. Para fazer isso, conclua as seguintes etapas:

    1. Faça login no AWS Support Center Console, selecione Criar caso e, em seguida, selecione Suporte técnico.

    2. Em Serviço, selecione Detecção e resposta a incidentes.

    3. Em Categoria, selecione Integrar nova carga de trabalho.

    4. Em Severidade, selecione Orientação geral.

    5. Anexou os questionários de carga de trabalho e alarme que você preencheu na etapa anterior.