As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Introdução às operações unificadas: integre alarmes essenciais para um gerenciamento rápido de incidentes
Para ajudar a notificá-lo rapidamente sobre incidentes críticos, conclua as etapas a seguir para integrar seus alarmes à Detecção e Resposta a AWS Incidentes
Defina e configure seus alarmes críticos para um gerenciamento rápido de incidentes. Para obter informações detalhadas, consulte Definir e configurar alarmes em Detecção e resposta a incidentes no Guia do usuário de detecção e resposta a incidentes.
-
Para ver as etapas para configurar alarmes usando a Amazon CloudWatch, consulte Definir e configurar alarmes em Detecção e resposta a incidentes no Guia do usuário de detecção e resposta a incidentes. Para AWS recomendações sobre tipos de alarmes críticos para vários tipos Serviços da AWS, consulte Detecção e resposta a incidentes (IDR).
Entre em contato com sua equipe de operações AWS unificadas se AWS quiser automatizar a criação de AWS alarmes críticos para seus recursos marcados AWS . -
Para redirecionar ou ingerir alarmes críticos de ferramentas de APM de terceiros com EventBridge integração direta com a Amazon
, como, etc. DataDog NewRelic, consulte Ingerir alarmes que APMs tenham integração direta com a Amazon EventBridge no Guia do usuário de detecção e resposta a AWS incidentes. Você deve implantar um conjunto de AWS recursos (AWS Lambda e regras de barramento de EventBridge eventos da Amazon) para transformar e redirecionar seu alarme (evento) para Detecção e resposta a AWS incidentes. Sua equipe de operações AWS unificadas pode ajudar a fornecer o CloudFormation modelo para instalar esses recursos. -
Redirecione ou consuma alarmes críticos de sua ferramenta de monitoramento personalizada por meio de uma ferramenta de APM terceirizada que não tenha integração direta com a Amazon EventBridge, como DataDog NewRelic, e assim por diante. Para obter mais informações, consulte Alarmes de ingestão APMs que tenham integração direta com a Amazon EventBridge no Guia do usuário de detecção e resposta a AWS incidentes. Você deve implantar um conjunto de AWS recursos ( AWS Lambda funções do API Gateway e regras de barramento de EventBridge eventos da Amazon) para transformar e redirecionar seu alarme (evento) para Detecção e resposta a AWS incidentes. Sua equipe de operações AWS unificadas pode ajudar a fornecer o CloudFormation modelo para instalar esses recursos.
-
-
Forneça detalhes da arquitetura da carga de trabalho, informações do ponto de contato e informações do caderno de execução sobre ações de mitigação para alarmes críticos. Para fazer isso, conclua as seguintes etapas:
Baixe e preencha o questionário de integração da carga de trabalho de detecção e resposta a AWS incidentes para cada carga de trabalho ou aplicativo crítico e o questionário de ingestão de alarmes relacionado a cada carga de trabalho exclusiva.
As informações nesses questionários ajudam a AWS equipe a desenvolver um manual de remediação de incidentes. Esse runbook permite que ações apropriadas sejam tomadas para solucionar problemas e corrigir rapidamente os alarmes críticos antes que eles causem paralisações nos negócios. Para exemplos e exemplos de informações, consulte Questionários de integração da carga de trabalho e ingestão de alarmes em Detecção e resposta a AWS incidentes.
Forneça acesso para integrar seus alarmes críticos à Detecção e Resposta a AWS Incidentes
Implante a função
AWSServiceRoleForHealth_EventProcessorvinculada ao serviço (SLR) na Conta da AWS execução da carga de trabalho crítica a ser monitorada pela equipe de gerenciamento de incidentes. AWS Para obter mais informações, consulte Provisionar acesso para ingestão de alertas à Detecção e Resposta a AWS Incidentes.nota
Para ajudá-lo na integração de grandes empresas Contas da AWS, AWS podemos fornecer um AWS Command Line Interface script para acelerar o provisionamento dessa SLR.
(Opcional) Se seus alarmes estiverem na Amazon CloudWatch, certifique-se de que o AWS Identity and Access Management usuário ou a função usada para o teste de alarme (antes da ativação) tenha a permissão do
cloudwatch:SetAlarmStateIAM Conta da AWS que está executando a carga de trabalho crítica. Isso é necessário para o teste de alarme (dia de jogo) após a integração. Para obter mais informações, consulte Testar cargas de trabalho integradas em Detecção e resposta a AWS incidentes.
Crie um AWS Support caso para assinar uma carga de trabalho para gerenciamento rápido de incidentes. Observe que o seu Conta da AWS é habilitado automaticamente para o gerenciamento rápido de incidentes de entrada, o que significa que você pode encaminhar um caso para a fila de Detecção e Resposta a Incidentes do Unified Operations por meio do Support Center Console AWS Command Line Interface, do ou do AWS SDK para uma ação rápida. AWS Para monitorar e criar incidentes de forma proativa com um AWS Support caso externo, crie um AWS Support caso para sua carga de trabalho crítica. Para fazer isso, conclua as seguintes etapas:
Faça login no AWS Support Center Console
, selecione Criar caso e, em seguida, selecione Suporte técnico. Em Serviço, selecione Detecção e resposta a incidentes.
Em Categoria, selecione Integrar nova carga de trabalho.
Em Severidade, selecione Orientação geral.
Anexou os questionários de carga de trabalho e alarme que você preencheu na etapa anterior.