As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá. # Gerencie cargas de trabalho em Detecção e Resposta a Incidentes Uma parte fundamental do gerenciamento eficaz de incidentes é ter os processos e procedimentos corretos para integrar, testar e manter suas cargas de trabalho monitoradas. Esta seção aborda as etapas essenciais, incluindo o desenvolvimento de runbooks e planos de resposta abrangentes para orientar suas equipes em incidentes, testar e validar minuciosamente novas cargas de trabalho antes da integração, solicitar alterações para atualizar o monitoramento da carga de trabalho e desligar adequadamente as cargas de trabalho quando necessário. **Topics** + [Desenvolva runbooks e planos de resposta](idr-workloads-dev-runbook.md) + [Teste cargas de trabalho integradas](idr-workloads-testing.md) + [Solicitar alterações em uma carga de trabalho](idr-workloads-change-request.md) + [Suprimir alarmes](idr-workloads-suppress-alarms.md) + [Desembarcar de uma carga de trabalho](idr-workloads-offboard.md) # Desenvolva runbooks e planos de resposta para responder a um incidente em Detecção e Resposta a Incidentes A Detecção e Resposta a Incidentes usa informações capturadas de seu questionário de integração para desenvolver runbooks e planos de resposta para o gerenciamento de incidentes que afetam suas cargas de trabalho. Os runbooks documentam as etapas que os gerentes de incidentes realizam ao responder a um incidente. Um plano de resposta é mapeado para pelo menos uma de suas cargas de trabalho. A equipe de gerenciamento de incidentes cria esses modelos a partir das informações fornecidas por você durante a [descoberta da carga de trabalho](idr-gs-discovery.md). Os planos de resposta são modelos de documentos AWS Systems Manager (SSM) usados para acionar incidentes. Para saber mais sobre documentos SSM, consulte [AWS Systems Manager Documentos](https://docs.aws.amazon.com/systems-manager/latest/userguide/sysman-ssm-docs.html). Para saber mais sobre o Incident Manager, consulte [O que é AWS Systems Manager Incident Manager?](https://docs.aws.amazon.com/incident-manager/latest/userguide/index.html) **Principais saídas:** + Conclusão da definição de sua carga de trabalho no AWS Incident Detection and Response. + Conclusão de alarmes, runbooks e definição do plano de resposta no AWS Incident Detection and Response. Você também pode baixar um exemplo do AWS Incident Detection and Response Runbook: [aws-idr-runbook-example.zip.](samples/aws-idr-runbook-example.zip) Exemplo de runbook: ``` Runbook template for AWS Incident Detection and Response # Description This document is intended for [CustomerName] [WorkloadName]. [Insert short description of what the workload is intended for]. ## Step: Priority **Priority actions** 1. When a case is created with Incident Detection and Response, lock the case to yourself, verify the Customer Stakeholders in the Case from *Engagement Plans - Initial Engagement*. 2. Send the first correspondence on the support case to the customer as below. If there is no support case or if it is not possible to use the support case then backup communication details are listed in the steps that follow. ``` Hello, This is <> from AWS Incident Detection and Response. An alarm has triggered for your workload <>. I am currently investigating and will update you in a few minutes after I have finished initial investigation. Alarm Identifier - ``` **Compliance and regulatory requirements for the workload** <> **Actions required from Incident Detection and Response in complying** <> ## Step: Information **Review of common information** * This section provides a space for defining common information which may be needed through the life of the incident. * The target user of this information is the Incident Management Engineer and Operations Engineer. * The following steps may reference this information to complete an action (for example, execute the "Initial Engagement" plan). --- **Engagement plans** Describe the engagement plans applicable to this runbook. This section contains only contact details. Engagement plans will be referenced in the step by step **Communication Plans**. * **Initial engagement** AWS Incident Detection and Response Team will add customer stakeholder addresses below to the Support Case. AWS Stakeholders are for additional stakeholders that may need to be made aware of any issues. When updating customer stakeholders details in this plan also update the Backup Mailto links. * ***Customer Stakeholders***: customeremail1; customeremail2; etc * ***AWS Stakeholders***: aws-idr-oncall@amazon.com; tam-team-email; etc. * ***One Time Only Contacts***: [These are email contacts that are included on only the first communication. Remove these contacts after the first communication has gone out. These could be customer paging email addresses such as pager-duty that must not be paged for every correspondence] * ***Backup Mailto Impact Template***: <*Insert Impact Template Mailto Link here*> * Use the backup Mailto when communication over cases is not possible. * ***Backup Mailto No Impact Template***: <*Insert No Impact Mailto Link here*> * Use the backup Mailto when communication over cases is not possible. * **Engagement Escalation** AWS Incident Detection and Response will reach out to the following contacts when the contacts from the **Initial engagement** plan do not respond to incidents. For each Escalation Contact indicate if they must be added to the support case, phoned or both. * ***First Escalation Contact***: [escalationEmailAddress#1] / [PhoneNumber] - Wait XX Minutes before escalating to this contact. * [add Contact to Case / phone] this contact. * ***Second Escalation Contact***: [escalationEmailAddress#2] / [PhoneNumber] - Wait XX Minutes before escalating to this contact. * [add Contact to Case / phone] this contact. * Etc; --- **Communication plans** Describe how Incident Management Engineer communicates with designated stakeholders outside the incident call and communication channels. * **Impact Communication plan** This plan is initiated when Incident Detection and Response have determined from step **Triage** that an alert indicates potential impact to a customer. Incident Detection and Response will request the customer to join the predetermined bridge (Chime Bridge/Customer Provided Bridge / Customer Static Bridge) as indicated in **Engagement plans - Incident call setup**. All backup email templates for use when cases can't be used are in **Engagement plans - Initial engagement**. * 1 – Before sending the impact notification, verify then remove and/or add customer contacts from the Support Case CC based on the contacts listed in the **Initial engagement** Engagement plan. * 2 – Send the engagement notification to the customer based the following Template: (choose one and remove the rest) ***Impact Template - Chime Bridge*** ``` The following alarm has engaged AWS Incident Detection and Response to an Incident bridge: Alarm Identifier - Alarm State Change Reason - Alarm Start Time - Please join the Chime Bridge below so we can start the steps outlined in your Runbook: International dial-in numbers: https://chime.aws/dialinnumbers/ ``` ***Impact Template - Customer Provided Bridge*** ``` The following alarm has engaged AWS Incident Detection and Response: Alarm Identifier - Alarm State Change Reason - Alarm Start Time - Please respond with your internal bridge details so we can join and start the steps outlined in your Runbook. ``` ***Impact Template - Customer Static Bridge*** ``` The following alarm has engaged AWS Incident Detection and Response to an Incident bridge: Alarm Identifier - Alarm State Change Reason - Alarm Start Time - Please join the Bridge below so we can start the steps outlined in your Runbook: Conference Number: Conference URL : ``` * 3 - Set the Case to Pending Customer Action * 4 - Follow **Engagement Escalation** plan as mentioned above. * 5 - If the customer does not respond within 30 minutes, disengage and continue to monitor until the alarm recovers. * **No Impact Communication plan** This plan is initiated when an alarm recovers before Incident Detection and Response have completed initial **Triage**. * 1 - Before sending the no impact notification, verify then remove and/or add customer contacts from the Support Case CC based on the contacts listed in the **Engagement plans - Initial engagement** Engagement plan. * 2 - Send a no engagement notification to the customer based on the below template: ***No Impact Template*** ``` AWS Incident Detection and Response received an alarm that has recovered for your workload. Alarm Identifier - Alarm State Change Reason - Alarm Start Time - Alarm End Time - This may indicate a brief customer impact that is currently not ongoing. If there is an ongoing impact to your workload, please let us know and we will engage to assist. ``` * 3 - Put the case in to Pending Customer Action. * 4 - If the customer does not respond within 30 minutes Resolve the case. * **Updates** If AWS Incident Detection and Response is expected to provide regular updates to customer stakeholders, list those stakeholders here. Updates must be sent via the same support case. Remove this section if not needed. * Update Cadence: Every XX minutes * External Update Stakeholders: customeremailaddress1; customeremailaddress2; etc * Internal Update Stakeholders: awsemailaddress1; awsemailaddress2; etc --- **Application architecture overview** This section provides an overview of the application/workload architecture for Incident Management Engineer and Operations Engineer awareness. * **AWS Accounts and Regions with key services** - list of AWS accounts with regions supporting this application. Assists Engineers in assessing underlying infrastructure supporting the application. * 123456789012 * US-EAST-1 - brief desc as appropriate * EC2 - brief desc as appropriate * DynamoDB - brief desc as appropriate * etc. * US-WEST-1 - brief desc as appropriate * etc. * another-account-etc. * **Resource identification** - describe how engineers determine resource association with application * Resource groups: etc. * Tag key/value: AppId=123456 * **CloudWatch Dashboards** - list dashboards relevant to key metrics and services * 123456789012 * us-east-1 * some-dashboard-name * etc. * some-other-dashboard-name-in-current-acct ## Step: Triage **Evaluate incident and impact** This section provides instructions for triaging of the incident to determine correct impact, description, and overall correct runbook being executed. * **Evaluation of initial incident information** * 1 - Review Incident Alarm, noting time of first detected impact as well as the alarm start time. * 2 - Identify which service(s) in the customer application is seeing impact. * 3 - Review AWS Service Health for services listed under **AWS Accounts and Regions with key services**. * 4 - Review any customer provided dashboards listed under **CloudWatch Dashboards** --- * **Impact** Impact is determined when either the customer's metrics do not recover, appear to be trending worse or if there is indication of AWS Service Impact. * 1 – Start **Communication plans - Impact Communication plan** * 2 - Start **Engagement plans - Engagement Escalation** if no response is received from the **Initial Engagement** contacts. * 3 - Start **Communication plans - Updates** if specified in **Communication plans** * **No Impact** No Impact is determined when the customer's alarm recovers before Triage is complete and there are no indications of AWS service impact or sustained impact on the customer's CloudWatch Dashboards. * 1 - Start **Communication plans - No Impact Communication plan** ## Step: Investigate **Investigation** This section describes performing investigation of known and unknown symptoms. **Known issue** * *List all known issues with the application and their standard actions here* **Unknown issues** * Investigate with the customer and AWS Premium Support. * Escalate internally as required. ## Step: Mitigation **Collaborate** * Communicate any changes or important information from the **Investigate** step to the members of the incident call. **Implement mitigation** * ***List customer failover plans / Disaster Recovery plans / etc here for implementing mitigation. ## Step: Recovery **Monitor customer impact** * Review metrics to confirm recovery. * Ensure recovery is across all Availability Zones / Regions / Services * Get confirmation from the customer that impact is over and the application has recovered. **Identify action items** * Record key decisions and actions taken, including temporary mitigation that might have been implemented. * Ensure outstanding action items have assigned owners. * Close out any Communication plans that were opened during the incident with a final confirmation of recovery notification. ``` # Teste cargas de trabalho integradas em Detecção e Resposta a Incidentes **nota** O AWS Identity and Access Management usuário ou a função que você usa para o teste de alarme deve ter `cloudwatch:SetAlarmState` permissão. A última etapa do processo de integração é realizar um dia de jogo para sua nova carga de trabalho. Após a conclusão da ingestão do alarme, o AWS Incident Detection and Response confirma a data e a hora de sua escolha para começar seu dia de jogo. Seu dia de jogo tem dois propósitos principais: + **Validação funcional:** confirma que o AWS Incident Detection and Response pode receber corretamente seus eventos de alarme. Além disso, a validação funcional confirma que seus eventos de alarme acionam os runbooks apropriados e quaisquer outras ações desejadas, como a criação automática de casos, caso você os tenha selecionado durante a ingestão do alarme. + **Simulação:** O dia de jogo é uma simulação completa do que pode acontecer durante um incidente real. O AWS Incident Detection and Response segue as etapas prescritas pelo runbook para fornecer uma visão de como um incidente real pode se desenrolar. O dia do jogo é uma oportunidade para você fazer perguntas ou refinar instruções para melhorar o engajamento. Durante o teste de alarme, o AWS Incident Detection and Response trabalha com você para corrigir quaisquer problemas identificados. ## CloudWatch alarmes O AWS Incident Detection and Response testa seus CloudWatch alarmes da Amazon monitorando a mudança de estado do seu alarme. Para fazer isso, altere manualmente o alarme para o estado de **alarme** usando AWS Command Line Interface o. Você também pode acessar o AWS CLI formulário AWS CloudShell. O AWS Incident Detection and Response fornece uma lista de AWS CLI comandos para você usar durante os testes. Para evitar ações indesejadas, por exemplo, reinicializações de instâncias do Amazon EC2, desative todas as ações de CloudWatch alarme antes de alterar o estado do alarme. Você pode reativar as ações CloudWatch de alarme após a conclusão do teste. Para saber mais sobre como desativar ou ativar ações de alarme, consulte [DisableAlarmActions](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_DisableAlarmActions.html)e [EnableAlarmActions](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_EnableAlarmActions.html)na *Amazon CloudWatch API Reference*. Exemplo de AWS CLI comando para definir um estado de alarme: ``` aws cloudwatch set-alarm-state --alarm-name "ExampleAlarm" --state-value ALARM --state-reason "Testing AWS Incident Detection and Response" --region us-east-1 ``` Para saber mais sobre como alterar manualmente o estado dos CloudWatch alarmes, consulte [SetAlarmState](https://docs.aws.amazon.com/AmazonCloudWatch/latest/APIReference/API_SetAlarmState.html). Para saber mais sobre as permissões necessárias para operações de CloudWatch API, consulte a [referência de CloudWatch permissões da Amazon](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/permissions-reference-cw.html). ## Alarmes de APM de terceiros As cargas de trabalho que utilizam uma ferramenta de monitoramento de desempenho de aplicativos (APM) de terceiros, como Datadog, Splunk, New Relic ou Dynatrace, exigem instruções diferentes para simular um alarme. No início do jogo, o AWS Incident Detection and Response solicita que você altere temporariamente seus limites de alarme ou operadores de comparação para forçar o alarme a entrar no status **ALARM**. Esse status aciona uma carga para o AWS Incident Detection and Response. ## Principais saídas Principais saídas: + A ingestão de alarmes foi bem-sucedida e sua configuração de alarme está correta. + Os alarmes são criados e recebidos com sucesso pelo AWS Incident Detection and Response. + Um caso de suporte é criado para sua contratação e seus contatos prescritos são notificados. + O AWS Incident Detection and Response pode interagir com você de acordo com os meios de conferência prescritos. + Todos os alarmes e casos de suporte gerados como parte do dia de jogo foram resolvidos. + Um e-mail do Go-Live é enviado confirmando que sua carga de trabalho agora está sendo monitorada pelo AWS Incident Detection and Response. # Solicite alterações em uma carga de trabalho integrada na Detecção e Resposta a Incidentes Para solicitar alterações em uma carga de trabalho integrada, conclua as etapas a seguir para criar um caso de suporte com o AWS Incident Detection and Response. 1. Vá até o [AWS Support Centro](https://console.aws.amazon.com/support/home#/) e selecione **Criar caso**, conforme mostrado no exemplo a seguir: ![\[AWS Exemplo do Support Center.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/workload-change-request1.png) 1. Escolha **Técnico**. 1. Em **Serviço**, escolha **Detecção e resposta a incidentes**. 1. Em **Categoria**, escolha **Solicitação de alteração de carga de** trabalho. 1. Em **Severidade**, escolha **Orientação geral**. 1. Insira um **assunto** para essa alteração. Por exemplo: Detecção e resposta a incidentes da AWS — *workload\$1name* 1. Insira uma **Descrição** para essa alteração. Por exemplo, insira “Esta solicitação é para alterações em uma carga de trabalho existente integrada ao AWS Incident Detection and Response”. Certifique-se de incluir as seguintes informações em sua solicitação: + Nome **da carga de trabalho: o nome** da sua carga de trabalho. + **ID (s) da conta:** ID1, ID2, ID3, e assim por diante. + **Detalhes da alteração:** insira os detalhes da alteração solicitada. 1. Na seção **Contatos adicionais - opcional**, insira qualquer e-mail IDs que você deseja receber sobre essa alteração. Veja a seguir um exemplo da seção **Contatos adicionais - opcional**. ![\[Insira os contatos na seção Contatos adicionais - opcional em destaque.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/workload-change-request2.png) **Importante** A falha ao adicionar e-mail IDs na seção **Contatos adicionais - opcional** pode atrasar o processo de alteração. 1. Selecione **Enviar**. Depois de enviar a solicitação de alteração, você pode adicionar outros e-mails da sua organização. Para adicionar e-mails, escolha **Responder** nos **detalhes do caso**, conforme mostrado no exemplo a seguir: ![\[A página de detalhes mostrando o botão Responder destacado.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/workload-change-request3.png) Em seguida, adicione o e-mail IDs na seção **Contatos adicionais - opcional**. Veja a seguir um exemplo da página de **resposta** mostrando onde você pode inserir e-mails adicionais. ![\[A página de resposta, na qual você pode adicionar outros e-mails.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/workload-change-request4.png) # Impeça que os alarmes ativem a Detecção e a Resposta a Incidentes Especifique quais dos seus alarmes de carga de trabalho integrados interagem com o monitoramento de detecção e resposta de incidentes da AWS, suprimindo-os temporariamente ou de forma programada. Por exemplo, você pode suprimir temporariamente os alarmes de carga de trabalho durante a manutenção planejada para evitar que os alarmes ativem a Detecção e a Resposta a Incidentes. Ou você pode suprimir os alarmes de forma programada se tiver uma atividade diária de reinicialização. Você pode suprimir os alarmes na fonte do alarme, como a Amazon CloudWatch, ou enviar uma solicitação de alteração da carga de trabalho. **Topics** + [Suprimir alarmes na fonte de alarme](suppress-alarms-at-source.md) + [Envie uma solicitação de alteração da carga de trabalho para suprimir os alarmes](suppress-alarms-at-source-wcr.md) + [Tutorial: Use uma função matemática métrica para suprimir um alarme](suppress-alarms-tutorial-suppress.md) + [Tutorial: Remova uma função matemática métrica para cancelar a supressão de um alarme](suppress-alarms-tutorial-unsuppress.md) # Suprimir alarmes na fonte de alarme Especifique quais alarmes interagem com a Detecção e Resposta a Incidentes e quando isso acontece, suprimindo os alarmes na fonte do alarme. **Topics** + [Use uma função matemática métrica para suprimir um alarme CloudWatch](#suppress-alarms-at-source-cw) + [Remova uma função matemática métrica para cancelar a supressão de um alarme CloudWatch](#suppress-alarms-metric-math-unsuppress) + [Exemplos de funções matemáticas métricas e casos de uso associados](#suppress-alarms-example-functions) + [Suprimir alarmes de um APM de terceiros](#suppress-alarms-third-party-apm) ## Use uma função matemática métrica para suprimir um alarme CloudWatch Para suprimir o monitoramento de detecção e resposta a incidentes dos CloudWatch alarmes da Amazon, use uma [função matemática métrica](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html) para impedir que CloudWatch os alarmes entrem no `ALARM` estado durante uma janela designada. **nota** Desativar **as ações de alarme** em um CloudWatch alarme não suprime o monitoramento de seus alarmes pela detecção e resposta a incidentes. As mudanças no estado do alarme são ingeridas pela Amazon EventBridge, não por meio de ações CloudWatch de alarme. Para usar uma função matemática métrica para suprimir um CloudWatch alarme, conclua as seguintes etapas: 1. Faça login no Console de gerenciamento da AWS e abra o CloudWatch console em [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/). 1. Escolha **Alarmes** e, em seguida, localize o alarme ao qual você deseja adicionar a função matemática métrica. 1. Escolha **Ações** e, em seguida, selecione **Editar** para alterar o alarme. 1. Escolha **Editar métrica** para modificar a métrica do alarme. 1. Escolha **Adicionar matemática**, **Comece com uma expressão vazia**. 1. Insira sua expressão matemática e escolha **Aplicar**. 1. Desmarque a métrica existente que o alarme monitorou. 1. Selecione a expressão que você acabou de criar e escolha **Selecionar métrica**. 1. Escolha **Ir para visualizar e criar**. 1. Revise suas alterações para garantir que sua função matemática métrica seja aplicada conforme o esperado e, em seguida, escolha **Atualizar alarme**. Para obter um exemplo passo a passo da supressão de um CloudWatch alarme com uma função matemática métrica, consulte[Tutorial: Use uma função matemática métrica para suprimir um alarme](suppress-alarms-tutorial-suppress.md). Para obter mais informações sobre sintaxe e funções disponíveis, consulte [Sintaxe matemática métrica e funções no Guia CloudWatch ](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html#metric-math-syntax) *do usuário da Amazon*. ## Remova uma função matemática métrica para cancelar a supressão de um alarme CloudWatch Cancele a supressão de um CloudWatch alarme removendo a função matemática métrica. Para remover uma função matemática métrica de um alarme, conclua as seguintes etapas: 1. Faça login no Console de gerenciamento da AWS e abra o CloudWatch console em [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/). 1. Escolha **Alarmes** e, em seguida, localize o alarme ou alarmes dos quais você deseja remover a expressão matemática métrica. 1. Na seção matemática métrica, escolha **Editar**. 1. Para remover a métrica do alarme, escolha **Editar** na métrica e, em seguida, escolha o botão **x** ao lado da expressão matemática métrica. 1. Selecione a métrica original e escolha **Selecionar métrica**. 1. Escolha **Ir para visualizar e criar**. 1. Revise suas alterações para garantir que sua função matemática métrica seja aplicada conforme o esperado e escolha **Atualizar alarme**. ## Exemplos de funções matemáticas métricas e casos de uso associados A tabela a seguir contém exemplos de funções matemáticas métricas, além de casos de uso associados e uma explicação de cada componente métrico. | Função matemática métrica | Caso de uso | Explicação | | --- | --- | --- | | `IF((DAY(m1) == 2 && HOUR(m1) >= 1 && HOUR(m1) < 3), 0, m1)` | Suprima o alarme entre 1h e 3h UTC todas as terças-feiras substituindo pontos de dados reais por 0 durante essa janela. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/suppress-alarms-at-source.html) | | `IF((HOUR(m1) >= 23 \|\| HOUR(m1) < 4), 0, m1)` | Suprima o alarme entre 23h e 4h UTC, diariamente, substituindo pontos de dados reais por 0 durante essa janela. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/suppress-alarms-at-source.html) | | `IF((HOUR(m1) >= 11 && HOUR(m1) < 13), 0, m1) ` | Suprima o alarme entre 11h e 13h UTC diariamente substituindo pontos de dados reais por 0 durante essa janela. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/suppress-alarms-at-source.html) | | `IF((DAY(m1) == 2 && HOUR(m1) >= 1 && HOUR(m1) < 3), 99, m1)` | Suprima o alarme entre 1h e 3h UTC todas as terças-feiras substituindo pontos de dados reais por 99 durante essa janela. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/suppress-alarms-at-source.html) | | `IF((HOUR(m1) >= 23 \|\| HOUR(m1) < 4), 100, m1)` | Suprima o alarme entre 23h e 4h UTC, diariamente, substituindo pontos de dados reais por 100 durante essa janela. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/suppress-alarms-at-source.html) | | `IF((HOUR(m1) >= 11 && HOUR(m1) < 13), 99, m1) ` | Suprima o alarme entre 11h e 13h UTC diariamente, substituindo pontos de dados reais por 99 durante essa janela. | [\[See the AWS documentation website for more details\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/suppress-alarms-at-source.html) | ## Suprimir alarmes de um APM de terceiros Consulte a documentação do seu fornecedor terceirizado de APM para obter instruções sobre como suprimir alarmes. Exemplos de fornecedores terceirizados de APM são New Relic, Splunk, Dynatrace, Datadog e. SumoLogic # Envie uma solicitação de alteração da carga de trabalho para suprimir os alarmes Se você não conseguir suprimir os alarmes na fonte conforme descrito na seção anterior, envie uma Solicitação de Alteração da Carga de Trabalho para instruir a Detecção e Resposta a Incidentes a suprimir manualmente o monitoramento de alguns ou de todos os alarmes da sua carga de trabalho. Para obter instruções detalhadas sobre como criar uma solicitação de alteração de carga de trabalho, consulte [Solicitar alterações em uma carga de trabalho integrada em Detecção e resposta a incidentes](https://docs.aws.amazon.com/IDR/latest/userguide/idr-workloads-change-request.html). Ao gerar uma solicitação de alteração de carga de trabalho para solicitar a supressão de seus alarmes, certifique-se de fornecer as seguintes informações obrigatórias + Nome **da carga de trabalho: o nome** da sua carga de trabalho. + **ID (s) da conta:** ID1, ID2, ID3, e assim por diante. + **Detalhes da alteração:** Supressão de alarme + **Hora de início da supressão:** data, hora e fuso horário. + **Hora de término da supressão:** data, hora e fuso horário. + **Alarmes a serem suprimidos:** uma lista de identificadores de CloudWatch alarmes ARNs ou eventos de APM de terceiros a serem suprimidos. Depois de criar a solicitação de alteração da carga de trabalho de supressão de alarmes, você recebe as seguintes notificações da Detecção e Resposta a Incidentes: + Confirmação de sua solicitação de alteração de carga de trabalho. + Notificação quando os alarmes são suprimidos. + Notificação quando os alarmes são reativados para monitoramento. # Tutorial: Use uma função matemática métrica para suprimir um alarme O tutorial a seguir explica como suprimir um CloudWatch alarme usando matemática métrica. **Exemplo de cenário** Há uma atividade planejada que acontece entre 1h e 3h UTC na próxima terça-feira. Você deseja criar uma função matemática CloudWatch métrica que substitua os pontos de dados reais durante esse período por 0 (um ponto de dados que fica abaixo do limite definido). 1. Avalie os critérios que fazem com que o alarme seja acionado. A captura de tela a seguir fornece um exemplo de critérios de alarme: ![\[CloudWatch tela mostrando detalhes do alarme.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/metric-math-assess-alarm-criteria.png) O alarme mostrado na captura de tela anterior monitora a `UnHealthyHostCount` métrica de um grupo-alvo do Application Load Balancer. Esse alarme entra no `ALARM` estado em que a `UnHealthyHostCount` métrica é maior ou igual a 3 para 5 dos 5 pontos de dados. O alarme trata os dados perdidos como ruins (violando o limite configurado). 1. Crie a função matemática métrica. Neste exemplo, a atividade planejada ocorre entre 1h e 3h UTC na próxima terça-feira. Portanto, crie uma função matemática CloudWatch métrica que substitua os pontos de dados reais durante esse tempo por 0 (um ponto de dados que fica abaixo do limite definido). Observe que o ponto de dados de substituição que você deve configurar difere dependendo da configuração do alarme. Por exemplo, se você tiver um alarme que monitora a taxa de sucesso de HTTP, com um limite menor que 98, substitua seus pontos de dados reais durante a atividade planejada por um valor acima do limite configurado, 100. Veja a seguir um exemplo de função matemática métrica para esse cenário. ``` IF((DAY(m1) == 2 && HOUR(m1) >= 1 && HOUR(m1) < 3), 0, m1) ``` A função matemática métrica anterior contém os seguintes elementos: + **DIA (m1) == 2**: Garante que seja terça-feira (segunda-feira = 1, domingo = 7). + **HORA (m1) >= 1 && HORA (m1) < 3**: especifica o intervalo de tempo de 1h às 3h UTC. + **IF (condition, value\$1if\$1true, value\$1if\$1false)**: Se as condições forem verdadeiras, a função substituirá o valor da métrica por 0. Caso contrário, o valor original (m1) será retornado. Para obter informações adicionais sobre sintaxe e funções disponíveis, consulte Funções e [sintaxe matemática métricas no Guia](https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/using-metric-math.html#metric-math-syntax) do usuário da *Amazon CloudWatch * 1. Faça login no Console de gerenciamento da AWS e abra o CloudWatch console em [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/). 1. Escolha **Alarmes** e, em seguida, localize o alarme ao qual você deseja adicionar a função matemática métrica. 1. Na seção matemática métrica, escolha **Editar**. 1. Escolha **Adicionar matemática**, **Comece com uma expressão vazia**. 1. Insira sua expressão matemática e, em seguida, escolha **Aplicar**. A métrica existente que o alarme monitora automaticamente se torna **m1** e sua expressão matemática é **e1**, conforme mostrado no exemplo a seguir: ![\[CloudWatch tela mostrando expressões matemáticas métricas.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/metric-math-expression.png) 1. (Opcional) Edite o rótulo da expressão matemática métrica para ajudar outras pessoas a entender sua função e por que ela foi criada, conforme mostrado no exemplo a seguir: ![\[CloudWatch tela mostrando a edição de um rótulo de expressão de correspondência métrica.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/metric-math-edit-label.png) 1. **Desmarque **m1**, selecione **e1** e, em seguida, escolha Selecionar métrica.** Isso configura o alarme para monitorar diretamente a expressão matemática em vez da métrica subjacente. 1. Escolha **Ir para visualizar e criar**. 1. Confirme se o alarme está configurado conforme o esperado e escolha **Atualizar alarme para salvar a alteração**. No exemplo anterior, sem a função matemática métrica aplicada, a `UnHealthyHostCount` métrica real teria sido relatada durante a atividade planejada. Isso teria resultado na entrada do CloudWatch alarme no `ALARM` estado e na ativação da Detecção e Resposta a Incidentes, conforme mostrado no exemplo a seguir: ![\[CloudWatch tela mostrando pontos de dados que levam a um estado de alarme.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/metric-math-example-alarm-state.png) Com a função matemática métrica instalada, os pontos de dados reais são substituídos por 0 durante a atividade e o alarme permanece no `OK` estado, suprimindo o engajamento de detecção e resposta a incidentes. ![\[CloudWatch tela mostrando pontos de dados sem estado de alarme.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/metric-math-datapoints-no-alarm.png) # Tutorial: Remova uma função matemática métrica para cancelar a supressão de um alarme Se você suprimir um CloudWatch alarme para uma atividade única, remova a função matemática métrica do alarme após a conclusão da atividade para retomar o monitoramento regular do alarme. Para suprimir o alarme regularmente, por exemplo, se você tiver uma rotina de correção semanal programada que resulte em reinicializações de instâncias no mesmo dia e horário todas as semanas, deixe a função matemática métrica no lugar. O tutorial a seguir explica como remover uma função matemática métrica para cancelar a supressão de um alarme CloudWatch 1. Faça login no Console de gerenciamento da AWS e abra o CloudWatch console em [https://console.aws.amazon.com/cloudwatch/](https://console.aws.amazon.com/cloudwatch/). 1. Escolha **Alarmes** e, em seguida, localize o alarme ao qual você deseja adicionar a função matemática métrica. 1. Na seção matemática métrica, escolha **Editar**. 1. Para remover a supressão do alarme, selecione o botão **x** ao lado da expressão matemática métrica. ![\[CloudWatch tela mostrando o botão x para remover uma função matemática métrica.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/metric-math-unsuppress.png) 1. Selecione a métrica para retomar o monitoramento da métrica real. Em seguida, escolha **Selecionar** métrica. ![\[CloudWatch tela mostrando o botão Selecionar métrica.\]](http://docs.aws.amazon.com/pt_br/IDR/latest/userguide/images/metric-math-unsuppress-2.png) 1. Escolha **Ir para visualizar e criar**. 1. Confirme se o alarme está configurado conforme o esperado e escolha **Atualizar alarme para salvar a alteração**. # Remova uma carga de trabalho da Detecção e Resposta a Incidentes Para remover uma carga de trabalho do AWS Incident Detection and Response, crie um novo caso de suporte para cada carga de trabalho. Ao criar o caso de suporte, lembre-se do seguinte: + Para reduzir uma carga de trabalho que está em uma única AWS conta, crie o caso de suporte a partir da conta da carga de trabalho ou da sua conta pagadora. + **Para reduzir uma carga de trabalho que abrange várias AWS contas, crie o caso de suporte a partir da sua conta pagadora.** No corpo do estojo de suporte, liste todas as contas IDs como externas. **Importante** Se você criar um caso de suporte para remover uma carga de trabalho da conta incorreta, poderá enfrentar atrasos e solicitações de informações adicionais antes que suas cargas de trabalho possam ser transferidas. **Solicitação para desembarcar uma carga de trabalho** 1. Vá para o [AWS Support Centro](https://console.aws.amazon.com/support/home#/) e selecione **Criar caso**. 1. Escolha **Técnico**. 1. Em **Serviço**, escolha **Detecção e resposta a incidentes**. 1. Em **Categoria**, escolha **Desligamento da carga de trabalho**. 1. Em **Severidade**, escolha **Orientação geral**. 1. Insira um **assunto** para essa alteração. Por exemplo: [Offboard] Detecção e resposta a incidentes da AWS — *workload\$1name* 1. Insira uma **Descrição** para essa alteração. Por exemplo, insira “Esta solicitação é para desvincular uma carga de trabalho existente integrada ao AWS Incident Detection and Response”. Certifique-se de incluir as seguintes informações em sua solicitação: + Nome **da carga de trabalho: o nome** da sua carga de trabalho. + **ID (s) da conta:** ID1, ID2, ID3, e assim por diante. + **Motivo da desativação:** forneça um motivo para a redução da carga de trabalho. 1. Na seção **Contatos adicionais - opcional**, insira qualquer e-mail IDs que você queira receber sobre essa solicitação de desligamento. 1. Selecione **Enviar**.