# OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas
<a name="ops_event_response_event_incident_problem_process"></a>

La capacidad de administrar eficazmente los eventos, los incidentes y los problemas es clave para mantener el estado y el rendimiento de las cargas de trabajo. Es crucial reconocer y comprender las diferencias entre estos elementos para desarrollar una estrategia eficaz de respuesta y resolución. Establecer y seguir un proceso bien definido para cada aspecto ayuda a su equipo a administrar de forma rápida y eficaz cualquier desafío operativo que surja.

 **Resultado deseado:** Su organización administra eficazmente los eventos, incidentes y problemas operativos a través de procesos bien documentados y almacenados de forma centralizada. Estos procesos se actualizan constantemente para reflejar los cambios, agilizar la gestión y mantener una alta fiabilidad del servicio y el rendimiento de las cargas de trabajo. 

 **Patrones comunes de uso no recomendados:** 
+  Responde a los eventos reactivamente, en lugar de hacerlo proactivamente. 
+  Se adoptan enfoques incoherentes para diferentes tipos de eventos o incidentes. 
+ Su organización no analiza los incidentes ni aprende de ellos para evitar que ocurran en el futuro.

 **Beneficios de establecer esta práctica recomendada:** 
+  Procesos de respuesta simplificados y estandarizados. 
+  Reducción del impacto de los incidentes en los servicios y los clientes. 
+  Resolución rápida de problemas. 
+  Mejora continua de los procesos operativos. 

 **Nivel de riesgo expuesto si no se establece esta práctica recomendada:** Alto 

## Guía para la implementación
<a name="implementation-guidance"></a>

 La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan. 

 **Comprensión de los eventos, los incidentes y los problemas** 
+  **Eventos:** Un *evento* consiste en observar una acción, un suceso o un cambio de estado. Los eventos pueden planificarse o no y pueden originarse de forma interna o externa en la carga de trabajo. 
+  **Incidentes:** *Los incidentes* son eventos que requieren una respuesta, como interrupciones no planificadas o mermas en la calidad del servicio. Representan interrupciones que requieren atención inmediata para restablecer el funcionamiento normal de las cargas de trabajo. 
+  **Problemas:** *Los problemas* son las causas subyacentes de uno o más incidentes. Identificar y resolver los problemas implica profundizar en los incidentes para evitar que ocurran en el futuro. 

### Pasos para la implementación
<a name="implementation-steps"></a>

 **Eventos** 

1.  **Monitorice los eventos:** 
   +  [Implementación de la observabilidad](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/implement-observability.html) y [uso de la observabilidad de las cargas de trabajo](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/utilizing-workload-observability.html). 
   +  Las acciones de supervisión realizadas por un usuario, un rol o un servicio de AWS se registran como eventos en [AWS CloudTrail](https://aws.amazon.com/cloudtrail/). 
   +  Responda a los cambios operativos en sus aplicaciones en tiempo real con [Amazon EventBridge](https://aws.amazon.com/eventbridge/). 
   +  Evalúe, supervise y registre de forma continua los cambios en la configuración de los recursos con [AWS Config](https://aws.amazon.com/config/). 

1.  **Cree procesos:** 
   +  Desarrolle un proceso para evaluar qué eventos son importantes y requieren supervisión. Esto implica establecer umbrales y parámetros para las actividades normales y anómalas. 
   +  Determine los criterios por los que un evento pasa a ser un incidente. Por ejemplo, puede basarse en la gravedad, el impacto en los usuarios o la desviación del comportamiento esperado. 
   +  Revise periódicamente los procesos de supervisión y respuesta a los eventos. Por ejemplo, analice los incidentes pasados o ajuste los umbrales y los mecanismos de alerta. 

 **Incidentes** 

1.  **Responda a los incidentes:** 
   +  Utilice la información de las herramientas de observabilidad para identificar y responder rápidamente a los incidentes. 
   +  Implemente [el Centro de operaciones de AWS Systems Manager](https://aws.amazon.com/systems-manager/features/#OpsCenter) para agregar, organizar y priorizar los elementos e incidentes operativos. 
   +  Utilice servicios como [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) y [AWS X-Ray](https://aws.amazon.com/xray/) para realizar análisis detallados y resolver problemas. 
   +  Considere la posibilidad de usar [AWS Managed Services (AMS)](https://aws.amazon.com/managed-services/) para mejorar la administración de incidentes, y aprovechar así sus capacidades proactivas, preventivas y de detección. AMS ofrece asistencia operativa con servicios de supervisión, detección y respuesta a incidentes y administración de la seguridad, entre otros. 
   +  Los clientes de Enterprise Support pueden usar [Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/), que ofrece supervisión proactiva continua y administración de incidentes para cargas de trabajo de producción. 

1.  **Cree un proceso de administración de incidentes:** 
   +  Establezca un proceso estructurado de administración de incidentes, que incluya protocolos de comunicación, pasos para resolver problemas y roles claramente establecidos. 
   +  Integre la administración de incidentes con herramientas como [Amazon Q Developer in chat applications](https://aws.amazon.com/chatbot/) para ofrecer una respuesta y coordinación eficientes. 
   +  Clasifique los incidentes por gravedad, con [planes de respuesta a incidentes predefinidos](https://docs.aws.amazon.com/incident-manager/latest/userguide/response-plans.html) para cada categoría. 

1.  **Aprenda y mejore:** 
   +  Analice [los incidentes una vez que han ocurrido](https://docs.aws.amazon.com/wellarchitected/latest/operational-excellence-pillar/ops_evolve_ops_perform_rca_process.html) para entender las causas raíz y la eficacia de la resolución. 
   +  Actualice y mejore continuamente los planes de respuesta basándose en las revisiones y en la evolución de los procedimientos. 
   +  Documente y comparta las lecciones aprendidas entre los equipos para mejorar la resiliencia operativa. 
   +  Los clientes de Enterprise Support pueden solicitar el [Taller de gestión de incidentes](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) a su gerente técnico de cuentas. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora. 

 **Los problemas** 

1.  **Identifique los problemas:** 
   +  Utilice los datos de incidentes anteriores para identificar patrones recurrentes que pueden indicar problemas sistémicos más profundos. 
   +  Utilice herramientas como [AWS CloudTrail](https://aws.amazon.com/cloudtrail/) y [Amazon CloudWatch](https://aws.amazon.com/cloudwatch/) para analizar las tendencias y descubrir problemas subyacentes. 
   +  Involucre a equipos multifuncionales, incluidas las unidades de operaciones, desarrollo y negocios, para obtener diversas perspectivas sobre las causas raíz. 

1.  **Cree un proceso de administración de problemas:** 
   +  Desarrolle un proceso estructurado para la administración de problemas, y céntrese en soluciones a largo plazo en lugar de en soluciones rápidas. 
   +  Incorpore técnicas de análisis de causa raíz (RCA) para investigar y comprender las causas subyacentes de los incidentes. 
   +  Actualice las políticas, los procedimientos y la infraestructura operativos en función de los resultados para evitar que se repitan. 

1.  **Continúe mejorando:** 
   +  Fomente una cultura de aprendizaje y mejora constantes, y anime a los equipos a identificar y abordar de manera proactiva los posibles problemas. 
   +  Revise periódicamente los procesos y herramientas de administración de problemas para adaptarlos a la evolución de la empresa y la tecnología. 
   +  Comparta información y prácticas recomendadas con el resto de la organización para crear un entorno operativo más resiliente y eficiente. 

1.  **Utilice AWS Support:** 
   +  Utilice recursos de asistencia de AWS, como [AWS Trusted Advisor](https://aws.amazon.com/premiumsupport/technology/trusted-advisor/), para obtener orientación proactiva y recomendaciones de optimización. 
   +  Los clientes de Enterprise Support pueden acceder a programas especializados como [AWS Countdown](https://aws.amazon.com/premiumsupport/aws-countdown/) para obtener asistencia durante eventos críticos. 
   +  

 **Nivel de esfuerzo para el plan de implementación:** Medio 

## Recursos
<a name="resources"></a>

 **Prácticas recomendadas relacionadas:** 
+  [OPS04-BP01 Identificar los indicadores clave de rendimiento](ops_observability_identify_kpis.md) 
+  [OPS04-BP02 Implementar telemetría de aplicaciones](ops_observability_application_telemetry.md) 
+  [OPS07-BP03 Uso de runbooks para realizar los procedimientos](ops_ready_to_support_use_runbooks.md)
+  [OPS07-BP04 Usar guías de estrategias para investigar problemas](ops_ready_to_support_use_playbooks.md) 
+  [OPS08-BP01 Analizar las métricas de la carga de trabajo](ops_workload_observability_analyze_workload_metrics.md) 
+  [OPS11-BP02 Realizar un análisis después del incidente](ops_evolve_ops_perform_rca_process.md) 

 **Documentos relacionados:** 
+  [AWS Security Incident Response Guide (Guía de respuesta ante incidentes de seguridad de AWS)](https://docs.aws.amazon.com/whitepapers/latest/aws-security-incident-response-guide/welcome.html) 
+ [ Detección y respuesta a incidentes de AWS](https://aws.amazon.com/premiumsupport/aws-incident-detection-response/)
+ [AWS Cloud Adoption Framework: Operations Perspective - Incident and problem management ](https://docs.aws.amazon.com/whitepapers/latest/aws-caf-operations-perspective/incident-and-problem-management.html)
+  [Incident Management in the Age of DevOps and SRE (Administración de incidentes en la era de DevOps y SRE)](https://www.infoq.com/presentations/incident-management-devops-sre/) 
+  [PagerDuty - What is Incident Management? (PagerDuty: ¿Qué es la gestión de incidentes?)](https://www.pagerduty.com/resources/learn/what-is-incident-management/) 

 **Vídeos relacionados:** 
+ [ Top incident response tips from AWS](https://www.youtube.com/watch?v=Cu20aOvnHwA)
+ [AWS re:Invent 2022 - The Amazon Builders' Library: 25 yrs of Amazon operational excellence ](https://www.youtube.com/watch?v=DSRhgBd_gtw)
+ [AWS re:Invent 2022 - AWS Incident Detection and Response (SUP201) ](https://www.youtube.com/watch?v=IbSgM4IP9IE)
+ [ Introducing Incident Manager from AWS Systems Manager](https://www.youtube.com/watch?v=I6lScgh4qds)

 **Ejemplos relacionados:** 
+  [AWS Proactive Services – Incident Management Workshop](https://aws.amazon.com/premiumsupport/technology-and-programs/proactive-services/#Operational_Workshops_and_Deep_Dives) 
+ [ How to Automate Incident Response with PagerDuty and Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/how-to-automate-incident-response-with-pagerduty-and-aws-systems-manager-incident-manager/)
+ [ Engage Incident Responders with the On-Call Schedules in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/engage-incident-responders-with-the-on-call-schedules-in-aws-systems-manager-incident-manager/)
+ [ Improve the Visibility and Collaboration during Incident Handling in Administrador de incidentes de AWS Systems Manager](https://aws.amazon.com/blogs/mt/improve-the-visibility-and-collaboration-during-incident-handling-in-aws-systems-manager-incident-manager/)
+ [ Informes de incidentes y solicitudes de servicio en AMS ](https://docs.aws.amazon.com/managedservices/latest/userguide/support-experience.html)

 **Servicios relacionados:** 
+  [Amazon EventBridge](https://docs.aws.amazon.com/eventbridge/latest/userguide/eb-what-is.html)