Administración de incidentes

Temas

Los incidentes son problemas de Servicio de AWS rendimiento que afectan a su entorno gestionado, según lo determine AWS Managed Services (AMS) o usted. Los incidentes identificados por el equipo de AMS se reciben primero como «eventos»: un cambio en el estado del sistema que se captura mediante la supervisión. Si se supera un umbral configurado, el evento activa una alarma, también denominada alerta. El equipo de operaciones de AMS determina si el evento no tiene ningún impacto, si se trata de un incidente (una interrupción o degradación del servicio) o de un problema (la causa raíz subyacente de uno o más incidentes resueltos).

El equipo de AMS también recibe los incidentes identificados por usted a través del Soporte centro o mediante programación mediante la API de AWS Support con el código de servicio. sentinel-report-incident

Una vez que el equipo de operaciones de AMS recibe el incidente, lo revisa para garantizar que no se clasifique mejor como una solicitud de servicio. Si debe clasificarse como una solicitud de servicio, se reclasifica inmediatamente y el equipo de solicitudes de servicio de AMS asume el control y se le notifica. Si el operador receptor puede resolver el incidente, se toman medidas para resolverlo de inmediato. Los operadores de AMS consultan la documentación interna para encontrar una solución y, si es necesario, trasladan el incidente a otros recursos de apoyo hasta que se resuelva. Para mantenerse informado en cada paso del proceso de resolución de incidentes, asegúrese de rellenar la opción Correos electrónicos de CC y, si va a conectarse por federación, inicie sesión antes de seguir el enlace del correo electrónico que envía AMS. Una vez resuelto, el equipo de operaciones de AMS documenta el incidente y la resolución para su uso futuro.

Si la resolución de un incidente requiere cambios en la infraestructura, es posible que sea necesario realizar una revisión de seguridad. Los cambios en la infraestructura que pueden requerir una revisión de seguridad incluyen los relacionados con la IAM, la política basada en los recursos o la aprobación de riesgos. Este tipo de incidentes requieren que un ingeniero de operaciones de AMS cree una RFC antes de realizar el cambio, y se requiere su aprobación para dicha RFC. Por ejemplo, si la resolución del incidente requiriera la actualización de una política de IAM, se realizaría una revisión de seguridad de AMS y, a continuación, un ingeniero de operaciones de AMS crearía una RFC con Management | Advanced stack components | Identity and Access Management (IAM) | Actualizar el tipo de cambio de entidad o política (ct-27tuth19k52b4) y esperaría a que usted aprobara la RFC antes de continuar.

nota

El AMS ahora permite la resolución de incidentes que requieren que se realicen cambios en la infraestructura sin el paso adicional de la aprobación de la RFC. Si los cambios necesarios para resolver el incidente NO requieren una revisión de seguridad (el cambio no está relacionado con la IAM, ni con una política basada en los recursos, ni con la aprobación de riesgos), AMS puede realizar los cambios en función de su aprobación recibida en el incidente, sin necesidad de una aprobación independiente en una RFC.

Para ver las definiciones de los términos de gestión de incidentes, consulte los términos clave de AMS.

Para entender la evolución de los incidentes, consulta Cómo obtener ayuda.

Para obtener una descripción de la respuesta de AMS a los incidentes, consulte Respuesta a los incidentes de AMS.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cómo obtener ayuda

¿Qué es la gestión de incidentes?