Prácticas recomendadas a la hora de configurar un cambio automático de zona

Tenga en cuenta las siguientes prácticas recomendadas y consideraciones al habilitar el cambio automático de zona en el Controlador de recuperación de aplicaciones (ARC) de Amazon.

El cambio automático de zona incluye dos tipos de cambios de tráfico: los cambios automáticos y los cambios de zona de ejecución de práctica.

El cambio automático AWS ayuda a reducir el tiempo de recuperación al desviar el tráfico de recursos de las aplicaciones desde una zona de disponibilidad durante los eventos, en su nombre.
Con las ejecuciones de práctica, ARC inicia un cambio de zona en su nombre o el usuario inicia una ejecución de práctica de cambio de zona. La AWS práctica del cambio zonal desplaza el tráfico de una zona de disponibilidad hacia un recurso y viceversa, con una cadencia semanal. Las ejecuciones de práctica le ayudan a asegurarse de que ha escalado verticalmente la capacidad suficiente para las zonas de disponibilidad de una región como para que su aplicación tolere la pérdida de una zona de disponibilidad.

Hay varias prácticas recomendadas y consideraciones que se deben tener en cuenta a la hora de realizar cambios automáticos y ejecuciones de práctica. Revise los siguientes temas antes de habilitar un cambio automático de zona o configurar ejecuciones de práctica para un recurso.

Temas

Limitación del tiempo que los clientes permanecen conectados a los puntos de conexión
Preescalado de la capacidad de recursos y prueba del desvío de tráfico
Conocimiento de los tipos y restricciones de recursos
Especificación de alarmas para las ejecuciones de práctica
Evaluación de los resultados de las ejecuciones de práctica

Limitación del tiempo que los clientes permanecen conectados a los puntos de conexión

Cuando el Controlador de recuperación de aplicaciones de Amazon (ARC) desvía el tráfico de una zona afectada, por ejemplo, mediante un cambio de zona o un cambio automático de zona, el mecanismo que utiliza ARC para mover el tráfico de la aplicación es una actualización del DNS. Una actualización del DNS hace que todas las nuevas conexiones nuevas se desvíen de la ubicación afectada. Sin embargo, los clientes con conexiones abiertas preexistentes pueden seguir realizando solicitudes a la ubicación afectada hasta que se vuelvan a conectar. Para garantizar una recuperación rápida, le recomendamos que limite el tiempo que los clientes permanecen conectados a los puntos de conexión.

Si utiliza un equilibrador de carga de aplicación, puede utilizar la opción keepalive para configurar la duración de las conexiones. Le recomendamos que reduzca el valor keepalive para que se ajuste al objetivo de tiempo de recuperación de la aplicación, por ejemplo, 300 segundos. Al elegir un tiempo keepalive, tenga en cuenta que este valor es una compensación entre volver a conectarse con más frecuencia en general, lo que puede afectar a la latencia, y desviar más rápidamente a todos los clientes de una zona de disponibilidad o región con alteraciones.

Para obtener más información sobre cómo configurar la opción keepalive para el equilibrador de carga de aplicación, consulte la duración del valor keepalive del cliente HTTP en la Guía del usuario del equilibrador de carga de aplicación.

Preescalado de la capacidad de recursos y prueba del desvío de tráfico

Cuando se AWS desplaza el tráfico de una zona de disponibilidad para realizar un cambio zonal o un cambio automático, es importante que las zonas de disponibilidad restantes puedan atender las crecientes tasas de solicitud de su recurso. Este patrón se conoce como estabilidad estática. Para obtener más información, consulte el documento técnico Estabilidad estática con zonas de disponibilidad en la Amazon Builder’s Library.

Por ejemplo, si la aplicación necesita 30 instancias para atender a sus clientes, debe aprovisionar 15 instancias en tres zonas de disponibilidad, para un total de 45 instancias. De este modo, cuando el tráfico se AWS desplaza fuera de una zona de disponibilidad (con un cambio automático o durante una sesión de práctica),AWS podrá seguir atendiendo a los clientes de su aplicación con el total restante de 30 instancias, distribuidas en dos zonas de disponibilidad.

La función de cambio automático zonal de ARC le ayuda a recuperarse rápidamente de AWS los eventos ocurridos en una zona de disponibilidad cuando tiene una aplicación con recursos que están preescalados para funcionar con normalidad ante la pérdida de una zona de disponibilidad. Antes de habilitar el cambio automático de zona para un recurso, escale la capacidad del recurso en todas las zonas de disponibilidad configuradas de una Región de AWS. A continuación, inicie los cambios de zona del recurso para comprobar que la aplicación sigue funcionando con normalidad cuando el tráfico se desvíe de una zona de disponibilidad.

Después de realizar la prueba con cambios de zona, habilite el cambio automático de zona y configure las ejecuciones de práctica para los recursos de la aplicación. Realice sus propias ejecuciones de práctica bajo demanda para asegurarse de que la configuración se escala correctamente. Las ejecuciones de práctica periódicas con cambio automático de zona le ayudan a asegurarse, de forma continua, de que su capacidad sigue escalándose de forma adecuada. Con suficiente capacidad en todas las zonas de disponibilidad, la aplicación puede seguir atendiendo a los clientes, sin interrupciones, durante un cambio automático.

Para obtener más información sobre cómo iniciar un cambio de zona de un recurso, consulte Cambio de zona en ARC.

Conocimiento de los tipos y restricciones de recursos

El cambio automático de zona permite desviar el tráfico de una zona de disponibilidad de todos los recursos compatibles con el cambio de zona. En algunas situaciones específicas de recursos, el cambio automático de zona no desvía el tráfico de una zona de disponibilidad para un cambio automático.

Por ejemplo, si los grupos de destino del equilibrador de carga de las zonas de disponibilidad no tienen ninguna instancia o si todas las instancias tienen un estado incorrecto, el equilibrador de carga se encuentra en un estado de apertura por error. Si se AWS inicia un cambio automático para un balanceador de cargas en este escenario, el cambio automático no cambia las zonas de disponibilidad que utiliza el balanceador de cargas, ya que el balanceador de carga ya está en un estado de apertura por error. Este es el comportamiento esperado. El cambio automático no puede provocar que una zona de disponibilidad esté en mal estado y desviar el tráfico a las demás zonas de disponibilidad Región de AWS si todas las zonas de disponibilidad se abren por error (en mal estado).

Para obtener más información sobre los recursos compatibles, incluidos todos los requisitos y excepciones que debe tener en cuenta, consulte Recursos admitidos.

Especificación de alarmas para las ejecuciones de práctica

Debe configurar al menos un tipo de alarma (una alarma de resultado) para las ejecuciones de práctica con cambio automático de zona. De manera opcional, también puede configurar un segundo tipo de alarma (alarmas de bloqueo).

Al considerar las CloudWatch alarmas que configura para las ejecuciones de práctica de su recurso, tenga en cuenta lo siguiente:

Debe configurar al menos una alarma de resultado para una configuración de ejecución de práctica. En el caso de las alarmas de resultados, le recomendamos que CloudWatch las configure para que pasen a un ALARM estado en el que las métricas del recurso o de la aplicación indiquen que desplazar el tráfico fuera de la zona de disponibilidad afecta negativamente al rendimiento. Por ejemplo, puede determinar un umbral para las tasas de solicitud de un recurso y, a continuación, configurar una alarma para que pase a un estado de ALARM cuando se supere dicho umbral. Es responsable de configurar las alarmas adecuadas que originen que AWS finalice la ejecución de práctica y devuelva un resultado de FAILED.
Le recomendamos que siga el modelo AWS Well Architected Framework, que recomienda implementar indicadores clave de rendimiento (KPIs) como CloudWatch alarmas. Si lo hace, puede usar estas alarmas para crear una alarma compuesta que sirva como desencadenador de seguridad y evitar que se inicien ejecuciones de práctica en el caso de que pudieran impedir que la aplicación no cumpliera con un KPI. Cuando la alarma deja de estar en el estado de ALARM, ARC inicia las ejecuciones de práctica la próxima vez que se programe una ejecución de práctica para el recurso.
Para practicar, ejecute alarmas de bloqueo, si decide configurar una (o más), puede optar por realizar un seguimiento de métricas específicas que utilice para indicar que no desea que se inicie una ejecución de AWS prácticas, por ejemplo, cuando una alarma indica que hay un incidente en curso.
Para practicar la ejecución de alarmas, debe especificar el nombre de recurso de Amazon (ARN) para cada alarma, por lo que primero debe configurar la alarma en Amazon. CloudWatch Las CloudWatch alarmas que especifique pueden ser alarmas compuestas, lo que le permitirá incluir varias métricas y comprobaciones para su aplicación y recurso que puedan activar la alarma para que pase a un ALARM estado. O bien, puede configurar alarmas independientes y, a continuación, especificar más de una alarma de cada tipo para la configuración de la ejecución de práctica. Para obtener más información, consulta Combinación de alarmas en la Guía del CloudWatch usuario de Amazon.
Asegúrese de que las CloudWatch alarmas que especifique para las ejecuciones de práctica estén en la misma región que el recurso para el que está configurando una ejecución de práctica.

Evaluación de los resultados de las ejecuciones de práctica

ARC informa del resultado de cada ejecución de práctica. Después de una ejecución de práctica, evalúe el resultado y determine si es necesario tomar medidas. Por ejemplo, es posible que tenga que escalar la capacidad o ajustar la configuración de una alarma.

A continuación se muestran los posibles resultados de las ejecuciones de práctica:

CORRECTO: ninguna alarma de resultado entró en estado de ALARM durante la ejecución de práctica, y la ejecución de práctica llevó a cabo el periodo de prueba completo de 30 minutos.
ERROR: al menos una alarma de resultado entró en un estado de ALARM durante la ejecución de práctica.
INTERRUMPIDA: la ejecución de práctica finalizó por un motivo distinto al de la alarma de resultado al entrar en un estado de ALARM. Una ejecución de práctica puede interrumpirse por varios motivos. Entre ellos, se incluyen los siguientes:
- La práctica finalizó porque se AWS inició un cambio automático en la región Región de AWS o se produjo una situación de alarma en la región.
- La ejecución de práctica finalizó porque se eliminó la configuración de la ejecución de práctica del recurso.
- La ejecución de práctica finalizó porque se inició un cambio de zona iniciado por el cliente para el recurso en la zona de disponibilidad desde la que estaba desviando el tráfico el cambio de zona de ejecución de práctica.
- La ejecución de práctica finalizó porque ya no se pudo acceder a una CloudWatch alarma especificada para la configuración de la ejecución de práctica.
- La ejecución de práctica finalizó porque la alarma de bloqueo especificada para la ejecución de práctica entró en un estado de ALARM.
- La ejecución de práctica finalizó por un motivo desconocido.
- La ejecución de práctica finalizó porque se inició un cambio automático de zona con prioridad. Consulte Prioridad de los cambios de zona.
CAPACITY_CHECK_FAILED: la comprobación de la capacidad equilibrada entre las zonas de disponibilidad para los recursos de equilibrio de carga y del grupo de escalado automático ha producido un error.
PENDIENTE: la ejecución de práctica está activa (en curso). Aún no hay ningún resultado que mostrar.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Precios

Operaciones de la API