Automatice la implementación mediante un enfoque de IaC Cambios frecuentes, pequeños y reversibles Anticipación de los errores Lecciones de los errores operativos Uso de características de registro para supervisar la actividad no autorizada o anómala

Pilar de excelencia operativa

El pilar de excelencia operativa del AWS Well-Architected Framework se centra en el funcionamiento y la supervisión de los sistemas, y en la mejora continua de los procesos y procedimientos para ofrecer valor empresarial. El pilar de la excelencia operativa incluye la capacidad de respaldar el desarrollo y ejecutar las cargas de trabajo de manera eficaz, así como de obtener información sobre su funcionamiento.

Puede reducir la complejidad operativa mediante cargas de trabajo con capacidad de recuperación automática, que detectan y solucionan la mayoría de los problemas sin intervención humana. Para lograr este objetivo, siga las prácticas recomendadas que se describen en esta sección. Utilice CloudWatch las métricas de Amazon para Amazon Timestream para InfluxDB, el punto final de métricas nativo de InfluxDB, y los mecanismos para responder cuando su carga de APIs trabajo se desvíe del comportamiento esperado.

Este análisis del pilar de excelencia operativa se centra en las siguientes áreas clave:

Infraestructura como código (IaC)
Administración de cambios
Estrategias de resiliencia
Administración de incidentes
Registro y supervisión con fines de auditoría

Automatice la implementación mediante un enfoque de IaC

Las mejores prácticas para automatizar la implementación en Timestream para InfluxDB mediante IaC incluyen las siguientes:

Aplique iAC para implementar Timestream para InfluxDB siempre que sea posible. Para una configuración del entorno coherente, utilice una AWS CloudFormationplantilla o HashiCorp Terraform para crear todos los recursos necesarios para su instancia. AWS Cloud Development Kit (AWS CDK)
Automatice la transmisión temporal de los procedimientos operativos de InfluxDB, como el cambio de tamaño de las instancias.
Utilice etiquetas para añadir metadatos a su flujo temporal de recursos de InfluxDB y realice un seguimiento del uso en función de las etiquetas. Para obtener más información, consulte Etiquetado de Amazon Timestream para InfluxDB.

Cambios frecuentes, pequeños y reversibles

Las siguientes recomendaciones se centran en cambios pequeños y reversibles para minimizar la complejidad y reducir la probabilidad de que se interrumpa la carga de trabajo:

Guarde las plantillas y scripts de IaC en un servicio de control de código fuente, como o. GitHub GitLab No almacene las AWS credenciales en el control de código fuente.
Exija que las implementaciones de IaC utilicen un servicio de integración y entrega continuas (CI/CD), como AWS CodeDeploy o AWS CodeBuild. Estos servicios compilan, prueban e implementan código en un entorno no de producción que contiene una instancia efímera de InfluxDB antes de afectar a la instancia de InfluxDB de producción.
Pruebe las consultas de infraestructura y aplicaciones en un entorno inferior antes de implementarlas en producción. Esto minimiza la probabilidad de que se produzca una interrupción y ayuda a garantizar que funcionen bien con su carga de trabajo y su escalabilidad.

Anticipación de los errores

Una infraestructura que se recupere automáticamente ejemplifica la excelencia operativa, pues anticipa los errores y trata de resolver cualquier problema sin intervención. Las siguientes recomendaciones le ayudarán a alcanzar esa madurez con Timestream para InfluxDB:

Utilice métricas para supervisar la memoria, la CPU y el uso de almacenamiento. Puede configurar CloudWatch para notificar cuándo cambian los patrones de uso o cuándo se está llegando al límite de capacidad de la implementación. De esta forma, puede mantener el rendimiento y la disponibilidad del sistema.
Amplíe su instancia de base de datos cuando se acerque al límite de recursos. Debe tener búfer de almacenamiento y de memoria para asumir incrementos imprevistos de la demanda de las aplicaciones.
Si la carga de trabajo de su base de datos requiere I/O más de lo que ha aprovisionado, la recuperación tras una conmutación por error o un fallo en la base de datos será lenta. Para aumentar la capacidad. I/O capacity of a DB instance, migrate to a different DB instance that has higher I/O
Si la aplicación cliente almacena en caché los datos de DNS de las instancias de base de datos, establezca un valor time-to-live (TTL) inferior a 30 segundos. La dirección IP subyacente de una instancia de base de datos puede cambiar después de producirse una conmutación por error. El almacenamiento en caché de los datos del DNS durante un período prolongado puede provocar fallos de conexión. Es posible que tu aplicación intente conectarse a una dirección IP que ya no esté en servicio.
Si su aplicación necesita sobrevivir a una Región de AWS interrupción total, considere configurar la replicación o escribirla a otra región como parte de sus planes de recuperación ante desastres (DR). Comprenda las limitaciones a la hora de configurar la replicación. Para obtener más información sobre la replicación, consulte la documentación de InfluxDB.

Lecciones de los errores operativos

Una infraestructura autorreparable es un esfuerzo a largo plazo que se desarrolla de forma iterativa cuando se producen problemas poco frecuentes o las respuestas no son tan eficaces como se desearía. Para centrarse en lograr una infraestructura que se recupere automáticamente, adopte las siguientes prácticas:

Aprenda de los errores para impulsar la mejora.
Comparta las conclusiones con los equipos y la organización. Si varios equipos de una organización utilizan Timestream para InfluxDB, cree una sala de chat o un grupo de usuarios común para compartir las lecciones aprendidas y las mejores prácticas.

Uso de características de registro para supervisar la actividad no autorizada o anómala

Para observar patrones anómalos de rendimiento y actividad, tenga en cuenta las siguientes prácticas:

Habilite la entrega de registros para almacenar los registros de InfluxDB en Amazon Simple Storage Service (Amazon S3). Los registros de InfluxDB registran información que puede ayudar a comprobar lo siguiente:
- Eventos de la API del plano de datos
- Tiempos de respuesta
- Detalles de compactación
- Cualquier error o advertencia crítica detectada por el sistema
Revise los registros para ver si hay anomalías o accesos no autorizados. En general, el registro proporciona información de diagnóstico para la solución de problemas.
Timestream for InfluxDB admite el registro de las acciones del plano de control mediante el uso de. AWS CloudTrail Para obtener más información, consulte Registrar la transmisión temporal de las llamadas a la API de InfluxDB con. AWS CloudTrail
Puede supervisar CPUUtilization y medir las DiskUtilization métricas desde MemoryUtilization Timestream/InfluxDB > < Namespace > en. CloudWatch

Para obtener más información, consulte la documentación de Timestream for InfluxDB.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Introducción

Seguridad