Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Pilar de excelencia operativa
El pilar de excelencia operativa del AWS Well-Architected Framework se centra en el funcionamiento y la supervisión de los sistemas, y en la mejora continua de los procesos y procedimientos para ofrecer valor empresarial. El pilar de la excelencia operativa incluye la capacidad de respaldar el desarrollo y ejecutar las cargas de trabajo de manera eficaz, así como de obtener información sobre su funcionamiento.
Puede reducir la complejidad operativa mediante cargas de trabajo con capacidad de recuperación automática, que detectan y solucionan la mayoría de los problemas sin intervención humana. Para lograr este objetivo, siga las prácticas recomendadas que se describen en esta sección. Utilice CloudWatch las métricas de Amazon para Amazon Timestream para InfluxDB, el punto final de métricas nativo de InfluxDB, y los mecanismos para responder cuando su carga de APIs trabajo se desvíe del comportamiento esperado.
Este análisis del pilar de excelencia operativa se centra en las siguientes áreas clave:
-
Infraestructura como código (IaC)
-
Administración de cambios
-
Estrategias de resiliencia
-
Administración de incidentes
-
Registro y supervisión con fines de auditoría
Automatice la implementación mediante un enfoque de IaC
Las mejores prácticas para automatizar la implementación en Timestream para InfluxDB mediante IaC incluyen las siguientes:
-
Aplique iAC para implementar Timestream para InfluxDB siempre que sea posible. Para una configuración del entorno coherente, utilice una AWS CloudFormationplantilla o HashiCorp Terraform para crear todos los recursos
necesarios para su instancia. AWS Cloud Development Kit (AWS CDK) -
Automatice la transmisión temporal de los procedimientos operativos de InfluxDB, como el cambio de tamaño de las instancias.
-
Utilice etiquetas para añadir metadatos a su flujo temporal de recursos de InfluxDB y realice un seguimiento del uso en función de las etiquetas. Para obtener más información, consulte Etiquetado de Amazon Timestream para InfluxDB.
Cambios frecuentes, pequeños y reversibles
Las siguientes recomendaciones se centran en cambios pequeños y reversibles para minimizar la complejidad y reducir la probabilidad de que se interrumpa la carga de trabajo:
-
Guarde las plantillas y scripts de IaC en un servicio de control de código fuente, como o. GitHub GitLab No almacene las AWS credenciales en el control de código fuente.
-
Exija que las implementaciones de IaC utilicen un servicio de integración y entrega continuas (CI/CD), como AWS CodeDeploy o AWS CodeBuild. Estos servicios compilan, prueban e implementan código en un entorno no de producción que contiene una instancia efímera de InfluxDB antes de afectar a la instancia de InfluxDB de producción.
-
Pruebe las consultas de infraestructura y aplicaciones en un entorno inferior antes de implementarlas en producción. Esto minimiza la probabilidad de que se produzca una interrupción y ayuda a garantizar que funcionen bien con su carga de trabajo y su escalabilidad.
Anticipación de los errores
Una infraestructura que se recupere automáticamente ejemplifica la excelencia operativa, pues anticipa los errores y trata de resolver cualquier problema sin intervención. Las siguientes recomendaciones le ayudarán a alcanzar esa madurez con Timestream para InfluxDB:
-
Utilice métricas para supervisar la memoria, la CPU y el uso de almacenamiento. Puede configurar CloudWatch para notificar cuándo cambian los patrones de uso o cuándo se está llegando al límite de capacidad de la implementación. De esta forma, puede mantener el rendimiento y la disponibilidad del sistema.
-
Amplíe su instancia de base de datos cuando se acerque al límite de recursos. Debe tener búfer de almacenamiento y de memoria para asumir incrementos imprevistos de la demanda de las aplicaciones.
-
Si la carga de trabajo de su base de datos requiere I/O más de lo que ha aprovisionado, la recuperación tras una conmutación por error o un fallo en la base de datos será lenta. Para aumentar la capacidad. I/O capacity of a DB instance, migrate to a different DB instance that has higher I/O
-
Si la aplicación cliente almacena en caché los datos de DNS de las instancias de base de datos, establezca un valor time-to-live (TTL) inferior a 30 segundos. La dirección IP subyacente de una instancia de base de datos puede cambiar después de producirse una conmutación por error. El almacenamiento en caché de los datos del DNS durante un período prolongado puede provocar fallos de conexión. Es posible que tu aplicación intente conectarse a una dirección IP que ya no esté en servicio.
-
Si su aplicación necesita sobrevivir a una Región de AWS interrupción total, considere configurar la replicación o escribirla a otra región como parte de sus planes de recuperación ante desastres (DR). Comprenda las limitaciones a la hora de configurar la replicación. Para obtener más información sobre la replicación, consulte la documentación de InfluxDB.
Lecciones de los errores operativos
Una infraestructura autorreparable es un esfuerzo a largo plazo que se desarrolla de forma iterativa cuando se producen problemas poco frecuentes o las respuestas no son tan eficaces como se desearía. Para centrarse en lograr una infraestructura que se recupere automáticamente, adopte las siguientes prácticas:
-
Aprenda de los errores para impulsar la mejora.
-
Comparta las conclusiones con los equipos y la organización. Si varios equipos de una organización utilizan Timestream para InfluxDB, cree una sala de chat o un grupo de usuarios común para compartir las lecciones aprendidas y las mejores prácticas.
Uso de características de registro para supervisar la actividad no autorizada o anómala
Para observar patrones anómalos de rendimiento y actividad, tenga en cuenta las siguientes prácticas:
-
Habilite la entrega de registros para almacenar los registros de InfluxDB en Amazon Simple Storage Service (Amazon S3). Los registros de InfluxDB registran información que puede ayudar a comprobar lo siguiente:
-
Tiempos de respuesta
-
Detalles de compactación
-
Cualquier error o advertencia crítica detectada por el sistema
Revise los registros para ver si hay anomalías o accesos no autorizados. En general, el registro proporciona información de diagnóstico para la solución de problemas.
-
Timestream for InfluxDB admite el registro de las acciones del plano de control mediante el uso de. AWS CloudTrail Para obtener más información, consulte Registrar la transmisión temporal de las llamadas a la API de InfluxDB con. AWS CloudTrail
-
Puede supervisar
CPUUtilizationy medir lasDiskUtilizationmétricas desdeMemoryUtilizationTimestream/InfluxDB > < Namespace > en. CloudWatch
Para obtener más información, consulte la documentación de Timestream for InfluxDB.