View a markdown version of this page

Pilar de excelencia operativa - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Pilar de excelencia operativa

El pilar de excelencia operativa del AWS Well-Architected Framework se centra en ejecutar y monitorear los sistemas, y en mejorar continuamente los procesos y procedimientos. Incluye la capacidad de respaldar el desarrollo y poner en marcha cargas de trabajo eficazmente, conocer sus operaciones y mejorar continuamente los procesos y procedimientos de soporte para ofrecer valor empresarial. Puede reducir la complejidad operativa mediante cargas de trabajo con capacidad de recuperación automática, que detectan y solucionan la mayoría de los problemas sin intervención humana. Puede trabajar para lograr este objetivo siguiendo las prácticas recomendadas que se describen en esta sección y utilizar las métricas y los mecanismos de Amazon Neptune Analytics para responder adecuadamente cuando su carga de trabajo se desvíe del comportamiento esperado. APIs

Este análisis del pilar de excelencia operativa se centra en las siguientes áreas clave:

  • Infraestructura como código (IaC)

  • Administración de cambios

  • Estrategias de resiliencia

  • Administración de incidentes

  • Auditoría de informes para garantizar el cumplimiento

  • Registro y supervisión

Automatización de la implementación mediante una estrategia de IaC

Entre las prácticas recomendadas para automatizar el despliegue en Neptune mediante IaC se incluyen las siguientes:

Diseño de operaciones

Adopte enfoques para mejorar el funcionamiento de los gráficos de Neptune Analytics:

  • Mantenga gráficos de Neptune Analytics separados para su uso en desarrollo, pruebas y producción. Estos gráficos pueden tener conjuntos de datos, usuarios y controles operativos diferentes.

  • Mantenga gráficos de Neptune Analytics separados para diferentes usos. Por ejemplo, si dos grupos de usuarios analíticos requieren gráficos separados con plazos, modelos, rendimiento y disponibilidad SLAs y patrones de uso diferentes, mantenga gráficos separados para cada grupo.

  • Prepare a los usuarios y al personal operativo para las actualizaciones de mantenimiento de Neptune Analytics.

Cambios frecuentes, pequeños y reversibles

Las siguientes recomendaciones se centran en los cambios pequeños y reversibles que puede realizar para minimizar la complejidad y reducir la probabilidad de que se interrumpa la carga de trabajo:

  • Guarde las plantillas y scripts de IaC en un servicio de control de código fuente como GitHub o GitLab.

    importante

    No almacene AWS las credenciales en el control de código fuente.

  • Exija que las implementaciones de iAC utilicen un servicio de integración y entrega continuas (CI/CD), como o. AWS CodeDeployAWS CodeBuild Compila, prueba e implementa código en un entorno de Neptune Analytics que no sea de producción antes de promocionarlo a un gráfico de producción.

Implemente la observabilidad para obtener información procesable

Obtenga una comprensión integral del comportamiento, el rendimiento, la confiabilidad, el costo y el estado de las cargas de trabajo. Las siguientes recomendaciones le ayudarán a obtener ese nivel de comprensión de Neptune Analytics:

  • Supervise CloudWatch las métricas de Amazon para Neptune Analytics. A partir de estas métricas, puede determinar el tamaño de un gráfico (número de nodos, bordes y vectores, más el tamaño total de bytes), el uso de la CPU y las tasas de solicitudes y errores de consulta.

  • Cree CloudWatch paneles y alarmas para métricas clave comoNumQueuedRequestsPerSec,, NumOpenCypherRequestsPerSec GraphStorageUsagePercentGraphSizeBytes, y CPUUtilization también para las respuestas de los clientes de Neptune que se encuentran en los registros de sus aplicaciones.

  • Configure las notificaciones para supervisar el estado del gráfico de Neptune Analytics, por ejemplo, cuando el tamaño del gráfico, la tasa de solicitudes o el uso de la CPU superen su umbral. Por ejemplo, si GraphStorageUsagePercent ha subido al 90 por ciento en un gráfico y tiene intención de crecer significativamente, decida si desea aumentar la capacidad de la Unidad de Capacidad de Neptuno (m-NCU) optimizada para la memoria. Si la m-NCU actual es de 128, aumentarla a 256 reducirá el almacenamiento en aproximadamente un 45 por ciento. Si NumQueuedRequestsPerSec suele ser superior a cero, considere la posibilidad de aumentar la capacidad de la m-NCU para ofrecer más capacidad de cómputo. Como alternativa, puede reducir la simultaneidad del lado del cliente.

Lecciones de los errores operativos

Una infraestructura que se recupere automáticamente es un esfuerzo a largo plazo que se desarrolla de forma iterativa a medida que se producen problemas poco frecuentes o las respuestas no son tan eficaces como se desearía. La adopción de las siguientes prácticas permite lograr ese objetivo:

  • Aprenda de los errores para impulsar la mejora.

  • Comparta las conclusiones con los equipos y la organización. Si varios equipos de su organización utilizan Neptune, cree una sala de chat o un grupo de usuarios común para compartir los aprendizajes y las mejores prácticas.

Uso de características de registro para supervisar la actividad no autorizada o anómala

Utilice el registro para observar patrones anómalos de rendimiento y actividad. Tenga en cuenta las siguientes prácticas recomendadas:

  • Neptune Analytics admite el registro de las acciones del plano de control mediante el uso de. AWS CloudTrail Para obtener más información, consulte Registrar las llamadas a la API de Neptune Analytics mediante. AWS CloudTrail A través de esta función, puede realizar un seguimiento de la creación, actualización y eliminación de los recursos de Neptune Analytics. Para una supervisión y alertas sólidas, también puede integrar CloudTrail eventos con Amazon CloudWatch Logs. Para mejorar el análisis de la actividad del servicio Neptune Analytics e identificar los cambios en las actividades de un servidor Cuenta de AWS, puede consultar CloudTrail los registros mediante Amazon Athena. Por ejemplo, puede ejecutar consultas que identifiquen tendencias y aislar la actividad por atributos, como el usuario o la dirección IP de origen.

  • También se puede utilizar CloudTrail para habilitar el registro de las actividades del plano de datos de Neptune Analytics, como las ejecuciones de consultas. Puede ver qué consultas se están ejecutando, su frecuencia y su origen. De forma predeterminada, CloudTrail no registra los eventos de datos. Se aplican cargos adicionales a los eventos de datos. Para obtener más información, consulte Precios de AWS CloudTrail.

  • También puede registrar las llamadas de las aplicaciones a Neptune Analytics en el plano de control o en el plano de datos. Por ejemplo, si lo usa AWS SDK para Python (Boto3)para realizar consultas, puede habilitar el registro a nivel de depuración para obtener un seguimiento de las consultas en la consola o el archivo. Esto es útil durante el desarrollo. También le recomendamos que capture y registre las excepciones de su aplicación.