Pilar de excelencia operativa - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Pilar de excelencia operativa

La excelencia operativa (OE) representa la dedicación a crear soluciones de software de alta calidad que cumplan y superen constantemente las expectativas de los usuarios. El pilar de excelencia operativa del AWS Well-Architected Framework abarca estrategias comprobadas para una organización eficaz del equipo, un diseño sólido de la carga de trabajo, operaciones eficientes a gran escala y una adaptación perfecta a los requisitos cambiantes a lo largo del tiempo. Al cumplir estos principios, las organizaciones pueden garantizar que sus sistemas sigan siendo resilientes, eficientes y alineados con las cambiantes necesidades empresariales.

Áreas de enfoque clave para aplicar este pilar a su entorno de streaming de WorkSpaces aplicaciones:

  • Monitoreo y observabilidad

  • Automatización y DevOps

  • Procedimientos operativos y documentación

  • Support y gestión de incidentes

Organice los equipos en función de los resultados empresariales

Cree un modelo operativo alineado con la nube con un fuerte compromiso de liderazgo, en el que los objetivos empresariales y los indicadores clave de rendimiento (KPIs) impulsen la transformación organizacional mediante la optimización de las personas, los procesos y la tecnología.

  • Estructura de equipo. Establezca equipos dedicados que se adapten a los resultados de la transmisión de aplicaciones. Por ejemplo:

    • El equipo de administración de imágenes es responsable del empaquetado de las aplicaciones y de la optimización de las imágenes.

    • El equipo de operaciones de la flota gestiona la capacidad, el rendimiento y el escalado.

    • El equipo de experiencia de usuario se encarga del apoyo y la satisfacción de los usuarios finales.

  • KPIs y métricas. Defina y realice un seguimiento de las métricas alineadas con el negocio, tales como:

    • Tasas de disponibilidad de las aplicaciones

    • Es hora de implementar nuevas aplicaciones

    • Coste por hora de streaming de aplicaciones

  • Modelo operativo. Cree procesos claros para:

    • Incorporación y actualizaciones de aplicaciones

    • Gestión de la capacidad de la flota

    • Aprovisionamiento de acceso de usuarios

    • Respuesta y resolución de incidentes

Implemente la observabilidad para obtener información procesable

Implemente un monitoreo y una observabilidad integrales para rastrear el estado de la carga de KPIs trabajo. Este principio permite tomar decisiones basadas en datos y mejorar proactivamente el rendimiento, la fiabilidad y los costes.

Automatice de forma segura cuando sea posible

Aplique los principios de la infraestructura como código (IaC) para automatizar todos los aspectos de las operaciones de carga de trabajo. Utilice barandas para garantizar una ejecución segura y coherente y, al mismo tiempo, reducir la intervención manual.

  • Automatice la creación y configuración de imágenes de WorkSpaces aplicaciones mediante la CLI de Image Assistant. Para obtener más información, consulte Crear la imagen de Amazon WorkSpaces Applications mediante programación mediante las operaciones CLI de Image Assistant en la documentación de WorkSpaces aplicaciones.

    • Instalación de aplicaciones: utilice la CLI de Image Assistant para automatizar la instalación de aplicaciones durante la creación de imágenes.

    • Creación de imágenes: cree imágenes de WorkSpaces aplicaciones mediante programación mediante los comandos CLI de Image Assistant.

    • Gestión de la configuración: automatice la configuración de los ajustes predeterminados de la aplicación y los parámetros de inicio.

  • Automatice la personalización de WorkSpaces las imágenes de las aplicaciones. Para obtener más información, consulte la AWS entrada del blog Cómo crear automáticamente imágenes personalizadas de WorkSpaces aplicaciones para Windows.

  • Aplique el iAC para implementar la infraestructura y los componentes de las WorkSpaces aplicaciones. Para obtener más información, consulte la entrada del AWS blog Automatización del despliegue de infraestructuras y WorkSpaces aplicaciones para Amazon Applications with Terraform.

  • Implemente procesos automatizados para la gestión de flotas, que incluyen:

    • Escalamiento de la flota en función de la demanda. Configure políticas de escalado automático para ajustar la capacidad de la flota automáticamente en función de las métricas de utilización. Para obtener más información, consulta la entrada del AWS blog Use AWS Lambda to adjust escaling steps and umbrals for Amazon WorkSpaces Applications.

    • Actualizaciones de imágenes base. Aproveche las actualizaciones automáticas de la imagen base de la WorkSpaces aplicación que proporciona AWS.

    • Optimización de la capacidad. Configure umbrales de escalado automatizados para optimizar el uso de los recursos en función de los patrones de demanda.

  • Configure las barandillas para automatizar los controles de seguridad:

    • Límites de tamaño máximo de la flota. Establezca límites superiores en la capacidad de la flota para evitar el sobreaprovisionamiento.

    • Configuración de políticas de escalado. Implemente políticas de escalado escalonado o escalado de seguimiento objetivo con los umbrales adecuados.

    • Cuotas de servicio. Utilice las cuotas de AWS servicio como límites integrados para evitar una asignación excesiva de recursos.

    • Protección escalable. Configure la protección escalable para evitar que se eliminen las instancias activas durante los eventos de escalado.

  • Realice pruebas y validaciones, incluidas las pruebas de creación de imágenes, flota e integración.

    • Pruebas con el generador de imágenes:

      • Pruebe las aplicaciones directamente en la interfaz del generador de imágenes.

      • Verifique el inicio y la funcionalidad de la aplicación.

      • Pruebe los ajustes y las configuraciones del usuario.

      • Valide la compatibilidad de las aplicaciones.

    • Pruebas de flota:

      • Pruebe las sesiones de streaming desde diferentes dispositivos cliente.

      • Verifica los derechos y el acceso de los usuarios.

      • Valide el rendimiento de las aplicaciones.

      • Pruebe la experiencia del usuario con elementos y operaciones como el portapapeles, la transferencia de archivos y la impresión.

    • Pruebas de integración:

      • Pruebe la autenticación basada en Active Directory o SAML 2.0.

      • Pruebe las carpetas principales y el almacenamiento persistente.

      • Pruebe los derechos de las aplicaciones.

      • Pruebe la redirección del dispositivo USB (si está configurada).

  • Utilice el administrador de WorkSpaces aplicaciones para automatizar el empaquetado y la implementación de las aplicaciones. Para obtener más información, consulte la entrada del AWS blog Optimice la incorporación de aplicaciones con el administrador de aplicaciones para Amazon WorkSpaces Applications.

  • Automatice la implementación de nuevas versiones de aplicaciones mediante el uso de canalizaciones de integración y entrega continuas (CI/CD). Para obtener más información, consulte la entrada del AWS blog Screening Eagle: Optimice CI/CD and End User Experience in Amazon WorkSpaces Applications.

Realice cambios frecuentes, pequeños y reversibles

Cree cargas de trabajo escalables y poco acopladas que permitan despliegues automatizados frecuentes y a pequeña escala con un riesgo mínimo y funciones de reversión sencillas.

  • Para las actualizaciones de imágenes, utilice la creación de imágenes versionadas y las actualizaciones incrementales.

    • Creación de imágenes versionadas:

      • Cree nuevas imágenes para cada conjunto de cambios mediante un generador de imágenes.

      • Mantenga varias versiones de imágenes para admitir escenarios de reversión.

      • Utilice estrategias de AWS etiquetado para realizar un seguimiento de las versiones y los atributos de las imágenes.

    • Actualizaciones incrementales:

      • Realice cambios pequeños e incrementales en las aplicaciones o configuraciones.

      • Pruebe minuciosamente las actualizaciones en el generador de imágenes antes de crear una imagen nueva.

      • Documente todos los cambios que haya realizado en cada nueva versión de la imagen.

  • Para actualizar la flota de control:

    • Cree nuevas flotas con imágenes actualizadas para realizar pruebas.

    • Modifique los atributos de la flota existente sin interrumpir las sesiones activas.

  • Establezca procedimientos de gestión de cambios para la documentación, los protocolos de pruebas, los flujos de trabajo de aprobación y los procesos de supervisión.

    • Documentación:

      • Mantenga registros de cambios detallados para todas las actualizaciones de imagen y flota.

      • Documente los procedimientos de prueba y los resultados de cada cambio.

      • Se utiliza AWS CloudTrailpara realizar un seguimiento de los cambios de configuración y auditarlos.

    • Protocolos de prueba:

      • Establezca un proceso de prueba integral para todos los cambios.

      • Incluya pruebas de funcionalidad, rendimiento y experiencia del usuario de las aplicaciones.

      • Realice pruebas en el generador de imágenes antes de crear nuevas imágenes.

      • Realice pruebas adicionales en flotas que no estén en producción antes del despliegue completo.

    • Flujos de trabajo de aprobación:

      • Implemente un proceso de aprobación para los cambios en los entornos de producción.

      • Defina los criterios para los cambios que requieren aprobación en comparación con las actualizaciones estándar.

      • Establezca las funciones y responsabilidades para la aprobación de los cambios.

    • Supervisión y validación:

      • Usa Amazon CloudWatch para monitorear el rendimiento de la flota y las aplicaciones después de los cambios.

      • Configura alertas para las métricas clave a fin de identificar rápidamente los problemas después de las actualizaciones.

      • Realice revisiones posteriores a la implementación para validar el éxito del cambio y recopilar información.

Refina los procedimientos de operaciones con frecuencia

Mejore continuamente los procedimientos operativos mediante revisiones y actualizaciones periódicas y la participación del equipo para mantener a todas las partes interesadas informadas y alineadas con las mejores prácticas.

  • Gestión de la documentación. Mantenga la documentación actualizada y controlada por versiones de los procedimientos de WorkSpaces las aplicaciones en una ubicación central para garantizar la coherencia operativa y el intercambio de conocimientos entre los equipos.

    • Documentación requerida: mantenga la up-to-date documentación de WorkSpaces las operaciones de aplicaciones críticas para la creación y administración de imágenes, las operaciones de la flota y la solución de problemas.

    • Revisiones operativas: supervise y revise los aspectos operativos clave, incluidas las métricas de rendimiento y la gestión de incidentes.

  • Mejora continua. Mejore sistemáticamente las operaciones de las WorkSpaces aplicaciones incorporando Servicio de AWS actualizaciones, métricas operativas y las mejores prácticas aprendidas en los procedimientos estándar.

    • Actualizaciones del servicio: supervise las notas de la versión de WorkSpaces las aplicaciones para conocer las nuevas funciones, las mejoras del servicio, las actualizaciones de seguridad y la disponibilidad regional.

    • Mejores prácticas: revise e incorpore las actualizaciones de AWS Well-Architected Framework, las mejores prácticas de aplicaciones WorkSpaces , las arquitecturas de referencia AWS y las recomendaciones de seguridad. AWS

    • Gestión del conocimiento: mantenga y actualice los procedimientos operativos estándar, los manuales de instrucciones, las guías de solución de problemas y la documentación de soporte al usuario.

Anticipe el fracaso

Realice pruebas periódicas de los escenarios de fallo para comprender los riesgos, validar los procedimientos de respuesta y mejorar la preparación del equipo para gestionar incidentes reales.

  • Pruebas de fallos. Simule y pruebe con regularidad fallos como el agotamiento de la capacidad de la flota, los fallos en el lanzamiento de las aplicaciones y los problemas de conectividad de la red.

    • Agotamiento de la capacidad de la flota:

      • Supervise y pruebe el comportamiento de escalado de la flota cuando se acerque a los límites de capacidad.

      • Configure CloudWatch las alarmas CapacityUtilization y AvailableCapacity las métricas.

      • Implemente procedimientos para gestionar las restricciones de capacidad durante los picos de uso.

    • Fallos en el inicio de la aplicación:

      • Pruebe el comportamiento de inicio de la aplicación en instancias de streaming.

      • Valide el acceso y el rendimiento de las aplicaciones en diferentes configuraciones de flota.

    • Problemas de conectividad de red:

      • Pruebe el rendimiento de la sesión de streaming en diferentes condiciones de red.

      • StreamingSessionLatencySupervisa si hay problemas de calidad de conexión.

      • Asegúrese de que los ajustes de la VPC y los grupos de seguridad estén correctamente configurados.

  • Procedimientos de recuperación. Desarrolle y pruebe procedimientos para:

    • Conmutación por error de la flota entre Zonas de disponibilidad de AWS. Además, documente los procedimientos para ampliar la capacidad de la flota, gestionar las actualizaciones de la flota y responder a los problemas de estado de las instancias.

    • Gestión de datos de usuario:

      • Configure y pruebe las soluciones de persistencia y almacenamiento de los ajustes de la aplicación para las carpetas principales de las flotas de Amazon Simple Storage Service (Amazon S3) para Windows y los sistemas de archivos compartidos de Amazon Elastic File System (Amazon EFS) para flotas de Linux.

      • Valide la sincronización de datos entre sesiones.

    • Continuidad del servicio. Mantenga los procedimientos para crear nuevas instancias de flota, gestionar las actualizaciones de imágenes y gestionar las desconexiones de las sesiones.

  • Gestión de riesgos. Identifique y mitigue:

    • Las restricciones de capacidad estableciendo la capacidad mínima de la flota adecuada, configurando políticas de escalado automático en función de los patrones de demanda y monitoreando las tendencias de utilización de la flota mediante CloudWatch métricas como CapacityUtilizationInUseCapacity, yAvailableCapacity.

    • Los cuellos de botella en el rendimiento mediante el seguimiento de las métricas clave, por ejemplo, StreamingSessionLatency y la configuración de las alarmas adecuadas. CloudWatch

Aprenda de todos los eventos y métricas operativos

Fomente una cultura de mejora continua compartiendo las lecciones aprendidas de los eventos y fracasos operativos en toda la organización. Haga hincapié en su impacto en los resultados empresariales.

  • Análisis de eventos. Documente y analice las interrupciones del servicio, la degradación del rendimiento, las quejas de los usuarios y los problemas de capacidad.

  • Revisión de métricas. Analice los patrones de uso, las tendencias de rendimiento, las métricas de costes y los datos de satisfacción de los usuarios de forma periódica.

  • Intercambio de conocimientos. Establezca procesos para las sesiones de aprendizaje en equipo, la documentación sobre las mejores prácticas, la transferencia de conocimientos entre los equipos y las retrospectivas de los incidentes.

Utilice servicios gestionados

Minimice los gastos operativos mediante el uso de servicios AWS gestionados y la creación de procedimientos estandarizados en torno a ellos. Intégrelo con los siguientes servicios AWS gestionados: