Principios de diseño
A continuación, se presentan los principios de diseño para la excelencia operativa en la nube:
-
Llevar a cabo operaciones como código: en la nube, puede aplicar la misma disciplina de ingeniería que usa para el código de aplicación a todo el entorno. Puede definir toda su carga de trabajo (aplicaciones, infraestructura, etc.) como código y actualizarla con código. Puede secuenciar los procedimientos operativos y automatizar su proceso al presentarlos como respuesta a eventos. Al llevar a cabo operaciones como código, limita los errores humanos y crea respuestas coherentes a los eventos.
-
Realizar cambios frecuentes, pequeños y que pueda revertir: diseñe cargas de trabajo que sean escalables y tengan acoplamiento flexible para permitir que los componentes se actualicen con regularidad. Las técnicas de despliegue automatizadas, junto con cambios incrementales más pequeños, reducen el radio de repercusión y permiten revertir los cambios más rápido cuando se producen fallos. Esto aumenta la confianza para realizar cambios beneficiosos en su carga de trabajo y, al mismo tiempo, se mantiene la calidad y es posible adaptarse rápidamente a los cambios en las condiciones del mercado.
-
Refinar los procedimientos de operaciones con frecuencia: a medida que evolucione sus cargas de trabajo, evolucione también sus operaciones de la forma correspondiente. a medida que vaya usando los procedimientos operativos, busque oportunidades para mejorarlos. Realice revisiones regulares y valide que todos los procedimientos sean efectivos y que los equipos estén familiarizados con ellos. Cuando se identifiquen lagunas, actualice los procedimientos en consecuencia. Comunique las actualizaciones de los procedimientos a todas las partes interesadas y equipos. Gamifique sus operaciones para compartir las prácticas recomendadas y formar a los equipos.
-
Prever los errores: lleve a cabo ejercicios pre-mortem para identificar posibles fuentes de error a fin de poder eliminarlas o mitigarlas. Ponga a prueba las situaciones en las que se produzca un error y confirme que entiende su impacto. Ponga a prueba los procedimientos de respuesta para garantizar su eficacia, así como para asegurarse de que los equipos conocen su proceso. Configure días de juego habituales para poner a prueba la carga de trabajo y las respuestas del equipo ante eventos simulados.
-
Aprender de los errores operativos: impulse las mejoras gracias a las lecciones que se aprendan después de todos los eventos operativos y errores. Comparta las enseñanzas con los equipos y con toda la organización.
-
Utilizar servicios administrados: reduzca la carga operativa mediante el uso de servicios administrados de AWS siempre que sea posible. Desarrolle procedimientos operativos en torno a las interacciones con esos servicios.
-
Implementar la observabilidad para obtener información práctica: conozca por completo el comportamiento, el rendimiento, el grado de fiabilidad, el coste y el estado de la carga de trabajo. Establezca indicadores clave de rendimiento (KPI) y utilice la telemetría de observabilidad para tomar decisiones informadas y medidas rápidas cuando los resultados empresariales estén en riesgo. Mejore proactivamente el rendimiento, la fiabilidad y el coste en función de datos de observabilidad procesables.