Administración de errores - Pilar de fiabilidad

Administración de errores

Los fallos son un hecho y, con el tiempo, todo fallará: desde los enrutadores hasta los discos duros, desde los sistemas operativos hasta las unidades de memoria que corrompen los paquetes TCP, desde los errores transitorios hasta los fallos permanentes. Esto es un hecho, ya sea que utilice hardware de la más alta calidad o los componentes más económicos: Werner Vogels, CTO, Amazon.com

Los fallos de componentes de hardware de bajo nivel son algo que hay que solucionar todos los días en un centro de datos en las instalaciones. Sin embargo, en la nube, debe protegerse contra la mayoría de estos tipos de errores. Por ejemplo, los volúmenes de Amazon EBS se colocan en una zona de disponibilidad específica, donde se replican automáticamente para protegerle en caso de error de un solo componente. Todos los volúmenes de EBS están diseñados para tener una disponibilidad del 99,999 %. Los objetos de Amazon S3 se almacenan en un mínimo de tres zonas de disponibilidad, lo que proporciona una durabilidad del 99,999999999 % durante un año natural. Independientemente del proveedor de servicios en la nube, existe la posibilidad de que los fallos afecten a su carga de trabajo. Por lo tanto, debe tomar medidas para implementar la resiliencia si necesita que su carga de trabajo sea fiable.

Un requisito previo para aplicar las prácticas que se analizan aquí es asegurarse de que las personas que diseñan, implementan y operan sus cargas de trabajo conozcan los objetivos empresariales y los objetivos de fiabilidad necesarios para lograrlos. Estas personas deben conocer estos requisitos de fiabilidad y haber recibido la formación para cumplir con ellos.

En las siguientes secciones se explican las prácticas recomendadas para gestionar los fallos y evitar que afecten a la carga de trabajo.