Write Ahead Logs (WAL) para Amazon EMR - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Write Ahead Logs (WAL) para Amazon EMR

Con Amazon EMR 6.15 y versiones posteriores, puede escribir sus registros de HBase escritura anticipada (WAL) de Apache en el WAL de Amazon EMR. Con versiones anteriores de Amazon EMR, al crear un clúster con la opción HBase en Amazon S3, WAL es el único HBase componente de Apache que se almacena en el disco local para los clústeres, y puede almacenar otros componentes, como el directorio raíz, los archivos de almacenamiento (HFiles), los metadatos de las tablas y los datos en Amazon S3.

Puede usar Amazon EMR WAL para recuperar los datos que no se vaciaron en Amazon S3. Para realizar una copia de seguridad completa de sus HBase clústeres, opte por utilizar el servicio Amazon EMR WAL. Entre bastidores, RegionServer escribe sus registros de HBase escritura anticipada (WAL) en el WAL para Amazon EMR.

En caso de que su clúster o la zona de disponibilidad (AZ) estén en mal estado o no estén disponibles, puede crear un clúster nuevo, dirigirlo al mismo directorio raíz de S3 y al espacio de trabajo Amazon EMR WAL y recuperar automáticamente los datos en WAL en unos minutos. Para obtener más información, consulte Restauración desde Amazon EMR WAL.

A partir de las versiones 7.3.0 y posteriores de Amazon EMR, Amazon EMR crea varios EMR para cada servidor y agrupa varias regiones HBase en una sola WAL de Amazon WALs EMR. De este modo, se mejora el HBase WAL de Apache para mejorar la utilización de los registros y optimizar los costes. Para configurar el número de instancias WAL de Amazon EMR por instancia HBase RegionServer, utilice el parámetro. hbase.wal.regiongrouping.numgroups Este parámetro está establecido en 2 de forma predeterminada. Hay dos tablas del sistema que no se incluyen en ningún grupo WAL: meta y masterstore. Estas tablas siempre usan su propia tabla individual WALs.

Si ejecuta una versión anterior a Amazon EMR 7.3.0, le recomendamos que deshabilite manualmente las tablas del HBase clúster anterior para asegurarse de que todos los datos de la WAL de Amazon EMR se vacíen en Amazon S3. A continuación, elimine la Amazon EMR WAL anterior, finalice el clúster anterior y configure un clúster nuevo que ejecute la versión más reciente. Si tiene problemas y no puede deshabilitar las tablas del clúster anterior, puede finalizar directamente el clúster anterior y establecer emr.wal.multiplex.migrate en true en el nuevo clúster. Si se establece en true, HBase intentará reproducir los datos de las instancias WAL de Amazon EMR antiguas HBase durante la inicialización de la región y eliminará los antiguos después de la WALs reproducción. Este proceso de reproducción implica costes adicionales de lectura. Tras la migración, se recomienda configurar el clúster y establecer emr.wal.multiplex.migrate en false. Como alternativa, puede eliminar el parámetro para acelerar la inicialización de la región. HBase

nota

Amazon EMR WAL elimina los datos después HBase de vaciarlos. Si HBase no vacía los datos, Amazon EMR WAL los conserva durante un máximo de 30 días. Transcurridos 30 días, Amazon EMR WAL elimina automáticamente los datos. Amazon EMR conserva las instancias de WAL durante un máximo de 30 días a partir de la finalización de un clúster de EMR. Sin embargo, si lanza un nuevo clúster habilitado para WAL desde el mismo directorio raíz de S3 dentro de esos 30 días, Amazon EMR no eliminará ninguna de las instancias de WAL del clúster anterior. Para obtener más información, consulte Restauración desde Amazon EMR WAL.

En las siguientes secciones se describe cómo configurar y utilizar Amazon EMR WAL con su clúster de EMR HBase habilitado.