Apache HBase - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Apache HBase

HBasees una base de datos distribuida, no relacional y de código abierto desarrollada como parte del proyecto Hadoop de la Apache Software Foundation. HBase se ejecuta sobre el sistema de archivos distribuido Hadoop (HDFS) para proporcionar capacidades de bases de datos no relacionales para el ecosistema de Hadoop. HBase se incluye en la versión de lanzamiento de Amazon EMR 4.6.0 y posteriores.

HBase funciona a la perfección con Hadoop, ya que comparte su sistema de archivos y sirve como entrada y salida directas al MapReduce marco y al motor de ejecución. HBase también se integra con Apache Hive, lo que permite realizar consultas similares a las de SQL sobre HBase tablas, combinarlas con tablas basadas en Hive y es compatible con la conectividad de bases de datos Java (JDBC). Para obtener más información HBase, consulte Apache y la documentación en el sitio web de Apache HBase. HBase Para ver un ejemplo de cómo utilizar HBase Hive, consulte la entrada del blog de AWS macrodatos de Combinar NoSQL y análisis masivamente paralelos con HBase Apache y Apache Hive en Amazon EMR.

Con HBase Amazon EMR, también puede hacer una copia de seguridad de sus HBase datos directamente en Amazon Simple Storage Service (Amazon S3) y restaurar a partir de copias de seguridad creadas anteriormente al lanzar un clúster. HBase Amazon EMR ofrece opciones adicionales para integrarse con Amazon S3 para la persistencia de datos y la recuperación de desastres.

  • HBase en Amazon S3: con Amazon EMR versión 5.2.0 y posteriores, puede utilizar Amazon HBase S3 para almacenar el directorio HBase raíz y los metadatos de un clúster directamente en Amazon S3. Posteriormente, puede iniciar un nuevo clúster, que apunte a la ubicación del directorio raíz en Amazon S3. Solo un clúster a la vez puede utilizar la HBase ubicación en Amazon S3, con la excepción de un clúster de réplicas de lectura. Para obtener más información, consulte HBase en Amazon S3 (modo de almacenamiento de Amazon S3).

  • HBase réplicas de lectura: la versión 5.7.0 de Amazon EMR y versiones posteriores con Amazon HBase S3 admiten los clústeres de réplicas de lectura. Un clúster de réplicas de lectura proporciona acceso de solo lectura a los archivos de almacén y metadatos de un clúster primario para operaciones de solo lectura. Para obtener más información, consulte Uso de un clúster de réplicas de lectura.

  • HBase Instantáneas: como alternativa a HBase Amazon S3, con la versión 4.0 y posteriores de EMR, puede crear instantáneas de HBase sus datos directamente en Amazon S3 y, a continuación, recuperar los datos mediante las instantáneas. Para obtener más información, consulte Uso de instantáneas HBase .

importante

Para el escalado de HBase clústeres de Amazon EMR, no recomendamos utilizar el escalado gestionado ni el escalado con políticas personalizadas con clústeres. HBase

En la siguiente tabla, se muestra la versión HBase incluida en la última versión de la serie 7.x de Amazon EMR, junto con los componentes con los que se instala Amazon EMR. HBase

Para ver la versión de los componentes instalados HBase en esta versión, consulte Versiones de los componentes de la versión 7.9.0.

HBase Información de la versión de emr-7.9.0
Etiqueta de versión de Amazon EMR HBase Versión Componentes instalados con HBase

emr-7.9.0

HBase 2.6.2

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

En la siguiente tabla, se muestra la versión HBase incluida en la última versión de la serie Amazon EMR 6.x, junto con los componentes con los que se instala Amazon EMR. HBase

Para ver la versión de los componentes instalados HBase en esta versión, consulte Versiones de los componentes de la versión 6.15.0.

HBase Información de la versión de emr-6.15.0
Etiqueta de versión de Amazon EMR HBase Versión Componentes instalados con HBase

emr-6.15.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

nota

Apache HBase HBCK2 es una herramienta operativa independiente para reparar HBase regiones y tablas del sistema. En la versión 6.1.0 y posteriores de Amazon EMR, el archivo hbase-hbck2.jar se proporciona en /usr/lib/hbase-operator-tools/ en el nodo principal. Para obtener más información sobre cómo crear y utilizar la herramienta, consulte HBaseHBCK2.

En la siguiente tabla, se muestra la versión HBase incluida en la última versión de la serie Amazon EMR 5.x, junto con los componentes con los que se instala Amazon EMR. HBase

Para ver la versión de los componentes instalados HBase en esta versión, consulte Versiones de los componentes de la versión 5.36.2.

HBase Información de la versión de emr-5.36.2
Etiqueta de versión de Amazon EMR HBase Versión Componentes instalados con HBase

emr-5.36.2

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server