Almacenamiento por niveles para corredores estándar - Transmisión gestionada de Amazon para Apache Kafka

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Almacenamiento por niveles para corredores estándar

El almacenamiento por niveles es un nivel de almacenamiento de bajo costo para Amazon MSK que se puede escalar hasta ofrecer un almacenamiento prácticamente ilimitado, lo que permite crear aplicaciones de datos de streaming de manera rentable.

Puede crear un clúster de Amazon MSK y configurarlo con almacenamiento por niveles que equilibra el rendimiento y el costo. Amazon MSK almacena los datos de streaming en un nivel de almacenamiento principal optimizado para el rendimiento hasta que alcanzan los límites de retención por temas de Apache Kafka. A continuación, Amazon MSK traslada automáticamente los datos al nuevo nivel de almacenamiento de bajo costo.

Cuando la aplicación empiece a leer los datos del almacenamiento por niveles, cabe esperar un aumento de la latencia de lectura durante los primeros bytes. A medida que empiece a leer los datos restantes de forma secuencial desde el nivel de bajo costo, cabe esperar latencias similares a las del nivel de almacenamiento principal. No es necesario aprovisionar almacenamiento para el almacenamiento por niveles de bajo costo ni administrar la infraestructura. Puede almacenar cualquier cantidad de datos y pagar únicamente por lo que utilice. Esta función es compatible con la APIs introducida en el KIP-405: Kafka Tiered Storage.

Para obtener información sobre el tamaño, la supervisión y la optimización de su clúster de almacenamiento en niveles de MSK, consulte Prácticas recomendadas para ejecutar cargas de trabajo de producción con el almacenamiento en niveles de Amazon MSK.

A continuación, se muestran algunas de las características del almacenamiento por niveles:

  • Puede escalar a un almacenamiento prácticamente ilimitado, sin necesidad de adivinar cómo escalar la infraestructura de Apache Kafka.

  • Puede retener los datos durante más tiempo en los temas de Apache Kafka o aumentar el almacenamiento de los temas sin necesidad de aumentar el número de agentes.

  • Proporciona un búfer de seguridad de mayor duración para administrar los retrasos inesperados en el procesamiento.

  • Puede volver a procesar los datos antiguos en su orden de producción exacto con el código de procesamiento de transmisiones existente y con Kafka. APIs

  • Las particiones se vuelven a equilibrar más rápido porque no es necesario replicar los datos del almacenamiento secundario en los discos de los agentes.

  • Los datos entre los agentes y el almacenamiento por niveles se trasladan en la VPC y no pasan por Internet.

  • Un equipo cliente puede utilizar el mismo proceso para conectarse a clústeres nuevos con el almacenamiento por niveles habilitado que el que utiliza para conectarse a un clúster sin el almacenamiento por niveles habilitado. Consulte Crear un equipo cliente.

Requisitos de almacenamiento por niveles para los clústeres de Amazon MSK

  • Debe utilizar la versión 3.0.0 o superior del cliente de Apache Kafka para crear un tema nuevo con el almacenamiento por niveles habilitado. Para hacer la transición de un tema existente a un almacenamiento por niveles, puede volver a configurar un equipo cliente que utilice una versión de cliente de Kafka anterior a la 3.0.0 (la versión mínima admitida de Apache Kafka es la 2.8.2.tiered) para habilitar el almacenamiento por niveles. Consulte Paso 4: creación de un tema en el clúster de Amazon MSK.

  • El clúster de Amazon MSK con el almacenamiento por niveles habilitado debe utilizar la versión 3.6.0 o superior, o la versión 2.8.2.tiered.

Restricciones y limitaciones de almacenamiento por niveles para clústeres de Amazon MSK

El almacenamiento por niveles tiene las siguientes restricciones y limitaciones:

  • Asegúrese de que los clientes no estén configurados para read_committed al leer desde remote_tier en Amazon MSK, a menos que la aplicación utilice activamente la característica de transacciones.

  • El almacenamiento por niveles no está disponible en las regiones (EE. UU. AWS GovCloud ).

  • El almacenamiento por niveles se aplica solo a los clústeres en modo aprovisionado.

  • El almacenamiento por niveles no admite el tamaño del agente t3.small.

  • El periodo mínimo de retención en el almacenamiento de bajo costo es de 3 días. No hay un periodo mínimo de retención para el almacenamiento principal.

  • El almacenamiento por niveles no admite varios directorios de registros en un agente (características relacionadas con JBOD).

  • El almacenamiento por niveles no admite temas compactados. Asegúrese de que todos los temas que tengan activado el almacenamiento por niveles tengan su cleanup.policy configurado únicamente para «ELIMINAR».

  • El clúster de almacenamiento por niveles no permite modificar la política log.cleanup.policy de un tema una vez creado.

  • El almacenamiento por niveles se puede deshabilitar para temas individuales, pero no para todo el clúster. Una vez deshabilitado, el almacenamiento por niveles no se puede volver a habilitar para un tema.

  • Si utiliza la versión 2.8.2.tiered de Amazon MSK, solo podrá migrar sus datos a otra versión de Apache Kafka de almacenamiento por niveles compatible. Si no quiere seguir utilizando una versión de almacenamiento por niveles compatible, cree un nuevo clúster de MSK y migre sus datos a él.

  • La kafka-log-dirs herramienta no puede informar sobre el tamaño de los datos de almacenamiento por niveles. La herramienta solo informa sobre el tamaño de los segmentos de registro en el almacenamiento principal.

Para obtener información sobre la configuración y las restricciones predeterminadas que debe tener en cuenta al configurar el almacenamiento por niveles a nivel temático, consulte. Directrices para la configuración a nivel de tema del almacenamiento en niveles de Amazon MSK