Para obtener capacidades similares a las de Amazon Timestream, considere Amazon Timestream LiveAnalytics para InfluxDB. Ofrece una ingesta de datos simplificada y tiempos de respuesta a las consultas en milisegundos de un solo dígito para realizar análisis en tiempo real. Obtenga más información aquí.
Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon Timestream para InfluxDB 3
¿Qué es Timestream para InfluxDB 3?
Amazon Timestream para InfluxDB 3 es un servicio gestionado de bases de datos de series temporales que facilita a los desarrolladores DevOps y equipos de aplicaciones la ejecución de bases AWS de datos de InfluxDB 3 para aplicaciones de análisis de series temporales a gran escala mediante código abierto. APIs Con Amazon Timestream para InfluxDB 3, puede configurar, manejar y escalar cargas de trabajo de serie temporal diseñadas para manejar datos de alta cardinalidad y consultas analíticas complejas.
InfluxDB 3 representa una reinvención arquitectónica completa del motor de base de datos InfluxDB. A diferencia de las versiones 1 y 2, que utilizaban un motor de almacenamiento de árbol de fusión estructurado en el tiempo (TSM), InfluxDB 3 se basa en bases tecnológicas completamente diferentes. Esta nueva versión utiliza Apache Arrow para el procesamiento de datos en memoria, Apache Data Fusion para la ejecución de consultas y un formato de almacenamiento en columnas (Parquet) para la persistencia de datos en el almacenamiento de objetos (Amazon S3). Este cambio de arquitectura permite a InfluxDB 3 ofrecer un rendimiento mejorado para datos de alta cardinalidad y escalar de manera eficiente para grandes cargas de trabajo analíticas. La arquitectura InfluxDB 3 mejora el rendimiento de las consultas y la utilización de los recursos para casos de uso intensivo de datos.
Amazon Timestream para InfluxDB 3 le brinda acceso a las capacidades de este motor de base de datos de serie temporal de última generación. La transformación de la arquitectura permite cargas de trabajo de análisis de series temporales a gran escala y aprovecha las capacidades de compresión, partición y optimización de consultas inherentes al formato de almacenamiento en columnas Parquet. Al desvincular la computación del almacenamiento, InfluxDB 3 puede escalarse para gestionar volúmenes de datos prácticamente ilimitados y, al mismo tiempo, mantener la rentabilidad.
Amazon Timestream para InfluxDB 3 puede realizar automáticamente una copia de seguridad de su base de datos y mantener el software de la base de datos actualizado con la última versión. Como en todos los casos Servicios de AWS, no se requieren inversiones iniciales y usted paga únicamente por los recursos que utilice.
Clústeres de base de datos
Un clúster de base de datos es el componente fundamental de Timestream para InfluxDB 3. A diferencia de las instancias de bases de datos tradicionales, InfluxDB 3 utiliza una arquitectura basada en clústeres que separa la computación del almacenamiento y aprovecha Amazon S3 para un almacenamiento de datos rentable y prácticamente ilimitado.
Puede configurar sus implementaciones de InfluxDB 3 en las versiones Core o Enterprise:
Versión Core
La versión Core de InfluxDB 3 se limita a implementaciones de clústeres de un solo nodo y carece de capacidades de compactación, lo que afecta a su idoneidad para determinadas cargas de trabajo. Debido a estas limitaciones, la versión Core está diseñada principalmente para cargas de trabajo prácticamente en tiempo real centradas en datos recientes (normalmente de hace unos días). No se recomienda para casos de uso que impliquen almacenamiento y análisis a largo plazo, ya que el rendimiento se degradará con el tiempo sin procesos de compactación que optimicen el almacenamiento.
Versión Enterprise
La versión Enterprise de InfluxDB 3 admite configuraciones de clústeres de varios nodos e incluye capacidades de compactación esenciales, lo que permite el escalado horizontal para las operaciones de lectura y escritura. Estas implementaciones de varios nodos ofrecen una mayor disponibilidad, un mejor rendimiento para las consultas simultáneas y una mayor resiliencia general del sistema. La funcionalidad de compactación de la versión Enterprise la hace adecuada para casos de uso de datos de alta cardinalidad y análisis a largo plazo, ya que optimiza continuamente el formato de almacenamiento subyacente. Los clústeres empresariales se pueden escalar añadiendo nodos para adaptarse a las crecientes cargas de trabajo sin interrumpir las operaciones en curso.
Cada clúster de base de datos tiene un identificador de clúster de base de datos. Este nombre generado automáticamente identifica de forma única el clúster de base de datos cuando se interactúa con los comandos de la AWS CLI y la API de Amazon Timestream para InfluxDB. El identificador del clúster de base de datos para ese cliente en una Región de AWS.
Timestream para InfluxDB asigna un punto de conexión de DNS para su clúster. El identificador generado por el servicio se utiliza como parte del punto de conexión de DNS del clúster. Por ejemplo, si el identificador generado por el servicio del clúster es xghozx1v79, entonces el punto de conexión del DNS es xghozx1v79-3ksj4dla5nfjhi.timestream-influxdb3.us-east-1.on.aws.
Amazon Timestream para InfluxDB 3 le permite crear una cuenta de usuario maestro y una contraseña para su clúster de base de datos como parte del proceso de creación. Este usuario maestro tiene permisos para crear bases de datos, tablas, y para realizar operaciones de lectura, escritura, eliminación e inserción/actualización de los datos.
Para acceder a una interfaz de usuario visual basada en la web, puede utilizar InfluxDB Explore, que puede descargar InfluxData
Clases de clúster de bases de datos
La clase de clúster de base de datos determina la capacidad de cómputo y de memoria de los nodos de los clústeres de Amazon Timestream para InfluxDB 3. La clase de clúster adecuado depende de la potencia de procesamiento y de los requisitos de memoria.
Clases de clústeres de InfluxDB 3
Los clústeres de InfluxDB 3 utilizan clases de instancias optimizadas específicamente para la arquitectura de almacenamiento basada en Amazon S3. Estas clases, denominadas comodb.influxIOIncluded, están diseñadas para equilibrar los recursos informáticos con los I/O requisitos de trabajar con el almacenamiento de objetos. El precio de las instancias de db.influxIOIncluded cómputo ya incluye todas I/O las operaciones realizadas en Amazon S3, lo que proporciona a los clientes costes predecibles independientemente de sus patrones de E/S específicos.
En la siguiente tabla, se muestran los detalles del hardware de las clases de nodos de clúster de InfluxDB 3:
| Clase de instancia | vCPU | Memoria (GiB) | Storage Type | Ancho de banda de red (Gbps) |
|---|---|---|---|---|
| IOIncludeddb.flux .medium | 1 | 8 | Almacenamiento de objetos de S3 | 12 |
| db.flux IOIncluded .large | 2 | 16 | Almacenamiento de objetos de S3 | 12 |
| db.flux IOIncluded .xlarge | 3 | 32 | Almacenamiento de objetos de S3 | 15 |
| db.flux IOIncluded .2xlarge | 8 | 64 | Almacenamiento de objetos de S3 | 20 |
| db.flux IOIncluded .4xlarge | 16 | 128 | Almacenamiento de objetos de S3 | 25 |
| IOIncludeddb.flux. 8x grande | 32 | 256 | Almacenamiento de objetos de S3 | 30 |
| IOIncludeddb.flux. 12 x grande | 48 | 384 | Almacenamiento de objetos de S3 | 2.5 |
| IOIncludeddb.flux. 16 x grande | 64 | 512 | Almacenamiento de objetos de S3 | 30 |
| IOIncludeddb.flux. 24 x grande | 96 | 768 | Almacenamiento de objetos de S3 | 40 |
Las clases de instancias db.influxIOIncluded están diseñadas específicamente para:
-
Gestione de forma eficiente las I/O operaciones entre los nodos de cómputo y el almacenamiento de objetos de Amazon S3.
-
Proporcione memory-to-CPU proporciones óptimas para procesar datos de series temporales mediante el marco Apache Arrow.
-
Soporte de los requisitos computacionales del motor de consultas Data Fusion.
En el caso de las implementaciones empresariales con clústeres de varios nodos, todos los nodos utilizan la misma clase de instancia para garantizar un rendimiento equilibrado en todo el clúster. A medida que aumente la carga de trabajo, puede escalarla verticalmente seleccionando una clase de instancia más grande para todos los nodos del clúster o escalarla horizontalmente añadiendo más nodos de la misma clase a su clúster.
Especificaciones de hardware para clases de clúster de base de datos
La siguiente terminología describe las especificaciones de hardware para clases de clúster de base de datos:
-
vCPU: el número de unidades centrales de procesamiento virtuales ()CPUs. Una CPU virtual es una unidad de capacidad que se puede usar para comparar clases de clúster de base de datos.
-
Memoria (GiB): RAM, en gibibytes, asignada al nodo del clúster de base de datos. A menudo, hay una relación coherente entre memoria y vCPU.
-
Tipo de almacenamiento: InfluxDB 3 utiliza el almacenamiento de objetos S3, que está separado de los nodos de cómputo.
-
Ancho de banda de la red: la velocidad de red relativa a otras clases de clúster de base de datos.
Almacenamiento del clúster de base de datos
Amazon Timestream para InfluxDB 3 presenta una arquitectura de almacenamiento diferente que desacopla la computación del almacenamiento al aprovechar Amazon S3 para el almacenamiento de objetos. Esta arquitectura proporciona una capacidad de almacenamiento prácticamente ilimitada y, al mismo tiempo, mantiene los costos bajo control en las implementaciones a gran escala.
Almacenamiento de objetos de InfluxDB
Los clústeres de InfluxDB 3 utilizan una única clase de almacenamiento denominada almacenamiento de objetos de InfluxDB, que se basa en Amazon S3. Esta opción de almacenamiento ofrece lo siguiente:
-
Capacidad de almacenamiento ilimitada a nivel virtual
-
Almacenamiento rentable para grandes volúmenes de datos (hasta un 75 % de ahorro en implementaciones de más de 16 TB en comparación con InfluxDB 2.x)
-
Durabilidad del 99,999999999 % (11 nueves)
-
Los datos se almacenan en el formato de columnas Parquet para una compresión y un rendimiento de consulta eficientes
A diferencia de las arquitecturas de bases de datos tradicionales, en las que el almacenamiento se conecta directamente a los nodos de cómputo, el almacenamiento de objetos de InfluxDB 3 se comparte entre todos los nodos del clúster. Cada nodo mantiene cachés en memoria locales para los datos a los que se accede con frecuencia a fin de optimizar el rendimiento de las consultas mientras los datos subyacentes permanecen en Amazon S3.
El precio del almacenamiento de objetos de InfluxDB se basa en lo siguiente:
-
Volumen total de datos almacenados (GB/mes), con un cargo mensual mínimo equivalente a 200 GB
I/O Los costos de operación se incluyen en los precios de procesamiento de las clases de IOIncluded instancias de db.flux, lo que proporciona a los clientes costos más predecibles, independientemente de sus patrones específicos. I/O
Beneficios de la arquitectura de almacenamiento
La arquitectura de almacenamiento basada en Amazon S3 en InfluxDB 3 es particularmente beneficiosa para lo siguiente:
-
Cargas de trabajo de análisis de serie temporal a gran escala
-
Requisitos de datos de alta cardinalidad
-
Situaciones de retención de datos a largo plazo
-
Almacenamiento rentable de grandes conjuntos de datos de series temporales
Este modelo de almacenamiento es comparable al de Timestream para LiveAnalytics Magnetic Storage Tier, que también se basa en un almacén de objetos y está optimizado para casos de uso de almacenamiento y análisis a largo plazo. La economía de almacenamiento de InfluxDB 3 está diseñada para ser competitiva con los precios de almacenamiento LiveAnalytics «magnéticos», un modelo que ha demostrado ser adecuado para los clientes que desean ejecutar y almacenar cargas de trabajo y datos de series temporales a gran escala durante períodos prolongados.
Dimensionamiento del clúster de base de datos
La configuración óptima de un clúster de Timestream para InfluxDB 3 depende de varios factores, como la tasa de ingesta, el tamaño de los lotes, la cardinalidad de serie temporal, las consultas simultáneas y los tipos de consultas.
Al dimensionar los clústeres de InfluxDB 3, tenga en cuenta estos factores adicionales debido a su arquitectura diferente:
-
Eficiencia de almacenamiento: para las implementaciones con más de 16 TB de datos, el almacenamiento de objetos de InfluxDB 3 puede suponer un ahorro de costos de hasta un 75 % en comparación con las implementaciones de Timestream para InfluxDB 2.
-
Características de la carga de trabajo: InfluxDB 3 está optimizada para datos de alta cardinalidad y consultas analíticas en conjuntos de datos grandes, a la vez que ofrece un rendimiento comparable al de las versiones 1.x y 2.x para consultas con intervalos de tiempo más cortos. Además, funciones como las cachés de Último valor
y de Valores distintos permiten latencias de consulta sostenidas inferiores a 10 ms para casos de uso específicos, como la recuperación de los puntos de datos más recientes o los valores de metadatos únicos. -
Patrones de consulta: considere si su carga de trabajo es continua (supervisión ininterrumpida) o intermitente (análisis periódicos)
-
Requisitos de compactación: la versión empresarial incluye funciones de compactación esenciales para el almacenamiento de datos a largo plazo y las cargas de trabajo de alta cardinalidad. Para las implementaciones con clústeres de 3 nodos o más, se recomienda un nodo compactador dedicado para maximizar el rendimiento de la escritura y el lector en los demás nodos individuales, lo que garantiza que los procesos de compactación no compitan por los recursos con las operaciones de consulta e ingesta.
Para ofrecer recomendaciones de dimensionamiento, consideremos una carga de trabajo modelo con las siguientes características:
-
Los datos los recopila y escribe una flota de agentes de Telegraf que recopilan el sistema, la CPU, la memoria, el disco, las E/S, etc., de un centro de datos.
-
Cada solicitud de escritura contiene 5000 líneas.
-
Las consultas ejecutadas en el sistema se clasifican como consultas de “complejidad moderada” y presentan las siguientes características:
-
Tienen múltiples funciones y una o dos expresiones regulares.
-
Pueden incluir grupos por cláusulas o muestrear un intervalo de tiempo de varias semanas.
-
Por lo general, tardan entre unos cientos de milisegundos y un par de miles de milisegundos en ejecutarse.
-
La CPU favorece principalmente el rendimiento de las consultas.
-
Todas las pruebas se realizaron con un conjunto de datos que contiene una cardinalidad de 30 millones de series temporales.
-
| Escritura (líneas por segundo) | Lecturas (consultas por segundo) | Instance class | Versión |
|---|---|---|---|
| ~150 000 | <25 | db.flux .large IOIncluded | Core |
| ~200 000 | ~25 | db.flux IOIncluded .xlarge | Core |
| ~250 000 | ~35 | db.flux IOIncluded .2xlarge | Enterprise |
| ~500 000 | ~50 | db.flux IOIncluded .4xlarge | Enterprise |
| <750 000 | <100 | IOIncludeddb.flux. 8x grande | Enterprise |
| >750 000 | >100 | Clúster empresarial de múltiples nodos | Enterprise |
Facturación de clúster de base de datos de Amazon Timestream para InfluxDB 3
Los clústeres de Amazon Timestream para InfluxDB 3 se facturan en función de los siguientes componentes:
-
Horas de nodo del clúster de base de datos (por hora): según la clase de nodo del clúster de base de datos, por ejemplo, db.flux .large. IOIncluded Los precios se muestran por hora, pero las facturas se ajustan hasta el segundo y muestran las horas en formato decimal. El uso se factura por incrementos de un segundo, con un mínimo de 10 minutos. En el caso de las implementaciones principales de un solo nodo o las implementaciones empresariales de varios nodos, cada nodo se factura por separado en función de su tiempo de ejecución.
-
Almacenamiento de objetos (por GB al mes): volumen de datos real almacenado en el almacenamiento de objetos de InfluxDB, en lugar de en la capacidad aprovisionada. Este modelo le permite pagar solo por el almacenamiento que utilice, sin necesidad de aprovisionar previamente la capacidad de almacenamiento. Nota: Hay un cargo de almacenamiento mensual mínimo equivalente a 200 GB, incluso si el uso real de almacenamiento es inferior.
-
Transferencia de datos saliente (por GB): transferencia de datos desde su clúster de base de datos a Internet o a otra Regiones de AWS. La transferencia de datos o el tráfico dentro de la misma VPC o entre zonas de disponibilidad dentro de la misma Región de AWS es gratuita.
-
Licencia empresarial de InfluxDB 3 (por vCPU por hora): para las implementaciones de InfluxDB 3 Enterprise, se cobra un InfluxData costo de licencia adicional por vCPU por hora. Esta tarifa de licencia se factura directamente AWS Marketplace y aparece como una partida independiente en la factura. AWS La licencia incluye funciones empresariales, como la agrupación en clústeres de varios nodos, funciones de compactación y funciones de seguridad avanzadas.
En el caso de los clústeres de InfluxDB 3 Enterprise con varios nodos, cada nodo se factura por separado en función de su clase de instancia y del número de vCPU (para las tarifas de licencia), mientras que los costes de almacenamiento se consolidan, ya que todos los nodos comparten el mismo almacenamiento de objetos subyacente.
Resumen de componentes de facturación
| Componente de facturación | InfluxDB 3 Core | InfluxDB 3 Enterprise |
|---|---|---|
| Facturación de cómputo | Por hora de nodo (clases de db.fluxIOIncluded ) | Por hora de nodo (clases de db.fluxIOIncluded ) |
| Facturación de almacenamiento | Por GB de datos almacenados (200 GB como mínimo) | Por GB de datos almacenados (200 GB como mínimo) |
| I/O Operaciones | Incluido en los precios de los nodos de computación | Incluido en los precios de los nodos de computación |
| Escalado del almacenamiento | No es necesario, pague solo por el almacenamiento que utiliza | No es necesario, pague solo por el almacenamiento que utiliza |
| Transferencia de datos en | Free | Free |
| Transferencia de datos interna VPC/AZ | Free | Free |
| Transferencia de datos saliente (Internet/entre regiones) | Cobro por GB | Cobro por GB |
| Facturación mínima | 10 minutos | 10 minutos |
| Granularidad de facturación | Incrementos de 1 segundo | Incrementos de 1 segundo |
| Admite múltiples nodos | No (solo un nodo único) | Sí |
| Licencia adicional | Ninguno | Por vCPU por hora mediante AWS Marketplace |
Estrategias de optimización de costos
-
Tamaño correcto: seleccione la clase de nodo adecuada en función de sus requisitos de carga de trabajo para evitar el sobreaprovisionamiento. También recomendamos elegir una instancia que mantenga un uso promedio de aproximadamente el 65 % de la CPU y la memoria, lo que garantice la resiliencia ante los picos de uso y deje margen para planificar la capacidad de forma adecuada.
-
Eficiencia de almacenamiento: para las implementaciones con más de 16 TB de datos, el almacenamiento de objetos de InfluxDB 3 puede suponer un ahorro de costos de hasta un 75 % en comparación con las soluciones tradicionales basadas en EBS.
-
Optimización del tráfico de red: mantenga la transferencia de datos dentro de la misma VPC o región siempre que sea posible para evitar cargos por transferencia de datos externa.
-
Estrategia de escalado: en el caso de InfluxDB 3 Enterprise, considere si la ampliación (clase de nodos más grande) o la ampliación horizontal (más nodos) es más rentable para sus patrones de carga de trabajo específicos.
-
Optimización de licencias: para InfluxDB 3 Enterprise, elija clases de nodos que proporcionen el equilibrio óptimo entre el número de vCPU (que afecta a los costos de licencia) y los requisitos de rendimiento.
Para obtener información sobre los precios de Amazon Timestream para InfluxDB 3, consulte la página de precios de Amazon Timestream para InfluxDB
Regiones de AWS y zonas de disponibilidad
Los recursos de informática en la nube de Amazon están alojados en varias ubicaciones de todo el mundo. Estas ubicaciones se componen de Regiones de AWS zonas de disponibilidad. Cada una Región de AWS es un área geográfica independiente. Cada una Región de AWS tiene varias ubicaciones aisladas conocidas como zonas de disponibilidad.
Amazon Timestream para InfluxDB 3 le permite colocar recursos, como clústeres de base de datos, y datos en varias ubicaciones. En el caso de las implementaciones empresariales con clústeres de varios nodos, los nodos se distribuyen en varias zonas de disponibilidad para mejorar la disponibilidad.