¿Qué es Amazon OpenSearch sin servidor?
Amazon OpenSearch sin servidor es una opción bajo demanda y sin servidor para Amazon OpenSearch Service que elimina la complejidad operativa de aprovisionar, configurar y ajustar clústeres de OpenSearch. Es ideal para organizaciones que prefieren no administrar sus propios clústeres o que no cuentan con los recursos y el conocimiento experto necesarios para operar implementaciones a gran escala. Con OpenSearch sin servidor, usted puede buscar y analizar grandes volúmenes de datos sin administrar la infraestructura subyacente.
Una colección de OpenSearch sin servidor es un grupo de índices de OpenSearch que funcionan juntos para soportar una carga de trabajo o un caso de uso específicos. Las colecciones simplifican las operaciones en comparación con los clústeres autoadministrados de OpenSearch, que requieren aprovisionamiento manual.
Las colecciones utilizan el mismo almacenamiento distribuido, de gran capacidad y alta disponibilidad que los dominios aprovisionados de Amazon OpenSearch Service, pero reducen aún más la complejidad al eliminar la configuración y el ajuste manual. Los datos dentro de una colección están cifrados en tránsito. OpenSearch sin servidor también es compatible con OpenSearch Dashboards, lo que proporciona una interfaz para el análisis de datos.
Actualmente, las colecciones sin servidor ejecutan la versión 2.17.x de OpenSearch. A medida que se publican nuevas versiones, OpenSearch sin servidor actualiza automáticamente las colecciones para incorporar nuevas características, correcciones de errores y mejoras de rendimiento.
OpenSearch sin servidor admite las mismas operaciones de la API de ingesta y consulta que el paquete de código abierto de OpenSearch, por lo que puede seguir utilizando sus clientes y aplicaciones existentes. Sus clientes deben ser compatibles con OpenSearch 2.x para poder trabajar con OpenSearch sin servidor. Para obtener más información, consulte Ingesta de datos en las colecciones de Amazon OpenSearch sin servidor.
Temas
Casos de uso de OpenSearch sin servidor
OpenSearch sin servidor admite dos casos de uso principales:
-
Análisis de registros: el segmento de análisis de registros se centra en analizar grandes volúmenes de datos de series temporales semiestructurados y generados por máquinas para obtener información operativa y sobre el comportamiento de los usuarios.
-
Búsqueda de texto completo: el segmento de búsqueda de texto completo potencia las aplicaciones de sus redes internas (sistemas de administración de contenido, documentos legales) y las aplicaciones orientadas a Internet, como la búsqueda de contenido de sitios web de comercio electrónico.
Al crear una colección, debe elegir uno de estos casos de uso. Para obtener más información, consulte Elección de un tipo de colección.
Funcionamiento
Los clústeres tradicionales de OpenSearch tienen un único conjunto de instancias que realizan operaciones de indexación y búsqueda, y el almacenamiento de índices está vinculado de forma estrecha con la capacidad de cómputo. Por el contrario, OpenSearch sin servidor utiliza una arquitectura nativa en la nube que separa los componentes de indexación (ingesta) de los componentes de búsqueda (consulta), con Amazon S3 como el almacenamiento de datos principal para los índices.
Esta arquitectura desacoplada permite escalar las funciones de búsqueda e indexación de forma independiente entre ellas y de los datos indexados en S3. La arquitectura también proporciona aislamiento para las operaciones de ingesta y consulta, de modo que puedan ejecutarse de forma simultánea sin contención de recursos.
Cuando escribe datos en una colección, OpenSearch sin servidor los distribuye a las unidades de computación de indexación. Las unidades de computación de indexación ingieren los datos entrantes y mueven los índices a S3. Al realizar una búsqueda en los datos de la colección, OpenSearch sin servidor dirige las solicitudes a las unidades de computación de búsqueda que contienen los datos consultados. Las unidades de computación de búsqueda descargan los datos indexados de forma directa desde S3 (si aún no están almacenados en la memoria caché local), ejecutan operaciones de búsqueda y realizan agregaciones.
La siguiente imagen ilustra esta arquitectura desacoplada:
La capacidad de computación de OpenSearch sin servidor para la ingestión, la búsqueda y la consulta de datos se mide en unidades de computación de OpenSearch (OCU). Cada OCU es una combinación de 6 GiB de memoria y la CPU virtual (vCPU) correspondiente, así como la transferencia de datos a Amazon S3. Cada OCU incluye suficiente almacenamiento efímero en caliente para 120 GiB de datos de índice.
Al crear su primera colección, OpenSearch sin servidor crea una instancia de dos OCU: una para la indexación y otra para la búsqueda. Para garantizar la alta disponibilidad, también lanza un conjunto de nodos en espera en otra zona de disponibilidad. Para fines de desarrollo y pruebas, puede deshabilitar la configuración Habilitar redundancia para una colección, lo que elimina las dos réplicas en espera y solo crea una instancia de dos OCU. De forma predeterminada, las réplicas activas redundantes están habilitadas, lo que significa que se crean instancias para un total de cuatro OCU para la primera colección de una cuenta.
Estas OCU existen incluso cuando no hay actividad en ningún punto de conexión de la colección. Todas las colecciones posteriores comparten estas OCU. Al crear más colecciones en la misma cuenta, OpenSearch sin servidor solo agrega OCU adicionales para buscar e ingerir según sea necesario para respaldar las colecciones, de acuerdo con los límites de capacidad que especifique. La capacidad no se reduce verticalmente a medida que disminuye el uso de computación.
Para obtener más información sobre cómo se facturan estas OCU, consulte Precios.
Elección de un tipo de colección
OpenSearch sin servidor admite tres tipos principales de colecciones:
Series temporales: el segmento de análisis de registros que analiza grandes volúmenes de datos semiestructurados generados por máquinas en tiempo real y que proporciona información sobre operaciones, seguridad, comportamiento de usuarios y rendimiento del negocio.
Búsqueda: búsqueda de texto completo que habilita aplicaciones dentro de redes internas, como sistemas de administración de contenido y repositorios de documentos legales, así como aplicaciones orientadas a internet, como búsquedas en sitios de comercio electrónico y detección de contenido.
Búsqueda vectorial: la búsqueda semántica basada en incrustaciones vectoriales simplifica la administración de datos vectoriales y habilita experiencias de búsqueda mejoradas con machine learning (ML). Es compatible con aplicaciones de IA generativa, como chatbots, asistentes personales y detección de fraude.
El tipo de colección se elige cuando se crea una colección por primera vez:
El tipo de colección que elija dependerá del tipo de datos que piensa incorporar a la colección y de cómo piensa consultarlos. No puede cambiar el tipo de colección después de crearla.
Los tipos de colecciones presentan las siguientes diferencias notables:
-
En el caso de las colecciones de búsqueda y de búsqueda vectorial, todos los datos se almacenan en un almacenamiento en caliente para garantizar tiempos de respuesta rápidos a las consultas. Las colecciones de series temporales utilizan una combinación de almacenamiento en caliente y templado, donde los datos más recientes se guardan en un almacenamiento en caliente para optimizar los tiempos de respuesta a las consultas para los datos a los que se accede con más frecuencia.
-
En el caso de las colecciones de series temporales y de búsqueda vectorial, no puede indexar por identificador de documento personalizado ni actualizarlas mediante solicitudes indirectas. Esta operación se reserva para los casos de uso de búsqueda. En su lugar, puede actualizar por ID de documento. Para obtener más información, consulte Permisos y operaciones de la API de OpenSearch.
-
Para las recopilaciones de series temporales y de búsqueda, no puede utilizar índices de tipo k-NN.
Precios
AWS le cobra por los siguientes componentes de OpenSearch sin servidor:
-
Computación de la ingesta de datos
-
Computación de búsquedas y consultas
-
Almacenamiento retenido en Amazon S3
Una OCU comprende 6 GB de RAM, vCPU correspondiente, almacenamiento GP3 y transferencia de datos hacia Amazon S3. La unidad mínima que se puede facturar es de 0,5 OCU. AWS factura las OCU por hora, con granularidad por segundo. En su estado de cuenta, usted ve una entrada por cómputo en OCU-horas con una etiqueta ingesta de datos y una etiqueta para búsqueda. AWS también factura mensualmente por los datos almacenados en Amazon S3. No le cobra por usar OpenSearch Dashboards.
Cuando usted crea una colección con réplicas activas redundantes, se le factura un mínimo de 2 OCU:
-
1 OCU (0,5 OCU × 2) para ingesta, incluye tanto la primaria como la de respaldo
-
1 OCU (0,5 OCU × 2) para la búsqueda
Si usted deshabilita las réplicas activas redundantes, se le factura un mínimo de 1 OCU (0,5 OCU × 2) para la primera colección en su cuenta. Todas las colecciones posteriores pueden compartir esas OCU.
OpenSearch sin servidor agrega OCU adicionales en incrementos de 1 OCU en función del almacenamiento y la capacidad de computación necesarios para respaldar sus colecciones. Puede configurar un número máximo de OCU para su cuenta con el fin de controlar los costos.
nota
Las colecciones con AWS KMS keys únicas no pueden compartir las OCU con otras colecciones.
OpenSearch sin servidor intenta utilizar los recursos mínimos necesarios para tener en cuenta los cambios en las cargas de trabajo. La cantidad de OCU aprovisionadas en un momento dado puede variar y no es exacta. Con el tiempo, el algoritmo que utiliza OpenSearch sin servidor seguirá mejorando para minimizar el uso del sistema.
Para obtener información completa sobre precios, consulte los precios de Amazon OpenSearch Service
Regiones de AWS compatible
OpenSearch sin servidor está disponible en un subconjunto de Regiones de AWS en las que está disponible OpenSearch Service. Para obtener una lista de las regiones compatibles, consulte Puntos de conexión y cuotas de Amazon OpenSearch Service en Referencia general de AWS.
Limitaciones
OpenSearch sin servidor tiene las siguientes limitaciones:
-
No se admiten algunas operaciones de la API de OpenSearch. Consulte Permisos y operaciones de la API de OpenSearch.
-
No se admiten algunos complementos de OpenSearch. Consulte Complementos de OpenSearch compatibles.
-
En la actualidad, no hay forma de migrar de forma automática los datos desde un dominio administrado por OpenSearch Service a una colección sin servidor. Debe volver a indexar los datos desde un dominio a una colección.
-
No se admiten el acceso entre cuentas a las colecciones. No puede incluir colecciones de otras cuentas en las políticas de cifrado o de acceso a los datos.
-
No se admiten los complementos personalizados de OpenSearch.
-
No puede tomar ni restaurar instantáneas de las colecciones de OpenSearch sin servidor.
-
No se admiten la búsqueda y la replicación entre regiones.
-
Hay límites para la cantidad de recursos sin servidor que puede tener en una sola cuenta y región. Consulte las Cuotas de OpenSearch sin servidor.
-
El intervalo de actualización de los índices de las colecciones de búsqueda vectorial es de aproximadamente 60 segundos. El intervalo de actualización de los índices de las colecciones de búsqueda y serie temporal es de aproximadamente 10 segundos.
-
El número de particiones, número de intervalos e intervalo de actualización no se pueden modificar y son gestionados por OpenSearch sin servidor. La estrategia de partición se basa en el tipo de colección y el tráfico. Por ejemplo, una colección de series temporales escala las particiones principales en función de los cuellos de botella del tráfico de escritura.
-
Se admiten las características geoespaciales disponibles en las versiones de OpenSearch hasta la 2.1.