CloudWatch Alarmas recomendadas para Amazon OpenSearch Service

CloudWatch las alarmas realizan una acción cuando una CloudWatch métrica supera un valor específico durante un período de tiempo determinado. Por ejemplo, es posible que AWS desee enviarle un correo electrónico si el estado del clúster es red superior a un minuto. En esta sección se incluyen algunas alarmas recomendadas para Amazon OpenSearch Service y cómo responder a ellas.

Puede implementar estas alarmas automáticamente mediante CloudFormation. Para ver una pila de muestras, consulta el GitHubrepositorio relacionado.

nota

Si despliegas la CloudFormation pila, las KMSKeyInaccessible alarmas KMSKeyError y permanecerán en un Insufficient Data estado dado que estas métricas solo aparecen si un dominio encuentra un problema con su clave de cifrado.

Para obtener más información sobre la configuración de alarmas, consulte Creación de CloudWatch alarmas de Amazon en la Guía del CloudWatch usuario de Amazon.

Alarma	Problema
El valor máximo de `ClusterStatus.red` es >= 1 durante 1 minuto, 1 periodo consecutivo	Al menos una partición principal y sus réplicas no están asignados a un nodo. Consulte Estado rojo del clúster.
El valor máximo de `ClusterStatus.yellow` es >= 1 durante 1 minuto, 5 periodos consecutivos	Al menos una partición de réplica no está asignada a un nodo. Consulte Estado amarillo del clúster.
El valor mínimo de `FreeStorageSpace` es <= 20 480 durante 1 minuto, 1 periodo consecutivo	El espacio de almacenamiento disponible de un nodo en su clúster se redujo hasta los 20 GiB. Consulte Falta de espacio de almacenamiento disponible. Este valor está en MiB, por lo que, en lugar de 20 480, recomendamos que lo configure en un 25 % del espacio de almacenamiento de cada nodo.
El valor de `ClusterIndexWritesBlocked` es >= 1 durante 5 minutos, 1 periodo consecutivo	El clúster bloquea las solicitudes de escritura. Consulte ClusterBlockException.
El valor mínimo de `Nodes` es < x 1 día, 1 periodo consecutivo	x es el número de nodos del clúster. Esta alarma indica que no se ha podido acceder a al menos un nodo de su clúster en algún momento del transcurso de un día. Consulte Nodos de clúster defectuosos.
El valor máximo de `AutomatedSnapshotFailure` es >= 1 durante 1 minuto, 1 periodo consecutivo	Se produjo un error en una instantánea automatizada. Este error suele ser el resultado de un estado rojo del clúster. Consulte Estado rojo del clúster. Para ver un resumen de todas las instantáneas automatizadas e información sobre los errores, también puede probar las siguientes solicitudes: `GET domain_endpoint/_snapshot/cs-automated/_all GET domain_endpoint/_snapshot/cs-automated-enc/_all`
El valor máximo de `CPUUtilization` o `WarmCPUUtilization` es >= 80 % durante 15 minutos, 3 periodos consecutivos	A veces puede producirse un uso de CPU del 100 %, pero el uso sostenido elevado es problemático. Considere la posibilidad de utilizar tipos de instancias más grandes o de agregar instancias.
El valor máximo de `JVMMemoryPressure` es >= 95 % durante 1 minuto, 3 periodos consecutivos	El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere la posibilidad de escalar verticalmente. OpenSearch El servicio utiliza la mitad de la RAM de una instancia para el montón de Java, hasta un tamaño de pila de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias.
El valor máximo de `OldGenJVMMemoryPressure` es >= 80 % durante 1 minuto, 3 periodos consecutivos
El valor máximo de `MasterCPUUtilization` es >= 50 % durante 15 minutos, 3 periodos consecutivos	Considere la posibilidad de utilizar tipos de instancias más grandes para los nodos maestros dedicados. Debido a su función en la estabilidad y las blue/greenimplementaciones de los clústeres, los nodos maestros dedicados deberían utilizar menos CPU que los nodos de datos.
El valor máximo de `MasterJVMMemoryPressure` es >= 95 % durante 1 minuto, 3 periodos consecutivos
El valor máximo de `MasterOldGenJVMMemoryPressure` es >= 80 % durante 1 minuto, 3 periodos consecutivos
El valor de `KMSKeyError` es >= 1 durante 1 minuto, 1 periodo consecutivo	La clave de AWS KMS cifrado que se usa para cifrar los datos en reposo de su dominio está deshabilitada. Re-enable es para restablecer las operaciones normales. Para obtener más información, consulte Cifrado de datos en reposo para Amazon OpenSearch Service.
El valor de `KMSKeyInaccessible` es >= 1 durante 1 minuto, 1 periodo consecutivo	La clave de AWS KMS cifrado que se utiliza para cifrar los datos inactivos de su dominio se ha eliminado o ha revocado su concesión al OpenSearch Servicio. No puede recuperar los dominios que están en este estado. Sin embargo, si tiene una instantánea manual, puede utilizarla para migrar a un nuevo dominio. Para más información, consulte Cifrado de datos en reposo para Amazon OpenSearch Service.
El valor de `shards.active` es >= 30 000 durante 1 minuto, 1 periodo consecutivo	El número total de particiones primarias y de réplicas activas es superior a 30 000. Es posible que esté rotando los índices con demasiada frecuencia. Considere la posibilidad de utilizar ISM para eliminar los índices una vez que alcancen una antigüedad determinada.
`5xx` alarmas >= 10 % de `OpenSearchRequests`	Es posible que uno o varios nodos de datos estén sobrecargados, o que las solicitudes no se completen dentro del periodo de tiempo de espera. Considere la posibilidad de cambiar a tipos de instancia más grandes o de agregar más nodos al clúster. Compruebe que está siguiendo las prácticas recomendadas para la arquitectura de particiones y clústeres.
El valor máximo de `MasterReachableFromNode` es < 1 durante 5 minutos, 1 periodo consecutivo	Esta alarma indica que el nodo maestro se ha detenido o es inaccesible. Estos errores suelen ser el resultado de un problema de conectividad de red o de AWS dependencia.
El valor medio de `ThreadpoolWriteQueue` es >= 100 durante 1 minuto, 1 periodo consecutivo	El clúster está experimentando una alta simultaneidad de indexación. Revise y controle las solicitudes de indexación, o aumente los recursos del clúster.
El valor medio de `ThreadpoolSearchQueue` es >= 500 durante 1 minuto, 1 periodo consecutivo	El clúster está experimentando una alta simultaneidad de búsqueda. Considere la posibilidad de escalar el clúster. También se puede aumentar el tamaño de la cola de búsqueda, pero si se incrementa excesivamente puede provocar errores de memoria.
El valor máximo de `ThreadpoolSearchQueue` es >= 5000 durante 1 minuto, 1 periodo consecutivo
El aumento de `ThreadpoolSearchRejected` SUM es >=1{expresión matemática DIFF ( )} durante 1 minuto, 1 periodo consecutivo	Estas alarmas le notifican los problemas del dominio que podrían afectar el rendimiento y la estabilidad.
El aumento de `ThreadpoolWriteRejected` SUM es >=1{expresión matemática DIFF ( )} durante 1 minuto, 1 periodo consecutivo

nota

Si solo desea visualizar métricas, consulte Supervisión de las métricas del OpenSearch clúster con Amazon CloudWatch.

Otras alarmas para tener en cuenta

Considere la posibilidad de configurar las siguientes alarmas en función de las funciones del OpenSearch servicio que utilice habitualmente.

Alarma	Problema
`WarmFreeStorageSpace` es >=10 %	Has alcanzado el 10% del total de tu almacenamiento caliente gratuito. `WarmFreeStorageSpace`mide la suma del espacio de almacenamiento caliente libre en MiB. UltraWarm utiliza Amazon S3 en lugar de discos adjuntos.
El valor de `HotToWarmMigrationQueueSize` es >= 20 durante 1 minuto, 3 periodos consecutivos	Al mismo tiempo, un gran número de índices pasan del modo activo al UltraWarm almacenamiento. Considere la posibilidad de escalar el clúster.
El valor de `HotToWarmMigrationSuccessLatency` es >= 1 día, 1 periodo consecutivo	Si está intentando revertir los índices diarios, configure esta alarma para que se le notifique si el `HotToWarmMigrationSuccessCount` x latencia es superior a 24 horas.
El valor máximo de `WarmJVMMemoryPressure` es >= 95 % durante 1 minuto, 3 periodos consecutivos	El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere el escalado vertical. OpenSearch El servicio utiliza la mitad de la RAM de una instancia para el montón de Java, hasta un tamaño de pila de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias.
El valor máximo de `WarmOldGenJVMMemoryPressure` es >= 80 % durante 1 minuto, 3 periodos consecutivos
El valor de `WarmToColdMigrationQueueSize` es >= 20 durante 1 minuto, 3 periodos consecutivos	Un gran número de índices se están trasladando simultáneamente al almacenamiento en frío. UltraWarm Considere la posibilidad de escalar el clúster.
El valor de `HotToWarmMigrationFailureCount` es >= 1 durante 1 minuto, 1 periodo consecutivo	Se pueden producir errores en las migraciones si se realizan durante instantáneas, reubicaciones de particiones o fusiones forzadas. Los errores durante las instantáneas o las reubicaciones de particiones suelen deberse a errores de nodo o problemas de conectividad de S3. La falta de espacio en el disco suele ser la causa subyacente de los errores en las fusiones forzosas.
El valor de `WarmToColdMigrationFailureCount` es >= 1 durante 1 minuto, 1 periodo consecutivo	Las migraciones suelen fallar cuando se produce un error en los intentos de migrar metadatos de índice al almacenamiento en frío. También pueden producirse errores al eliminar el estado de clúster de índice en caliente.
El valor de `WarmToColdMigrationLatency` es >= 1 día, 1 periodo consecutivo	Si está intentando revertir los índices diarios, configure esta alarma para que se le notifique si el `WarmToColdMigrationSuccessCount` x latencia es superior a 24 horas.
El valor de `AlertingDegraded` es >= 1 durante 1 minuto, 1 periodo consecutivo	El índice de alerta está en rojo, o uno o más nodos no ajustan a la programación.
El valor de `ADPluginUnhealthy` es >= 1 durante 1 minuto, 1 periodo consecutivo	El complemento de detección de anomalías no funciona correctamente, ya sea debido a altas tasas de error o porque uno de los índices utilizados está en rojo.
El valor de `AsynchronousSearchFailureRate` es >= 1 durante 1 minuto, 1 periodo consecutivo	Al menos una búsqueda asíncrona ha fallado en el último minuto, lo que probablemente significa que el nodo coordinador ha fallado. El ciclo de vida de una solicitud de búsqueda asíncrona se administra únicamente en el nodo coordinador, por lo que si el coordinador cae, la solicitud falla.
El valor de `AsynchronousSearchStoreHealth` es >= 1 durante 1 minuto, 1 periodo consecutivo	El estado del almacén de respuestas de búsqueda asíncrona en el índice persistente está en rojo. Es posible que esté almacenando respuestas asíncronas de gran tamaño, lo que puede desestabilizar un clúster. Intente limitar las respuestas de búsqueda asíncronas a 10 MB o menos.
El valor de `SQLUnhealthy` es >= 1 durante 1 minuto, 3 periodos consecutivos	El complemento SQL devuelve 5 xx códigos de respuesta o pasa una consulta de DSL no válida a ella. OpenSearch Solucione los problemas de las solicitudes que sus clientes hacen al complemento.
El valor de `LTRStatus.red` es >= 1 durante 1 minuto, 1 periodo consecutivo	Al menos uno de los índices necesarios para ejecutar el complemento Learning to Rank carece de particiones principales y no es funcional.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Prácticas recomendadas

Determinación del tamaño de dominios