Alarmas de CloudWatch recomendadas para Amazon OpenSearch Service
Las alarmas de CloudWatch realizan una acción cuando una métrica de CloudWatch supera un valor especificado para un periodo de tiempo determinado. Por ejemplo, es posible que desee que AWS envíe un email si el estado del clúster es red durante más de un minuto. En esta sección se incluyen algunas alarmas recomendadas para Amazon OpenSearch Service y cómo responder a ellas.
Puede implementar automáticamente estas alarmas mediante CloudFormation. Para ver una pila de ejemplo, consulte el repositorio de GitHub
nota
Si implementa la pila de CloudFormation, las alarmas KMSKeyError y KMSKeyInaccessible existirán en un estado de Insufficient
Data, ya que estas métricas solo aparecen si un dominio encuentra un problema con su clave de cifrado.
Para obtener más información sobre la configuración de las alarmas, consulte Creación de alarmas de Amazon CloudWatch en la Guía del usuario de Amazon CloudWatch.
| Alarma | Problema |
|---|---|
ClusterStatus.redEl valor máximo de es >= 1 durante 1 minuto, 1 periodo consecutivo |
Al menos una partición principal y sus réplicas no están asignados a un nodo. Consulte Estado rojo del clúster. |
El valor máximo de ClusterStatus.yellow es >= 1 durante 1 minuto, 5 periodos consecutivos |
Al menos una partición de réplica no está asignada a un nodo. Consulte Estado amarillo del clúster. |
FreeStorageSpaceEl valor mínimo de es <= 20 480 durante 1 minuto, 1 periodo consecutivo |
El espacio de almacenamiento disponible de un nodo en su clúster se redujo hasta los 20 GiB. Consulte Falta de espacio de almacenamiento disponible. Este valor está en MiB, por lo que, en lugar de 20 480, recomendamos que lo configure en un 25 % del espacio de almacenamiento de cada nodo. |
ClusterIndexWritesBlockedEl valor de es >= 1 durante 5 minutos, 1 periodo consecutivo |
El clúster bloquea las solicitudes de escritura. Consulte ClusterBlockException. |
El valor mínimo de Nodes es < x 1 día, 1 periodo consecutivo |
x es el número de nodos del clúster. Esta alarma indica que al menos un nodo del clúster se mantuvo inaccesible durante un día. Consulte Nodos de clúster defectuosos. |
AutomatedSnapshotFailureEl valor máximo de es >= 1 durante 1 minuto, 1 periodo consecutivo |
Se produjo un error en una instantánea automatizada. Este error suele ser el resultado de un estado rojo del clúster. Consulte Estado rojo del clúster. Para ver un resumen de todas las instantáneas automatizadas e información sobre los errores, también puede probar las siguientes solicitudes: |
El valor máximo de CPUUtilization o WarmCPUUtilization es >= 80 % durante 15 minutos, 3 periodos consecutivos |
A veces puede producirse un uso de CPU del 100 %, pero el uso sostenido elevado es problemático. Considere la posibilidad de utilizar tipos de instancias más grandes o de agregar instancias. |
El valor máximo de JVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos |
El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere el escalado vertical. OpenSearch Service utiliza la mitad de la RAM de una instancia para la pila de Java, hasta un tamaño de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias. |
El valor máximo de OldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos |
|
El valor máximo de MasterCPUUtilization es >= 50 % durante 15 minutos, 3 periodos consecutivos |
Considere la posibilidad de utilizar tipos de instancias más grandes para los nodos maestros dedicados. Debido al rol que desempeñan en la estabilidad del clúster y las implementaciones azul/verde, los nodos maestros dedicados deberían tener un uso de CPU medio menor que los nodos de datos. |
El valor máximo de MasterJVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos |
|
El valor máximo de MasterOldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos |
|
KMSKeyErrorEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
La clave de cifrado de AWS KMS que se utiliza para cifrar los datos en reposo en el dominio está deshabilitada. Vuelva a habilitarla para restablecer las operaciones normales. Para más información, consulte Cifrado de datos en reposo para Amazon OpenSearch Service. |
KMSKeyInaccessibleEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
La clave de cifrado de AWS KMS utilizada para cifrar los datos en reposo del dominio se eliminó o revocó sus permisos a OpenSearch Service. No puede recuperar los dominios que están en este estado. Sin embargo, si tiene una instantánea manual, puede utilizarla para migrar a un nuevo dominio. Para más información, consulte Cifrado de datos en reposo para Amazon OpenSearch Service. |
shards.activeEl valor de es >= 30 000 durante 1 minuto, 1 periodo consecutivo |
El número total de particiones primarias y de réplicas activas es superior a 30 000. Es posible que esté rotando los índices con demasiada frecuencia. Considere la posibilidad de utilizar ISM para eliminar los índices una vez que alcancen una antigüedad determinada. |
5xx alarmas >= 10 % de OpenSearchRequests |
Es posible que uno o varios nodos de datos estén sobrecargados, o que las solicitudes no se completen dentro del periodo de tiempo de espera. Considere la posibilidad de cambiar a tipos de instancia más grandes o de agregar más nodos al clúster. Compruebe que está siguiendo las prácticas recomendadas para la arquitectura de particiones y clústeres. |
El valor máximo de MasterReachableFromNode es < 1 durante 5 minutos, 1 periodo consecutivo |
Esta alarma indica que el nodo maestro se ha detenido o es inaccesible. Estos errores suelen ser el resultado de un problema de conectividad de red o un problema de dependencia de AWS. |
ThreadpoolWriteQueueEl valor medio de es >= 100 durante 1 minuto, 1 periodo consecutivo |
El clúster está experimentando una alta simultaneidad de indexación. Revise y controle las solicitudes de indexación, o aumente los recursos del clúster. |
ThreadpoolSearchQueueEl valor medio de es >= 500 durante 1 minuto, 1 periodo consecutivo |
El clúster está experimentando una alta simultaneidad de búsqueda. Considere la posibilidad de escalar el clúster. También se puede aumentar el tamaño de la cola de búsqueda, pero si se incrementa excesivamente puede provocar errores de memoria. |
El valor máximo de ThreadpoolSearchQueue es >= 5000 durante 1 minuto, 1 periodo consecutivo |
|
El aumento de ThreadpoolSearchRejected SUM es >=1{expresión matemática DIFF ( )} durante 1 minuto, 1 periodo consecutivo |
Estas alarmas le notifican los problemas del dominio que podrían afectar el rendimiento y la estabilidad. |
El aumento de ThreadpoolWriteRejected SUM es >=1{expresión matemática DIFF ( )} durante 1 minuto, 1 periodo consecutivo |
nota
Si solo desea visualizar métricas, consulte Monitoreo de métricas del clúster de OpenSearch con Amazon CloudWatch.
Otras alarmas para tener en cuenta
Considere la posibilidad de configurar las siguientes alarmas en función de las características de OpenSearch Service que utilice habitualmente.
| Alarma | Problema |
|---|---|
WarmFreeStorageSpace es >=10 % |
Ha alcanzado el 10 % del total de almacenamiento intermedio gratuito. WarmFreeStorageSpace mide la suma del espacio de almacenamiento intermedio gratuito en MiB. UltraWarm utiliza Amazon S3 en lugar de discos adjuntos. |
HotToWarmMigrationQueueSizeEl valor de es >= 20 durante 1 minuto, 3 periodos consecutivos |
Un elevado número de índices se están trasladando simultáneamente del almacenamiento en caliente al UltraWarm. Considere la posibilidad de escalar el clúster. |
HotToWarmMigrationSuccessLatencyEl valor de es >= 1 día, 1 periodo consecutivo |
Si está intentando revertir los índices diarios, configure esta alarma para que se le notifique si el |
El valor máximo de WarmJVMMemoryPressure es >= 95 % durante 1 minuto, 3 periodos consecutivos |
El clúster podría encontrar errores de memoria insuficiente si aumenta el uso. Considere el escalado vertical. OpenSearch Service utiliza la mitad de la RAM de una instancia para la pila de Java, hasta un tamaño de 32 GiB. Puede escalar las instancias verticalmente hasta 64 GiB de RAM y después escalarlas horizontalmente mediante el agregado de instancias. |
El valor máximo de WarmOldGenJVMMemoryPressure es >= 80 % durante 1 minuto, 3 periodos consecutivos |
|
WarmToColdMigrationQueueSizeEl valor de es >= 20 durante 1 minuto, 3 periodos consecutivos |
Un elevado número de índices se están trasladando simultáneamente de UtraWarm a almacenamiento en frío. Considere la posibilidad de escalar el clúster. |
HotToWarmMigrationFailureCountEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
Se pueden producir errores en las migraciones si se realizan durante instantáneas, reubicaciones de particiones o fusiones forzadas. Los errores durante las instantáneas o las reubicaciones de particiones suelen deberse a errores de nodo o problemas de conectividad de S3. La falta de espacio en el disco suele ser la causa subyacente de los errores en las fusiones forzosas. |
WarmToColdMigrationFailureCountEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
Las migraciones suelen fallar cuando se produce un error en los intentos de migrar metadatos de índice al almacenamiento en frío. También pueden producirse errores al eliminar el estado de clúster de índice en caliente. |
WarmToColdMigrationLatencyEl valor de es >= 1 día, 1 periodo consecutivo |
Si está intentando revertir los índices diarios, configure esta alarma para que se le notifique si el |
AlertingDegradedEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
El índice de alerta está en rojo, o uno o más nodos no ajustan a la programación. |
ADPluginUnhealthyEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
El complemento de detección de anomalías no funciona correctamente, ya sea debido a altas tasas de error o porque uno de los índices utilizados está en rojo. |
AsynchronousSearchFailureRateEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
Al menos una búsqueda asíncrona ha fallado en el último minuto, lo que probablemente significa que el nodo coordinador ha fallado. El ciclo de vida de una solicitud de búsqueda asíncrona se administra únicamente en el nodo coordinador, por lo que si el coordinador cae, la solicitud falla. |
AsynchronousSearchStoreHealthEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
El estado del almacén de respuestas de búsqueda asíncrona en el índice persistente está en rojo. Es posible que esté almacenando respuestas asíncronas de gran tamaño, lo que puede desestabilizar un clúster. Intente limitar las respuestas de búsqueda asíncronas a 10 MB o menos. |
SQLUnhealthyEl valor de es >= 1 durante 1 minuto, 3 periodos consecutivos |
El complemento SQL está devolviendo códigos de respuesta 5xx o enviando un DSL de consulta no válido a OpenSearch. Solucione los problemas de las solicitudes que sus clientes hacen al complemento. |
LTRStatus.redEl valor de es >= 1 durante 1 minuto, 1 periodo consecutivo |
Al menos uno de los índices necesarios para ejecutar el complemento Learning to Rank carece de particiones principales y no es funcional. |