Errore del cluster Amazon EMR: errore del fattore di replica HDFS - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Errore del cluster Amazon EMR: errore del fattore di replica HDFS

Quando rimuovi un nodo principale da un gruppo di istanze principali o da una flotta di istanze, Amazon EMR potrebbe riscontrare un errore di replica HDFS. Questo errore si verifica quando rimuovi i nodi principali e il numero di nodi principali scende al di sotto del fattore dfs.replication configurato per l'Hadoop Distributed File System (HDFS). Pertanto, Amazon EMR non è in grado di eseguire l'operazione in sicurezza. Per determinare il valore predefinito della dfs.replication configurazione, configurazione HDFS.

Possibili cause

Di seguito sono riportate le possibili cause dell'errore del fattore di replica HDFS:

  • Se si ridimensiona manualmente un gruppo di istanze principale o un parco di istanze al di sotto del fattore configurato. dfs.replication

  • Le tue politiche per la scalabilità gestita o la scalabilità automatica potrebbero consentire la scalabilità per ridurre il numero di nodi principali al di sotto della soglia di. dfs.replication

  • Questo errore può verificarsi anche se Amazon EMR tenta di sostituire un nodo centrale non integro quando un cluster ha il numero minimo di nodi core definito da. dfs.replication

Soluzioni e best practice

Per le soluzioni e le best practice, consulta quanto segue:

  • Quando ridimensionate manualmente un cluster Amazon EMR, non ridimensionatelo al di sotto, dfs.replication poiché Amazon EMR non può completare il ridimensionamento in modo sicuro.

  • Quando utilizzi la scalabilità gestita o la scalabilità automatica, assicurati che la capacità minima del cluster non sia inferiore al fattore. dfs.replication

  • Il numero di istanze principali deve essere almeno più uno. dfs.replication Ciò garantisce che Amazon EMR possa sostituire con successo un nodo principale non integro se hai abilitato la sostituzione del core non integro.

Importante

Il guasto di un singolo nodo core può portare alla perdita di dati HDFS se impostato su 1. dfs.replication Se il tuo cluster dispone di storage HDFS, ti consigliamo di configurare il cluster con almeno quattro nodi principali per i carichi di lavoro di produzione per evitare la perdita di dati e di impostare il dfs.replication fattore su almeno 2.