Choix du matériel pour votre cluster Amazon EMR - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Choix du matériel pour votre cluster Amazon EMR

Sayde Aguilar, Amiin Samatar et Diego Valencia, Amazon Web Services ()AWS

Août 2023 (historique du document)

Amazon EMR est un outil de traitement des mégadonnées. Il utilise des logiciels open source, en particulier des outils Apache tels qu'Apache Spark et Apache Hudi. En outre, il propose plusieurs options de configuration et d'utilisation d'un pay-as-you-go modèle peu coûteux.

Ce guide explique comment concevoir votre cluster Amazon EMR en fonction de cette élasticité et fournit les meilleures pratiques à suivre lors du choix du matériel.

Présentation

Amazon EMR est développé à l'aide d'Apache Hadoop MapReduce, un framework permettant de traiter de grandes quantités de données. Hadoop MapReduce traite les données dans des clusters distribués en même temps en utilisant une logique parallèle, ce qui signifie que chaque processus possède son propre processeur. Amazon EMR utilise un cluster Hadoop de serveurs virtuels structurés sur Amazon Elastic Compute Cloud (Amazon). EC2 Cela signifie que tous les processus parallèles sont réalisés sur des ordinateurs autonomes exécutés sur Amazon Web Services (AWS).

Un cluster Hadoop est un type spécifique de cluster informatique utilisé pour traiter de grandes quantités de données non structurées dans des environnements parallèles ou distribués. L'une des principales caractéristiques d'un cluster Hadoop est qu'il est hautement évolutif et qu'il peut être configuré pour accélérer le traitement des données. L'évolutivité est atteinte en ajoutant ou en supprimant des nœuds pour augmenter ou diminuer le débit. Sur les clusters Hadoop, chaque donnée est copiée entre les nœuds du cluster, de sorte qu'il n'y a pratiquement aucune perte de données en cas de défaillance d'un nœud.

Sur Amazon EMR, l'élasticité fait référence à la capacité de redimensionnement dynamique. Vous pouvez automatiquement redimensionner le cluster et apporter les modifications nécessaires. Vous n'avez pas à vous fier à la conception matérielle initiale.

Ce guide explique comment concevoir votre cluster Amazon EMR en fonction de cette élasticité et fournit les meilleures pratiques à suivre lors du choix du matériel.