Componentes da arquitetura de um data warehouse do Amazon Redshift - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Componentes da arquitetura de um data warehouse do Amazon Redshift

É recomendável ter uma compreensão básica dos principais componentes da arquitetura em um data warehouse do Amazon Redshift. Esse conhecimento pode ajudar você a entender melhor como criar suas consultas e tabelas para obter uma performance ideal.

Um data warehouse no Amazon Redshift consiste nos seguintes componentes principais de arquitetura:

  • Clusters: um cluster, composto por um ou mais nós de computação, é o principal componente da infraestrutura de um data warehouse do Amazon Redshift. Os nós de computação são transparentes para aplicações externas, mas sua aplicação cliente interage diretamente somente com o nó líder. Um cluster típico tem dois ou mais nós de computação. Os nós de computação são coordenados por meio do nó líder.

  • Nó líder: um nó líder gerencia as comunicações dos programas clientes e de todos os nós de computação. Um nó líder também prepara os planos para executar uma consulta sempre que uma consulta for enviada a um cluster. Após a conclusão dos planos, o nó líder compila o código, distribui o código compilado para os nós de computação e, então, atribui fatias de dados a cada nó de computação para processar os resultados da consulta.

  • Nó de computação: um nó de computação executa uma consulta. O nó líder compila o código de elementos individuais do plano para executar a consulta e o atribui aos nós de computação individuais. Os nós de computação executam o código compilado e reenviam os resultados intermediários ao nó líder para agregação final. Cada nó de computação possui sua própria CPU, memória e armazenamento em disco anexado dedicados. À medida que o workload cresce, você pode aumentar a capacidade computacional e a capacidade de armazenamento de um cluster aumentando o número de nós, atualizando o tipo de nó ou ambos.

  • Fatia do nó: um nó de computação é dividido em unidades chamadas fatias. Cada fatia em um nó de computação recebe uma parte da memória do nó e do espaço em disco em que processa uma parte da workload atribuída ao nó. Assim, as fatias funcionam em paralelo para completar a operação. Os dados são distribuídos entre fatias com base no estilo de distribuição e na chave de distribuição de uma tabela específica. Uma distribuição uniforme dos dados possibilita que o Amazon Redshift atribua uniformemente workloads às fatias e maximize as vantagens do processamento paralelo. O número de fatias por nó de computação é decidido com base no tipo de nó. Para obter mais informações, consulte Clusters e nós no Amazon Redshift na documentação do Amazon Redshift.

  • Processamento paralelo massivo (MPP): o Amazon Redshift usa a arquitetura MPP para processar dados rapidamente, até mesmo consultas complexas e grandes quantidades de dados. Vários nós de computação executam o mesmo código de consulta em partes dos dados para maximizar o processamento paralelo.

  • Aplicação cliente: o Amazon Redshift se integra a diversas ferramentas de extração, transformação e carregamento (ETL), relatórios de business intelligence (BI), mineração de dados e analytics. Todas as aplicações cliente se comunicam com o cluster somente por meio do nó líder.

O diagrama a seguir mostra como os componentes de arquitetura de um data warehouse do Amazon Redshift trabalham juntos para acelerar as consultas.

O nó líder e os nós de computação em um cluster do Amazon Redshift processando uma consulta de um cliente.