Visão geral do Amazon Redshift Spectrum
Esta seção apresenta detalhes para usar o Redshift Spectrum para ler dados do Amazon S3 de forma eficiente.
O Amazon Redshift Spectrum reside em servidores dedicados do Amazon Redshift que são independentes do seu cluster. O Amazon Redshift envia várias tarefas de computação intensiva para a camada do Redshift Spectrum, como a filtragem e a agregação de predicados. Por isso, as consultas do Redshift Spectrum utilizam muito menos a capacidade de processamento do seu cluster do que outras consultas. O Redshift Spectrum também dimensiona de forma inteligente. Com base nas demandas das consultas, o Redshift Spectrum pode usar milhares de instâncias para usufruir do processamento paralelo maciço.
As tabelas do Redshift Spectrum são criadas por meio da definição da estrutura dos arquivos e do seu registro como tabelas em um catálogo de dados externos. O catálogo de dados externos pode ser AWS Glue, o catálogo de dados que vem com o Amazon Athena ou sua própria metastore do Apache Hive. É possível criar e gerenciar tabelas externas a partir do Amazon Redshift usando comandos da linguagem de definição de dados (DDL) ou qualquer outra ferramenta que se conecte ao catálogo de dados externos. As alterações feitas no catálogo de dados externos são disponibilizadas instantaneamente para todos os clusters do Amazon Redshift.
Opcionalmente, você pode dividir as tabelas externas em partições de uma ou mais colunas. Definir partições como parte da tabela externa pode melhorar a performance. A melhora ocorre porque o otimizador de consultas do Amazon Redshift elimina as partições que não contêm dados para consulta.
As visões materializadas nas tabelas do Spectrum podem melhorar consideravelmente o custo e o desempenho. Para obter mais informações, consulte Visões materializadas em tabelas externas de data lake no Amazon Redshift Spectrum.
Após definir suas tabelas do Redshift Spectrum, você pode consultar e unir as tabelas da mesma forma como faz com qualquer outra tabela do Amazon Redshift. O Redshift Spectrum não é compatível com operações de atualização em tabelas externas. Você pode adicionar tabelas do Redshift Spectrum a vários clusters do Amazon Redshift e consultar os mesmos dados no Amazon S3 a partir de qualquer cluster na mesma região da AWS. Quando você atualiza os arquivos de dados do Amazon S3, os dados são disponibilizados instantaneamente para consulta a partir de qualquer um dos clusters do Amazon Redshift.
O AWS Glue Data Catalog que você acessa pode ser criptografado para aumentar a segurança. Se o catálogo do AWS Glue estiver criptografado, você precisará da chave do AWS Key Management Service (AWS KMS) para o AWS Glue acessar o catálogo do AWS Glue. A criptografia do catálogo do AWS Glue não está disponível em todas as regiões da AWS. Para obter uma lista de regiões da AWS compatíveis, consulte Criptografia e acesso seguro para AWS Glue no AWS GlueGuia do desenvolvedor. Para obter mais informações sobre AWS GlueCriptografia do catálogo de dados, consulte Criptografar seu AWS Glue Data Catalog no AWS Glue Guia do desenvolvedor.
nota
Não é possível visualizar os detalhes das tabelas do Redshift Spectrum usando os mesmos recursos das tabelas padrão do Amazon Redshift, como PG_TABLE_DEF, STV_TBL_PERM, PG_CLASS, ou information_schema. Caso sua ferramenta de business intelligence ou análise não reconheça as tabelas externas do Redshift Spectrum, configure sua aplicação para consultar SVV_EXTERNAL_TABLES e SVV_EXTERNAL_COLUMNS.
Regiões do Amazon Redshift Spectrum
O Redshift Spectrum está disponível nas Regiões da AWS onde o Amazon Redshift está disponível, a menos que especificado de outra forma na documentação específica da região. Para a disponibilidade de Região da AWS em regiões comerciais, consulte Endpoints de serviço para a API do Redshift na Referência geral da Amazon Web Services.