Consulte dados no Amazon Athena ou no Amazon Redshift na Amazon DataZone - Amazon DataZone

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Consulte dados no Amazon Athena ou no Amazon Redshift na Amazon DataZone

Na Amazon DataZone, quando um assinante tem acesso a um ativo no catálogo, ele pode consumi-lo (consultar e analisar) usando o Amazon Athena ou o editor de consultas v2 do Amazon Redshift. Você deve ser proprietário ou colaborador do projeto para concluir essa tarefa. Dependendo dos esquemas habilitados no projeto, a Amazon DataZone fornece links para o Amazon Athena e/ou o editor de consultas v2 do Amazon Redshift no painel direito da página do projeto no portal de dados.

  1. Navegue até o URL do portal de DataZone dados da Amazon e faça login usando o single sign-on (SSO) ou suas credenciais. AWS Se você for DataZone administrador da Amazon, poderá navegar até o DataZone console da Amazon em https://console.aws.amazon.com/datazone e fazer login com o Conta da AWS local onde o domínio foi criado e, em seguida, escolher Open data portal.

  2. No portal de DataZone dados da Amazon, escolha Procurar lista de projetos e, em seguida, encontre e escolha o projeto em que você tem os dados que deseja analisar.

  3. Se o esquema do Data Lake estiver ativado neste projeto, um link para o Amazon Athena será exibido no painel lateral direito da página inicial do projeto.

    Se o esquema do Data Warehouse estiver ativado nesse projeto, um link para o editor de consultas será exibido no painel lateral direito da página inicial do projeto.

    nota

    Os esquemas são definidos no perfil do ambiente com o qual um projeto é criado.

Escolha o link do Amazon Athena para abrir o editor de consultas do Amazon Athena em uma nova guia no navegador usando as credenciais do projeto para autenticação. O DataZone projeto da Amazon com o qual você está trabalhando é selecionado automaticamente como o grupo de trabalho atual no editor de consultas.

No editor de consultas do Amazon Athena, escreva e execute suas consultas. As tarefas comuns incluem:

Consultar e analisar seus ativos inscritos

Se o acesso aos ativos nos quais seu projeto está inscrito não for concedido automaticamente pela Amazon DataZone, você deverá estar autorizado a acessar os dados subjacentes. Para obter mais informações sobre como conceder acesso adicional, consulte Conceda acesso para assinaturas aprovadas a ativos não gerenciados na Amazon DataZone.

Se o acesso aos ativos nos quais seu projeto está inscrito for concedido automaticamente pela Amazon DataZone, você poderá executar consultas SQL nas tabelas e ver os resultados no Amazon Athena. Para obter mais informações sobre como usar SQL no Amazon Athena, consulte Referência de SQL para Athena.

Quando você navega até o editor de consultas do Amazon Athena depois de escolher o link do Amazon Athena no painel lateral direito da página inicial do projeto, uma lista suspensa Projeto é exibida no canto superior direito do editor de consultas do Amazon Athena e o contexto do seu projeto é selecionado automaticamente.

Você pode ver os seguintes bancos de dados na lista suspensa Banco de dados:

  • Um banco de dados de publicação ({environmentname}_pub_db). O objetivo desse banco de dados é fornecer um ambiente em que você possa produzir novos dados dentro do contexto do seu projeto e depois publicar esses dados no DataZone catálogo da Amazon. Os proprietários e colaboradores do projeto têm acesso de leitura e gravação a esse banco de dados. Os visualizadores do projeto só têm acesso de leitura a esse banco de dados.

  • Um banco de dados de assinaturas ({environmentname}_sub_db). O objetivo desse banco de dados é compartilhar com você os dados que você assinou como membro do projeto no DataZone catálogo da Amazon e permitir que você consulte esses dados.

Criar novas tabelas

Se você se conectar a um bucket do Amazon S3 externo, poderá usar o Amazon Athena para consultar e analisar os ativos de um bucket externo do Amazon S3. Nesse cenário, a Amazon DataZone não tem permissões para conceder acesso diretamente aos dados subjacentes no bucket externo do Amazon S3, e os dados externos do Amazon S3 criados fora do projeto não são gerenciados automaticamente no Lake Formation e não podem ser gerenciados pela Amazon. DataZone Uma alternativa é copiar os dados do bucket externo do Amazon S3 para uma nova tabela dentro do bucket Amazon S3 do projeto usando uma declaração CREATE TABLE no Amazon Athena. Ao executar uma consulta CREATE TABLE no Amazon Athena, você registra a tabela no AWS Glue Data Catalog.

Para especificar o caminho para os dados no Amazon S3, use a propriedade LOCATION, conforme mostrado no seguinte exemplo:

CREATE EXTERNAL TABLE 'test_table'( ... ) ROW FORMAT ... STORED AS INPUTFORMAT ... OUTPUTFORMAT ... LOCATION 's3://bucketname/folder/'

Para obter mais informações, consulte Criar um local do Amazon S3.

Criar uma tabela por meio de resultados de consultas (CTAS) de um bucket do S3 externo

Quando você assina um ativo, o acesso aos dados subjacentes é somente para leitura. É possível usar o Amazon Athena para criar uma cópia da tabela. No Amazon Athena, uma consulta A CREATE TABLE AS SELECT (CTAS) cria uma tabela no Amazon Athena com base nos resultados de uma instrução SELECT de outra consulta. Para obter informações sobre a sintaxe CTAS, consulte CREATE TABLE AS.

O exemplo a seguir cria uma tabela copiando todas as colunas de uma tabela:

CREATE TABLE new_table AS SELECT * FROM old_table;

Na variação a seguir do mesmo exemplo, a instrução SELECT também inclui uma cláusula WHERE. Nesse caso, a consulta seleciona somente as linhas da tabela que satisfazem a cláusula WHERE:

CREATE TABLE new_table AS SELECT * FROM old_table WHERE condition;

O exemplo a seguir cria uma consulta que é executada em um conjunto de colunas de outra tabela:

CREATE TABLE new_table AS SELECT column_1, column_2, ... column_n FROM old_table;

Essa variação do mesmo exemplo cria uma tabela por meio de colunas específicas de várias tabelas:

CREATE TABLE new_table AS SELECT column_1, column_2, ... column_n FROM old_table_1, old_table_2, ... old_table_n;

Essas tabelas recém-criadas agora fazem parte do AWS Glue banco de dados de seus projetos e podem ser descobertas por outras pessoas e compartilhadas com outros DataZone projetos da Amazon publicando os dados como um ativo no catálogo da Amazon. DataZone

No portal de DataZone dados da Amazon, abra um ambiente que usa o esquema do data warehouse. Escolha o link do Amazon Redshift no painel direito na página do ambiente. Será aberta uma caixa de diálogo de confirmação com os detalhes necessários que ajudam você a estabelecer uma conexão com o cluster do Amazon Redshift do seu ambiente ou com o grupo de trabalho do Amazon Redshift sem servidor no Editor de Consultas V2 do Amazon Redshift. Depois de identificar os detalhes necessários para estabelecer a conexão, escolha o botão Abrir Amazon Redshift. Isso abre o editor de consultas v2.0 do Amazon Redshift em uma nova guia no navegador usando credenciais temporárias do ambiente Amazon. DataZone

No editor de consultas, siga as etapas abaixo, dependendo se seu ambiente está usando um grupo de trabalho do Amazon Redshift sem servidor ou um cluster do Amazon Redshift.

Para um grupo de trabalho do Amazon Redshift sem servidor

  1. No editor de consultas, identifique o grupo de trabalho Amazon Redshift Serverless do DataZone ambiente Amazon, clique com o botão direito nele e escolha Criar uma conexão.

  2. Escolha Usuário federado para autenticação.

  3. Forneça o nome do banco de dados do DataZone ambiente Amazon.

  4. Escolha Criar conexão.

Para um cluster do Amazon Redshift:

  1. No editor de consultas, identifique o cluster Amazon Redshift do seu DataZone ambiente Amazon, clique com o botão direito nele e escolha Criar uma conexão.

  2. Selecione Credenciais temporárias usando seu IAM Identity para autenticação.

  3. Se o método de autenticação acima não estiver disponível, abra as Configurações da conta escolhendo o botão de engrenagem no canto inferior esquerdo, escolha Autenticar com credenciais do IAM e salvar. Essa é uma one-time-only configuração.

  4. Forneça o nome do banco de dados do DataZone ambiente Amazon para criar a conexão.

  5. Escolha Criar conexão.

Agora você pode começar a consultar as tabelas e visualizações dentro do cluster Amazon Redshift ou do grupo de trabalho Amazon Redshift Serverless configurado para seu ambiente Amazon. DataZone

Todas as tabelas ou visualizações do Amazon Redshift nas quais você se inscreveu estão vinculadas ao cluster do Amazon Redshift ou ao grupo de trabalho Amazon Redshift sem servidor configurado para o ambiente. Você pode assinar as tabelas e visualizações, bem como publicar quaisquer novas tabelas e visualizações criadas no cluster ou banco de dados do seu ambiente.

Por exemplo, vamos considerar um cenário em que um ambiente está vinculado a um cluster do Amazon Redshift chamado redshift-cluster-1 e a um banco de dados chamado dev nesse cluster. Usando o portal de DataZone dados da Amazon, você pode consultar as tabelas e visualizações que são adicionadas ao seu ambiente. Na seção Analytics tools no painel do lado direito do portal de dados, você pode escolher o link do Amazon Redshift para esse ambiente, que abre o editor de consultas. Em seguida, você pode clicar com o botão direito do mouse no cluster redshift-cluster-1 e criar uma conexão usando credenciais temporárias usando seu IAM Identity Center. Depois que a conexão for estabelecida, você poderá ver todas as tabelas e visualizações às quais seu ambiente tem acesso no banco de dados dev.