Criar e executar uma fonte de dados do Amazon DataZone para o AWS Glue Data Catalog
No Amazon DataZone, você pode criar uma fonte de dados do AWS Glue Data Catalog para importar metadados técnicos das tabelas do banco de dados do AWS Glue. Para adicionar uma fonte de dados para o AWS Glue Data Catalog, o banco de dados de origem já deve existir no AWS Glue.
Ao criar e executar uma fonte de dados do AWS Glue, você adiciona ativos do banco de dados de origem do AWS Glue ao inventário do seu projeto do Amazon DataZone. Você pode executar suas fontes de dados do AWS Glue em um cronograma definido ou sob demanda para criar ou atualizar os metadados técnicos de seus ativos. Durante as execuções da fonte de dados, você pode optar por publicar seus ativos no catálogo do Amazon DataZone e, assim, torná-los detectáveis por todos os usuários do domínio. Você também pode publicar os ativos do inventário do projeto depois de editar os metadados comerciais. Os usuários do domínio podem pesquisar e descobrir seus ativos publicados e solicitar assinaturas desses ativos.
Para adicionar uma fonte de dados do AWS Glue
-
Navegue até o URL do portal de dados do Amazon DataZone e faça login usando a autenticação única (SSO) ou suas credenciais da AWS. Se você for administrador do Amazon DataZone, poderá navegar até o console do Amazon DataZone em https://console.aws.amazon.com/datazone
e fazer login com o local da Conta da AWS onde o domínio foi criado e, em seguida, escolher Open data portal. -
Escolha Selecionar projeto no painel de navegação superior e selecione o projeto ao qual você deseja adicionar a fonte de dados.
-
Navegue até a guia Dados do projeto.
-
No painel de navegação esquerdo, escolha Fontes de dados e, em seguida, Criar fonte de dados.
-
Configure os campos a seguir.
-
Nome: O nome da fonte de dados.
-
Descrição: a descrição da fonte de dados.
-
-
Em Tipo de fonte de dados, escolha AWS Glue.
-
Em Selecionar um ambiente, especifique um ambiente no qual você deseja publicar as tabelas do AWS Glue.
-
Em Seleção de dados, forneça um banco de dados do AWS Glue e insira seus critérios de seleção de tabela. Por exemplo, se você escolher Incluir e inserir
*corporate, o banco de dados incluirá todas as tabelas de origem que terminam com a palavracorporate.Você pode escolher um banco de dados do AWS Glue no menu suspenso ou digitar o nome do banco de dados. O menu suspenso inclui dois bancos de dados: o banco de dados de publicação e o banco de dados de assinaturas do ambiente. Se você quiser trazer ativos de um banco de dados que não foi criado pelo ambiente, digite o nome do banco de dados em vez de selecioná-lo no menu suspenso.
Você pode adicionar várias regras de inclusão e exclusão para tabelas em um único banco de dados. Você também pode adicionar vários bancos de dados usando o botão Adicionar outro banco de dados.
-
Em Qualidade dos dados, você pode escolher Habilitar a qualidade dos dados para essa fonte de dados. Se você fizer isso, o Amazon DataZone importará sua saída de qualidade de dados existente do AWS Glue para o seu catálogo do Amazon DataZone. Por padrão, o Amazon DataZone importa os 100 relatórios de qualidade mais recentes existentes, sem data de expiração, do AWS Glue.
As métricas de qualidade de dados no Amazon DataZone ajudam você a entender a integridade e a precisão de suas fontes de dados. O Amazon DataZone extrai essas métricas de qualidade de dados do AWS Glue para fornecer contexto em um determinado momento, por exemplo, durante uma pesquisa no catálogo de dados corporativos. Os usuários de dados podem ver como as métricas de qualidade de dados mudam com o tempo para seus ativos inscritos. Os produtores de dados podem ingerir as pontuações de qualidade de dados do AWS Glue de acordo com uma programação. O catálogo de dados corporativos do Amazon DataZone também pode exibir métricas de qualidade de dados de sistemas de terceiros por meio de APIs de qualidade de dados. Para obter mais informações, consulte . Qualidade de dados no Amazon DataZone
-
Escolha Próximo.
-
Em Configurações de publicação, escolha se os ativos podem ser imediatamente descobertos no catálogo de dados corporativos. Se você adicioná-los apenas ao inventário, poderá escolher os termos de assinatura posteriormente e publicá-los no catálogo de dados corporativos.
-
Para Geração automática de nomes comerciais, escolha se quer gerar automaticamente metadados para ativos, conforme eles são importados da fonte.
-
(Opcional) Para Formulários de metadados, adicione formulários para definir os metadados que são coletados e salvos quando os ativos são importados para o Amazon DataZone. Para obter mais informações, consulte Criar um formulário de metadados no Amazon DataZone.
-
Em Preferência de execução, escolha quando executar a fonte de dados.
-
Executar em uma programação: especifique as datas e a hora de execução da fonte de dados.
-
Executar sob demanda: você pode iniciar manualmente as execuções da fonte de dados.
-
-
Escolha Próximo.
-
Revise sua configuração da fonte de dados e escolha Criar.
nota
Quando uma fonte de dados do AWS Glue é criada, o Amazon DataZone cria as permissões “somente para leitura” do Lake Formation para o perfil do IAM do ambiente que é usado para criar a fonte de dados para acessar todas as tabelas nos bancos de dados do AWS Glue usados na fonte de dados. Você pode monitorar o status dessas concessões em fontes de dados na página de detalhes do seu ambiente. O Amazon DataZone adiciona as seguintes tags da AWS ao banco de dados do AWS Glue ao conceder acesso ao perfil do IAM do ambiente de publicação: DataZoneDiscoverable_${domainId}: true
Para os ambientes criados antes da versão atual do Amazon DataZone, os membros do projeto não poderão ver as tabelas concedidas no Amazon Athena.