Criar trabalhos de ETL visuais - AWS Glue

Criar trabalhos de ETL visuais

Criar trabalhos de ETL visuais com o AWS Glue Studio

O AWS Glue Studio oferece uma interface visual para criar, executar e monitorar trabalhos de Extração/Transformação/Carga (ETL) no AWS Glue. Um trabalho no AWS Glue consiste na lógica de negócios que realiza o trabalho de extração, transformação e carregamento (ETL). Com o AWS Glue Studio, é possível compor visualmente fluxos de trabalho de transformação de dados e executá-los perfeitamente no mecanismo de ETL sem servidor baseado em Apache Spark do AWS Glue. É possível criar trabalhos que movem e transformam dados entre vários armazenamentos e fluxos de dados usando uma interface de arrastar e soltar sem precisar aprender Spark ou escrever código.

Um trabalho do AWS Glue encapsula um script que se conecta aos dados de origem, os processa e, depois, os grava no destino de dados. Normalmente, um trabalho executa scripts de extração, transformação e carga (ETL). Os trabalhos podem executar scripts desenhados para os ambientes de runtime do Apache Spark e do Ray. Os trabalhos também podem executar scripts Python de uso geral (trabalhos em shell do Python). Os acionadores do AWS Glue podem iniciar trabalhos com base em uma programação ou um evento, ou ainda sob demanda. É possível monitorar trabalhos para entender as métricas do runtime, status de conclusão, duração e hora de início.

Você pode usar scripts gerados pelo AWS Glue ou fornecer os seus próprios scripts. Com um esquema de fonte e um local de destino ou esquema, o gerador de códigos do AWS Glue Studio pode criar automaticamente um script da API Apache Spark (PySpark). Você pode usar esse script como ponto de partida e editá-lo para atingir seus objetivos.

O AWS Glue pode gravar arquivos de saída em vários formatos de dados. Cada tipo de trabalho pode ser compatível com diferentes formatos de saída. Para alguns formatos de dados, é possível gravar formatos de compressão comuns.

Gerenciar trabalhos do AWS Glue no Console da AWS

Para visualizar trabalhos existentes, faça login no AWS Management Console e abra o console do AWS Glue em https://console.aws.amazon.com/glue/. Em seguida, escolha a guia Jobs no AWS Glue. A lista Jobs exibe o local do script associado a cada trabalho, a hora em que o trabalho foi modificado pela última vez e a opção atual do marcador de trabalho.

Você pode criar trabalhos na seção ETL do console do AWS Glue. Ao criar um novo trabalho, ou depois de ter salvo seu trabalho, você pode usar o AWS Glue Studio para modificar seus trabalhos de ETL. Você pode fazer isso editando os nós no editor visual ou editando o script de trabalho no modo de desenvolvedor. Você também pode adicionar e remover nós no editor visual para criar trabalhos de ETL mais complicados.

Próximas etapas para criar um trabalho no AWS Glue Studio

Use o editor de trabalhos visual para configurar nós para seu trabalho. Cada nó representa uma ação, como ler dados do local de origem ou aplicar uma transformação aos dados. Cada nó adicionado ao trabalho tem propriedades que fornecem informações sobre o local dos dados ou a transformação.

As próximas etapas para criar e gerenciar seus trabalhos são:

Criar fluxos visuais de ETL com o Amazon SageMaker

Com um fluxo de trabalho do Estúdio Unificado Amazon SageMaker, é possível configurar e executar uma série de tarefas no Estúdio Unificado Amazon SageMaker. Os fluxos de trabalho do Estúdio Unificado Amazon SageMaker usam o Apache Airflow para modelar procedimentos de processamento de dados e orquestrar seus artefatos de código do Estúdio Unificado Amazon SageMaker. Para obter mais informações, consulte Usar fluxos de trabalho no Estúdio Unificado Amazon SageMaker.