Como instalar dependências do Python - Amazon Managed Workflows for Apache Airflow

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como instalar dependências do Python

Uma dependência do Python é qualquer pacote ou distribuição não incluído na instalação básica do Apache Airflow para sua versão do Apache Airflow em seu ambiente Amazon Managed Workflows for Apache Airflow. Este tópico descreve as etapas para instalar dependências do Apache Airflow Python em seu ambiente Amazon MWAA usando um requirements.txt arquivo em seu bucket do Amazon S3.

Pré-requisitos

Você precisará do seguinte antes de concluir as etapas nesta página.

  • Permissões — Seu administrador Conta da AWS deve ter concedido acesso à política de controle de MWAAFull ConsoleAccess acesso da Amazon para seu ambiente. Além disso, seu ambiente Amazon MWAA deve ser autorizado pela sua função de execução para acessar os AWS recursos usados pelo seu ambiente.

  • Acesso — Se você precisar de acesso a repositórios públicos para instalar dependências diretamente no servidor web, seu ambiente deverá ser configurado com acesso ao servidor web de rede pública. Para obter mais informações, consulte Modos de acesso do Apache Airflow.

  • Configuração do Amazon S3 — O bucket do Amazon S3 usado para armazenar DAGs seus plug-ins plugins.zip personalizados e dependências do Python deve ser configurado com acesso público requirements.txt bloqueado e controle de versão ativado.

Como funciona

No Amazon MWAA, você instala todas as dependências do Python fazendo o upload de um arquivo requirements.txt no bucket do Amazon S3 e então especificando a versão do arquivo no console do Amazon MWAA sempre que atualiza o arquivo. O Amazon MWAA executa pip3 install -r requirements.txt para instalar as dependências do Python no programador do Apache Airflow e em cada um dos operadores.

Para executar dependências do Python em seu ambiente, você deve fazer três coisas:

  1. Crie um arquivo requirements.txt localmente.

  2. Faça upload do requirements.txt local para seu bucket no Amazon S3.

  3. Especifique a versão desse arquivo no campo Arquivo de requisitos no console do Amazon MWAA.

nota

Se for a primeira vez que você cria e faz o upload de um requirements.txt para o seu bucket do Amazon S3, também será preciso especificar o caminho para o arquivo no console do Amazon MWAA. Você só precisa concluir esta etapa uma vez.

Visão geral das dependências do Python

Você pode instalar extras do Apache Airflow e outras dependências do Python a partir do Python Package PyPi Index (.org), do Python .whl wheels () ou das dependências do Python hospedadas em um repositório privado compatível com /PEP-503 em seu ambiente. PyPi

Limites de localização e tamanho das dependências do Python

O agendador do Apache Airflow e os trabalhadores pesquisam os pacotes no arquivo e requirements.txt os pacotes são instalados no ambiente em. /usr/local/airflow/.local/bin

  • Limites de tamanho. Recomendamos um arquivo requirements.txt que faça referência a bibliotecas cujo tamanho combinado seja menor que 1 GB. Quanto mais bibliotecas o Amazon MWAA precisar instalar, maior será o tempo de inicialização em um ambiente. Embora o Amazon MWAA não limite explicitamente o tamanho das bibliotecas instaladas, se as dependências não puderem ser instaladas em dez minutos, o serviço Fargate atingirá o tempo limite e tentará reverter o ambiente para um estado estável.

Como criar um arquivo requirements.txt

As etapas a seguir descrevem as etapas que recomendamos para criar um arquivo requirements.txt localmente.

Etapa 1: teste as dependências do Python usando o utilitário Amazon MWAA CLI

  • O utilitário da interface de linha de comandos (CLI) replica localmente um ambiente do Amazon Managed Workflows for Apache Airflow.

  • A CLI cria localmente uma imagem de contêiner Docker semelhante a uma imagem de produção do Amazon MWAA. Isso permite que você execute um ambiente Apache Airflow local para desenvolver e DAGs testar plug-ins e dependências personalizados antes da implantação no Amazon MWAA.

  • Para executar a CLI, consulte on. aws-mwaa-docker-images GitHub

Etapa 2: criar o requirements.txt

A seção a seguir descreve como especificar dependências do Python do Python Package Index em um arquivo requirements.txt.

Apache Airflow v3
  1. Testar localmente. Adicione bibliotecas adicionais de forma iterativa para encontrar a combinação certa de pacotes e suas versões, antes de criar um arquivo requirements.txt. Para executar o utilitário Amazon MWAA CLI, consulte on. aws-mwaa-docker-images GitHub

  2. Revise os extras do pacote Apache Airflow. Para acessar uma lista dos pacotes instalados para o Apache Airflow v3 no Amazon MWAA, consulte no site. aws-mwaa-docker-images requirements.txt GitHub

  3. Adicione uma declaração de restrições. Adicione o arquivo de restrições do seu ambiente Apache Airflow v3 na parte superior do seu arquivo. requirements.txt Os arquivos de restrições do Apache Airflow especificam as versões do provedor disponíveis no momento de um lançamento do Apache Airflow.

    No exemplo a seguir, substitua {environment-version} pelo número da versão do seu ambiente e {Python-version} pela versão do Python compatível com seu ambiente.

    Para obter informações sobre a versão do Python compatível com seu ambiente Apache Airflow, consulte Versões do Apache Airflow.

    --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-{Airflow-version}/constraints-{Python-version}.txt"

    Se o arquivo de restrições determinar que o pacote xyz==1.0 não é compatível com outros pacotes no seu ambiente, pip3 install falhará para impedir que bibliotecas incompatíveis sejam instaladas no ambiente. Se a instalação falhar em qualquer pacote, você poderá acessar os registros de erros de cada componente do Apache Airflow (o agendador, o trabalhador e o servidor web) no fluxo de log correspondente em Logs. CloudWatch Para obter mais informações sobre os tipos de log, consulteAcessando os registros do Airflow na Amazon CloudWatch.

  4. Pacotes do Apache Airflow. Adicione os extras do pacote e a versão (==). Isso ajuda a evitar que pacotes com o mesmo nome, mas com versões diferentes, sejam instalados em seu ambiente.

    apache-airflow[package-extra]==2.5.1
  5. Bibliotecas Python. Adicione o nome do pacote e a versão (==) em seu arquivo requirements.txt. Isso ajuda a evitar que uma atualização futura de última hora do PyPidomínio.org seja aplicada automaticamente.

    library == version
    exemplo Boto3 e psycopg2-binary

    Esse exemplo de código é fornecido para fins de demonstração. As bibliotecas boto e psycopg2-binary estão incluídas na instalação básica do Apache Airflow v3 e não precisam ser especificadas em um arquivo. requirements.txt

    boto3==1.17.54 boto==2.49.0 botocore==1.20.54 psycopg2-binary==2.8.6

    Se um pacote for especificado sem uma versão, o Amazon MWAA instalará a versão mais recente do pacote em .org. PyPi Esta versão pode entrar em conflito com outros pacotes em seurequirements.txt.

Apache Airflow v2
  1. Testar localmente. Adicione bibliotecas adicionais de forma iterativa para encontrar a combinação certa de pacotes e suas versões, antes de criar um arquivo requirements.txt. Para executar o utilitário Amazon MWAA CLI, consulte on. aws-mwaa-docker-images GitHub

  2. Revise os extras do pacote Apache Airflow. Para acessar uma lista dos pacotes instalados para o Apache Airflow v2 no Amazon MWAA, consulte no site. aws-mwaa-docker-images requirements.txt GitHub

  3. Adicione uma declaração de restrições. Adicione o arquivo de restrições do seu ambiente Apache Airflow v2 na parte superior do seu arquivo requirements.txt. Os arquivos de restrições do Apache Airflow especificam as versões do provedor disponíveis no momento de um lançamento do Apache Airflow.

    A partir do Apache Airflow v2.7.2, seu arquivo de requisitos deve incluir uma declaração --constraint. Se você não fornecer uma restrição, o Amazon MWAA especificará uma para garantir que os pacotes listados em seus requisitos sejam compatíveis com a versão do Apache Airflow que você está usando.

    No exemplo a seguir, substitua {environment-version} pelo número da versão do seu ambiente e {Python-version} pela versão do Python compatível com seu ambiente.

    Para obter informações sobre a versão do Python compatível com seu ambiente Apache Airflow, consulte Versões do Apache Airflow.

    --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-{Airflow-version}/constraints-{Python-version}.txt"

    Se o arquivo de restrições determinar que o pacote xyz==1.0 não é compatível com outros pacotes no seu ambiente, pip3 install falhará para impedir que bibliotecas incompatíveis sejam instaladas no ambiente. Se a instalação falhar em qualquer pacote, você poderá acessar os registros de erros de cada componente do Apache Airflow (o agendador, o trabalhador e o servidor web) no fluxo de log correspondente em Logs. CloudWatch Para obter mais informações sobre os tipos de log, consulteAcessando os registros do Airflow na Amazon CloudWatch.

  4. Pacotes do Apache Airflow. Adicione os extras do pacote e a versão (==). Isso ajuda a evitar que pacotes com o mesmo nome, mas com versões diferentes, sejam instalados em seu ambiente.

    apache-airflow[package-extra]==2.5.1
  5. Bibliotecas Python. Adicione o nome do pacote e a versão (==) em seu arquivo requirements.txt. Isso ajuda a evitar que uma atualização futura de última hora do PyPidomínio.org seja aplicada automaticamente.

    library == version
    exemplo Boto3 e psycopg2-binary

    Esse exemplo de código é fornecido para fins de demonstração. As bibliotecas boto e psycopg2-binary estão incluídas na instalação básica do Apache Airflow v2 e não precisam ser especificadas em um arquivo requirements.txt.

    boto3==1.17.54 boto==2.49.0 botocore==1.20.54 psycopg2-binary==2.8.6

    Se um pacote for especificado sem uma versão, o Amazon MWAA instalará a versão mais recente do pacote em .org. PyPi Esta versão pode entrar em conflito com outros pacotes em seurequirements.txt.

Como fazer upload de requirements.txt para o Amazon S3

Você pode usar o console do Amazon S3 ou o AWS Command Line Interface (AWS CLI) para carregar um requirements.txt arquivo no seu bucket do Amazon S3.

Usando o AWS CLI

O AWS Command Line Interface (AWS CLI) é uma ferramenta de código aberto que permite que você interaja com AWS serviços usando comandos em seu shell de linha de comando. Para concluir as etapas nesta página, é necessário o seguinte:

Para fazer o upload usando o AWS CLI
  1. Use o comando a seguir para listar todos os seus buckets do Amazon S3.

    aws s3 ls
  2. Use o seguinte comando para listar os arquivos e pastas no bucket do Amazon S3 para seu ambiente.

    aws s3 ls s3://YOUR_S3_BUCKET_NAME
  3. O comando a seguir faz upload de um arquivo requirements.txt para um bucket do Amazon S3.

    aws s3 cp requirements.txt s3://amzn-s3-demo-bucket/requirements.txt

Usar o console do Amazon S3

O console do Amazon S3 é uma interface de usuário baseada na Web que permite criar e gerenciar os recursos no bucket do Amazon S3.

Fazer o upload usando o console do Amazon S3
  1. Abra a página Ambientes no console do Amazon MWAA.

  2. Escolha um ambiente.

  3. Selecione o link do bucket do S3 no código do DAG no painel do S3 para abrir o bucket de armazenamento no console.

  4. Escolha Carregar.

  5. Escolha Adicionar arquivo.

  6. Selecione a cópia local do seu requirements.txt e escolha Carregar.

Como instalar dependências do Python em seu ambiente

Esta seção descreve como instalar as dependências que você fez upload no seu bucket do Amazon S3 especificando o caminho para o arquivo requirements.txt e especificando a versão do arquivo requirements.txt sempre que for atualizado.

Como especificar o caminho para requirements.txt no console Amazon MWAA (pela primeira vez)

Se for a primeira vez que você cria e faz o upload de um requirements.txt para o seu bucket do Amazon S3, também será preciso especificar o caminho para o arquivo no console do Amazon MWAA. Você só precisa concluir esta etapa uma vez.

  1. Abra a página Ambientes no console do Amazon MWAA.

  2. Escolha um ambiente.

  3. Escolha Editar.

  4. No código DAG no painel Amazon S3, escolha Procurar S3 ao lado do campo Arquivo de requisitos - opcional.

  5. Selecione o arquivo requirements.txt no bucket do Amazon S3.

  6. Selecione Escolher.

  7. Selecione Avançar, Atualizar ambiente.

É possível começar a usar os novos pacotes logo após a conclusão da atualização do ambiente.

Como especificar a versão requirements.txt no console do Amazon MWAA

É necessário especificar a versão do seu arquivo requirements.txt no console do Amazon MWAA sempre que você fizer o upload de uma nova versão do seu requirements.txt no bucket do Amazon S3.

  1. Abra a página Ambientes no console do Amazon MWAA.

  2. Escolha um ambiente.

  3. Escolha Editar.

  4. No painel Código DAG no Amazon S3 , escolha uma versão do requirements.txt na lista suspensa.

  5. Selecione Avançar, Atualizar ambiente.

É possível começar a usar os novos pacotes logo após a conclusão da atualização do ambiente.

Acessando registros para seu requirements.txt

Você pode visualizar os registros do Apache Airflow para o agendador, agendando seus fluxos de trabalho e analisando sua pasta. dags As etapas a seguir descrevem como abrir o grupo de registros para o agendador no console do Amazon MWAA e acessar os registros do Apache Airflow no console Logs. CloudWatch

Para acessar os registros de um requirements.txt
  1. Abra a página Ambientes no console do Amazon MWAA.

  2. Escolha um ambiente.

  3. Escolha grupo de logs de agendador do Airflow no painel Monitoramento.

  4. Escolha o log requirements_install_ip em Fluxos de logs.

  5. Consulte a lista de pacotes que foram instalados no ambiente em/usr/local/airflow/.local/bin. Por exemplo:

    Collecting appdirs==1.4.4 (from -r /usr/local/airflow/.local/bin (line 1)) Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb28kjdsfiuyweb47389789vxbmnbjhsdgf5463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl Collecting astroid==2.4.2 (from -r /usr/local/airflow/.local/bin (line 2))
  6. Analise a lista de pacotes e verifique se algum deles encontrou algum erro durante a instalação. Se algo der errado, você poderá receber um erro semelhante ao seguinte:

    2021-03-05T14:34:42.731-07:00 No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4)) No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4))

Próximas etapas

Teste seus DAGs plug-ins personalizados e dependências do Python localmente usando on. aws-mwaa-docker-images GitHub