Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengelola dependensi Python di requirements.txt
Topik ini menjelaskan cara menginstal dan mengelola dependensi Python dalam file untuk lingkungan Alur Kerja Terkelola Amazon requirements.txt untuk Apache Airflow.
Pengujian DAGs menggunakan utilitas Amazon MWAA CLI
-
Utilitas antarmuka baris perintah (CLI) mereplikasi Alur Kerja Terkelola Amazon untuk lingkungan Apache Airflow secara lokal.
-
CLI membangun image container Docker secara lokal yang mirip dengan image produksi Amazon MWAA. Anda dapat menggunakan ini untuk menjalankan lingkungan Apache Airflow lokal untuk mengembangkan dan DAGs menguji, plugin kustom, dan dependensi sebelum menerapkan ke Amazon MWAA.
-
Untuk menjalankan CLI, lihat pada. aws-mwaa-docker-images
GitHub
Menginstal dependensi Python menggunakan PyPi Format File Persyaratan .org
Opsi satu: dependensi Python dari Indeks Paket Python
Bagian berikut menjelaskan cara menentukan dependensi Python dari Indeks Paketrequirements.txt
Opsi dua: Roda Python (.whl)
Roda Python adalah format paket yang dirancang untuk mengirimkan perpustakaan dengan artefak yang dikompilasi. Ada beberapa manfaat paket roda sebagai metode untuk menginstal dependensi di Amazon MWAA:
-
Instalasi lebih cepat - file WHL disalin ke wadah sebagai satu ZIP, dan kemudian diinstal secara lokal, tanpa harus mengunduh masing-masing.
-
Konflik yang lebih sedikit — Anda dapat menentukan kompatibilitas versi untuk paket Anda terlebih dahulu. Akibatnya, tidak perlu mengerjakan versi yang kompatibel
pipsecara rekursif. -
Ketahanan yang lebih besar — Dengan pustaka yang dihosting secara eksternal, persyaratan hilir dapat berubah, mengakibatkan ketidakcocokan versi antar kontainer di lingkungan Amazon MWAA. Dengan tidak bergantung pada sumber eksternal untuk dependensi, setiap kontainer memiliki pustaka yang sama terlepas dari kapan setiap wadah dipakai.
Kami merekomendasikan metode berikut untuk menginstal dependensi Python dari arsip roda Python () di file Anda. .whl requirements.txt
Metode
Menggunakan plugins.zip file di bucket Amazon S3
Penjadwal Apache Airflow, pekerja, dan server web (untuk Apache Airflow v2.2.2 dan yang lebih baru) mencari plugin khusus selama startup pada wadah Fargate yang dikelola untuk lingkungan Anda di. AWS/usr/local/airflow/plugins/ Proses ini dimulai sebelum Amazon MWAA untuk dependensi *pip3 install -r requirements.txt Python dan startup layanan Apache Airflow. plugins.zipFile dapat digunakan untuk file apa pun yang Anda tidak ingin terus berubah selama eksekusi lingkungan, atau Anda tidak ingin memberikan akses ke pengguna yang menulis DAGs. Misalnya, file roda pustaka Python, file PEM sertifikat, dan file YAMAL konfigurasi.
Bagian berikut menjelaskan cara memasang roda yang ada di plugins.zip file di bucket Amazon S3 Anda.
-
Unduh file WHL yang diperlukan Anda dapat menggunakan
pip downloadyang ada requirements.txtdi Amazon MWAA atau wadah Amazon Linux 2 aws-mwaa-docker-imageslainnya untuk menyelesaikan dan mengunduh file roda Python yang diperlukan. pip3 download -r "$AIRFLOW_HOME/dags/requirements.txt" -d "$AIRFLOW_HOME/plugins"cd "$AIRFLOW_HOME/plugins"zip "$AIRFLOW_HOME/plugins.zip" * -
Tentukan jalur di Anda
requirements.txt. Tentukan direktori plugin di bagian atas requirements.txt Anda menggunakan--find-linksdan instruksikan untuk piptidak menginstal dari sumber lain menggunakan--no-index, seperti yang tercantum dalam kode berikut: --find-links /usr/local/airflow/plugins --no-indexcontoh roda di requirements.txt
Contoh berikut mengasumsikan Anda telah mengunggah roda dalam
plugins.zipfile di root bucket Amazon S3 Anda. Contoh:--find-links /usr/local/airflow/plugins --no-index numpyAmazon MWAA mengambil
numpy-1.20.1-cp37-cp37m-manylinux1_x86_64.whlroda daripluginsfolder dan menginstalnya di lingkungan Anda.
Menggunakan file WHL yang dihosting di URL
Bagian berikut menjelaskan cara memasang roda yang di-host di URL. URL harus dapat diakses publik, atau dapat diakses dari dalam VPC Amazon khusus yang Anda tentukan untuk lingkungan Amazon MWAA Anda.
-
Berikan URL. Berikan URL ke roda di Anda
requirements.txt.contoh arsip roda pada URL publik
Contoh berikut mengunduh roda dari situs publik.
--find-links https://files.pythonhosted.org/packages/ --no-indexAmazon MWAA mengambil roda dari URL yang Anda tentukan dan menginstalnya di lingkungan Anda.
catatan
URLs tidak dapat diakses dari server web pribadi yang menginstal persyaratan di Amazon MWAA v2.2.2 dan yang lebih baru.
Membuat file WHL dari DAG
Jika Anda memiliki server web pribadi menggunakan Apache Airflow v2.2.2 atau yang lebih baru dan Anda tidak dapat menginstal persyaratan karena lingkungan Anda tidak memiliki akses ke repositori eksternal, Anda dapat menggunakan DAG berikut untuk mengambil persyaratan MWAA Amazon yang ada dan mengemasnya di Amazon S3:
from airflow import DAG from airflow.operators.bash_operator import BashOperator from airflow.utils.dates import days_ago S3_BUCKET = 'my-s3-bucket' S3_KEY = 'backup/plugins_whl.zip' with DAG(dag_id="create_whl_file", schedule_interval=None, catchup=False, start_date=days_ago(1)) as dag: cli_command = BashOperator( task_id="bash_command", bash_command=f"mkdir /tmp/whls;pip3 download -r /usr/local/airflow/requirements/requirements.txt -d /tmp/whls;zip -j /tmp/plugins.zip /tmp/whls/*;aws s3 cp /tmp/plugins.zip s3://amzn-s3-demo-bucket/{S3_KEY}" )
Setelah menjalankan DAG, gunakan file baru ini sebagai Amazon MWAA Andaplugins.zip, opsional, dikemas dengan plugin lain. Kemudian, perbarui Anda requirements.txt sebelumnya dengan --find-links /usr/local/airflow/plugins dan --no-index tanpa menambahkan. --constraint
Metode ini dapat Anda gunakan untuk menggunakan pustaka yang sama secara offline.
Opsi tiga: Dependensi Python yang dihosting pada Repo yang Sesuai /PEP-503 pribadi PyPi
Bagian berikut menjelaskan cara menginstal tambahan Apache Airflow yang di-host di URL pribadi dengan otentikasi.
-
Tambahkan nama pengguna dan kata sandi Anda sebagai opsi konfigurasi Apache Airflow. Contoh:
-
foo.user:YOUR_USER_NAME -
foo.pass:YOUR_PASSWORD
-
-
Buat
requirements.txtfile Anda. Gantikan placeholder dalam contoh berikut dengan URL pribadi Anda, dan nama pengguna dan kata sandi yang telah Anda tambahkan sebagai opsi konfigurasi Apache Airflow. Contoh:--index-url https://${AIRFLOW__FOO__USER}:${AIRFLOW__FOO__PASS}@my.privatepypi.com -
Tambahkan pustaka tambahan apa pun ke
requirements.txtfile Anda. Contoh:--index-url https://${AIRFLOW__FOO__USER}:${AIRFLOW__FOO__PASS}@my.privatepypi.com my-private-package==1.2.3
Mengaktifkan log di konsol Amazon MWAA
Peran eksekusi untuk lingkungan Amazon MWAA Anda memerlukan izin untuk mengirim log ke CloudWatch Log. Untuk memperbarui izin peran eksekusi, lihat. Peran eksekusi Amazon MWAA
Anda dapat mengaktifkan log Apache Airflow di INFOWARNING,,ERROR, atau level. CRITICAL Saat Anda memilih level log, Amazon MWAA mengirimkan log untuk level tersebut dan semua tingkat keparahan yang lebih tinggi. Misalnya, jika Anda mengaktifkan log di INFO level tersebut, Amazon MWAA mengirimkan INFO log danWARNING,ERROR, dan tingkat CRITICAL log ke CloudWatch Log. Sebaiknya aktifkan log Apache Airflow di INFO tingkat agar penjadwal mengakses log yang diterima untuk file. requirements.txt
Mengakses log di konsol CloudWatch Log
Anda dapat mengakses log Apache Airflow untuk penjadwal yang menjadwalkan alur kerja Anda dan mengurai folder Anda. dags Langkah-langkah berikut menjelaskan cara membuka grup log untuk penjadwal di konsol Amazon MWAA, dan mengakses log Apache Airflow di konsol Log. CloudWatch
Untuk mengakses log untuk requirements.txt
-
Buka halaman Lingkungan
di konsol Amazon MWAA. -
Pilih lingkungan.
-
Pilih grup log penjadwal aliran udara di panel Pemantauan.
-
Pilih
requirements_install_iplog masuk Aliran log. -
Lihat daftar paket yang diinstal pada lingkungan di
/usr/local/airflow/.local/bin. Contoh:Collecting appdirs==1.4.4 (from -r /usr/local/airflow/.local/bin (line 1)) Downloading https://files.pythonhosted.org/packages/3b/00/2344469e2084fb28kjdsfiuyweb47389789vxbmnbjhsdgf5463acd6cf5e3db69324/appdirs-1.4.4-py2.py3-none-any.whl Collecting astroid==2.4.2 (from -r /usr/local/airflow/.local/bin (line 2)) -
Tinjau daftar paket dan apakah salah satu dari ini mengalami kesalahan selama instalasi. Jika terjadi kesalahan, Anda bisa mendapatkan kesalahan yang mirip dengan yang berikut ini:
2021-03-05T14:34:42.731-07:00 No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4)) No matching distribution found for LibraryName==1.0.0 (from -r /usr/local/airflow/.local/bin (line 4))
Mengakses kesalahan di Apache Airflow UI
Anda juga dapat memeriksa Apache Airflow UI untuk mengidentifikasi apakah ada kesalahan terkait dengan masalah lain. Kesalahan paling umum yang dapat Anda temui dengan Apache Airflow di Amazon MWAA adalah:
Broken DAG: No module namedx
Jika Anda menemukan kesalahan ini di UI Apache Airflow Anda, Anda mungkin kehilangan ketergantungan yang diperlukan dalam file Anda. requirements.txt
Masuk ke Apache Airflow
Anda memerlukan Kebijakan akses Apache Airflow UI: Amazon MWAAWeb ServerAccess izin untuk Akun AWS in AWS Identity and Access Management (IAM) untuk mengakses UI Apache Airflow Anda.
Untuk mengakses UI Apache Airflow
-
Buka halaman Lingkungan
di konsol Amazon MWAA. -
Pilih lingkungan.
-
Pilih Buka UI Aliran Udara.
Contoh requirements.txt skenario
Anda dapat mencampur dan mencocokkan berbagai format dalam format Andarequirements.txt. Contoh berikut menggunakan kombinasi berbagai cara untuk menginstal ekstra.
contoh Ekstra di PyPi .org dan URL publik
Anda perlu menggunakan --index-url opsi saat menentukan paket dari PyPi .org, selain paket pada URL publik, seperti repo yang sesuai dengan PEP 503 kustom. URLs
aws-batch == 0.6 phoenix-letter >= 0.3 --index-url http://dist.repoze.org/zope2/2.10/simple zopelib