Migration de la charge de travail vers les tâches AWS Glue Spark Migration de la charge de travail vers AWS Lambda Migration de la charge de travail vers Amazon ECS/Fargate Migration de la charge de travail vers Amazon Managed Workflows pour Apache Airflow Python Operator Migration de la charge de travail vers des postes de formation en Amazon SageMaker AI IA

Migrer depuis les jobs shell AWS Glue Python

AWS a lancé les jobs shell AWS Glue Python en 2018 AWS a lancé les jobs shell AWS Glue Python en 2018 afin de permettre aux clients d'exécuter facilement des scripts Python pour des tâches ETL de small-to-medium grande taille et de déclencher des requêtes SQL. Cependant, il existe désormais des options plus modernes et plus flexibles pour faire face aux charges de travail actuelles. PythonShell Cette rubrique explique comment migrer vos charges de travail depuis les jobs shell AWS Glue Python vers l'une de ces options alternatives afin de tirer parti des nouvelles fonctionnalités disponibles.

Cette rubrique explique comment migrer des jobs shell AWS Glue Python vers des options alternatives.

Migration de la charge de travail vers les tâches AWS Glue Spark

AWS Glue Spark et les PySpark jobs vous permettent d'exécuter vos charges de travail de manière distribuée. Comme les jobs AWS Glue Python Shell et les jobs AWS Glue Spark s'exécutent sur la même plateforme, la migration est facile et vous pouvez continuer à utiliser les fonctionnalités AWS Glue existantes que vous utilisez avec les tâches Python Shell, telles que AWS Glue Workflows, AWS Glue Triggers, Amazon EventBridge l'intégration de AWS Glue, l'installation de packages basée sur \ Pip, etc.

Cependant, les tâches AWS Glue Spark sont conçues pour exécuter des charges de travail Spark, et le nombre minimum de travailleurs est de 2. Si vous migrez à partir de tâches shell Python sans modifier vos scripts, un seul travailleur sera réellement utilisé et les autres resteront inactifs. Cela augmentera vos coûts.

Pour que l’opération soit efficace, réécrivez votre script de tâche Python afin d’utiliser les fonctionnalités de Spark et de répartir la charge de travail entre plusieurs travailleurs. Si votre script Python est basé sur Pandas, il est facile de le migrer à l’aide de la nouvelle API Pandas sur Spark. Pour en savoir plus, consultez le blog AWS Big Data : Dive deep into AWS Glue 4.0 pour Apache Spark.

Migration de la charge de travail vers AWS Lambda

AWS Lambda est un service informatique sans serveur qui vous permet d'exécuter du code sans provisionner ni gérer de serveurs. Comme AWS Lambda a des temps de démarrage plus courts et des options de capacité de calcul plus flexibles, vous pouvez bénéficier de ces avantages. Pour gérer des bibliothèques Python supplémentaires, les tâches shell AWS Glue Python utilisent une installation basée sur PIP. Cependant, pour AWS Lambda, vous devez choisir l'une des options suivantes : une archive zip, une image de conteneur ou des couches Lambda.

En revanche, le délai maximum AWS Lambda est de 900 secondes (15 minutes). Si la durée de travail de votre charge de travail AWS Glue Python Shell existante est supérieure à ce montant, ou si votre charge de travail présente un schéma épineux susceptible de prolonger la durée des tâches, nous vous recommandons d'explorer d'autres options au lieu de. AWS Lambda

Migration de la charge de travail vers Amazon ECS/Fargate

Amazon Elastic Container Service (Amazon ECS) est un service entièrement géré qui simplifie le déploiement, la gestion et le dimensionnement des applications conteneurisées. AWS Fargate est un moteur de calcul sans serveur pour les charges de travail conteneurisées exécutées sur Amazon ECS et ( Amazon Elastic Kubernetes Service Amazon EKS). Il n’y a pas de délai d’expiration maximal sur Amazon ECS et Fargate, c’est donc une bonne option pour les tâches de longue durée. Comme vous avez le contrôle total sur l’image de votre conteneur, vous pouvez importer votre script Python et des bibliothèques Python supplémentaires dans le conteneur et les utiliser. Cependant, vous devez conteneuriser votre script Python pour utiliser cette approche.

Migration de la charge de travail vers Amazon Managed Workflows pour Apache Airflow Python Operator

Amazon Managed Workflows for Apache Airflow (Managed Workflows for Apache Airflow) est un service d'orchestration géré pour Apache Airflow qui facilite la configuration et l' end-to-endexploitation de pipelines de données dans le cloud à grande échelle. Si vous avez déjà un environnement MWAA, il sera facile d'utiliser l'opérateur Python au lieu des jobs AWS Glue Python Shell. L’opérateur Python est un opérateur qui exécute du code Python dans un flux de travail Airflow. Toutefois, si vous ne disposez pas d’un environnement MWAA existant, nous vous recommandons d’explorer d’autres options.

Migration de la charge de travail vers des postes de formation en Amazon SageMaker AI IA

Amazon SageMaker AI La formation est un service d'apprentissage automatique (ML) entièrement géré Amazon SageMaker AI qui vous aide à entraîner efficacement un large éventail de modèles de machine learning à grande échelle. La conteneurisation des charges de travail de machine learning et la capacité de gérer AWS les ressources informatiques sont au cœur des métiers de l' Amazon SageMaker AI IA. Si vous préférez un environnement sans serveur où il n'y a pas de délai d'attente maximal, les emplois de formation en Amazon SageMaker AI IA pourraient vous convenir. Cependant, la latence de démarrage a tendance à être plus longue que celle des jobs AWS Glue Python Shell. Pour les tâches sensibles à la latence, nous vous recommandons d’explorer d’autres options.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Configuration des propriétés des tâches shell Python

Contrôle