Recursos - AWS Data Pipeline

AWS Data Pipeline ya no está disponible para nuevos clientes. Los clientes actuales de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. Más información

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Recursos

En AWS Data Pipeline, un recurso es el recurso informático que realiza el trabajo especificado por una actividad de canalización. AWS Data Pipeline admite los siguientes tipos de recursos:

Ec2Resource

Una instancia EC2 que realiza el trabajo definido por una actividad de canalización.

EmrCluster

Un clúster de Amazon EMR que realiza el trabajo definido por una actividad de canalización, como EmrActivity.

Los recursos pueden ejecutarse en la misma región con su conjunto de datos de trabajo, incluso una región distinta de la de AWS Data Pipeline. Para obtener más información, consulte Uso de una canalización con recursos en varias regiones.

Límites de recursos

AWS Data Pipeline se escala para adaptarse a un número elevado de tareas simultáneas, y es posible configurarlo para crear automáticamente los recursos necesarios para gestionar grandes cargas de trabajo. Estos recursos se crean automáticamente bajo su control y se tienen en cuenta para los límites de recursos de la cuenta de AWS. Por ejemplo, si configura AWS Data Pipeline para que cree automáticamente un clúster de 20 nodos de Amazon EMR para procesar datos y su cuenta de AWS tiene un límite de instancias EC2 establecido en 20, es posible que agote sin darse cuenta sus recursos de reposición disponibles. Como resultado, tenga en cuenta estas restricciones de recursos en el diseño o aumente los límites de su cuenta en consonancia. Para obtener más información sobre Service Limits, consulte Límites de los servicios de AWS en la Referencia general de AWS.

nota

El límite es una instancia por objeto de componente Ec2Resource.

Plataformas admitidas

Las canalizaciones pueden lanzar sus recursos en las siguientes plataformas:

EC2-Classic

Los recursos se ejecutan en una sola red plana que comparte con otros clientes.

EC2-VPC

Los recursos se ejecutan en una nube virtual privada (VPC), que está aislada lógicamente para su cuenta de AWS.

Su cuenta de AWS puede lanzar recursos en ambas plataformas o solo en EC2-VPC, según cada región. Para obtener más información, consulte Plataformas compatibles en la Guía del usuario de Amazon EC2.

Si su cuenta de AWS solo admite EC2-VPC, creamos una VPC predeterminada automáticamente en cada región de AWS. De forma predeterminada, lanzamos sus recursos en una subred predeterminada de la VPC predeterminada. De forma alternativa, puede crear una VPC no predeterminada y especificar una de sus subredes al configurar sus recursos. A continuación, lanzamos sus recursos en la subred especificada de la VPC no predeterminada.

Al lanzar una instancia en una VPC, debe especificar un grupo de seguridad creado específicamente para esa VPC. No puede especificar un grupo de seguridad que ha creado para EC2-Classic al lanzar una instancia en una VPC. Además, debe usar el ID de grupo de seguridad y no el nombre del grupo de seguridad para identificar un grupo de seguridad de una VPC.

Instancias de spot Amazon EC2 con clústers Amazon EMR y AWS Data Pipeline

Las canalizaciones pueden utilizar instancias de spot de Amazon EC2 para los nodos de tareas en sus recursos del clúster de Amazon EMR. De forma predeterminada, las canalizaciones usan instancias bajo demanda. Las instancias de spot le permiten usar instancias EC2 libres y ejecutarlas. El modelo de precios de instancias de spot complementa los modelos de precios de instancias reservadas y bajo demanda, proporcionando posiblemente la opción más rentable para obtener capacidad de cómputo, dependiendo de su aplicación. Para obtener más información, consulte la página de producto de Instancias de spot de Amazon EC2.

Si se usan instancias de spot, AWS Data Pipeline envía el precio máximo ofrecido por la instancia de spot a Amazon EMR cuando se lanza el clúster. También asigna de forma automática el trabajo del clúster al número de nodos de tareas de instancia de spot que se defina mediante el campo taskInstanceCount. AWS Data Pipeline limita las instancias de spot para nodos de tarea a fin de garantizar que haya nodos principales bajo demanda disponibles para ejecutar la canalización.

Puede editar una instancia de recurso de canalización fallida o completada para añadir instancias de spot; cuando la canalización vuelve a lanzar el clúster, utiliza instancias de spot para los nodos de tarea.

Consideraciones de instancias de spot

Al usar instancias de spot con AWS Data Pipeline, se aplican las siguientes consideraciones:

  • Las instancias de spot pueden finalizarse cuando el precio de la instancia de spot supere el precio máximo ofrecido por la instancia o por razones de capacidad de Amazon EC2. Sin embargo, los datos no se pierden porque AWS Data Pipeline emplea clústeres con nodos principales que siempre son instancias bajo demanda y no están sujetos a la terminación.

  • Las instancias de spot pueden tardar más tiempo en empezar, ya que cumple su capacidad de forma asíncrona. Por lo tanto, una canalización de una instancia de spot podría ejecutarse más lentamente que una canalización de instancia bajo demanda equivalente.

  • Su clúster podría no ejecutarse si no recibe sus instancias de spot, como cuando su precio máximo es demasiado bajo.