Resources - AWS Data Pipeline

AWS Data Pipeline non è più disponibile per i nuovi clienti. I clienti esistenti di AWS Data Pipeline possono continuare a utilizzare il servizio normalmente. Ulteriori informazioni

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Resources

In AWS Data Pipeline, una risorsa è la risorsa computazionale che esegue il lavoro specificato da un'attività di pipeline. AWS Data Pipeline supporta i seguenti tipi di risorse:

Ec2Resource

Un'istanza EC2 che esegue il lavoro definito da un'attività di pipeline.

EmrCluster

Un cluster Amazon EMR che esegue il lavoro definito da un'attività di pipeline, ad esempio. EmrActivity

Le risorse possono essere eseguite nella stessa regione con i set di dati attivi e anche una regione diversa da AWS Data Pipeline. Per ulteriori informazioni, consulta Utilizzo di una pipeline con risorse in più regioni.

Limiti delle risorse

AWS Data Pipeline si adatta a un numero enorme di attività simultanee ed è possibile configurarlo per creare automaticamente le risorse necessarie per gestire carichi di lavoro di grandi dimensioni. Queste risorse create automaticamente sono sotto il controllo dell'utente e vengono conteggiate ai fini dei limiti delle risorse dell'account AWS. Ad esempio, se configuri per creare automaticamente un cluster Amazon EMR AWS Data Pipeline a 20 nodi per elaborare i dati e il tuo account AWS ha un limite di istanze EC2 impostato su 20, potresti inavvertitamente esaurire le risorse di backfill disponibili. Di conseguenza, è necessario considerare queste limitazioni in termini di risorse nel progetto oppure aumentare i limiti dell'account in base alle necessità. Per ulteriori informazioni sulle restrizioni dei servizi, consulta Restrizioni dei servizi AWS nella Guida di riferimento generale di AWS.

Nota

Il limite è un'istanza per l'oggetto componente Ec2Resource.

Piattaforme supportate

Le pipeline possono avviare le tue risorse nelle seguenti piattaforme:

EC2-Classic

Le risorse vengono eseguite in una rete semplice, singola condivisa con altri clienti.

EC2-VPC

Le risorse vengono eseguite in un cloud privato virtuale (VPC, Virtual Private Cloud), logicamente limitato all'account AWS.

L'account AWS è in grado di avviare risorse in entrambe le piattaforme oppure solo in EC2-VPC, in base alle regioni. Per ulteriori informazioni, consulta Supported Platforms nella Amazon EC2 User Guide.

Se l'account AWS supporta solo EC2-VPC, è necessario creare un VPC di default in ciascuna regione AWS. Per impostazione predefinita, è necessario avviare le proprie risorse in una sottorete di default del VPC predefinito. In alternativa, è possibile creare un VPC non predefinito e specificare una delle relative sottoreti quando si configurano le proprie risorse, quindi è necessario lanciare le proprie risorse nella sottorete specificata del VPC non predefinito.

Quando avvii un'istanza in un VPC, devi specificare un gruppo di sicurezza creato in modo specifico per quel VPC. Non è possibile specificare un gruppo di sicurezza creato per un EC2-Classic quando si avvia un'istanza in un VPC. Inoltre, è necessario utilizzare l'ID del gruppo di sicurezza e non il nome del gruppo di sicurezza per identificare un gruppo di sicurezza per un VPC.

Istanze Spot Amazon EC2 con cluster Amazon EMR e AWS Data Pipeline

Le pipeline possono utilizzare le istanze Spot di Amazon EC2 per i nodi di attività nelle risorse del cluster Amazon EMR. Per impostazione predefinita, le pipeline utilizzano le istanze on demand. Le istanze Spot consentono di usare le istanze EC2 inutilizzate ed eseguirle. Il modello di tariffazione delle istanze Spot è complementare a quello di istanze riservate e on demand, che possono potenzialmente offrire opzioni più convenienti per acquistare capacità di elaborazione, a seconda dell'applicazione per cui vengono impiegate. Per ulteriori informazioni, consulta la pagina di prodotto Istanze Spot di Amazon EC2.

Quando utilizzi istanze Spot, AWS Data Pipeline invia il prezzo massimo dell'istanza Spot ad Amazon EMR al momento dell'avvio del cluster. Alloca automaticamente il lavoro del cluster al numero di nodi di attività dell'istanza Spot che definisci utilizzando il campo. taskInstanceCount AWS Data Pipeline limita le istanze Spot per i nodi di attività per garantire che i nodi principali su richiesta siano disponibili per eseguire la pipeline.

È possibile modificare un'istanza di risorse di pipeline non riuscita o completata per aggiungere le istanze Spot. Quando la pipeline lancia di nuovo il cluster, utilizza le istanze Spot per i nodi di task.

Considerazioni sulle istanze Spot

Quando utilizzi le istanze Spot con AWS Data Pipeline, valgono le seguenti considerazioni:

  • Le tue istanze Spot possono terminare quando il prezzo dell'istanza Spot supera il prezzo massimo per l'istanza o per motivi di capacità di Amazon EC2. Tuttavia, non perderai i tuoi dati perché AWS Data Pipeline utilizza cluster con nodi principali che sono sempre istanze on demand e non soggetti a chiusura.

  • Le istanze Spot possono richiedere più tempo per l'avvio in quanto soddisfano la capacità in modo asincrono. Pertanto, una pipeline di un'istanza Spot può essere eseguita più lentamente rispetto a una pipeline equivalente di un'istanza on demand.

  • Il cluster potrebbe non essere eseguito se non si ricevono le istanze Spot, ad esempio nel caso in cui il prezzo massimo sia troppo basso.