HealthOmics esegui ingressi - AWS HealthOmics

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

HealthOmics esegui ingressi

Se la definizione del flusso di lavoro specifica i file di input per il flusso di lavoro o le attività del flusso di lavoro HealthOmics , inserisce i file in un volume di memoria virtuale dedicato all'esecuzione del flusso di lavoro. Questi file di input sono di sola lettura, il che impedisce alle attività di modificare i potenziali input in altre attività del flusso di lavoro. Per le importazioni di directory, le directory sono anche di sola lettura.

Molte applicazioni di genomica presuppongono che i file indice siano collocati insieme ai file di sequenza (ad esempio un file associato bai a un file). bam Per includere i file indice, specificateli come input delle attività nella definizione del flusso di lavoro.

Gestione delle dimensioni dei parametri di esecuzione

Quando si avvia un'esecuzione, si specificano gli input di esecuzione nell'oggetto o file JSON dei parametri di esecuzione. È possibile specificare fino a 50 KB di parametri di esecuzione per il flusso di lavoro. È possibile utilizzare le seguenti tecniche per rimanere entro questo limite di dimensione:

  • Utilizzate le importazioni di directory

    Per specificare un numero elevato di file di input, specifica un parametro come posizione Amazon S3 che contiene tutti i file, anziché specificare un parametro per ogni posizione di file. Per ulteriori informazioni, consulta l'argomento successivo (Formati dei parametri di input di Amazon S3).

  • Usa un foglio di esempio

    Un foglio di esempio è un file CSV o TSV con una colonna per l'indirizzo fastq.gz (o due per la lettura abbinata) e colonne aggiuntive per i metadati, ad esempio i nomi di esempio. Il foglio di esempio viene specificato come parametro di input di esecuzione anziché come parametro per ogni file di input.

    Il flusso di lavoro definisce il modo in cui il foglio di esempio viene mappato alle strutture di dati del flusso di lavoro. Sebbene sia possibile scrivere codice per fogli di esempio in WDL e CWL, questi sono più comuni in. NextFlow Per un esempio, consultate il foglio di esempio sul sito GitHub nf-core.

Formati dei parametri di input di Amazon S3

Per un parametro di input che accetta una posizione Amazon S3, il parametro può specificare la posizione di un file o di un'intera directory di file. L'utilizzo di una directory presenta i seguenti vantaggi:

  • Comodità: si specifica il nome della directory come parametro. Non si elencano tutti i nomi di file.

  • Compattezza: la dimensione massima del file del parametro di input è 50 KB. Se si fornisce un lungo elenco di nomi di file di input, è possibile superare questo limite.

Amazon S3 è un sistema di storage di oggetti piatto, quindi non supporta le directory. I file vengono raggruppati in una «directory» assegnando a ciascun file lo stesso prefisso key dell'oggetto. Per ulteriori informazioni sui prefissi delle chiavi degli oggetti di Amazon S3, consulta Organizzazione degli oggetti utilizzando i prefissi.

HealthOmics interpreta il valore del parametro di input come segue:

  • Se la posizione di Amazon S3 non termina con una barra o utilizza il modello a glob, HealthOmics prevede che il valore del parametro sia la chiave per un oggetto Amazon S3.

    Ad esempio, si specifica di inserire file1.fastq s3://myfiles/runs/inputs/a/file1.fastq

  • Se la posizione Amazon S3 termina con una barra, HealthOmics interpreta il valore del parametro come un prefisso Amazon S3. Carica tutti gli oggetti Amazon S3 con quel prefisso.

    Ad esempio, puoi specificare s3://myfiles/runs/inputs/a/ di caricare tutti gli oggetti le cui chiavi iniziano con questo prefisso.

  • Per Nextflow, HealthOmics supporta il modello glob per Amazon URIs S3 nei parametri di input.

    Ad esempio, puoi specificare “s3://myfiles/runs/inputs/a/*.gz” di inserire tutti i file.gz le cui chiavi iniziano con questo prefisso.

Gestione della doppia barra specifica per lingua negli input di Amazon S3

HealthOmics mantiene il comportamento del motore nativo per ogni motore di flusso di lavoro durante la gestione delle doppie barre in Amazon S3 URIs, in modo da non dover apportare modifiche ai flussi di lavoro durante la migrazione verso. HealthOmics Le sezioni seguenti descrivono come ogni motore gestisce diversi scenari.

WDL

Se il parametro di input include una doppia barra al centro o alla fine dell'URI, il motore WDL mantiene la doppia barra.

Parametro di input Ubicazione prevista
s3://1.fastq myfiles/runs/inputs//file s3://1. fastq myfiles/runs/inputs//file
s3:////myfiles/runs/inputs s3:////myfiles/runs/inputs

Flusso successivo

Se il parametro di input include una doppia barra al centro dell'URI, il motore Nextflow mantiene la doppia barra. Per una doppia barra alla fine dell'URI, il motore Nextflow la risolve in una singola barra.

Parametro di input Ubicazione prevista
s3://1.fastq myfiles/runs/inputs//file s3://1. fastq myfiles/runs/inputs//file
s3://myfiles//runs/inputs//*.gz s3://myfiles//runs/inputs//*.gz
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs/

CWL

Se il parametro di input include una doppia barra al centro o alla fine dell'URI, il motore CWL mantiene la doppia barra.

Parametro di input Ubicazione prevista
s3://myfiles// runs/inputs//file 1.fastq s3://myfiles// 1.fastq runs/inputs//file
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs//

Stati di archiviazione degli input di Amazon S3

HealthOmics può recuperare gli oggetti Amazon S3 che S3 fornisce in tempo reale. Per gli oggetti che si trovano nei seguenti stati di archiviazione archiviati, restore gli oggetti a cui renderli disponibili: HealthOmics

  • Classi di storage Flexible Retrieval o Deep Archive in Amazon S3 Glacier.

  • Livelli Archived Access o Deep Archive Access in Intelligent tiering.

Per informazioni sul ripristino degli oggetti, consulta Restoring an archived object nella Amazon S3 User Guide.