Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
HealthOmics esegui ingressi
Se la definizione del flusso di lavoro specifica i file di input per il flusso di lavoro o le attività del flusso di lavoro HealthOmics , inserisce i file in un volume di memoria virtuale dedicato all'esecuzione del flusso di lavoro. Questi file di input sono di sola lettura, il che impedisce alle attività di modificare i potenziali input in altre attività del flusso di lavoro. Per le importazioni di directory, le directory sono anche di sola lettura.
Molte applicazioni di genomica presuppongono che i file indice siano collocati insieme ai file di sequenza (ad esempio un file associato bai
a un file). bam
Per includere i file indice, specificateli come input delle attività nella definizione del flusso di lavoro.
Argomenti
Gestione delle dimensioni dei parametri di esecuzione
Quando si avvia un'esecuzione, si specificano gli input di esecuzione nell'oggetto o file JSON dei parametri di esecuzione. È possibile specificare fino a 50 KB di parametri di esecuzione per il flusso di lavoro. È possibile utilizzare le seguenti tecniche per rimanere entro questo limite di dimensione:
-
Utilizzate le importazioni di directory
Per specificare un numero elevato di file di input, specifica un parametro come posizione Amazon S3 che contiene tutti i file, anziché specificare un parametro per ogni posizione di file. Per ulteriori informazioni, consulta l'argomento successivo (Formati dei parametri di input di Amazon S3).
-
Usa un foglio di esempio
Un foglio di esempio è un file CSV o TSV con una colonna per l'indirizzo fastq.gz (o due per la lettura abbinata) e colonne aggiuntive per i metadati, ad esempio i nomi di esempio. Il foglio di esempio viene specificato come parametro di input di esecuzione anziché come parametro per ogni file di input.
Il flusso di lavoro definisce il modo in cui il foglio di esempio viene mappato alle strutture di dati del flusso di lavoro. Sebbene sia possibile scrivere codice per fogli di esempio in WDL e CWL, questi sono più comuni in. NextFlow Per un esempio, consultate il foglio di esempio sul sito GitHub
nf-core.
Formati dei parametri di input di Amazon S3
Per un parametro di input che accetta una posizione Amazon S3, il parametro può specificare la posizione di un file o di un'intera directory di file. L'utilizzo di una directory presenta i seguenti vantaggi:
-
Comodità: si specifica il nome della directory come parametro. Non si elencano tutti i nomi di file.
-
Compattezza: la dimensione massima del file del parametro di input è 50 KB. Se si fornisce un lungo elenco di nomi di file di input, è possibile superare questo limite.
Amazon S3 è un sistema di storage di oggetti piatto, quindi non supporta le directory. I file vengono raggruppati in una «directory» assegnando a ciascun file lo stesso prefisso key dell'oggetto. Per ulteriori informazioni sui prefissi delle chiavi degli oggetti di Amazon S3, consulta Organizzazione degli oggetti utilizzando i prefissi.
HealthOmics interpreta il valore del parametro di input come segue:
-
Se la posizione di Amazon S3 non termina con una barra o utilizza il modello a glob, HealthOmics prevede che il valore del parametro sia la chiave per un oggetto Amazon S3.
Ad esempio, si specifica di inserire file1.fastq
s3://myfiles/runs/inputs/a/file1.fastq
-
Se la posizione Amazon S3 termina con una barra, HealthOmics interpreta il valore del parametro come un prefisso Amazon S3. Carica tutti gli oggetti Amazon S3 con quel prefisso.
Ad esempio, puoi specificare
s3://myfiles/runs/inputs/a/
di caricare tutti gli oggetti le cui chiavi iniziano con questo prefisso. -
Per Nextflow, HealthOmics supporta il modello glob per Amazon URIs S3 nei parametri di input.
Ad esempio, puoi specificare
“s3://myfiles/runs/inputs/a/*.gz”
di inserire tutti i file.gz le cui chiavi iniziano con questo prefisso.
Gestione della doppia barra specifica per lingua negli input di Amazon S3
HealthOmics mantiene il comportamento del motore nativo per ogni motore di flusso di lavoro durante la gestione delle doppie barre in Amazon S3 URIs, in modo da non dover apportare modifiche ai flussi di lavoro durante la migrazione verso. HealthOmics Le sezioni seguenti descrivono come ogni motore gestisce diversi scenari.
WDL
Se il parametro di input include una doppia barra al centro o alla fine dell'URI, il motore WDL mantiene la doppia barra.
Parametro di input | Ubicazione prevista |
---|---|
s3://1.fastq myfiles/runs/inputs//file | s3://1. fastq myfiles/runs/inputs//file |
s3:////myfiles/runs/inputs | s3:////myfiles/runs/inputs |
Flusso successivo
Se il parametro di input include una doppia barra al centro dell'URI, il motore Nextflow mantiene la doppia barra. Per una doppia barra alla fine dell'URI, il motore Nextflow la risolve in una singola barra.
Parametro di input | Ubicazione prevista |
---|---|
s3://1.fastq myfiles/runs/inputs//file | s3://1. fastq myfiles/runs/inputs//file |
s3://myfiles//runs/inputs//*.gz | s3://myfiles//runs/inputs//*.gz |
s3://myfiles//runs/inputs// | s3://myfiles//runs/inputs/ |
CWL
Se il parametro di input include una doppia barra al centro o alla fine dell'URI, il motore CWL mantiene la doppia barra.
Parametro di input | Ubicazione prevista |
---|---|
s3://myfiles// runs/inputs//file 1.fastq | s3://myfiles// 1.fastq runs/inputs//file |
s3://myfiles//runs/inputs// | s3://myfiles//runs/inputs// |
Stati di archiviazione degli input di Amazon S3
HealthOmics può recuperare gli oggetti Amazon S3 che S3 fornisce in tempo reale. Per gli oggetti che si trovano nei seguenti stati di archiviazione archiviati, restore gli oggetti a cui renderli disponibili: HealthOmics
-
Classi di storage Flexible Retrieval o Deep Archive in Amazon S3 Glacier.
-
Livelli Archived Access o Deep Archive Access in Intelligent tiering.
Per informazioni sul ripristino degli oggetti, consulta Restoring an archived object nella Amazon S3 User Guide.