HealthOmics Eingaben ausführen - AWS HealthOmics

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

HealthOmics Eingaben ausführen

Wenn in der Workflow-Definition Eingabedateien für den Workflow oder die Workflow-Aufgaben angegeben sind, werden HealthOmics die Dateien auf einem Scratch-Volume bereitgestellt, das für die Workflow-Ausführung vorgesehen ist. Diese Eingabedateien sind schreibgeschützt, wodurch verhindert wird, dass Aufgaben potenzielle Eingaben für andere Aufgaben im Workflow ändern. Bei Verzeichnisimporten sind die Verzeichnisse ebenfalls schreibgeschützt.

Viele Genomikanwendungen gehen davon aus, dass sich die Indexdateien zusammen mit den Sequenzdateien befinden (z. B. eine bai Begleitdatei für eine Datei). bam Um Indexdateien einzubeziehen, geben Sie sie als Aufgabeneingaben in der Workflow-Definition an.

Größe der Ausführungsparameter verwalten

Wenn Sie einen Lauf starten, geben Sie die Eingaben für die Ausführung im JSON-Objekt oder in der JSON-Datei mit den Ausführungsparametern an. Sie können bis zu 50 KB an Ausführungsparametern für den Workflow angeben. Sie können die folgenden Techniken verwenden, um diese Größenbeschränkung einzuhalten:

  • Verwenden Sie Verzeichnisimporte

    Um eine große Anzahl von Eingabedateien anzugeben, geben Sie einen Parameter als Amazon S3 S3-Speicherort an, der alle Dateien enthält, anstatt für jeden Dateispeicherort einen Parameter anzugeben. Weitere Informationen finden Sie im nächsten Thema (Amazon S3 S3-Eingabeparameterformate).

  • Verwenden Sie ein Musterblatt

    Ein Musterblatt ist eine CSV- oder TSV-Datei mit einer Spalte für die Adresse fastq.gz (oder zwei für gepaarte Lesevorgänge) und zusätzlichen Spalten für Metadaten wie Probennamen. Sie geben das Musterblatt als Eingabeparameter für den Lauf an und nicht als Parameter für jede Eingabedatei.

    Ihr Workflow definiert, wie Ihr Musterblatt den Datenstrukturen im Workflow zugeordnet wird. Sie könnten zwar Code für Musterblätter in WDL und CWL schreiben, sie sind jedoch häufiger in. NextFlow Ein Beispiel finden Sie im Beispielblatt auf der GitHub nf-core-Website.

Amazon S3 S3-Eingabeparameterformate

Für einen Eingabeparameter, der einen Amazon S3 S3-Speicherort akzeptiert, kann der Parameter den Speicherort einer Datei oder eines ganzen Dateiverzeichnisses angeben. Die Verwendung eines Verzeichnisses hat die folgenden Vorteile:

  • Komfort — Sie geben den Verzeichnisnamen als Parameter an. Sie listen nicht jeden Dateinamen auf.

  • Kompaktheit — Die maximale Dateigröße des Eingabeparameters beträgt 50 KB. Wenn Sie eine lange Liste von Eingabedateinamen angeben, können Sie dieses Maximum überschreiten.

Amazon S3 ist ein flaches Objektspeichersystem und unterstützt daher keine Verzeichnisse. Sie gruppieren Dateien in einem „Verzeichnis“, indem Sie jeder Datei dasselbe Objektschlüsselpräfix geben. Weitere Informationen zu Amazon S3 S3-Objektschlüsselpräfixen finden Sie unter Objekte mithilfe von Präfixen organisieren.

HealthOmics interpretiert den Wert des Eingabeparameters wie folgt:

  • Wenn der Amazon S3 S3-Standort nicht mit einem Schrägstrich endet oder das Glob-Muster verwendet, wird HealthOmics erwartet, dass der Parameterwert der Schlüssel für ein Amazon S3 S3-Objekt ist.

    Sie geben beispielsweise an, file1.fastq s3://myfiles/runs/inputs/a/file1.fastq einzugeben

  • Wenn der Amazon S3 S3-Standort mit einem Schrägstrich endet, wird der Parameterwert als Amazon S3 S3-Präfix HealthOmics interpretiert. Es lädt alle Amazon S3 S3-Objekte mit diesem Präfix.

    Sie können beispielsweise angeben, dass alle Objekte geladen werden s3://myfiles/runs/inputs/a/ sollen, deren Schlüssel mit diesem Präfix beginnen.

  • HealthOmics Unterstützt für Nextflow das Glob-Muster für Amazon S3 URIs in Eingabeparametern.

    Sie können beispielsweise angeben, dass alle .gz-Dateien eingegeben werden “s3://myfiles/runs/inputs/a/*.gz” sollen, deren Schlüssel mit diesem Präfix beginnen.

Sprachspezifische Behandlung von Doppelschrägstrichen in Amazon S3 S3-Eingaben

HealthOmics behält das native Engine-Verhalten für jede Workflow-Engine bei, wenn doppelte Schrägstriche in Amazon S3 verarbeitet werden URIs, sodass Sie bei der Migration zu keine Änderungen an Ihren Workflows vornehmen müssen. HealthOmics In den folgenden Abschnitten wird beschrieben, wie jede Engine mit verschiedenen Szenarien umgeht.

WDL

Wenn der Eingabeparameter einen doppelten Schrägstrich in der Mitte oder am Ende des URI enthält, behält die WDL-Engine den doppelten Schrägstrich bei.

Eingabeparameter Erwarteter Standort
s3://myfiles/runs/inputs//file1.fastq s3://1.fastq myfiles/runs/inputs//file
s3:////myfiles/runs/inputs s3://myfiles/runs/inputs//

Nächster Ablauf

Wenn der Eingabeparameter einen doppelten Schrägstrich in der Mitte des URI enthält, behält die Nextflow-Engine den doppelten Schrägstrich bei. Bei einem doppelten Schrägstrich am Ende der URI löst die Nextflow-Engine ihn in einen einzigen Schrägstrich auf.

Eingabeparameter Erwarteter Standort
s3://myfiles/runs/inputs//file1.fastq s3://1.fastq myfiles/runs/inputs//file
s3://myfiles//runs/inputs//*.gz s3://myfiles//runs/inputs//*.gz
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs/

CWL

Wenn der Eingabeparameter einen doppelten Schrägstrich in der Mitte oder am Ende des URI enthält, behält die CWL-Engine den doppelten Schrägstrich bei.

Eingabeparameter Erwarteter Standort
s3://myfiles// runs/inputs//file 1.fastq s3://myfiles// 1.fastq runs/inputs//file
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs//

Status des Amazon S3 S3-Eingabearchivs

HealthOmics kann Amazon S3 S3-Objekte, die S3 liefert, in Echtzeit abrufen. Für Objekte, die sich in den folgenden archivierten Speicherzuständen befinden, restore die Objekte, für die sie verfügbar gemacht werden sollen HealthOmics:

  • Flexible Retrieval- oder Deep Archive-Speicherklassen in Amazon S3 Glacier.

  • Stufen „Archived Access“ oder „Deep Archive Access“ im Rahmen von Intelligent Tiering.

Informationen zum Wiederherstellen von Objekten finden Sie unter Wiederherstellen eines archivierten Objekts im Amazon S3 S3-Benutzerhandbuch.