HealthOmics ETags und Herkunft der Daten - AWS HealthOmics

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

HealthOmics ETags und Herkunft der Daten

Ein HealthOmics ETag (Entity-Tag) ist ein Hash des aufgenommenen Inhalts in einem Sequenzspeicher. Dies vereinfacht das Abrufen und Verarbeiten von Daten und gewährleistet gleichzeitig die Inhaltsintegrität der aufgenommenen Datendateien. Dies ETag spiegelt Änderungen am semantischen Inhalt des Objekts wider, nicht an seinen Metadaten. Der angegebene Lesesatztyp und der Algorithmus bestimmen, wie der berechnet ETag wird. Die ETag Berechnung ändert nichts an der tatsächlichen Datei oder den Genomdaten. Wenn das Dateitypschema des Lesesatzes dies zulässt, aktualisiert der Sequenzspeicher Felder, die mit der Herkunft der Daten verknüpft sind.

Dateien haben eine bitweise Identität und eine semantische Identität. Die bitweise Identität bedeutet, dass die Bits einer Datei identisch sind, und eine semantische Identität bedeutet, dass der Inhalt einer Datei identisch ist. Semantische Identität ist widerstandsfähig gegenüber Änderungen an Metadaten und Komprimierung, da sie die Inhaltsintegrität der Datei erfasst.

Lesesätze in HealthOmics Sequenzspeichern durchlaufen compression/decompression Zyklen und die Herkunft der Daten wird während des gesamten Lebenszyklus eines Objekts nachverfolgt. Während dieser Verarbeitung kann sich die bitweise Identität einer aufgenommenen Datei ändern, und es wird erwartet, dass sie sich bei jeder Aktivierung einer Datei ändert. Die semantische Identität der Datei bleibt jedoch erhalten. Die semantische Identität wird als HealthOmics Entitäts-Tag erfasst, oder ETag sie wird während der Aufnahme des Sequenzspeichers berechnet und ist als Readset-Metadaten verfügbar.

Wenn das Dateitypschema des Lesesatzes dies zulässt, werden die Felder für die Aktualisierung des Sequenzspeichers mit der Herkunft der Daten verknüpft. Bei UBam-, BAM- und CRAM-Dateien wird der Kopfzeile ein neues @CO OR-Tag hinzugefügt. Comment Der Kommentar enthält die Sequenzspeicher-ID und den Zeitstempel der Aufnahme.

Amazon S3 ETags

Beim Zugriff auf eine Datei über den Amazon S3-URI können Amazon S3 S3-API-Operationen auch Amazon S3 ETag - und Prüfsummenwerte zurückgeben. Die Amazon S3 ETag - und Prüfsummenwerte unterscheiden sich von den HealthOmics ETags , weil sie die bitweise Identität der Datei darstellen. Weitere Informationen zu beschreibenden Metadaten und Objekten finden Sie in der Amazon S3 Object API-Dokumentation. Amazon S3 ETag S3-Werte können sich mit jedem Aktivierungszyklus eines Lesesets ändern, und Sie können sie verwenden, um das Lesen einer Datei zu validieren. Speichern Sie Amazon S3 ETag S3-Werte jedoch nicht im Cache, um sie während des Lebenszyklus der Datei für die Überprüfung der Dateiidentität zu verwenden, da sie nicht konsistent bleiben. Im Gegensatz dazu HealthOmics ETag bleiben sie während des gesamten Lebenszyklus des Lesesets konsistent.

Wie HealthOmics berechnet ETags

Das ETag wird aus einem Hash des aufgenommenen Dateiinhalts generiert. Die ETag Algorithmusfamilie ist MD5up standardmäßig auf eingestellt, kann aber bei der Erstellung des Sequenzspeichers anders konfiguriert werden. Wenn der berechnet ETag wird, werden der Algorithmus und die berechneten Hashes dem Lesesatz hinzugefügt. Die unterstützten MD5 Algorithmen für Dateitypen lauten wie folgt.

  • FASTQ_ MD5up — Berechnet den MD5 Hash einer unkomprimierten, vollständigen FASTQ-Leseset-Quelle.

  • BAM_ MD5up — Berechnet den MD5 Hash des Alignment-Abschnitts einer unkomprimierten BAM- oder UBAM-Readeset-Quelle, wie sie im SAM dargestellt wird, auf der Grundlage der verlinkten Referenz, sofern eine verfügbar ist.

  • CRAM_ MD5up — Berechnet den MD5 Hash des Alignment-Abschnitts der unkomprimierten CRAM-Lesesatz-Quelle, wie er im SAM dargestellt wird, auf der Grundlage der verknüpften Referenz.

Anmerkung

MD5 Hashing ist bekanntermaßen anfällig für Kollisionen. Aus diesem Grund könnten zwei verschiedene Dateien dasselbe haben, ETag wenn sie so hergestellt wurden, dass sie die bekannte Kollision ausnutzen.

Die folgenden Algorithmen werden für die SHA256 Familie unterstützt. Die Algorithmen werden wie folgt berechnet:

  • FASTQ_ SHA256up — Berechnet den SHA-256-Hash einer unkomprimierten, vollständigen FASTQ-Leset-Quelle.

  • BAM_ SHA256up — Berechnet den SHA-256-Hash des Alignment-Abschnitts einer unkomprimierten BAM- oder UBAM-Readeset-Quelle, wie sie im SAM dargestellt wird, auf der Grundlage der verlinkten Referenz, sofern eine verfügbar ist.

  • CRAM_ SHA256up — Berechnet den SHA-256-Hash des Alignment-Abschnitts einer unkomprimierten CRAM-Lesesatz-Quelle, wie er im SAM dargestellt wird, auf der Grundlage der verknüpften Referenz.

Die folgenden Algorithmen werden für die Familie unterstützt. SHA512 Die Algorithmen werden wie folgt berechnet:

  • FASTQ_ SHA512up — Berechnet den SHA-512-Hash einer unkomprimierten, vollständigen FASTQ-Leset-Quelle.

  • BAM_ SHA512up — Berechnet den SHA-512-Hash des Alignment-Abschnitts einer unkomprimierten BAM- oder UBAM-Readeset-Quelle, wie sie im SAM dargestellt wird, auf der Grundlage der verlinkten Referenz, sofern eine verfügbar ist.

  • CRAM_ SHA512up — Berechnet den SHA-512-Hash des Alignment-Abschnitts einer unkomprimierten CRAM-Lesesatz-Quelle, wie er im SAM dargestellt wird, auf der Grundlage der verknüpften Referenz.