Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
HealthOmics ETags dan asal-usul data
A HealthOmics ETag (tag entitas) adalah hash dari konten yang dicerna di toko urutan. Ini menyederhanakan pengambilan dan pemrosesan data sambil mempertahankan integritas konten dari file data yang dicerna. Ini ETag mencerminkan perubahan pada konten semantik objek, bukan metadata-nya. Jenis dan algoritma set baca yang ditentukan menentukan bagaimana ETag dihitung. ETag Perhitungan tidak mengubah file aktual atau data genom. Ketika skema jenis file dari set baca mengizinkannya, urutan menyimpan memperbarui bidang yang ditautkan ke sumber data.
File memiliki identitas bitwise dan identitas semantik. Identitas bitwise berarti bahwa bit dari sebuah file identik, dan identitas semantik berarti bahwa isi dari sebuah file identik. Identitas semantik tahan terhadap perubahan metadata dan perubahan kompresi karena menangkap integritas konten file.
Set baca di penyimpanan HealthOmics urutan menjalani compression/decompression siklus dan pelacakan asal data di seluruh siklus hidup objek. Selama pemrosesan ini, identitas bitwise dari file yang tertelan dapat berubah dan diharapkan berubah setiap kali file diaktifkan; namun, identitas semantik file dipertahankan. Identitas semantik ditangkap sebagai tag HealthOmics entitas, atau ETag yang dihitung selama penyerapan penyimpanan urutan dan tersedia sebagai metadata set baca.
Ketika skema tipe file dari set baca mengizinkannya, lapisan pembaruan penyimpanan urutan ditautkan ke sumber data. Untuk file UBam, BAM, dan CRAM, Comment
tag baru @CO
atau ditambahkan ke header. Komentar berisi ID penyimpanan urutan dan stempel waktu konsumsi.
Amazon S3 ETags
Saat mengakses file menggunakan URI Amazon S3, operasi API Amazon S3 juga dapat mengembalikan nilai Amazon S3 dan checksum. ETag Nilai Amazon S3 ETag dan checksum berbeda dari nilai HealthOmics ETags karena mereka mewakili identitas bitwise file. Untuk mempelajari metadata deskriptif dan Objek selengkapnya, lihat dokumentasi Amazon S3 Object API. ETag Nilai Amazon S3 dapat berubah dengan setiap siklus aktivasi set baca dan Anda dapat menggunakannya untuk memvalidasi pembacaan file. Namun, jangan cache ETag nilai Amazon S3 yang akan digunakan untuk validasi identitas file selama siklus hidup file karena tidak tetap konsisten. Sebaliknya, HealthOmics ETag tetap konsisten sepanjang siklus hidup set baca.
Bagaimana HealthOmics menghitung ETags
ETag Itu dihasilkan dari hash dari konten file yang dicerna. Keluarga ETag algoritme diatur ke secara MD5up default, tetapi dapat dikonfigurasi secara berbeda selama pembuatan penyimpanan urutan. Ketika ETag dihitung, algoritma dan hash yang dihitung ditambahkan ke set baca. MD5 Algoritma yang didukung untuk jenis file adalah sebagai berikut.
-
FASTQ_ MD5up - Menghitung MD5 hash dari sumber set baca FASTQ lengkap yang tidak terkompresi.
-
BAM_ MD5up — Menghitung MD5 hash dari bagian penyelarasan dari sumber kumpulan baca BAM atau UBAM yang tidak terkompresi seperti yang direpresentasikan dalam SAM, berdasarkan referensi tertaut, jika tersedia.
-
CRAM_ MD5up — Menghitung MD5 hash dari bagian penyelarasan dari sumber set baca CRAM yang tidak terkompresi seperti yang direpresentasikan dalam SAM, berdasarkan referensi tertaut.
catatan
MD5 hashing dikenal rentan terhadap tabrakan. Karena itu, dua file yang berbeda mungkin memiliki yang sama ETag jika mereka diproduksi untuk mengeksploitasi tabrakan yang diketahui.
Algoritma berikut didukung untuk SHA256 keluarga. Algoritma dihitung sebagai berikut:
-
FASTQ_ SHA256up - Menghitung hash SHA-256 dari sumber set baca FASTQ lengkap yang tidak terkompresi.
-
BAM_ SHA256up — Menghitung hash SHA-256 dari bagian penyelarasan dari sumber kumpulan baca BAM atau UBAM yang tidak terkompresi seperti yang direpresentasikan dalam SAM, berdasarkan referensi tertaut, jika tersedia.
-
CRAM_ SHA256up — Menghitung hash SHA-256 dari bagian penyelarasan dari sumber set baca CRAM yang tidak terkompresi seperti yang direpresentasikan dalam SAM, berdasarkan referensi tertaut.
Algoritma berikut didukung untuk SHA512 keluarga. Algoritma dihitung sebagai berikut:
-
FASTQ_ SHA512up - Menghitung hash SHA-512 dari sumber set baca FASTQ lengkap yang tidak terkompresi.
-
BAM_ SHA512up — Menghitung hash SHA-512 dari bagian penyelarasan dari sumber kumpulan baca BAM atau UBAM yang tidak terkompresi seperti yang direpresentasikan dalam SAM, berdasarkan referensi tertaut, jika tersedia.
-
CRAM_ SHA512up — Menghitung hash SHA-512 dari bagian penyelarasan dari sumber set baca CRAM yang tidak terkompresi seperti yang direpresentasikan dalam SAM, berdasarkan referensi tertaut.