Mengakses set HealthOmics baca dengan Amazon S3 URIs - AWS HealthOmics

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengakses set HealthOmics baca dengan Amazon S3 URIs

Anda dapat menggunakan jalur URI Amazon S3 untuk mengakses set baca penyimpanan urutan aktif Anda.

Dengan jalur URI Amazon S3, Anda dapat menggunakan operasi Amazon S3 untuk membuat daftar, berbagi, dan mengunduh set baca Anda. Akses melalui S3 APIs mempercepat kolaborasi dan integrasi alat mengingat banyak alat industri sudah dibangun untuk dibaca dari S3. Selain itu, Anda dapat berbagi akses ke S3 APIs dengan akun lain dan memberikan akses baca lintas wilayah ke data.

HealthOmics tidak mendukung akses URI Amazon S3 ke set baca yang diarsipkan. Ketika Anda mengaktifkan set baca, itu dikembalikan ke jalur URI yang sama setiap kali.

Dengan data yang dimuat ke HealthOmics toko, karena URI Amazon S3 didasarkan pada titik akses Amazon S3, Anda dapat langsung berintegrasi dengan alat standar industri yang membaca Amazon S3, seperti berikut URIs ini:

  • Aplikasi analisis visual seperti Integrative Genomics Viewer (IGV) atau UCSC Genome Browser.

  • Alur kerja umum dengan ekstensi Amazon S3 seperti CWL, WDL, dan Nextflow.

  • Alat apa pun yang dapat mengautentikasi dan membaca dari titik akses Amazon URIs S3 atau membaca Amazon S3 yang telah ditetapkan sebelumnya. URIs

  • Utilitas Amazon S3 seperti Mountpoint atau. CloudFront

Amazon S3 Mountpoint memungkinkan Anda menggunakan bucket Amazon S3 sebagai sistem file lokal. Untuk mempelajari lebih lanjut tentang Mountpoint dan menginstalnya untuk digunakan, lihat Mountpoint untuk Amazon S3.

Amazon CloudFront adalah layanan jaringan pengiriman konten (CDN) yang dibuat untuk kinerja tinggi, keamanan, dan kenyamanan pengembang. Untuk mempelajari lebih lanjut tentang menggunakan Amazon CloudFront, lihat CloudFront dokumentasi Amazon. Untuk mengatur CloudFront dengan toko urutan, hubungi AWS HealthOmics tim.

Akun root pemilik data diaktifkan untuk tindakan S3:GetObject, S3:GetObjectTagging, dan S3:List Bucket pada awalan penyimpanan urutan. Agar pengguna di akun dapat mengakses data, Anda membuat kebijakan IAM dan melampirkannya ke pengguna atau peran. Untuk contoh kebijakan, lihat Izin untuk akses data menggunakan Amazon S3 URIs.

Anda dapat menggunakan operasi Amazon S3 API berikut pada set baca aktif untuk mencantumkan dan mengambil data Anda. Anda dapat mengakses set baca yang diarsipkan melalui Amazon URIs S3 setelah diaktifkan.

  • GetObject— Mengambil objek dari Amazon S3.

  • HeadObject— Operasi HEAD mengambil metadata dari objek tanpa mengembalikan objek itu sendiri. Operasi ini berguna jika Anda hanya menginginkan metadata objek.

  • ListObjects dan ListObject v2 - Mengembalikan beberapa atau semua (hingga 1.000) objek dalam ember.

  • CopyObject— Membuat salinan objek yang sudah disimpan di Amazon S3. HealthOmicsmendukung penyalinan ke jalur akses Amazon S3, tetapi tidak menulis ke titik akses.

HealthOmics toko urutan mempertahankan identitas semantik file melalui. ETags Sepanjang siklus hidup file, Amazon ETag S3, yang didasarkan pada identitas bitwise, dapat berubah, HealthOmics ETag namun tetap sama. Untuk mempelajari selengkapnya, lihat HealthOmics ETags dan asal-usul data.

Struktur URI Amazon S3 dalam penyimpanan HealthOmics

Semua file dengan Amazon S3 URIs memiliki omics:subjectId dan tag omics:sampleId sumber daya. Anda dapat menggunakan tag ini untuk berbagi akses dengan menggunakan kebijakan IAM melalui pola seperti"s3:ExistingObjectTag/omics:subjectId": "pattern desired".

Struktur file adalah sebagai berikut:

.../account_id/sequenceStore/seq_store_id/readSet/read_set_id/files.

Untuk file yang diimpor ke toko urutan dari Amazon S3, toko urutan mencoba mempertahankan nama sumber asli. Ketika nama bertentangan, sistem menambahkan informasi set baca untuk memastikan bahwa nama file unik. Misalnya, untuk set baca fastq, jika kedua nama file sama, untuk membuat nama unik, dimasukkan sebelum .fastq.gz sourceX atau.fq.gz. Untuk upload langsung, nama file mengikuti pola berikut:

  • Untuk FASTQ— read_set_name _ .fastq.gz sourcex

  • Untuk uBAM/BAM/CRAM —read_set_name. file extensiondengan ekstensi .bam atau.cram. Contohnya adalah NA193948.bam.

Untuk set baca yang BAM atau CRAM, file indeks secara otomatis dihasilkan selama proses konsumsi. Untuk file indeks yang dihasilkan, ekstensi indeks yang tepat di akhir nama file diterapkan. Ini memiliki pola <name of the Source the index is on>.<file index extension>. Ekstensi indeks adalah .bai atau.crai.

Menggunakan IGV yang Dihosting atau Lokal untuk mengakses set baca

IGV adalah browser genom yang digunakan untuk menganalisis file BAM dan CRAM. Ini membutuhkan file dan indeks karena hanya menampilkan sebagian genom pada satu waktu. IGV dapat diunduh dan digunakan secara lokal, dan ada panduan untuk membuat IGV yang dihosting AWS. Versi web publik tidak didukung karena membutuhkan CORS.

IGV lokal bergantung pada AWS konfigurasi lokal untuk mengakses file. Pastikan peran yang digunakan dalam konfigurasi tersebut memiliki kebijakan yang dilampirkan yang memungkinkan GetObject izin kms: Dekripsi dan s3: ke URI s3 dari kumpulan baca yang diakses. Setelah itu, di IGV, Anda dapat menggunakan “File> load from URL” dan paste di URI untuk sumber dan indeks. Atau, presigned URLs dapat dibuat dan digunakan dengan cara yang sama, yang akan melewati konfigurasi AWS. Perhatikan bahwa CORS tidak didukung dengan akses Amazon S3 URI, jadi permintaan yang mengandalkan CORS tidak didukung.

Contoh AWS Hosted IGV bergantung pada AWS Cognito untuk membuat konfigurasi dan izin yang benar di dalam lingkungan. Pastikan kebijakan dibuat dengan izin enableSKMS:Decrypt dan s3: GetObject ke URI Amazon S3 dari set baca yang sedang diakses, dan tambahkan kebijakan ini ke peran yang ditetapkan ke kumpulan pengguna Cognito. Setelah itu, di IGV, Anda dapat menggunakan “File> load from URL” dan masukkan URI untuk sumber dan indeks. Atau, presigned URLs dapat dibuat dan digunakan dengan cara yang sama, yang melewati konfigurasi AWS.

Perhatikan bahwa toko urutan tidak akan muncul di bawah tab “Amazon” karena itu hanya menampilkan bucket yang Anda miliki di Wilayah tempat AWS profil dikonfigurasi.

Menggunakan Samtools atau HTSlib di HealthOmics

HTSlib adalah pustaka inti yang dibagikan oleh beberapa alat seperti Samtools, RSAMTools PySam, dan lainnya. Gunakan HTSlib versi 1.20 atau yang lebih baru untuk mendapatkan dukungan tanpa batas untuk Poin Akses Amazon S3. Untuk versi HTSlib pustaka yang lebih lama, Anda dapat menggunakan solusi berikut:

  • Tetapkan variabel lingkungan untuk host HTS Amazon S3 dengan:. export HTS_S3_HOST="s3.region.amazonaws.com"

  • Hasilkan URL presigned untuk file yang ingin Anda gunakan. Jika BAM atau CRAM sedang digunakan, pastikan bahwa URL presigned dihasilkan untuk file dan indeks. Setelah itu, kedua file dapat digunakan dengan perpustakaan.

  • Gunakan Mountpoint untuk memasang urutan penyimpanan atau membaca awalan set di lingkungan yang sama tempat Anda menggunakan pustaka. HTSlib Dari sini, file dapat diakses dengan menggunakan jalur file lokal.

Menggunakan Mountpoint HealthOmics

Mountpoint untuk Amazon S3 adalah klien file throughput tinggi yang sederhana untuk memasang bucket Amazon S3 sebagai sistem file lokal. Dengan Mountpoint untuk Amazon S3, aplikasi Anda dapat mengakses objek yang disimpan di Amazon S3 melalui operasi file seperti buka dan baca. Mountpoint untuk Amazon S3 secara otomatis menerjemahkan operasi ini ke dalam panggilan API objek Amazon S3, memberikan aplikasi Anda akses ke penyimpanan elastis dan throughput Amazon S3 melalui antarmuka file.

Mountpoint dapat diinstal dengan menggunakan petunjuk instalasi Mountpoint. Mountpoint menggunakan Profil AWS yang bersifat lokal untuk penginstalan dan berfungsi pada tingkat awalan Amazon S3. Pastikan profil yang digunakan memiliki kebijakan yang memungkinkan izin s3:GetObject, s3:ListBucket, dan kms: Dekripsi ke awalan URI Amazon S3 dari kumpulan baca atau penyimpanan urutan yang diakses. Setelah itu, ember dapat dipasang dengan menggunakan jalur berikut:

mount-s3 access point arn local path to mount --prefix prefix to sequence store or read set --region region

Menggunakan CloudFront dengan HealthOmics

Amazon CloudFront adalah layanan jaringan pengiriman konten (CDN) yang dibuat untuk kinerja tinggi, keamanan, dan kenyamanan pengembang. Pelanggan yang ingin menggunakan CloudFront harus bekerja dengan tim Layanan untuk mengaktifkan CloudFront distribusi. Bekerja dengan tim akun Anda untuk melibatkan tim HealthOmics layanan.