Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengimpor set baca ke toko HealthOmics urutan
Setelah Anda membuat toko urutan, buat pekerjaan impor untuk mengunggah set baca ke penyimpanan data. Anda dapat mengunggah file dari bucket Amazon S3, atau Anda dapat mengunggah langsung menggunakan operasi API sinkron. Bucket Amazon S3 Anda harus berada di Wilayah yang sama dengan toko urutan Anda.
Anda dapat mengunggah kombinasi set baca yang selaras dan tidak selaras ke dalam penyimpanan urutan Anda, namun, jika ada set baca dalam impor Anda yang selaras, Anda harus menyertakan genom referensi.
Anda dapat menggunakan kembali kebijakan akses IAM yang Anda gunakan untuk membuat toko Referensi.
Topik berikut menjelaskan langkah-langkah utama yang Anda ikuti untuk mengimpor set baca ke dalam penyimpanan urutan Anda dan kemudian mendapatkan informasi tentang data yang diimpor.
Topik
Unggah file ke Amazon S3
Contoh berikut menunjukkan cara memindahkan file ke bucket Amazon S3 Anda.
aws s3 cp s3://1000genomes/phase1/data/HG00100/alignment/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/data/HG00096/alignment/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram s3://your-bucket aws s3 cp s3://gatk-test-data/wgs_ubam/NA12878_20k/NA12878_A.bam s3://your-bucket
Sampel BAM
dan CRAM
digunakan dalam contoh ini memerlukan referensi genom yang berbeda, Hg19
danHg38
. Untuk mempelajari lebih lanjut atau mengakses referensi ini, lihat Referensi Genom Luas
Membuat file manifes
Anda juga harus membuat file manifes di JSON untuk memodelkan pekerjaan impor import.json
(lihat contoh berikut). Jika Anda membuat penyimpanan urutan di konsol, Anda tidak perlu menentukan sequenceStoreId
atauroleARN
, jadi file manifes Anda dimulai dengan sources
input.
Atau, Anda dapat mengunggah file manifes dalam format YAMAL.
Memulai pekerjaan impor
Untuk memulai pekerjaan impor, gunakan AWS CLI perintah berikut.
aws omics start-read-set-import-job --cli-input-json file://import.json
Anda menerima tanggapan berikut, yang menunjukkan penciptaan lapangan kerja yang sukses.
{ "id": "3660451514", "sequenceStoreId": "3936421177", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "CREATED", "creationTime": "2022-07-13T22:14:59.309Z" }
Pantau pekerjaan impor
Setelah pekerjaan impor dimulai, Anda dapat memantau kemajuannya dengan perintah berikut. Dalam contoh berikut, ganti
dengan ID penyimpanan urutan Anda, dan ganti sequence store id
dengan ID impor.job import ID
aws omics get-read-set-import-job --sequence-store-id
--id
sequence store id
job import ID
Berikut ini menunjukkan status untuk semua pekerjaan impor yang terkait dengan ID penyimpanan urutan yang ditentukan.
{ "id": "1234567890", "sequenceStoreId": "1234567890", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "RUNNING", "statusMessage": "The job is currently in progress.", "creationTime": "2022-07-13T22:14:59.309Z", "sources": [ { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam" }, "sourceFileType": "BAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/8625408453", "name": "HG00100", "description": "BAM for HG00100", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz", "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz" }, "sourceFileType": "FASTQ", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "HG00146", "description": "FASTQ for HG00146", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram" }, "sourceFileType": "CRAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/1234568870", "name": "HG00096", "description": "CRAM for HG00096", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam" }, "sourceFileType": "UBAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "NA12878_A", "description": "uBAM for NA12878", "generatedFrom": "GATK Test Data", "readSetID": "1234567890" } ] }
Temukan file urutan yang diimpor
Setelah pekerjaan selesai, Anda dapat menggunakan operasi list-read-setsAPI untuk menemukan file urutan yang diimpor. Dalam contoh berikut, ganti
dengan ID toko urutan Anda.sequence store
id
aws omics list-read-sets --sequence-store-id
sequence store id
Anda menerima tanggapan berikut.
{ "readSets": [ { "id": "0000000001", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/01234567890/readSet/0000000001", "sequenceStoreId": "1234567890", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00100", "description": "BAM for HG00100", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/01234567890/reference/0000000001", "fileType": "BAM", "sequenceInformation": { "totalReadCount": 9194, "totalBaseCount": 928594, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:25:20Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "d1d65429212d61d115bb19f510d4bd02" } }, { "id": "0000000002", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000002", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00146", "description": "FASTQ for HG00146", "fileType": "FASTQ", "sequenceInformation": { "totalReadCount": 8000000, "totalBaseCount": 1184000000, "generatedFrom": "1000 Genomes", "alignment": "UNALIGNED" }, "creationTime": "2022-07-13T23:26:43Z" "creationType": "IMPORT", "etag": { "algorithm": "FASTQ_MD5up", "source1": "ca78f685c26e7cc2bf3e28e3ec4d49cd" } }, { "id": "0000000003", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000003", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00096", "description": "CRAM for HG00096", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/0123456789/reference/0000000001", "fileType": "CRAM", "sequenceInformation": { "totalReadCount": 85466534, "totalBaseCount": 24000004881, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "CRAM_MD5up", "source1": "66817940f3025a760e6da4652f3e927e" } }, { "id": "0000000004", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000004", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "NA12878_A", "description": "uBAM for NA12878", "fileType": "UBAM", "sequenceInformation": { "totalReadCount": 20000, "totalBaseCount": 5000000, "generatedFrom": "GATK Test Data", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "640eb686263e9f63bcda12c35b84f5c7" } } ] }
Dapatkan detail tentang set baca
Untuk melihat detail selengkapnya tentang set baca, gunakan operasi GetReadSetMetadataAPI. Dalam contoh berikut, ganti
dengan ID penyimpanan urutan Anda, dan ganti sequence store id
dengan ID set baca Anda.read set id
aws omics get-read-set-metadata --sequence-store-id
--id
sequence store id
read set id
Anda menerima tanggapan berikut.
{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/2015356892/readSet/9515444019", "creationTime": "2024-01-12T04:50:33.548Z", "creationType": "IMPORT", "creationJobId": "33222111", "description": null, "etag": { "algorithm": "FASTQ_MD5up", "source1": "00d0885ba3eeb211c8c84520d3fa26ec", "source2": "00d0885ba3eeb211c8c84520d3fa26ec" }, "fileType": "FASTQ", "files": { "index": null, "source1": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://
accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 }, "source2": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 } }, "id": "9515444019", "name": "paired-fastq-import", "sampleId": "sampleId-paired-fastq-import", "sequenceInformation": { "alignment": "UNALIGNED", "generatedFrom": null, "totalBaseCount": 30000, "totalReadCount": 200 }, "sequenceStoreId": "2015356892", "status": "ACTIVE", "statusMessage": null, "subjectId": "subjectId-paired-fastq-import" }
Unduh file data set baca
Anda dapat mengakses objek untuk set baca aktif menggunakan operasi Amazon S3 GetObject API. URI untuk objek dikembalikan dalam respons GetReadSetMetadataAPI. Untuk informasi selengkapnya, lihat Mengakses set HealthOmics baca dengan Amazon S3 URIs.
Atau, gunakan operasi HealthOmics GetReadSet API. Anda dapat menggunakan GetReadSet untuk mengunduh secara paralel dengan mengunduh bagian-bagian individual. Bagian-bagian ini mirip dengan bagian Amazon S3. Berikut ini adalah contoh cara mengunduh bagian 1 dari set baca. Dalam contoh berikut, ganti
dengan ID penyimpanan urutan Anda, dan ganti sequence store id
dengan ID set baca Anda.read set id
aws omics get-read-set --sequence-store-id
--id
sequence store id
--part-number 1 outfile.bam
read set id
Anda juga dapat menggunakan HealthOmics Transfer Manager untuk mengunduh file untuk HealthOmics referensi atau set baca. Anda dapat mengunduh HealthOmics Transfer Manager di sini