기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
HealthOmics 시퀀스 스토어로 읽기 세트 가져오기
시퀀스 스토어를 생성한 후 데이터 스토어에 읽기 세트를 업로드하는 가져오기 작업을 생성합니다. Amazon S3 버킷에서 파일을 업로드하거나 동기 API 작업을 사용하여 직접 업로드할 수 있습니다. Amazon S3 버킷은 시퀀스 스토어와 동일한 리전에 있어야 합니다.
정렬된 읽기 세트와 정렬되지 않은 읽기 세트의 조합을 시퀀스 저장소에 업로드할 수 있지만 가져오기의 읽기 세트 중 하나라도 정렬된 경우 참조 유전체를 포함해야 합니다.
참조 저장소를 생성하는 데 사용한 IAM 액세스 정책을 재사용할 수 있습니다.
다음 주제에서는 시퀀스 스토어로 읽기 세트를 가져온 다음 가져온 데이터에 대한 정보를 가져오는 데 따르는 주요 단계를 설명합니다.
주제
Amazon S3에 파일 업로드
다음 예제에서는 파일을 Amazon S3 버킷으로 이동하는 방법을 보여줍니다.
aws s3 cp s3://1000genomes/phase1/data/HG00100/alignment/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/data/HG00096/alignment/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram s3://your-bucket aws s3 cp s3://gatk-test-data/wgs_ubam/NA12878_20k/NA12878_A.bam s3://your-bucket
이 예제에서 CRAM
사용되는 샘플 BAM
및 에는 서로 다른 유전체 참조인 Hg19
및가 필요합니다Hg38
. 자세한 내용을 알아보거나 이러한 참조에 액세스하려면 오픈 데이터 레지스트리의 The Broad Genome References
매니페스트 파일 생성
또한 가져오기 작업을 모델링하려면 JSON으로 매니페스트 파일을 생성해야 합니다import.json
(다음 예제 참조). 콘솔에서 시퀀스 저장소를 생성하는 경우 sequenceStoreId
또는를 지정할 필요가 roleARN
없으므로 매니페스트 파일이 sources
입력으로 시작됩니다.
또는 매니페스트 파일을 YAML 형식으로 업로드할 수 있습니다.
가져오기 작업 시작
가져오기 작업을 시작하려면 다음 AWS CLI 명령을 사용합니다.
aws omics start-read-set-import-job --cli-input-json file://import.json
작업 생성이 성공했음을 나타내는 다음과 같은 응답을 받게 됩니다.
{ "id": "3660451514", "sequenceStoreId": "3936421177", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "CREATED", "creationTime": "2022-07-13T22:14:59.309Z" }
가져오기 작업 모니터링
가져오기 작업이 시작된 후 다음 명령을 사용하여 진행 상황을 모니터링할 수 있습니다. 다음 예제에서를 시퀀스 스토어 ID
로 바꾸고를 가져오기 IDsequence store id
로 바꿉니다.job import ID
aws omics get-read-set-import-job --sequence-store-id
--id
sequence store id
job import ID
다음은 지정된 시퀀스 스토어 ID와 연결된 모든 가져오기 작업의 상태를 보여줍니다.
{ "id": "1234567890", "sequenceStoreId": "1234567890", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "RUNNING", "statusMessage": "The job is currently in progress.", "creationTime": "2022-07-13T22:14:59.309Z", "sources": [ { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam" }, "sourceFileType": "BAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/8625408453", "name": "HG00100", "description": "BAM for HG00100", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz", "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz" }, "sourceFileType": "FASTQ", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "HG00146", "description": "FASTQ for HG00146", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram" }, "sourceFileType": "CRAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/1234568870", "name": "HG00096", "description": "CRAM for HG00096", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam" }, "sourceFileType": "UBAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "NA12878_A", "description": "uBAM for NA12878", "generatedFrom": "GATK Test Data", "readSetID": "1234567890" } ] }
가져온 시퀀스 파일 찾기
작업이 완료되면 list-read-sets API 작업을 사용하여 가져온 시퀀스 파일을 찾을 수 있습니다. 다음 예제에서는를 시퀀스 스토어 ID
로 바꿉니다.sequence store id
aws omics list-read-sets --sequence-store-id
sequence store id
다음과 같은 응답을 받게 됩니다.
{ "readSets": [ { "id": "0000000001", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/01234567890/readSet/0000000001", "sequenceStoreId": "1234567890", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00100", "description": "BAM for HG00100", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/01234567890/reference/0000000001", "fileType": "BAM", "sequenceInformation": { "totalReadCount": 9194, "totalBaseCount": 928594, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:25:20Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "d1d65429212d61d115bb19f510d4bd02" } }, { "id": "0000000002", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000002", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00146", "description": "FASTQ for HG00146", "fileType": "FASTQ", "sequenceInformation": { "totalReadCount": 8000000, "totalBaseCount": 1184000000, "generatedFrom": "1000 Genomes", "alignment": "UNALIGNED" }, "creationTime": "2022-07-13T23:26:43Z" "creationType": "IMPORT", "etag": { "algorithm": "FASTQ_MD5up", "source1": "ca78f685c26e7cc2bf3e28e3ec4d49cd" } }, { "id": "0000000003", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000003", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00096", "description": "CRAM for HG00096", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/0123456789/reference/0000000001", "fileType": "CRAM", "sequenceInformation": { "totalReadCount": 85466534, "totalBaseCount": 24000004881, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "CRAM_MD5up", "source1": "66817940f3025a760e6da4652f3e927e" } }, { "id": "0000000004", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000004", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "NA12878_A", "description": "uBAM for NA12878", "fileType": "UBAM", "sequenceInformation": { "totalReadCount": 20000, "totalBaseCount": 5000000, "generatedFrom": "GATK Test Data", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "640eb686263e9f63bcda12c35b84f5c7" } } ] }
읽기 세트에 대한 세부 정보 가져오기
읽기 세트에 대한 자세한 내용을 보려면 GetReadSetMetadata API 작업을 사용합니다. 다음 예제에서를 시퀀스 스토어 ID
로 바꾸고를 읽기 세트 IDsequence store id
로 바꿉니다.read set id
aws omics get-read-set-metadata --sequence-store-id
--id
sequence store id
read set id
다음과 같은 응답을 받게 됩니다.
{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/2015356892/readSet/9515444019", "creationTime": "2024-01-12T04:50:33.548Z", "creationType": "IMPORT", "creationJobId": "33222111", "description": null, "etag": { "algorithm": "FASTQ_MD5up", "source1": "00d0885ba3eeb211c8c84520d3fa26ec", "source2": "00d0885ba3eeb211c8c84520d3fa26ec" }, "fileType": "FASTQ", "files": { "index": null, "source1": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://
accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 }, "source2": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 } }, "id": "9515444019", "name": "paired-fastq-import", "sampleId": "sampleId-paired-fastq-import", "sequenceInformation": { "alignment": "UNALIGNED", "generatedFrom": null, "totalBaseCount": 30000, "totalReadCount": 200 }, "sequenceStoreId": "2015356892", "status": "ACTIVE", "statusMessage": null, "subjectId": "subjectId-paired-fastq-import" }
읽기 세트 데이터 파일 다운로드
Amazon S3 GetObject API 작업을 사용하여 활성 읽기 세트의 객체에 액세스할 수 있습니다. 객체의 URI는 GetReadSetMetadata API 응답에 반환됩니다. 자세한 내용은 Amazon S3 URIs를 사용하여 HealthOmics 읽기 세트에 액세스 단원을 참조하십시오.
또는 HealthOmics GetReadSet API 작업을 사용합니다. GetReadSet를 사용하여 개별 부분을 다운로드하여 병렬로 다운로드할 수 있습니다. 이러한 부분은 Amazon S3 부분과 유사합니다. 다음은 읽기 세트에서 파트 1을 다운로드하는 방법의 예입니다. 다음 예제에서를 시퀀스 스토어 ID
로 바꾸고를 읽기 세트 IDsequence store id
로 바꿉니다.read set id
aws omics get-read-set --sequence-store-id
--id
sequence store id
--part-number 1 outfile.bam
read set id
HealthOmics Transfer Manager를 사용하여 HealthOmics 참조 또는 읽기 세트에 대한 파일을 다운로드할 수도 있습니다. 여기에서 HealthOmics Transfer Manager를 다운로드할 수 있습니다