翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
HealthOmics シーケンスストアへの読み取りセットのインポート
シーケンスストアを作成したら、インポートジョブを作成して、読み取りセットをデータストアにアップロードします。Amazon S3 バケットからファイルをアップロードすることも、同期 API オペレーションを使用して直接アップロードすることもできます。Amazon S3 バケットは、シーケンスストアと同じリージョンにある必要があります。
アライメントされたリードセットとアライメントされていないリードセットの任意の組み合わせをシーケンスストアにアップロードできますが、インポート内のリードセットのいずれかがアライメントされている場合は、参照ゲノムを含める必要があります。
リファレンスストアの作成に使用した IAM アクセスポリシーを再利用できます。
以下のトピックでは、シーケンスストアに読み取りセットをインポートし、インポートされたデータに関する情報を取得するために実行する主要なステップについて説明します。
トピック
Amazon S3 にファイルをアップロードする
次の例は、Amazon S3 バケットにファイルを移動する方法を示しています。
aws s3 cp s3://1000genomes/phase1/data/HG00100/alignment/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/data/HG00096/alignment/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram s3://your-bucket aws s3 cp s3://gatk-test-data/wgs_ubam/NA12878_20k/NA12878_A.bam s3://your-bucket
この例CRAM
で使用されるサンプル BAM
と には、異なるゲノム参照 Hg19
と が必要ですHg38
。詳細について、またはこれらのリファレンスにアクセスするには、「 のオープンデータレジストリ」の「The Broad Genome References
マニフェストファイルの作成
また、インポートジョブをモデル化するには、JSON でマニフェストファイルを作成する必要があります import.json
(次の例を参照)。コンソールでシーケンスストアを作成する場合、 sequenceStoreId
または を指定する必要がないためroleARN
、マニフェストファイルはsources
入力で始まります。
または、マニフェストファイルを YAML 形式でアップロードすることもできます。
インポートジョブの開始
インポートジョブを開始するには、次の AWS CLI コマンドを使用します。
aws omics start-read-set-import-job --cli-input-json file://import.json
ジョブが正常に作成されたことを示す次のレスポンスが表示されます。
{ "id": "3660451514", "sequenceStoreId": "3936421177", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "CREATED", "creationTime": "2022-07-13T22:14:59.309Z" }
インポートジョブをモニタリングする
インポートジョブが開始されたら、次のコマンドを使用してその進行状況をモニタリングできます。次の例では、 をシーケンスストア ID
に置き換え、 をインポート ID sequence store id
に置き換えます。job import ID
aws omics get-read-set-import-job --sequence-store-id
--id
sequence store id
job import ID
以下は、指定されたシーケンスストア ID に関連付けられているすべてのインポートジョブのステータスを示しています。
{ "id": "1234567890", "sequenceStoreId": "1234567890", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "RUNNING", "statusMessage": "The job is currently in progress.", "creationTime": "2022-07-13T22:14:59.309Z", "sources": [ { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam" }, "sourceFileType": "BAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/8625408453", "name": "HG00100", "description": "BAM for HG00100", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz", "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz" }, "sourceFileType": "FASTQ", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "HG00146", "description": "FASTQ for HG00146", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram" }, "sourceFileType": "CRAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/1234568870", "name": "HG00096", "description": "CRAM for HG00096", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam" }, "sourceFileType": "UBAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "NA12878_A", "description": "uBAM for NA12878", "generatedFrom": "GATK Test Data", "readSetID": "1234567890" } ] }
インポートされたシーケンスファイルを検索する
ジョブが完了したら、list-read-sets API オペレーションを使用して、インポートされたシーケンスファイルを検索できます。次の例では、 をシーケンスストア ID
に置き換えます。sequence store id
aws omics list-read-sets --sequence-store-id
sequence store id
次のレスポンスが表示されます。
{ "readSets": [ { "id": "0000000001", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/01234567890/readSet/0000000001", "sequenceStoreId": "1234567890", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00100", "description": "BAM for HG00100", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/01234567890/reference/0000000001", "fileType": "BAM", "sequenceInformation": { "totalReadCount": 9194, "totalBaseCount": 928594, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:25:20Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "d1d65429212d61d115bb19f510d4bd02" } }, { "id": "0000000002", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000002", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00146", "description": "FASTQ for HG00146", "fileType": "FASTQ", "sequenceInformation": { "totalReadCount": 8000000, "totalBaseCount": 1184000000, "generatedFrom": "1000 Genomes", "alignment": "UNALIGNED" }, "creationTime": "2022-07-13T23:26:43Z" "creationType": "IMPORT", "etag": { "algorithm": "FASTQ_MD5up", "source1": "ca78f685c26e7cc2bf3e28e3ec4d49cd" } }, { "id": "0000000003", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000003", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00096", "description": "CRAM for HG00096", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/0123456789/reference/0000000001", "fileType": "CRAM", "sequenceInformation": { "totalReadCount": 85466534, "totalBaseCount": 24000004881, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "CRAM_MD5up", "source1": "66817940f3025a760e6da4652f3e927e" } }, { "id": "0000000004", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000004", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "NA12878_A", "description": "uBAM for NA12878", "fileType": "UBAM", "sequenceInformation": { "totalReadCount": 20000, "totalBaseCount": 5000000, "generatedFrom": "GATK Test Data", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "640eb686263e9f63bcda12c35b84f5c7" } } ] }
読み取りセットの詳細を取得する
読み取りセットの詳細については、GetReadSetMetadata API オペレーションを使用します。次の例では、 をシーケンスストア ID
に置き換え、 を読み取りセット ID sequence store id
に置き換えます。read set id
aws omics get-read-set-metadata --sequence-store-id
--id
sequence store id
read set id
次のレスポンスが表示されます。
{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/2015356892/readSet/9515444019", "creationTime": "2024-01-12T04:50:33.548Z", "creationType": "IMPORT", "creationJobId": "33222111", "description": null, "etag": { "algorithm": "FASTQ_MD5up", "source1": "00d0885ba3eeb211c8c84520d3fa26ec", "source2": "00d0885ba3eeb211c8c84520d3fa26ec" }, "fileType": "FASTQ", "files": { "index": null, "source1": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://
accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 }, "source2": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 } }, "id": "9515444019", "name": "paired-fastq-import", "sampleId": "sampleId-paired-fastq-import", "sequenceInformation": { "alignment": "UNALIGNED", "generatedFrom": null, "totalBaseCount": 30000, "totalReadCount": 200 }, "sequenceStoreId": "2015356892", "status": "ACTIVE", "statusMessage": null, "subjectId": "subjectId-paired-fastq-import" }
リードセットデータファイルをダウンロードする
Amazon S3 API オペレーションを使用して、アクティブな読み取りセットのオブジェクトにアクセスできます。 GetObjectオブジェクトの URI は GetReadSetMetadata API レスポンスで返されます。詳細については、「Amazon S3 URIs を使用した HealthOmics リードセットへのアクセス」を参照してください。
または、HealthOmics GetReadSet API オペレーションを使用します。個々のパートをダウンロードすることで、 GetReadSetを使用して並行してダウンロードできます。これらのパートは Amazon S3 のパートと似ています。以下は、読み取りセットからパート 1 をダウンロードする方法の例です。次の例では、 をシーケンスストア ID
に置き換え、 を読み取りセット ID sequence store id
に置き換えます。read set id
aws omics get-read-set --sequence-store-id
--id
sequence store id
--part-number 1 outfile.bam
read set id
HealthOmics Transfer Manager を使用して、HealthOmics リファレンスまたはリードセットのファイルをダウンロードすることもできます。HealthOmics Transfer Manager はこちらからダウンロードできますhttps://pypi.org/project/amazon-omics-tools/