HealthOmics リファレンスストアの作成 - AWS HealthOmics

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HealthOmics リファレンスストアの作成

HealthOmics のリファレンスストアは、リファレンスゲノムを保存するためのデータストアです。各 AWS アカウント およびリージョンに 1 つのリファレンスストアを持つことができます。コンソールまたは CLI を使用してリファレンスストアを作成できます。

コンソールを使用したリファレンスストアの作成

参照ストアを作成するには
  1. HealthOmics コンソールを開きます。

  2. 左側のナビゲーションペインで、HealthOmics の開始方法を選択します。

  3. Genomics データストレージオプションから参照ゲノムを選択します。

  4. 以前にインポートした参照ゲノムを選択するか、新しい参照ゲノムをインポートできます。参照ゲノムをインポートしていない場合は、右上の「参照ゲノムのインポート」を選択します。

  5. リファレンスゲノムのインポートジョブの作成ページで、クイック作成または手動作成オプションを選択してリファレンスストアを作成し、次の情報を指定します。

    • 参照ゲノム名 - このストアの一意の名前。

    • 説明 (オプション) - このリファレンスストアの説明。

    • IAM ロール - 参照ゲノムにアクセスできるロールを選択します。

    • Amazon S3 からのリファレンス - Amazon S3 バケット内のリファレンスシーケンスファイルを選択します。

    • タグ (オプション) - このリファレンスストアには最大 50 個のタグを指定します。

CLI を使用したリファレンスストアの作成

次の例は、 を使用してリファレンスストアを作成する方法を示しています AWS CLI。 AWS リージョンごとに 1 つのリファレンスストアを持つことができます。

リファレンスストアは、拡張子 .fasta、、.fa.fas、、、.fsa.faa.fna、、、.ffn.frn.mpfa.seqの FASTA ファイルのストレージをサポートしています.txt。これらの拡張機能bgzipのバージョンもサポートされています。

次の例では、 をリファレンスストアに選択した名前reference store nameに置き換えます。

aws omics create-reference-store --name "reference store name"

リファレンスストア ID と名前、ARN、およびリファレンスストアが作成された時刻のタイムスタンプを含む JSON レスポンスを受け取ります。

{ "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" }

リファレンスストア ID は追加の AWS CLI コマンドで使用できます。次の例に示すように、list-reference-stores コマンドを使用して、アカウントにリンクされたリファレンスストア IDs のリストを取得できます。

aws omics list-reference-stores

これに応じて、新しく作成したリファレンスストアの名前を受け取ります。

{ "referenceStores": [ { "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" } ] }

リファレンスストアを作成したら、インポートジョブを作成してゲノムリファレンスファイルをロードできます。そのためには、 を使用するか、IAM ロールを作成してデータにアクセスする必要があります。以下は、ポリシーの例です。

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:GetBucketLocation" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket1", "arn:aws:s3:::amzn-s3-demo-bucket1/*" ] } ] }

次の例のような信頼ポリシーも必要です。

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": [ "omics.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }

参照ゲノムをインポートできるようになりました。この例では、Genome Reference Consortium Human Build 38 (hg38) を使用しています。これはオープンアクセスであり、 のオープンデータのレジストリ AWSから入手できます。このデータをホストするバケットは、米国東部 (オハイオ) に基づいています。他の AWS リージョンでバケットを使用するには、リージョンでホストされている Amazon S3 バケットにデータをコピーします。次の AWS CLI コマンドを使用して、ゲノムを Amazon S3 バケットにコピーします。

aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta s3://amzn-s3-demo-bucket

その後、インポートジョブを開始できます。reference store IDrole ARN、 を独自の入力source file pathに置き換えます。

aws omics start-reference-import-job --reference-store-id reference store ID --role-arn role ARN --sources source file path

データがインポートされると、JSON で次のレスポンスを受け取ります。

{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::111122223333:role/OmicsReferenceImport", "status": "CREATED", "creationTime": "2022-07-01T21:15:13.727Z" }

次のコマンドを使用して、ジョブのステータスをモニタリングできます。次の例では、 reference store IDjob IDを、詳細を確認するリファレンスストア ID とジョブ ID に置き換えます。

aws omics get-reference-import-job --reference-store-id reference store ID --id job ID

レスポンスでは、そのリファレンスストアの詳細とそのステータスを含むレスポンスを受け取ります。

{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::555555555555:role/OmicsReferenceImport", "status": "RUNNING", "creationTime": "2022-07-01T21:15:13.727Z", "sources": [ { "sourceFile": "s3://amzn-s3-demo-bucket/Homo_sapiens_assembly38.fasta", "status": "IN_PROGRESS", "name": "MyReference" } ] }

インポートされたリファレンスを見つけるには、リファレンスを一覧表示し、リファレンス名に基づいてフィルタリングします。をリファレンスストア ID reference store IDに置き換え、オプションのフィルターを追加してリストを絞り込みます。

aws omics list-references --reference-store-id reference store ID --filter name=MyReference

応答として、次の情報を受け取ります。

{ "references": [ { "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/1234567890/reference/1234567890", "referenceStoreId": "12345678", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z" } ] }

リファレンスメタデータの詳細については、get-reference-metadata API オペレーションを使用します。次の例では、 をリファレンスストア ID reference store IDに置き換え、 を詳細を確認するリファレンス ID reference IDに置き換えます。

aws omics get-reference-metadata --reference-store-id reference store ID --id reference ID

応答として以下の情報を受け取ります。

{ "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/referencestoreID/reference/referenceID", "referenceStoreId": "1234567890", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z", "files": { "source": { "totalParts": 31, "partSize": 104857600, "contentLength": 3249912778 }, "index": { "totalParts": 1, "partSize": 104857600, "contentLength": 160928 } } }

get-reference を使用して、リファレンスファイルの一部をダウンロードすることもできます。次の例では、 をリファレンスストア ID reference store IDに、 をダウンロード元のリファレンス ID reference ID に置き換えます。

aws omics get-reference --reference-store-id reference store ID --id reference ID --part-number 1 outfile.fa