创建 HealthOmics 参考存储库 - AWS HealthOmics

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建 HealthOmics 参考存储库

中的参考存储 HealthOmics 是用于存储参考基因组的数据存储。您可以在每个 AWS 账户 区域中拥有一个参考资料库。您可以使用控制台或 CLI 创建参考存储。

使用控制台创建参考库

创建参考存储
  1. 打开 HealthOmics 管理控制台

  2. 在左侧导航窗格中,选择 “开始使用” HealthOmics。

  3. 从 “基因组学” 数据存储选项中选择 “参考基因组”。

  4. 您可以选择先前导入的参考基因组,也可以导入新的参考基因组。如果您尚未导入参考基因组,请选择右上角的导入参考基因组

  5. 在 “创建参考基因组导入作业” 页面上,选择 “快速创建” 或 “手动创建” 选项来创建参考存储库,然后提供以下信息。

    • 参考基因组名称-此存储的唯一名称。

    • 描述(可选)-此参考库的描述。

    • IAM 角色-选择有权访问您的参考基因组的角色。

    • 来自 Amazon S3 的参考-在 Amazon S3 存储桶中选择您的参考序列文件。

    • 标签(可选)-为此参考商店提供最多 50 个标签。

使用 CLI 创建参考存储库

以下示例向您展示了如何使用创建参考存储库 AWS CLI。每个 AWS 地区可以有一个参考库。

参考存储支持存储扩展名为.fasta、、、、、、、、、.fa.fas.fsa.faa.fna.ffn.frn.mpfa.seq.txt的 FASTA 文件。还支持这些扩展的bgzip版本。

在以下示例中,reference store name使用您为参考商店选择的名称替换。

aws omics create-reference-store --name "reference store name"

您会收到一个 JSON 响应,其中包含参考存储库 ID 和名称、ARN 以及创建参考存储的时间戳。

{ "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" }

您可以在其他 AWS CLI 命令中使用参考存储库 ID。您可以使用list-reference-stores命令检索与您的账户 IDs 关联的参考商店列表,如以下示例所示。

aws omics list-reference-stores

作为回应,您将收到新创建的参考商店的名称。

{ "referenceStores": [ { "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" } ] }

创建参考存储后,您可以创建导入任务以将基因组参考文件加载到其中。为此,您必须使用或创建 IAM 角色来访问数据。以下是示例策略。

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:GetBucketLocation" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket1", "arn:aws:s3:::amzn-s3-demo-bucket1/*" ] } ] }

您还必须有类似于以下示例的信任策略。

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": [ "omics.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }

您现在可以导入参考基因组了。此示例使用基因组参考联盟 Human Build 38 (hg38),该联盟是开放访问的,可从开放数据注册处获得。 AWS托管此数据的存储桶位于美国东部(俄亥俄州)。要在其他 AWS 区域使用存储桶,您可以将数据复制到您所在地区托管的 Amazon S3 存储桶。使用以下 AWS CLI 命令将基因组复制到您的 Amazon S3 存储桶。

aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta s3://amzn-s3-demo-bucket

然后,您就可以开始导入任务了。用您自己的输入替换reference store IDrole ARN、和source file path

aws omics start-reference-import-job --reference-store-id reference store ID --role-arn role ARN --sources source file path

导入数据后,您将收到以下 JSON 格式的响应。

{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::111122223333:role/OmicsReferenceImport", "status": "CREATED", "creationTime": "2022-07-01T21:15:13.727Z" }

您可以使用以下命令监视作业的状态。在以下示例中,将reference store IDjob ID替换为您的参考商店 ID 和您想进一步了解的任务 ID。

aws omics get-reference-import-job --reference-store-id reference store ID --id job ID

作为回应,您会收到一条回复,其中包含该参考库的详细信息及其状态。

{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::555555555555:role/OmicsReferenceImport", "status": "RUNNING", "creationTime": "2022-07-01T21:15:13.727Z", "sources": [ { "sourceFile": "s3://amzn-s3-demo-bucket/Homo_sapiens_assembly38.fasta", "status": "IN_PROGRESS", "name": "MyReference" } ] }

您还可以通过列出您的参考文献并根据参考名称对其进行筛选来查找已导入的参考文献。reference store ID替换为您的参考商店 ID,然后添加可选筛选条件以缩小列表范围。

aws omics list-references --reference-store-id reference store ID --filter name=MyReference

作为回应,您会收到以下信息。

{ "references": [ { "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/1234567890/reference/1234567890", "referenceStoreId": "12345678", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z" } ] }

要了解有关参考元数据的更多信息,请使用 get-reference-metadataAPI 操作。在以下示例中,reference store ID替换为您的参考商店编号和reference ID您想进一步了解的参考编码。

aws omics get-reference-metadata --reference-store-id reference store ID --id reference ID

作为回应,您会收到以下信息。

{ "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/referencestoreID/reference/referenceID", "referenceStoreId": "1234567890", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z", "files": { "source": { "totalParts": 31, "partSize": 104857600, "contentLength": 3249912778 }, "index": { "totalParts": 1, "partSize": 104857600, "contentLength": 160928 } } }

您也可以使用 get- reference 下载部分参考文件。在以下示例中,reference store ID替换为您的参考商店编号和reference ID您要从中下载的参考编码。

aws omics get-reference --reference-store-id reference store ID --id reference ID --part-number 1 outfile.fa