本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建 HealthOmics 参考存储库
中的参考存储 HealthOmics 是用于存储参考基因组的数据存储。您可以在每个 AWS 账户 区域中拥有一个参考资料库。您可以使用控制台或 CLI 创建参考存储。
使用控制台创建参考库
创建参考存储
-
在左侧导航窗格中,选择 “开始使用” HealthOmics。
-
从 “基因组学” 数据存储选项中选择 “参考基因组”。
-
您可以选择先前导入的参考基因组,也可以导入新的参考基因组。如果您尚未导入参考基因组,请选择右上角的导入参考基因组。
-
在 “创建参考基因组导入作业” 页面上,选择 “快速创建” 或 “手动创建” 选项来创建参考存储库,然后提供以下信息。
-
参考基因组名称-此存储的唯一名称。
-
描述(可选)-此参考库的描述。
-
IAM 角色-选择有权访问您的参考基因组的角色。
-
来自 Amazon S3 的参考-在 Amazon S3 存储桶中选择您的参考序列文件。
-
标签(可选)-为此参考商店提供最多 50 个标签。
-
使用 CLI 创建参考存储库
以下示例向您展示了如何使用创建参考存储库 AWS CLI。每个 AWS 地区可以有一个参考库。
参考存储支持存储扩展名为.fasta
、、、、、、、、、.fa
、.fas
、.fsa
、.faa
.fna
.ffn
.frn
.mpfa
.seq
、.txt
的 FASTA 文件。还支持这些扩展的bgzip
版本。
在以下示例中,
使用您为参考商店选择的名称替换。reference store name
aws omics create-reference-store --name
"reference store name"
您会收到一个 JSON 响应,其中包含参考存储库 ID 和名称、ARN 以及创建参考存储的时间戳。
{ "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" }
您可以在其他 AWS CLI 命令中使用参考存储库 ID。您可以使用list-reference-stores命令检索与您的账户 IDs 关联的参考商店列表,如以下示例所示。
aws omics list-reference-stores
作为回应,您将收到新创建的参考商店的名称。
{ "referenceStores": [ { "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" } ] }
创建参考存储后,您可以创建导入任务以将基因组参考文件加载到其中。为此,您必须使用或创建 IAM 角色来访问数据。以下是示例策略。
您还必须有类似于以下示例的信任策略。
您现在可以导入参考基因组了。此示例使用基因组参考联盟 Human Build 38 (hg38),该联盟是开放访问的,可从开放数据注册处
aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta s3://amzn-s3-demo-bucket
然后,您就可以开始导入任务了。用您自己的输入替换reference store
ID
、和role ARN
。source file
path
aws omics start-reference-import-job --reference-store-id
--role-arn
reference store ID
--sources
role ARN
source file path
导入数据后,您将收到以下 JSON 格式的响应。
{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::111122223333:role/OmicsReferenceImport", "status": "CREATED", "creationTime": "2022-07-01T21:15:13.727Z" }
您可以使用以下命令监视作业的状态。在以下示例中,将
和reference store ID
替换为您的参考商店 ID 和您想进一步了解的任务 ID。job
ID
aws omics get-reference-import-job --reference-store-id
--id
reference store ID
job ID
作为回应,您会收到一条回复,其中包含该参考库的详细信息及其状态。
{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::555555555555:role/OmicsReferenceImport", "status": "RUNNING", "creationTime": "2022-07-01T21:15:13.727Z", "sources": [ { "sourceFile": "s3://amzn-s3-demo-bucket/Homo_sapiens_assembly38.fasta", "status": "IN_PROGRESS", "name": "MyReference" } ] }
您还可以通过列出您的参考文献并根据参考名称对其进行筛选来查找已导入的参考文献。
替换为您的参考商店 ID,然后添加可选筛选条件以缩小列表范围。reference store ID
aws omics list-references --reference-store-id
--filter name=
reference store ID
MyReference
作为回应,您会收到以下信息。
{ "references": [ { "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/1234567890/reference/1234567890", "referenceStoreId": "12345678", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z" } ] }
要了解有关参考元数据的更多信息,请使用 get-reference-metadataAPI 操作。在以下示例中,
替换为您的参考商店编号和reference store ID
您想进一步了解的参考编码。reference ID
aws omics get-reference-metadata --reference-store-id
--id
reference store ID
reference ID
作为回应,您会收到以下信息。
{ "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/referencestoreID/reference/referenceID", "referenceStoreId": "1234567890", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z", "files": { "source": { "totalParts": 31, "partSize": 104857600, "contentLength": 3249912778 }, "index": { "totalParts": 1, "partSize": 104857600, "contentLength": 160928 } } }
您也可以使用 get- reference 下载部分参考文件。在以下示例中,
替换为您的参考商店编号和reference store ID
您要从中下载的参考编码。reference ID
aws omics get-reference --reference-store-id
--id
reference store ID
--part-number 1 outfile.fa
reference ID