本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建 HealthOmics 序列存储
HealthOmics 序列存储支持以FASTQ
(仅限 gzip)和的未对齐格式存储基因组文件。uBAM
它还支持BAM
和的对齐格式CRAM
。
导入的文件以读取集的形式存储。您可以为读取集添加标签,并使用 IAM 策略来控制对读取集的访问权限。对齐的读取集需要参考基因组来对齐基因组序列,但对于未对齐的读取集,它是可选的。
要存储读取集,请先创建序列存储。创建序列存储时,您可以指定一个可选的 Amazon S3 存储桶作为备用位置以及存储 S3 访问日志的位置。备用位置用于存储在直接上传期间未能创建读取集的任何文件。备用位置可用于 2023 年 5 月 15 日之后创建的序列存储。您可以在创建序列存储时指定后备位置。
您最多可以指定五个读取集标签密钥。当您使用与其中一个密钥匹配的标签密钥创建或更新读取集时,读取集标签会传播到相应的 Amazon S3 对象。默认情况下,由创建的系统标签会 HealthOmics 被传播。
使用控制台创建序列存储
创建序列存储
-
在左侧导航窗格中,选择序列存储。
-
在 “创建序列存储” 页面上,提供以下信息
-
序列存储名称-此存储的唯一名称。
-
描述(可选)-此序列存储的描述。
-
-
对于 S3 中的备用位置,请指定 Amazon S3 位置。 HealthOmics 使用备用位置来存储在直接上传期间未能创建读取集的所有文件。您需要向该 HealthOmics 服务授予对 Amazon S3 备用位置的写入权限。有关策略示例,请参阅 配置备用位置。
备用位置不适用于 2023 年 5 月 16 日之前创建的序列存储库。
-
(可选)对于用于 S3 传播的 Read set 标签键,您最多可以输入五个读取集密钥,从读取集传播到底层 S3 对象。通过将标签从读取集传播到 S3 对象,您可以根据标签授予 S3 访问权限,允许 and/or 最终用户通过 Amazon S3 getObjectTagging API 操作查看传播的标签。
-
在文本框中输入一个键值。控制台会创建一个新的文本框来添加下一个密钥。
-
(可选)选择 “移除” 以删除所有密钥。
-
-
在 “数据加密” 下,选择是否要让数据加密由客户管理的 CMK 拥有和管理, AWS 还是要使用客户托管的 CMK。
-
(可选)在 “S3 数据访问” 下,选择是否创建新的角色和策略以通过 Amazon S3 访问序列存储。
-
(可选)对于 S3 访问日志,请选择
Enabled
是否希望 Amazon S3 收集访问日志记录。对于 S3 中的访问日志位置,请指定用于存储日志的 Amazon S3 位置。只有启用了 S3 访问日志记录后,此字段才可见。
-
标签(可选)-为此序列存储提供最多 50 个标签。这些标签与读取集 import/tag 更新期间设置的读取集标签是分开的
创建商店后,就可以开始使用了导入基因组文件。
使用 CLI 创建序列存储
在以下示例中,
使用您为序列存储选择的名称替换。sequence store name
aws omics create-sequence-store --name
--fallback-location "s3://amzn-s3-demo-bucket"
sequence store name
您将收到以下 JSON 格式的响应,其中包括您新创建的序列存储的 ID 号。
{ "id": "3936421177", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177", "name": "sequence_store_example_name", "creationTime": "2022-07-13T20:09:26.038Z" "fallbackLocation" : "s3://amzn-s3-demo-bucket" }
您还可以使用list-sequence-stores命令查看与您的账户关联的所有序列存储,如下所示。
aws omics list-sequence-stores
您会收到以下回复。
{ "sequenceStores": [ { "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177", "id": "3936421177", "name": "MySequenceStore", "creationTime": "2022-07-13T20:09:26.038Z", "updatedTime": "2024-09-13T04:11:31.242Z", "fallbackLocation" : "s3://amzn-s3-demo-bucket", "status": "Active" } ] }
您可以使用序列存储的 ID get-sequence-store来了解有关序列存储的更多信息,如以下示例所示:
aws omics get-sequence-store --id
sequence store ID
您会收到以下回复:
{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/sequencestoreID", "creationTime": "2024-01-12T04:45:29.857Z", "updatedTime": "2024-09-13T04:11:31.242Z", "description": null, "fallbackLocation": null, "id": "2015356892", "name": "MySequenceStore", "s3Access": { "s3AccessPointArn": "arn:aws:s3:us-west-2:123456789012:accesspoint/592761533288-2015356892", "s3Uri": "s3://592761533288-2015356892-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/", "accessLogLocation": "s3://IAD-seq-store-log/2015356892/" }, "sseConfig": { "keyArn": "arn:aws:kms:us-west-2:123456789012:key/eb2b30f5-635d-4b6d-b0f9-d3889fe0e648", "type": "KMS" }, "status": "Active", "statusMessage": null, "setTagsToSync": ["withdrawn","protocol"], }
创建后,还可以更新多个商店参数。这可以通过控制台或 API updateSequenceStore
操作来完成。
更新序列存储
要更新序列存储,请执行以下步骤:
-
在左侧导航窗格中,选择序列存储。
-
选择要更新的序列存储。
-
在 “详细信息” 面板中,选择 “编辑”。
-
在编辑详细信息页面上,您可以更新以下字段:
-
序列存储名称-此存储的唯一名称。
-
描述-此序列存储的描述。
-
在 S3 中的备用位置,请指定 Amazon S3 的位置。 HealthOmics 使用备用位置来存储在直接上传期间未能创建读取集的所有文件。
-
读取 S3 传播的设置标签密钥您最多可以输入五个读取集密钥以传播到 Amazon S3。
-
(可选)对于 S3 访问日志,请选择
Enabled
是否希望 Amazon S3 收集访问日志记录。对于 S3 中的访问日志位置,请指定用于存储日志的 Amazon S3 位置。只有启用了 S3 访问日志记录后,此字段才可见。
-
标签(可选)-为此序列存储提供最多 50 个标签。
-
更新序列存储的读取集标签
要更新序列存储的读取集标签或其他字段,请执行以下步骤:
-
在左侧导航窗格中,选择序列存储。
-
选择要更新的序列存储。
-
选择详细信息选项卡。
-
选择编辑。
-
根据需要添加新的读取集标签或删除现有标签。
-
根据需要更新名称、描述、备用位置或 S3 数据访问权限。
-
选择保存更改。
导入基因组文件
要将基因组文件导入序列存储,请执行以下步骤:
导入基因组学文件
-
在左侧导航窗格中,选择序列存储。
-
在 Se quence 存储页面上,选择要将文件导入到的序列存储。
-
在单个序列存储页面上,选择导入基因组文件。
-
在 “指定导入详情” 页面上,提供以下信息
-
IAM 角色-可以访问 Amazon S3 上的基因组文件的 IAM 角色。
-
参考基因组-该基因组学数据的参考基因组。
-
-
在 “指定导入清单” 页面上,指定以下信息清单文件。清单文件是一个 JSON 或 YAML 文件,用于描述基因组学数据的基本信息。有关清单文件的信息,请参阅将读取集导入 HealthOmics 序列存储。
-
单击 “创建导入任务”。