创建 HealthOmics 序列存储 - AWS HealthOmics

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建 HealthOmics 序列存储

HealthOmics 序列存储支持以FASTQ(仅限 gzip)和的未对齐格式存储基因组文件。uBAM它还支持BAM和的对齐格式CRAM

导入的文件以读取集的形式存储。您可以为读取集添加标签,并使用 IAM 策略来控制对读取集的访问权限。对齐的读取集需要参考基因组来对齐基因组序列,但对于未对齐的读取集,它是可选的。

要存储读取集,请先创建序列存储。创建序列存储时,您可以指定一个可选的 Amazon S3 存储桶作为备用位置以及存储 S3 访问日志的位置。备用位置用于存储在直接上传期间未能创建读取集的任何文件。备用位置可用于 2023 年 5 月 15 日之后创建的序列存储。您可以在创建序列存储时指定后备位置。

您最多可以指定五个读取集标签密钥。当您使用与其中一个密钥匹配的标签密钥创建或更新读取集时,读取集标签会传播到相应的 Amazon S3 对象。默认情况下,由创建的系统标签会 HealthOmics 被传播。

使用控制台创建序列存储

创建序列存储
  1. 打开 HealthOmics 管理控制台

  2. 在左侧导航窗格中,选择序列存储

  3. 在 “创建序列存储” 页面上,提供以下信息

    • 序列存储名称-此存储的唯一名称。

    • 描述(可选)-此序列存储的描述。

  4. 对于 S3 中的备用位置,请指定 Amazon S3 位置。 HealthOmics 使用备用位置来存储在直接上传期间未能创建读取集的所有文件。您需要向该 HealthOmics 服务授予对 Amazon S3 备用位置的写入权限。有关策略示例,请参阅 配置备用位置

    备用位置不适用于 2023 年 5 月 16 日之前创建的序列存储库。

  5. (可选)对于用于 S3 传播的 Read set 标签键,您最多可以输入五个读取集密钥,从读取集传播到底层 S3 对象。通过将标签从读取集传播到 S3 对象,您可以根据标签授予 S3 访问权限,允许 and/or 最终用户通过 Amazon S3 getObjectTagging API 操作查看传播的标签。

    1. 在文本框中输入一个键值。控制台会创建一个新的文本框来添加下一个密钥。

    2. (可选)选择 “移除” 以删除所有密钥。

  6. 在 “数据加密” 下,选择是否要让数据加密由客户管理的 CMK 拥有和管理, AWS 还是要使用客户托管的 CMK。

  7. (可选)在 “S3 数据访问” 下,选择是否创建新的角色和策略以通过 Amazon S3 访问序列存储。

  8. (可选)对于 S3 访问日志,请选择Enabled是否希望 Amazon S3 收集访问日志记录。

    对于 S3 中的访问日志位置,请指定用于存储日志的 Amazon S3 位置。只有启用了 S3 访问日志记录后,此字段才可见。

  9. 标签(可选)-为此序列存储提供最多 50 个标签。这些标签与读取集 import/tag 更新期间设置的读取集标签是分开的

创建商店后,就可以开始使用了导入基因组文件

使用 CLI 创建序列存储

在以下示例中,sequence store name使用您为序列存储选择的名称替换。

aws omics create-sequence-store --name sequence store name --fallback-location "s3://amzn-s3-demo-bucket"

您将收到以下 JSON 格式的响应,其中包括您新创建的序列存储的 ID 号。

{ "id": "3936421177", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177", "name": "sequence_store_example_name", "creationTime": "2022-07-13T20:09:26.038Z" "fallbackLocation" : "s3://amzn-s3-demo-bucket" }

您还可以使用list-sequence-stores命令查看与您的账户关联的所有序列存储,如下所示。

aws omics list-sequence-stores

您会收到以下回复。

{ "sequenceStores": [ { "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177", "id": "3936421177", "name": "MySequenceStore", "creationTime": "2022-07-13T20:09:26.038Z", "updatedTime": "2024-09-13T04:11:31.242Z", "fallbackLocation" : "s3://amzn-s3-demo-bucket", "status": "Active" } ] }

您可以使用序列存储的 ID get-sequence-store来了解有关序列存储的更多信息,如以下示例所示:

aws omics get-sequence-store --id sequence store ID

您会收到以下回复:

{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/sequencestoreID", "creationTime": "2024-01-12T04:45:29.857Z", "updatedTime": "2024-09-13T04:11:31.242Z", "description": null, "fallbackLocation": null, "id": "2015356892", "name": "MySequenceStore", "s3Access": { "s3AccessPointArn": "arn:aws:s3:us-west-2:123456789012:accesspoint/592761533288-2015356892", "s3Uri": "s3://592761533288-2015356892-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/", "accessLogLocation": "s3://IAD-seq-store-log/2015356892/" }, "sseConfig": { "keyArn": "arn:aws:kms:us-west-2:123456789012:key/eb2b30f5-635d-4b6d-b0f9-d3889fe0e648", "type": "KMS" }, "status": "Active", "statusMessage": null, "setTagsToSync": ["withdrawn","protocol"], }

创建后,还可以更新多个商店参数。这可以通过控制台或 API updateSequenceStore 操作来完成。

更新序列存储

要更新序列存储,请执行以下步骤:

  1. 打开 HealthOmics 管理控制台

  2. 在左侧导航窗格中,选择序列存储

  3. 选择要更新的序列存储。

  4. 在 “详细信息” 面板中,选择 “编辑”

  5. 编辑详细信息页面上,您可以更新以下字段:

    • 序列存储名称-此存储的唯一名称。

    • 描述-此序列存储的描述。

    • 在 S3 中的备用位置,请指定 Amazon S3 的位置。 HealthOmics 使用备用位置来存储在直接上传期间未能创建读取集的所有文件。

    • 读取 S3 传播的设置标签密钥您最多可以输入五个读取集密钥以传播到 Amazon S3。

    • (可选)对于 S3 访问日志,请选择Enabled是否希望 Amazon S3 收集访问日志记录。

      对于 S3 中的访问日志位置,请指定用于存储日志的 Amazon S3 位置。只有启用了 S3 访问日志记录后,此字段才可见。

    • 标签(可选)-为此序列存储提供最多 50 个标签。

更新序列存储的读取集标签

要更新序列存储的读取集标签或其他字段,请执行以下步骤:

  1. 打开 HealthOmics 管理控制台

  2. 在左侧导航窗格中,选择序列存储

  3. 选择要更新的序列存储。

  4. 选择详细信息选项卡。

  5. 选择编辑

  6. 根据需要添加新的读取集标签或删除现有标签。

  7. 根据需要更新名称、描述、备用位置或 S3 数据访问权限。

  8. 选择保存更改

导入基因组文件

要将基因组文件导入序列存储,请执行以下步骤:

导入基因组学文件
  1. 打开 HealthOmics 管理控制台

  2. 在左侧导航窗格中,选择序列存储

  3. 在 Se quence 存储页面上,选择要将文件导入到的序列存储。

  4. 在单个序列存储页面上,选择导入基因组文件

  5. 在 “指定导入详情” 页面上,提供以下信息

    • IAM 角色-可以访问 Amazon S3 上的基因组文件的 IAM 角色。

    • 参考基因组-该基因组学数据的参考基因组。

  6. 在 “指定导入清单” 页面上,指定以下信息清单文件。清单文件是一个 JSON 或 YAML 文件,用于描述基因组学数据的基本信息。有关清单文件的信息,请参阅将读取集导入 HealthOmics 序列存储

  7. 单击 “创建导入任务”。