什么是 AWS HealthOmics? - AWS HealthOmics

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 AWS HealthOmics?

AWS HealthOmics 是一项 AWS 服务,可帮助生物信息学家、研究人员和科学家等用户存储、查询、分析基因组学和其他生物学数据并从中生成见解。它简化并加快了研究和临床组织存储和分析基因组信息的过程,并加快了科学发现和见解生成速度的速度。

HealthOmics 有三个主要组成部分。 HealthOmics 存储可帮助您高效地存储和共享 PB 级基因组数据,且每 GB 数据库的成本较低。 HealthOmics Analytics 简化了为多组学和多模态分析准备基因组学数据的方式。 HealthOmics 工作流程会自动为您的生物信息学计算配置和扩展底层基础架构。

重要提示

HealthOmics 不能替代专业的医疗建议、诊断或治疗,也不能用于治愈、治疗、缓解、预防或诊断任何疾病或健康状况。您有责任将人工审查作为任何使用的一部分 AWS HealthOmics,包括与任何旨在为临床决策提供依据的第三方产品相关使用。

HealthOmics 仅用于传输、存储、格式化或显示数据,以及为管理工作流程提供基础架构和配置支持。 AWS HealthOmics 不打算直接进行变异调用或基因组分析和解释。 AWS HealthOmics 不用于解释或分析临床实验室测试或其他设备数据、结果和发现,也不能替代用于基因组分析的第三方工具。

HealthOmics 概念

本主题涵盖了关键概念和特定术语的定义 HealthOmics,以帮助您理解本指南中 HealthOmics 使用的术语。

存储

数据存储分为序列存储,用于存放您的基因组序列和相关信息,以及用于所有参考基因组的参考存储。以下术语描述了特定于的实现 HealthOmics。

  • 序列存储 — 用于存储基因组学文件的数据存储。里面可以有一个或多个序列存储 HealthOmics。可以在序列存储上设置访问权限和 AWS KMS 加密,以控制谁有权访问数据。

  • 读取集 — 读取集是基因组学读取的抽象,这些读取以 FASTQ、BAM 或 CRAM 格式存储。读取集可以导入到序列存储中,并使用元数据进行注释。您可以使用基于属性的访问控制 (ABAC) 将权限应用于读取集。

  • 参考 — 基因组引用与读取一起使用,用于识别特定读取或一组读取映射到基因组中的哪个位置。它们采用 FASTA 格式并存储在参考资料库中。

  • 参考存储 — 用于存储参考基因组的数据存储。您可以在每个账户和地区拥有一个参考资料库。

Analytics

您可以使用 Analytics 转换和分析您的基因组数据。 HealthOmics 创建变体存储库或注释存储库,为您的查询添加其他信息。

  • 变体存储 — 按人口规模存储变体数据的数据存储。变体存储支持基因组变异调用格式 (gvCF) 和 VCF 输入。

  • 注解存储 — 表示注释数据库的数据存储,例如来自 TSV/CSV、VCF 或通用要素格式 () GFF3 文件的注释数据库。导入期间,注释存储映射到与变体存储相同的坐标系。

工作流

借助 HealthOmics 工作流程,您可以处理和分析您的基因组学数据。

  • 工作流程 — 端到端流程的总体定义,包括参数和对工具的引用。工作流定义可以表示为 WDL、Nextflow 或 CWL。每个创建的工作流程都有一个唯一的标识符。

  • 运行-对工作流程的单次调用。单个运行使用您定义的输入数据并生成输出。每个创建的运行都有一个唯一的标识符。

  • 任务-运行中的各个进程。 HealthOmics工作流程使用这些定义的计算规范来运行您的任务。每个任务都有一个唯一的标识符。

  • 运行组 — 一组运行,您可以为其设置最大 vCPU、最大持续时间或最大并发运行次数,以帮助限制每次运行使用的计算资源。您可以在运行组中为运行指定和配置优先级。例如,您可以指定在优先级较低的运行之前执行高优先级的运行,从而创建优先级队列。使用运行组是可选的,并且每个运行组都有一个唯一的标识符。

HealthOmics features

HealthOmics 提供以下功能。

  • HealthOmics 存储 — 帮助您以较低的每 GB 数据库成本高效存储和共享 PB 级原始基因组学数据。

  • HealthOmics 分析 — 简化为多组学和多模态分析准备基因组学数据的方式。

  • HealthOmics 工作流程 — 为您的生物信息学工作流程自动配置和扩展底层基础架构。

您可以单独使用每个组件,也可以将其作为集成 end-to-end解决方案的一部分使用。

HealthOmics 为您提供以下好处。

  • 安全地存储和合并基因组数据 — 与其他 AWS 服务(例如 AWS Lake Formation 和 Amazon Athena) HealthOmics 集成。您可以安全地存储基因组学数据,然后将其与病史数据进行查询或合并,以获得更好的诊断和个性化的治疗计划。

  • 保护患者隐私 — HealthOmics 是否符合 HIPAA 资格。它还与 IAM 和 Amazon 集成, CloudWatch 因此您可以控制和记录数据访问权限,并跟踪数据在分析中的使用情况。

  • 专为扩展而构建 — 通过简化的计费和新的协作工具,支持大量人口数据分析。

  • 最大限度地提高效率-使用自动化工作流程和集成工具来简化数据处理和分析。

您可以 HealthOmics 用于以下生物医学应用:

  • 种群测序 — 一次查询数千个基因组,以了解基因组变异如何映射到人群中的表型。

  • 临床基因组学 — 从测序仪输出到可报告数据,构建可重复的基因组学工作流程。您还可以针对高容量通量进行优化,并设置高优先级临床样本的计算要求以缩短周转时间。

  • 临床试验 — 将基因组分析整合到临床试验中,以更好地了解新候选药物的功效。通过长期节省成本和数据来源来简化和加快临床试验,以满足管理机构的法规。

  • 加强研究和创新 — 利用内置的行和列访问控制,简化和控制匿名基因组数据的存储、访问和分析。

以下服务适用于 HealthOmics。

  • Amazon Elastic Container Registry — 每个私有工作流程都使用 Amazon ECR 映像(在私有 Amazon ECR 存储库中)来包含运行该工作流程所需的所有可执行文件、库和脚本。

  • 亚马逊简单存储服务 — Amazon S3 为商店和工作流程数据提供文件存储。

  • AWS Lake Formation — Lake Formation 管理对分析数据存储的数据访问权限。

  • 亚马逊 Athena — 使用 Athena 对你的 Variant 商店进行查询。

  • Amazon SageMaker AI — 使用 SageMaker AI 通过 Jupyter 笔记本运行 HealthOmics 任务。

的区域和终端节点 AWS HealthOmics

有关区域和终端节点的完整列表,请参阅AWS 一般参考

除了默认处于活动状态的 AWS 区域外,还有一些需要激活的选择加入区域。要详细了解如何激活或停用某个区域,请参阅账户管理指南中的指定您的 AWS 账户可以使用哪些 AWS 区域

如何访问 HealthOmics

您可以使用管理控制台、CLI SDKs 或 API 访问 AWS HealthOmics 功能。

  • AWS 管理控制台-提供可用于访问的 Web 界面 HealthOmics。

  • AWS Command Line Interface (AWS CLI) — 为各种 AWS 服务提供命令,包括 AWS HealthOmics Windows、macOS 和 Linux,并支持这些服务。有关安装的更多信息 AWS CLI,请参阅AWS Command Line Interface

  • AWS SDKs — AWS 提供 SDKs (软件开发套件),其中包括适用于各种编程语言和平台(包括 Java、Python、Ruby、.NET、iOS 和 Android)的库和示例代码。 SDKs 提供了一种便捷的 HealthOmics编程使用方式。有关更多信息,请参阅 AWS SDK 开发人员中心

  • AWS API — 您可以使用 API 操作以 HealthOmics 编程方式进行访问和管理。有关更多信息,请参阅 HealthOmics API 参考

了解更多

通过以下研讨会和教程了解 HealthOmics 更多信息:

熟悉其他 HealthOmics 工具,这些工具可 AWS 提供: