本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
什么是 AWS HealthOmics?
AWS HealthOmics 是一项符合 HIPAA 资格的服务,通过全面管理生物信息学工作流程背后的复杂基础设施,加速临床诊断测试、药物发现和农业研究。 HealthOmics 支持行业标准的工作流程语言(WDL、Nextflow、CWL),并可无缝扩展生物信息学基础设施,以支持每天成千上万次测试的数据,而且每个样本的成本都是可预测的。 HealthOmics 处理复杂的技术问题,例如管理计算资源和维护工作流程引擎,因此您可以全神贯注于科学突破。
重要提示
HealthOmics 不能替代专业的医疗建议、诊断或治疗,也不能用于治愈、治疗、缓解、预防或诊断任何疾病或健康状况。您有责任将人工审查作为任何使用的一部分 AWS HealthOmics,包括与任何旨在为临床决策提供依据的第三方产品相关使用。
HealthOmics 仅用于传输、存储、格式化或显示数据,以及为管理工作流程提供基础架构和配置支持。 AWS HealthOmics 不打算直接进行变异调用或基因组分析和解释。 AWS HealthOmics 不用于解释或分析临床实验室测试或其他设备数据、结果和发现,也不能替代用于基因组分析的第三方工具。
HealthOmics features
以下主要用例 HealthOmics:
-
临床诊断 — 利用可预测的成本和随测试量增长的完全托管的基础架构来构建和扩展诊断测试工作流程。
-
药物发现 — 通过大规模协调生物学基础模型来加快治疗研究,实现数百万潜在候选药物的快速迭代。
-
农业研究 — 通过人工智能驱动的工作流程增强农作物特征,例如耐旱性和抗虫性,从而改善粮食安全和农业生产力。
以下方面的主要好处 HealthOmics:
-
可扩展性 — 在 100,000 多个并发 v 之间扩展工作流程CPUs ,每天支持数万次测试,无需基础架构管理,而且每个样本的成本可预测。
-
专注于科学,而不是基础架构 — 使用熟悉的工作流程语言, APIs 同时在幕后 AWS 自动处理基础设施协调和数据管理。
-
维护合规性 — 全面的审计跟踪、数据来源跟踪以及专为临床工作流程设计的符合 HIPAA 标准的基础架构 out-of-the-box ——所有这些都支持开发符合监管要求的解决方案。
HealthOmics 由三个主要部分组成:
-
HealthOmics 工作流程 — 在自动配置和扩展的基础架构上运行生物信息学计算。
-
HealthOmics 存储 — 以较低的每 GB 数据库成本高效存储和共享 PB 级基因组数据。
-
HealthOmics 分析 — 为多组学和多模态分析准备基因组学数据。
单独使用这些组件或将它们组合在一起以获得 end-to-end解决方案。
HealthOmics 概念
本主题涵盖了关键概念的定义和特定于本指南的术语 HealthOmics,以帮助您理解本指南中 HealthOmics 使用的术语。
工作流
借助 HealthOmics 工作流程,您可以处理和分析您的基因组学数据。
-
工作流程 — 端到端流程的总体定义,包括参数和对工具的引用。工作流定义可以表示为 WDL、Nextflow 或 CWL。每个创建的工作流程都有一个唯一的标识符。
-
运行-对工作流程的单次调用。单个运行使用您定义的输入数据并生成输出。每个创建的运行都有一个唯一的标识符。
-
任务-运行中的各个进程。 HealthOmics工作流程使用这些定义的计算规范来运行您的任务。每个任务都有一个唯一的标识符。
-
运行组 — 一组运行,您可以为其设置最大 vCPU、最大持续时间或最大并发运行次数,以帮助限制每次运行使用的计算资源。您可以在运行组中为运行指定和配置优先级。例如,您可以指定在优先级较低的运行之前执行高优先级的运行,从而创建优先级队列。使用运行组是可选的,并且每个运行组都有一个唯一的标识符。
存储
数据存储分为序列存储,用于存放您的基因组序列和相关信息,以及用于所有参考基因组的参考存储。以下术语描述了特定于的实现 HealthOmics。
-
序列存储 — 用于存储基因组学文件的数据存储。里面可以有一个或多个序列存储 HealthOmics。可以在序列存储上设置访问权限和 AWS KMS 加密,以控制谁有权访问数据。
-
读取集 — 读取集是基因组学读取的抽象,这些读取以 FASTQ、BAM 或 CRAM 格式存储。读取集可以导入到序列存储中,并使用元数据进行注释。您可以使用基于属性的访问控制 (ABAC) 将权限应用于读取集。
-
参考 — 基因组引用与读取一起使用,用于识别特定读取或一组读取映射到基因组中的哪个位置。它们采用 FASTA 格式并存储在参考资料库中。
-
参考存储 — 用于存储参考基因组的数据存储。您可以在每个账户和地区拥有一个参考资料库。
Analytics
您可以使用 Analytics 转换和分析您的基因组数据。 HealthOmics 创建变体存储库或注释存储库,为您的查询添加其他信息。
-
变体存储 — 按人口规模存储变体数据的数据存储。变体存储支持基因组变异调用格式 (gvCF) 和 VCF 输入。
-
注解存储 — 表示注释数据库的数据存储,例如来自 TSV/CSV、VCF 或通用要素格式 () GFF3 文件的注释数据库。导入期间,注释存储映射到与变体存储相同的坐标系。
相关服务
以下服务适用于 HealthOmics。
-
Amazon Elastic Container Registry — 每个私有工作流程都使用 Amazon ECR 映像(在私有 Amazon ECR 存储库中)来包含运行该工作流程所需的所有可执行文件、库和脚本。
-
亚马逊简单存储服务 — Amazon S3 为商店和工作流程数据提供文件存储。
-
AWS Lake Formation — Lake Formation 管理对分析数据存储的数据访问权限。
-
亚马逊 Athena — 使用 Athena 对你的 Variant 商店进行查询。
-
Amazon SageMaker AI — 使用 SageMaker AI 通过 Jupyter 笔记本运行 HealthOmics 任务。
-
GitHub connections— 使用连接将您的外部代码存储库连接到您的工作流程。 HealthOmics
如何访问 HealthOmics
您可以使用管理控制台、CLI SDKs 或 API 访问 AWS HealthOmics 功能。
-
AWS 管理控制台-提供可用于访问的 Web 界面 HealthOmics。
-
AWS Command Line Interface (AWS CLI) — 为各种 AWS 服务提供命令,包括 AWS HealthOmics Windows、macOS 和 Linux,并支持这些服务。有关安装的更多信息 AWS CLI,请参阅AWS Command Line Interface
。 -
AWS SDKs — AWS 提供 SDKs (软件开发套件),其中包括适用于各种编程语言和平台(包括 Java、Python、Ruby、.NET、iOS 和 Android)的库和示例代码。 SDKs 提供了一种便捷的 HealthOmics编程使用方式。有关更多信息,请参阅 AWS SDK 开发人员中心
。 -
AWS API — 您可以使用 API 操作以 HealthOmics 编程方式进行访问和管理。有关更多信息,请参阅 HealthOmics API 参考。
的区域和终端节点 AWS HealthOmics
有关区域和终端节点的完整列表,请参阅AWS 一般参考。
除了默认处于活动状态的 AWS 区域外,还有一些需要激活的选择加入区域。要详细了解如何激活或停用某个区域,请参阅账户管理指南中的指定您的 AWS 账户可以使用哪些 AWS 区域。
了解更多信息
通过以下研讨会和教程了解 HealthOmics 更多信息:
-
HealthOmics 研讨会 — HealthOmics 端到端研讨会
-
AWS 基因组学资源 — 与基因组学相关的公共 Amazon ECR 存储库
-
Python 教程 — Jupyter 笔记本教程
GitHub,内容涵盖 HealthOmics 存储、分析和工作流程
熟悉其他 HealthOmics 工具,这些工具可 AWS 提供:
-
WDL linter — WDL 的 HealthOmics lin
ter -
Nextflow linter — Nextf HealthOmics l
ow -
HealthOmics 亚马逊 ECR 帮助工具 — 亚马逊 ECR 帮助
工具 HealthOmics -
HealthOmics tools on GitHub — 用于使用的工具 HealthOmics
(传输管理器、URI 解析器、Omics 重新运行、运行分析器)。