使用 nf 架构和 nf 验证插件指定存储 URI 下一流指令使用下一流配置文件导出工作流程级别的内容导出任务内容生成下一流执行报告指定 Nextflow 语法版本在 Nextflow 中高效使用临时存储 Nextflow v26.04 发行说明

Nextflow 工作流程定义细节

HealthOmics 支持 Nextflow DSL1 和 DSL2。有关更多信息，请参阅 Nextflow版本支持。

Nextflow DSL2 基于 Groovy 编程语言，因此参数是动态的，并且可以使用与 Groovy 相同的规则进行类型强制转换。输入 JSON 提供的参数和值可在工作流程的参数 (params) 映射中找到。

使用 nf 架构和 nf 验证插件

注意

插件 HealthOmics 支持摘要：

v22.04 — 不支持插件
v23.10 — 支持和 nf-schema nf-validation
v24.10 — 支持 nf-schema
v25.10、v26.04 — 支持nf-schema、、和 nf-core-utils nf-fgbio nf-prov

HealthOmics 为 Nextflow 插件提供了以下支持：

对于 Nextflow v23.10， HealthOmics 预安装 nf-validation @1 .1.1 插件。
对于 Nextflow v23.10 和 v24.10， HealthOmics 预安装 nf-schema @2 .3.0 插件。
对于 Nextflow v25.10， HealthOmics 预安装 nf-schema @2 .6.1、nf-core-utils @0 .4.0、nf-prov @1 .7.0 和 nf-fgbio @1 .0.1 插件。
对于 Nextflow v26.04， HealthOmics 预安装 nf-schema @2 .7.2、nf-core-utils @0 .4.0、nf-prov @1 .7.0 和 nf-fgbio @1 .0.1 插件。
在工作流程运行期间，您无法检索其他插件。 HealthOmics 忽略您在nextflow.config文件中指定的任何其他插件版本。
对于 Nextflow v24 及更高版本，nf-schema是已弃用nf-validation插件的新版本。有关更多信息，请参阅 Next GitHub flow 存储库中的 nf-schema。

指定存储 URI

使用 Amazon S3 或 HealthOmics URI 构建 Nextflow 文件或路径对象时，只要授予读取权限，它就会使匹配的对象可供工作流程使用。Amazon S3 URI 允许使用前缀或目录。有关示例，请参阅亚马逊 S3 输入参数格式。

HealthOmics 部分支持在 Amazon S3 URI 或 HealthOmics 存储 URI 中使用全局模式。在工作流程定义中使用 Glob 模式来创建path或file频道。有关预期行为和确切情况，请参阅Nextflow 处理 Amazon S3 输入中的 Glob 模式。

下一流指令

您可以在 Nextflow 配置文件或工作流程定义中配置 Nextflow 指令。以下列表显示了 HealthOmics 用于应用配置设置的优先顺序，从最低优先级到最高优先级：

配置文件中的全局配置。
工作流定义的任务部分。
Task-specific 配置文件中的选择器。

主题

使用 ErrorStrategy 的任务重试策略
使用 maxRetries 进行任务重试次数
选择退出使用 om RetryOn ics 5xx 重试任务
使用时间指令的任务持续时间

`使用 ErrorStrategy 的任务重试策略`

使用指errorStrategy令定义任务错误的策略。默认情况下，当任务返回并显示错误指示（非零退出状态）时，该任务将停止并 HealthOmics 终止整个运行。如果设置为retry，则 HealthOmics 尝试errorStrategy对失败的任务进行一次重试。要增加重试次数，请参阅使用 maxRetries 进行任务重试次数。


process {
    label 'my_label'
    errorStrategy 'retry'

    script:
    """
    your-command-here
    """
}

有关在运行期间如何 HealthOmics 处理任务重试的信息，请参阅任务重试次数。

`使用 maxRetries 进行任务重试次数`

默认情况下， HealthOmics 不尝试对失败的任务进行任何重试，或者如果您进行了配置，则不尝试重试一次。errorStrategy要增加最大重试次数，请使用指errorStrategy令设置为retry并配置最大重试次数。maxRetries

以下示例在全局配置中将最大重试次数设置为 3。


process {
    errorStrategy = 'retry'
    maxRetries = 3
}

以下示例说明如何在工作流定义maxRetries的任务部分进行设置。


process myTask {
    label 'my_label'
    errorStrategy 'retry'
    maxRetries 3
    
    script:
    """
    your-command-here
    """
}

以下示例说明如何根据名称或标签选择器在 Nextflow 配置文件中指定特定于任务的配置。


process {
    withLabel: 'my_label' {
        errorStrategy = 'retry'
        maxRetries = 3
    }

    withName: 'myTask' {
        errorStrategy = 'retry'
        maxRetries = 3
    }
}

选择退出使用 `om RetryOn` ics 5xx 重试任务

对于 Nextflow v23 及更高版本，如果任务由于服务错误而失败（5XX HTTP 状态代码），则 HealthOmics 支持任务重试。默认情况下，最多 HealthOmics 会尝试对失败的任务进行两次重试。

您可以配置omicsRetryOn5xx为因服务错误而退出任务重试。有关任务重试的更多信息 HealthOmics，请参阅任务重试次数。

以下示例在全局配置omicsRetryOn5xx中配置为选择退出任务重试。


process {
    omicsRetryOn5xx = false
}

以下示例显示了如何在工作流定义omicsRetryOn5xx的任务部分进行配置。


process myTask {
    label 'my_label'
    omicsRetryOn5xx = false
    
    script:
    """
    your-command-here
    """
}

以下示例说明如何根据名称或标签选择器在 Nextflow 配置文件中设置omicsRetryOn5xx为特定于任务的配置。


process {
    withLabel: 'my_label' {
        omicsRetryOn5xx = false
    }

    withName: 'myTask' {
        omicsRetryOn5xx = false
    }
}

使用时间指令的任务持续`时间`

HealthOmics 提供了可调整的配额（参见HealthOmics 服务配额），用于指定跑步的最大持续时间。对于 Nextflow v23 及更高版本的工作流程，您还可以使用 Nextflow 指令指定最大任务持续时间。time

在新工作流程开发过程中，设置最大任务持续时间可以帮助你捕捉失控的任务和长时间运行的任务。

有关 Nextflow 时间指令的更多信息，请参阅 Nextflow 参考中的时间指令。

HealthOmics 为 Nextflow 时间指令提供了以下支持：

HealthOmics 支持时间指令的 1 分钟粒度。您可以指定一个介于 60 秒和最大运行持续时间值之间的值。
如果您输入的值小于 60，则将其 HealthOmics 四舍五入到 60 秒。对于大于 60 的值，向下 HealthOmics 舍入到最接近的分钟。
如果工作流程支持任务的重试，则在任务超时时时 HealthOmics 重试该任务。
如果任务超时（或上次重试超时），则 HealthOmics 取消该任务。此操作的持续时间可能为一到两分钟。
任务超时时， HealthOmics 将运行和任务状态设置为失败，并取消运行中的其他任务（适用于处于 “启动”、“待处理” 或 “正在运行” 状态的任务）。 HealthOmics 将其在超时之前完成的任务的输出导出到您指定的 S3 输出位置。
任务处于待处理状态的时间不计入任务持续时间。
如果运行是运行组的一部分，并且运行组的超时时间早于任务计时器，则运行和任务将转换为失败状态。

使用以下一个或多个单位指定超时持续时间：mss、m、h、或d。

以下示例说明如何在 Nextflow 配置文件中指定全局配置。它将全局超时设置为 1 小时 30 分钟。


process {
    time = '1h30m'
}

以下示例说明如何在工作流定义的任务部分中指定时间指令。此示例将超时设置为 3 天、5 小时和 4 分钟。此值优先于配置文件中的全局值，但不优先于配置文件my_label中特定于任务的时间指令。


process myTask {
    label 'my_label'
    time '3d5h4m'
        
    script:
    """
    your-command-here
    """
}

以下示例说明如何根据名称或标签选择器在 Nextflow 配置文件中指定特定于任务的时间指令。此示例将全局任务超时值设置为 30 分钟。它将任务的值设置为 2 小时myTask，将带有标签的任务的值设置为 3 小时my_label。对于与选择器匹配的任务，这些值优先于全局值和工作流定义中的值。


process {
    time = '30m'
    
    withLabel: 'my_label' {
        time = '3h'  
    }

    withName: 'myTask' {
        time = '2h'  
    }
}

使用下一流配置文件

Nextflow 配置文件是命名的配置设置集，您可以在运行时进行选择。在文件profiles块中定义配置nextflow.config文件：


profiles {
    standard {
        process.cpus = 2
        process.memory = '4 GB'
    }

    production {
        process.cpus = 16
        process.memory = '64 GB'
        params.input = 's3://bucket/production-data.bam'
    }
}

开始运行时，使用engineSettings参数指定一个或多个配置文件。 HealthOmics 将-profile旗帜传递给 Nextflow 引擎。有关更多信息，请参阅指定下一流引擎设置。


aws omics start-run \
  --workflow-id workflow-id \
  --role-arn role-arn \
  --output-uri s3://bucket/prefix/ \
  --engine-settings '{"profile": "production"}'

当指定了多个配置文件时（例如，"test,docker"），Nextflow 会按照命令行中指定的顺序应用它们。由于设置冲突，较新的配置文件会覆盖较早的配置文件。对于低于 26 的 Nextflow 版本，将按照配置文件中定义的顺序而不是命令行顺序应用配置文件。

注意以下几点：

配置文件支持适用于所有 HealthOmics 支持的 Nextflow 版本。
配置文件可以包含参数、流程指令、includeConfig语句和清单替代（包括manifest.nextflowVersion）。
显式运行参数优先于配置文件定义的参数值。
如果您指定的配置文件不存在，则 HealthOmics 会返回验证错误。
必须在工作流程定义 zip 文件中定义配置文件。 HealthOmics 不支持从外部来源获取配置文件定义。
如果您未指定配置文件，则运行将使用该配置文件（前提是该standard配置文件是在工作流程定义中的配置文件下定义的）。否则，运行将使用默认（顶级）配置。
使用配置文件时，我们建议使用在工作流程定义中固定 Nextflow 版本，manifest.nextflowVersion以确保配置文件应用程序在运行期间的行为保持一致。

导出工作流程级别的内容

对于 Nextflow v25.10 及更高版本，您可以导出在单个任务之外生成的文件，例如出处报告或管道 DAG。要导出这些文件，请将其写入/mnt/workflow/output/。 HealthOmics 将放置在该目录中的文件导出到您运行的 Amazon S3 输出位置output/的前缀。

以下示例说明如何配置nf-prov插件以向其写出处报告。/mnt/workflow/output/


prov {
    formats {
        bco {
            file = "/mnt/workflow/output/pipeline_info/manifest.bco.json"
        }
    }
}

您也可以将此路径作为参数传递到跑步的输入 JSON 中。这种方法在使用的 nf-core 工作流程中很常见。params.outdir


{
    "outdir": "/mnt/workflow/output/"
}

导出任务内容

对于用 Nextflow 编写的工作流程，请定义 PublishDir 指令以将任务内容导出到输出 Amazon S3 存储桶。如以下示例所示，将 p ublishDir 值设置为。/mnt/workflow/pubdir要将文件导出到 Amazon S3，文件必须位于此目录中。


 nextflow.enable.dsl=2
              
  workflow {
    CramToBamTask(params.ref_fasta, params.ref_fasta_index, params.ref_dict, params.input_cram, params.sample_name)
    ValidateSamFile(CramToBamTask.out.outputBam)
  }
  
  process CramToBamTask {
    container "<account>.dkr.ecr.us-west-2.amazonaws.com/genomes-in-the-cloud"
  
    publishDir "/mnt/workflow/pubdir"
  
    input:
        path ref_fasta
        path ref_fasta_index
        path ref_dict
        path input_cram
        val sample_name
  
    output:
        path "${sample_name}.bam", emit: outputBam
        path "${sample_name}.bai", emit: outputBai
  
    script:
    """
        set -eo pipefail
  
        samtools view -h -T $ref_fasta $input_cram |
        samtools view -b -o ${sample_name}.bam -
        samtools index -b ${sample_name}.bam
        mv ${sample_name}.bam.bai ${sample_name}.bai
    """
  }
  
  process ValidateSamFile {
    container "<account>.dkr.ecr.us-west-2.amazonaws.com/genomes-in-the-cloud"
  
    publishDir "/mnt/workflow/pubdir"
  
    input:
        file input_bam
  
    output:
        path "validation_report"
  
    script:
    """
        java -Xmx3G -jar /usr/gitc/picard.jar \
        ValidateSamFile \
        INPUT=${input_bam} \
        OUTPUT=validation_report \
        MODE=SUMMARY \
        IS_BISULFITE_SEQUENCED=false
    """
  }

对于 Nextflow v25.10 及更高版本，作为替代方案publishDir，您可以使用工作流程输出来导出任务内容。以下示例说明如何定义将任务结果导出到 Amazon S3 的工作流程output块。


process myTask {
    input:
    val data

    output:
    path 'result.txt'

    script:
    """
    echo ${data} > result.txt
    """
}

workflow {
    main:
    output_file = myTask('hello')

    publish:
    results = output_file
}

output {
    results {
        path '.'
    }
}

有关工作流程输出的更多信息，请参阅 Nextflow 文档中的工作流程输出。

生成下一流执行报告

Nextflow 可以为每次运行生成四个内置报告：执行报告 (reporttimeline)、时间表 ()、跟踪文件 (trace) 和工作流程图 (dag)。 HealthOmics 要将这些文件导出到运行的 Amazon S3 输出位置，请将每个文件配置为将其输出写入nextflow.config文件/mnt/workflow/output/中：


report {
    enabled = true
    file = '/mnt/workflow/output/report.html'
    overwrite = true
}

timeline {
    enabled = true
    file = '/mnt/workflow/output/timeline.html'
    overwrite = true
}

trace {
    enabled = true
    file = '/mnt/workflow/output/trace.txt'
    overwrite = true
}

dag {
    enabled = true
    file = '/mnt/workflow/output/dag.html'
    overwrite = true
}

HealthOmics 将写入output/前缀下的文件导出/mnt/workflow/output/到运行的 Amazon S3 输出位置。有关此导出路径的更多信息，请参阅导出工作流程级别的内容。外部/mnt/workflow/output/写入的报告不会导出到您运行的 Amazon S3 输出位置。

任务容器必须包含 ps

启用reporttimeline、或trace报告后，Nextflow 会通过在每个任务容器ps内调用来收集每个任务的指标。使用该container指令指定的容器镜像必须包含该ps命令。在大多数 Linux 发行版上，使用 procps (Debian/Ubuntu) 或procps-ng（亚马逊 Linux、Red Hat、Fedora）软件包进行安装。如果某个进程未声明container指令，则会在已包含的默认容器中 HealthOmics 运行该任务ps。

工作流程图格式

该dag报告支持多种输出格式，由扩展名选择dag.file。HTML、Mermaid 和 DOT 格式由 Nextflow 直接呈现，不需要额外的工具。PDF、PNG 和 SVG 格式需要 Graphviz，但它不包含在 Nextfl HealthOmics ow 引擎中。如果设置dag.file为 PDF、PNG 或 SVG 路径，Nextflow 会记录一条警告，并将工作流程图作为.dot源文件写在原处；运行仍然成功完成。我们建议dag.file将路径设置为.html.mmd、或.dot路径以避免出现警告并生成请求的格式。

指定 Nextflow 语法版本

Nextflow v26.04.0 默认使用严格的 (v2) 语法解析器。对于使用旧版 (v1) 语法编写的工作流程来说，这是一个重大变化，这是 Nextflow v25.10.0 及更早版本中的默认语法。有关 v2 语法的信息，请参阅 Seqera Nextflow 文档中的严格语法。

要运行针对旧版 (v1) 解析器编写的工作流程，请在请求v1中设置engineSettings.syntaxVersion为：StartRun


{
  "engineSettings": {
    "syntaxVersion": "v1"
  }
}

对于 Nextflow v25.10.0 及更早版本， HealthOmics 不支持 v2 解析器。

在 Nextflow 中高效使用临时存储

Nextflow 的scratch指令控制进程将其临时工作文件写入的位置。启用临时存储 (scratchStorageMode: LOCAL) 后，使用scratch指令将从头开始 I/O 指向位于的快速本地卷。/tmp

下表描述了支持的scratch指令值及其在中的行为 HealthOmics：

值	中的行为 HealthOmics	建议
`scratch true`	使用 `$TMPDIR`。如果 I/O 是，Scratch 会被定向到本地临时卷。`scratchStorageMode` `LOCAL`	推荐
`scratch '/some/path'`	使用指定的文字路径作为暂存目录。要使用临时存储，请将路径设置为`/tmp`或的子目录。`/tmp`路径必须存在于容器中并且是可写的。	当路径位于下方时起作用 `/tmp`
`scratch 'ram-disk'`	正在尝试使用`/dev/shm`（内存中的 tmpfs）。不建议将其用于中的本地临时存储 HealthOmics。	不推荐使用

推荐的方法是在您的流程定义scratch true中进行设置，它会自动使用路径配置，$TMPDIR并且不需要路径配置：


process my_process {
    scratch true
    disk '200 GB'
    script:
    """
    my-tool --input ${input} --output ${output}
    """
}

有关临时存储和disk指令的更多信息，请参见。用于工作流程任务的临时存储 HealthOmics

Nextflow v26.04 发行说明

下表汇总了对 Nextflow 版本 26.04 中发布的新功能、增强功能和弃用版本的 HealthOmics 支持。

新功能和增强功能

功能	之前版本	HealthOmics 支持	注意
严格的语法解析器（默认）	26.04	是	从 v26.04 开始默认启用。旧版解析器可通过`syntaxVersion: "v1"`引擎设置获得。
记录类型	26.04	是	有关更多信息，请参阅 Seqera Nextflow 文档中的记录。
工作流程输出摘要	26.04	是	运行完成时打印工作流程输出的摘要。输出格式可通过引擎设置进行`outputFormat`配置。有关更多信息，请参阅指定下一流引擎设置。
代理日志模式	26.04	是	可通过`agentMode`发动机设置进行配置。有关更多信息，请参阅指定下一流引擎设置。
模块系统（Nextflow 注册表）	26.04	否	HealthOmics 工作流程在没有出站 Internet 访问权限的隔离网络中运行。您可以将模块直接包含在工作流程 zip 中。
静态打字（预览）	26.04	否	HealthOmics 不支持预览功能。
Auto-load 从文件中收集参数	26.04	否	需要静态输入（预览）， HealthOmics 但不支持。
Multi-revision 管道结账	26.04	N/A	不适用。 HealthOmics 不使用 Git-based 管道结账。

弃用

已弃用的物品	之前版本	影响	推荐操作
`listFiles()` 方法	26.04	弃用警告	替换为`listDirectory()`。
`nextflow.enable.strict` 标志	26.04	不再需要了	从配置中删除。严格模式现在是默认模式。
`manifest.defaultBranch`	26.04	不再需要了	从配置中删除。 HealthOmics 不使用 Git-based 管道签出，也从未支持过此选项。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

WDL 的细节

CWL 细节