HealthOmics entradas de execução - AWS HealthOmics

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

HealthOmics entradas de execução

Se a definição do fluxo de trabalho especificar arquivos de entrada para o fluxo de trabalho ou para as tarefas do fluxo HealthOmics de trabalho, transforme os arquivos em um volume temporário dedicado à execução do fluxo de trabalho. Esses arquivos de entrada são somente para leitura, o que impede que as tarefas modifiquem possíveis entradas para outras tarefas no fluxo de trabalho. Para importações de diretórios, os diretórios também são somente para leitura.

Muitos aplicativos de genômica presumem que os arquivos de índice estão co-localizados com os arquivos de sequência (como um bai arquivo complementar para um bam arquivo). Para incluir arquivos de índice, especifique-os como entradas de tarefas na definição do fluxo de trabalho.

Gerenciando o tamanho dos parâmetros de execução

Ao iniciar uma execução, você especifica as entradas de execução no objeto ou arquivo JSON dos parâmetros de execução. Você pode especificar até 50 KB de parâmetros de execução para o fluxo de trabalho. Você pode usar as seguintes técnicas para permanecer dentro dessa restrição de tamanho:

  • Use importações de diretórios

    Para especificar um grande número de arquivos de entrada, especifique um parâmetro como o local do Amazon S3 que contém todos os arquivos, em vez de especificar um parâmetro para cada local de arquivo. Para obter mais informações, consulte o próximo tópico (formatos de parâmetros de entrada do Amazon S3).

  • Use uma folha de amostra

    Uma planilha de amostra é um arquivo CSV ou TSV com uma coluna para o endereço fastq.gz (ou duas para leitura em pares) e colunas adicionais para metadados, como nomes de amostras. Você especifica a planilha de amostra como um parâmetro de entrada de execução em vez de um parâmetro para cada arquivo de entrada.

    Seu fluxo de trabalho define como sua planilha de amostra é mapeada para estruturas de dados no fluxo de trabalho. Embora você possa escrever código para folhas de amostra em WDL e CWL, elas são mais comuns em. NextFlow Para ver um exemplo, consulte a planilha de amostra no site nf-core GitHub .

Formatos de parâmetros de entrada do Amazon S3

Para um parâmetro de entrada que aceita uma localização do Amazon S3, o parâmetro pode especificar a localização de um arquivo ou de um diretório inteiro de arquivos. Usar um diretório tem as seguintes vantagens:

  • Conveniência — Você especifica o nome do diretório como parâmetro. Você não lista cada nome de arquivo.

  • Compacidade — O tamanho máximo do arquivo do parâmetro de entrada é 50 KB. Se você fornecer uma longa lista de nomes de arquivos de entrada, poderá exceder esse máximo.

O Amazon S3 é um sistema plano de armazenamento de objetos, por isso não oferece suporte a diretórios. Você agrupa arquivos em um “diretório” dando a cada arquivo o mesmo prefixo de chave de objeto. Para obter mais informações sobre prefixos de chave de objeto do Amazon S3, consulte Organização de objetos usando prefixos.

HealthOmics interpreta o valor do parâmetro de entrada da seguinte forma:

  • Se a localização do Amazon S3 não terminar com uma barra ou usar o padrão global, HealthOmics espere que o valor do parâmetro seja a chave para um objeto do Amazon S3.

    Por exemplo, você especifica s3://myfiles/runs/inputs/a/file1.fastq para inserir file1.fastq

  • Se a localização do Amazon S3 terminar com uma barra, HealthOmics interpreta o valor do parâmetro como um prefixo do Amazon S3. Ele carrega todos os objetos do Amazon S3 com esse prefixo.

    Por exemplo, você pode especificar s3://myfiles/runs/inputs/a/ o carregamento de todos os objetos cujas chaves comecem com esse prefixo.

  • Para o Nextflow, HealthOmics suporta o padrão global do Amazon URIs S3 nos parâmetros de entrada.

    Por exemplo, você pode especificar “s3://myfiles/runs/inputs/a/*.gz” a entrada de todos os arquivos.gz cujas chaves comecem com esse prefixo.

Tratamento específico do idioma da barra dupla nas entradas do Amazon S3

HealthOmics retém o comportamento do mecanismo nativo de cada mecanismo de fluxo de trabalho ao lidar com barras duplas no Amazon S3 URIs, para que você não precise fazer nenhuma alteração em seus fluxos de trabalho ao migrá-los para. HealthOmics As seções a seguir descrevem como cada motor lida com vários cenários.

WDL

Se o parâmetro de entrada incluir uma barra dupla no meio ou no final do URI, o mecanismo WDL manterá a barra dupla.

Parâmetro de entrada Localização esperada
x3://1.fastq myfiles/runs/inputs//file x3://1.fastq myfiles/runs/inputs//file
s3:////myfiles/runs/inputs s3:////myfiles/runs/inputs

Próximo fluxo

Se o parâmetro de entrada incluir uma barra dupla no meio do URI, o mecanismo Nextflow manterá a barra dupla. Para uma barra dupla no final do URI, o mecanismo Nextflow a resolve em uma única barra.

Parâmetro de entrada Localização esperada
x3://1.fastq myfiles/runs/inputs//file x3://1.fastq myfiles/runs/inputs//file
s3://myfiles//runs/inputs//*.gz s3://myfiles//runs/inputs//*.gz
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs/

CAPUZ

Se o parâmetro de entrada incluir uma barra dupla no meio ou no final do URI, o mecanismo CWL manterá a barra dupla.

Parâmetro de entrada Localização esperada
s3://myfiles// runs/inputs//file 1.fastq s3://myfiles// runs/inputs//file 1.fastq
s3://myfiles//runs/inputs// s3://myfiles//runs/inputs//

Estados de arquivamento de entrada do Amazon S3

HealthOmics pode recuperar objetos do Amazon S3 que o S3 entrega em tempo real. Para objetos que estão nos seguintes estados de armazenamento arquivado, restore os objetos para disponibilizá-los HealthOmics:

  • Classes flexíveis de armazenamento de recuperação ou arquivamento profundo no Amazon S3 Glacier.

  • Camadas de acesso arquivado ou acesso profundo ao arquivamento em camadas inteligentes.

Para obter informações sobre restauração de objetos, consulte Restauração de um objeto arquivado no Guia do usuário do Amazon S3.