As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Importação de conjuntos de leitura para um armazenamento de HealthOmics sequências
Depois de criar seu armazenamento de sequências, crie trabalhos de importação para carregar conjuntos de leitura no armazenamento de dados. Você pode carregar seus arquivos de um bucket do Amazon S3 ou pode fazer upload diretamente usando as operações síncronas da API. Seu bucket do Amazon S3 deve estar na mesma região do seu armazenamento de sequências.
Você pode carregar qualquer combinação de conjuntos de leitura alinhados e não alinhados em seu armazenamento de sequências. No entanto, se algum dos conjuntos de leitura em sua importação estiver alinhado, você deverá incluir um genoma de referência.
Você pode reutilizar a política de acesso do IAM que você usou para criar o repositório de referência.
Os tópicos a seguir descrevem as principais etapas que você segue para importar um conjunto de leitura para seu armazenamento de sequências e, em seguida, obter informações sobre os dados importados.
Tópicos
Faça upload de arquivos para o Amazon S3
O exemplo a seguir mostra como mover arquivos para o bucket do Amazon S3.
aws s3 cp s3://1000genomes/phase1/data/HG00100/alignment/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/data/HG00096/alignment/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram s3://your-bucket aws s3 cp s3://gatk-test-data/wgs_ubam/NA12878_20k/NA12878_A.bam s3://your-bucket
A amostra BAM
e a CRAM
usada neste exemplo requerem referências de genoma diferentes, Hg19
e. Hg38
Para saber mais ou acessar essas referências, consulte The Broad Genome References
Criar um arquivo de manifesto
Você também deve criar um arquivo de manifesto em JSON para modelar o trabalho de importação import.json
(veja o exemplo a seguir). Se você criar um armazenamento de sequências no console, não precisará especificar sequenceStoreId
ouroleARN
, portanto, seu arquivo de manifesto começa com a sources
entrada.
Como alternativa, você pode carregar o arquivo de manifesto no formato YAML.
Iniciando o trabalho de importação
Para iniciar o trabalho de importação, use o AWS CLI comando a seguir.
aws omics start-read-set-import-job --cli-input-json file://import.json
Você recebe a seguinte resposta, que indica uma criação de emprego bem-sucedida.
{ "id": "3660451514", "sequenceStoreId": "3936421177", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "CREATED", "creationTime": "2022-07-13T22:14:59.309Z" }
Monitore o trabalho de importação
Depois que o trabalho de importação for iniciado, você poderá monitorar seu progresso com o comando a seguir. No exemplo a seguir,
substitua pela ID do armazenamento de sequências e sequence store id
substitua pela ID de importação.job import ID
aws omics get-read-set-import-job --sequence-store-id
--id
sequence store id
job import ID
A seguir, são mostrados os status de todos os trabalhos de importação associados à ID de armazenamento de sequência especificada.
{ "id": "1234567890", "sequenceStoreId": "1234567890", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "RUNNING", "statusMessage": "The job is currently in progress.", "creationTime": "2022-07-13T22:14:59.309Z", "sources": [ { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam" }, "sourceFileType": "BAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/8625408453", "name": "HG00100", "description": "BAM for HG00100", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz", "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz" }, "sourceFileType": "FASTQ", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "HG00146", "description": "FASTQ for HG00146", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram" }, "sourceFileType": "CRAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/1234568870", "name": "HG00096", "description": "CRAM for HG00096", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam" }, "sourceFileType": "UBAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "NA12878_A", "description": "uBAM for NA12878", "generatedFrom": "GATK Test Data", "readSetID": "1234567890" } ] }
Encontre os arquivos de sequência importados
Depois que o trabalho for concluído, você poderá usar a operação da list-read-setsAPI para encontrar os arquivos de sequência importados. No exemplo a seguir,
substitua pelo seu ID de armazenamento de sequências.sequence store
id
aws omics list-read-sets --sequence-store-id
sequence store id
Você recebe a seguinte resposta.
{ "readSets": [ { "id": "0000000001", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/01234567890/readSet/0000000001", "sequenceStoreId": "1234567890", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00100", "description": "BAM for HG00100", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/01234567890/reference/0000000001", "fileType": "BAM", "sequenceInformation": { "totalReadCount": 9194, "totalBaseCount": 928594, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:25:20Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "d1d65429212d61d115bb19f510d4bd02" } }, { "id": "0000000002", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000002", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00146", "description": "FASTQ for HG00146", "fileType": "FASTQ", "sequenceInformation": { "totalReadCount": 8000000, "totalBaseCount": 1184000000, "generatedFrom": "1000 Genomes", "alignment": "UNALIGNED" }, "creationTime": "2022-07-13T23:26:43Z" "creationType": "IMPORT", "etag": { "algorithm": "FASTQ_MD5up", "source1": "ca78f685c26e7cc2bf3e28e3ec4d49cd" } }, { "id": "0000000003", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000003", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00096", "description": "CRAM for HG00096", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/0123456789/reference/0000000001", "fileType": "CRAM", "sequenceInformation": { "totalReadCount": 85466534, "totalBaseCount": 24000004881, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "CRAM_MD5up", "source1": "66817940f3025a760e6da4652f3e927e" } }, { "id": "0000000004", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000004", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "NA12878_A", "description": "uBAM for NA12878", "fileType": "UBAM", "sequenceInformation": { "totalReadCount": 20000, "totalBaseCount": 5000000, "generatedFrom": "GATK Test Data", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "640eb686263e9f63bcda12c35b84f5c7" } } ] }
Obtenha detalhes sobre um conjunto de leitura
Para ver mais detalhes sobre um conjunto de leitura, use a operação GetReadSetMetadatada API. No exemplo a seguir,
substitua pela ID do armazenamento de sequências e sequence store id
substitua pela ID do conjunto de leitura.read set id
aws omics get-read-set-metadata --sequence-store-id
--id
sequence store id
read set id
Você recebe a seguinte resposta.
{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/2015356892/readSet/9515444019", "creationTime": "2024-01-12T04:50:33.548Z", "creationType": "IMPORT", "creationJobId": "33222111", "description": null, "etag": { "algorithm": "FASTQ_MD5up", "source1": "00d0885ba3eeb211c8c84520d3fa26ec", "source2": "00d0885ba3eeb211c8c84520d3fa26ec" }, "fileType": "FASTQ", "files": { "index": null, "source1": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://
accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 }, "source2": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 } }, "id": "9515444019", "name": "paired-fastq-import", "sampleId": "sampleId-paired-fastq-import", "sequenceInformation": { "alignment": "UNALIGNED", "generatedFrom": null, "totalBaseCount": 30000, "totalReadCount": 200 }, "sequenceStoreId": "2015356892", "status": "ACTIVE", "statusMessage": null, "subjectId": "subjectId-paired-fastq-import" }
Baixe os arquivos de dados do conjunto de leitura
Você pode acessar os objetos de um conjunto de leitura ativo usando a operação de GetObject API do Amazon S3. O URI do objeto é retornado na resposta GetReadSetMetadatada API. Para obter mais informações, consulte Acessando conjuntos de HealthOmics leitura com o Amazon S3 URIs.
Como alternativa, use a operação HealthOmics GetReadSet da API. Você pode usar GetReadSet para baixar paralelamente baixando partes individuais. Essas peças são semelhantes às peças do Amazon S3. Veja a seguir um exemplo de como baixar a parte 1 de um conjunto de leitura. No exemplo a seguir,
substitua pela ID do armazenamento de sequências e sequence store id
substitua pela ID do conjunto de leitura.read set id
aws omics get-read-set --sequence-store-id
--id
sequence store id
--part-number 1 outfile.bam
read set id
Você também pode usar o Gerenciador HealthOmics de Transferências para baixar arquivos para um conjunto de HealthOmics referência ou leitura. Você pode baixar o HealthOmics Transfer Manager aqui