Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Importazione di set di lettura in un archivio di HealthOmics sequenze
Dopo aver creato l'archivio delle sequenze, create processi di importazione per caricare i set di lettura nell'archivio dati. Puoi caricare i tuoi file da un bucket Amazon S3 oppure caricarli direttamente utilizzando le operazioni API sincrone. Il tuo bucket Amazon S3 deve trovarsi nella stessa regione del tuo Sequence Store.
Puoi caricare qualsiasi combinazione di set di lettura allineati e non allineati nel tuo archivio di sequenze, tuttavia, se uno dei set di lettura nell'importazione è allineato, devi includere un genoma di riferimento.
Puoi riutilizzare la policy di accesso IAM che hai usato per creare l'archivio di riferimento.
I seguenti argomenti descrivono i passaggi principali da seguire per importare un set di lettura nel proprio Sequence Store e quindi ottenere informazioni sui dati importati.
Argomenti
Caricare file su Amazon S3
L'esempio seguente mostra come spostare i file nel bucket Amazon S3.
aws s3 cp s3://1000genomes/phase1/data/HG00100/alignment/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/data/HG00096/alignment/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram s3://your-bucket aws s3 cp s3://gatk-test-data/wgs_ubam/NA12878_20k/NA12878_A.bam s3://your-bucket
L'esempio BAM
e quello CRAM
utilizzato in questo esempio richiedono riferimenti genomici diversi, e. Hg19
Hg38
Per saperne di più o per accedere a questi riferimenti, vedere The Broad Genome References
Creazione di un file manifesto
È inoltre necessario creare un file manifest in JSON in cui modellare il processo di importazione import.json
(vedere l'esempio seguente). Se create un archivio di sequenze nella console, non è necessario specificare sequenceStoreId
oroleARN
, quindi il file manifest inizia con l'sources
input.
In alternativa, puoi caricare il file manifest in formato YAML.
Avvio del processo di importazione
Per avviare il processo di importazione, utilizzare il AWS CLI comando seguente.
aws omics start-read-set-import-job --cli-input-json file://import.json
Riceverai la seguente risposta, che indica che la creazione di posti di lavoro è riuscita.
{ "id": "3660451514", "sequenceStoreId": "3936421177", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "CREATED", "creationTime": "2022-07-13T22:14:59.309Z" }
Monitora il processo di importazione
Dopo l'avvio del processo di importazione, è possibile monitorarne l'avanzamento con il seguente comando. Nell'esempio seguente, sostituitelo
con il vostro Sequence Store ID e sostituitelo sequence store id
con l'ID di importazione.job import ID
aws omics get-read-set-import-job --sequence-store-id
--id
sequence store id
job import ID
Di seguito vengono illustrati gli stati di tutti i lavori di importazione associati all'ID dell'archivio delle sequenze specificato.
{ "id": "1234567890", "sequenceStoreId": "1234567890", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "RUNNING", "statusMessage": "The job is currently in progress.", "creationTime": "2022-07-13T22:14:59.309Z", "sources": [ { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam" }, "sourceFileType": "BAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/8625408453", "name": "HG00100", "description": "BAM for HG00100", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz", "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz" }, "sourceFileType": "FASTQ", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "HG00146", "description": "FASTQ for HG00146", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram" }, "sourceFileType": "CRAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/1234568870", "name": "HG00096", "description": "CRAM for HG00096", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam" }, "sourceFileType": "UBAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "NA12878_A", "description": "uBAM for NA12878", "generatedFrom": "GATK Test Data", "readSetID": "1234567890" } ] }
Trovate i file di sequenza importati
Una volta completato il lavoro, potete utilizzare l'operazione list-read-setsAPI per trovare i file di sequenza importati. Nell'esempio seguente, sostituiscilo
con il tuo Sequence Store ID.sequence store
id
aws omics list-read-sets --sequence-store-id
sequence store id
Riceverai la seguente risposta.
{ "readSets": [ { "id": "0000000001", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/01234567890/readSet/0000000001", "sequenceStoreId": "1234567890", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00100", "description": "BAM for HG00100", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/01234567890/reference/0000000001", "fileType": "BAM", "sequenceInformation": { "totalReadCount": 9194, "totalBaseCount": 928594, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:25:20Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "d1d65429212d61d115bb19f510d4bd02" } }, { "id": "0000000002", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000002", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00146", "description": "FASTQ for HG00146", "fileType": "FASTQ", "sequenceInformation": { "totalReadCount": 8000000, "totalBaseCount": 1184000000, "generatedFrom": "1000 Genomes", "alignment": "UNALIGNED" }, "creationTime": "2022-07-13T23:26:43Z" "creationType": "IMPORT", "etag": { "algorithm": "FASTQ_MD5up", "source1": "ca78f685c26e7cc2bf3e28e3ec4d49cd" } }, { "id": "0000000003", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000003", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00096", "description": "CRAM for HG00096", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/0123456789/reference/0000000001", "fileType": "CRAM", "sequenceInformation": { "totalReadCount": 85466534, "totalBaseCount": 24000004881, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "CRAM_MD5up", "source1": "66817940f3025a760e6da4652f3e927e" } }, { "id": "0000000004", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000004", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "NA12878_A", "description": "uBAM for NA12878", "fileType": "UBAM", "sequenceInformation": { "totalReadCount": 20000, "totalBaseCount": 5000000, "generatedFrom": "GATK Test Data", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "640eb686263e9f63bcda12c35b84f5c7" } } ] }
Ottieni dettagli su un set di lettura
Per visualizzare maggiori dettagli su un set di lettura, utilizza l'operazione GetReadSetMetadataAPI. Nell'esempio seguente, sostituiscilo
con il tuo Sequence Store ID e sostituiscilo sequence store id
con il tuo ID del set di lettura.read set id
aws omics get-read-set-metadata --sequence-store-id
--id
sequence store id
read set id
Riceverai la seguente risposta.
{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/2015356892/readSet/9515444019", "creationTime": "2024-01-12T04:50:33.548Z", "creationType": "IMPORT", "creationJobId": "33222111", "description": null, "etag": { "algorithm": "FASTQ_MD5up", "source1": "00d0885ba3eeb211c8c84520d3fa26ec", "source2": "00d0885ba3eeb211c8c84520d3fa26ec" }, "fileType": "FASTQ", "files": { "index": null, "source1": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://
accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 }, "source2": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 } }, "id": "9515444019", "name": "paired-fastq-import", "sampleId": "sampleId-paired-fastq-import", "sequenceInformation": { "alignment": "UNALIGNED", "generatedFrom": null, "totalBaseCount": 30000, "totalReadCount": 200 }, "sequenceStoreId": "2015356892", "status": "ACTIVE", "statusMessage": null, "subjectId": "subjectId-paired-fastq-import" }
Scarica i file di dati del set di lettura
Puoi accedere agli oggetti per un set di lettura attivo utilizzando l'operazione dell'GetObjectAPI Amazon S3. L'URI dell'oggetto viene restituito nella risposta dell'GetReadSetMetadataAPI. Per ulteriori informazioni, consulta Accesso ai set di HealthOmics lettura con Amazon S3 URIs.
In alternativa, utilizzate l'operazione HealthOmics GetReadSet API. È possibile GetReadSet utilizzare il download in parallelo scaricando singole parti. Queste parti sono simili alle parti di Amazon S3. Di seguito è riportato un esempio di come scaricare la parte 1 da un set di lettura. Nell'esempio seguente, sostituiscilo
con il tuo Sequence Store ID e sostituiscilo sequence store id
con il tuo ID del set di lettura.read set id
aws omics get-read-set --sequence-store-id
--id
sequence store id
--part-number 1 outfile.bam
read set id
È inoltre possibile utilizzare HealthOmics Transfer Manager per scaricare file da utilizzare come HealthOmics riferimento o come set di lettura. Puoi scaricare il HealthOmics Transfer Manager qui