Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Importación de conjuntos de lectura a un almacén HealthOmics de secuencias
Después de crear el almacén de secuencias, cree trabajos de importación para cargar los conjuntos de lecturas en el almacén de datos. Puede cargar sus archivos desde un bucket de Amazon S3 o puede cargarlos directamente mediante las operaciones sincrónicas de la API. Su bucket de Amazon S3 debe estar en la misma región que su almacén de secuencias.
Puede cargar cualquier combinación de conjuntos de lecturas alineados y no alineados en su almacén de secuencias; sin embargo, si alguno de los conjuntos de lectura de la importación está alineado, debe incluir un genoma de referencia.
Puede reutilizar la política de acceso de IAM que utilizó para crear el almacén de referencias.
En los temas siguientes se describen los pasos principales que debe seguir para importar un conjunto de lectura al almacén de secuencias y, a continuación, obtener información sobre los datos importados.
Temas
Cargar archivos a Amazon S3
El siguiente ejemplo muestra cómo mover archivos a su bucket de Amazon S3.
aws s3 cp s3://1000genomes/phase1/data/HG00100/alignment/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_1.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/phase3/data/HG00146/sequence_read/SRR233106_2.filt.fastq.gz s3://your-bucket aws s3 cp s3://1000genomes/data/HG00096/alignment/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram s3://your-bucket aws s3 cp s3://gatk-test-data/wgs_ubam/NA12878_20k/NA12878_A.bam s3://your-bucket
La muestra BAM
y la CRAM
utilizada en este ejemplo requieren diferentes referencias genómicas, Hg19
yHg38
. Para obtener más información o acceder a estas referencias, consulte The Broad Genome References
Creación de un archivo de manifiesto
También debe crear un archivo de manifiesto en JSON para modelar el trabajo de importación import.json
(consulte el siguiente ejemplo). Si creas un almacén de secuencias en la consola, no tienes que especificar la sequenceStoreId
oroleARN
, por lo que el archivo de manifiesto comienza con la sources
entrada.
Como alternativa, puedes cargar el archivo de manifiesto en formato YAML.
Iniciar el trabajo de importación
Para iniciar el trabajo de importación, utilice el siguiente AWS CLI comando.
aws omics start-read-set-import-job --cli-input-json file://import.json
Recibirá la siguiente respuesta, que indica que la creación del trabajo se ha realizado correctamente.
{ "id": "3660451514", "sequenceStoreId": "3936421177", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "CREATED", "creationTime": "2022-07-13T22:14:59.309Z" }
Supervise el trabajo de importación
Una vez iniciado el trabajo de importación, puede supervisar su progreso con el siguiente comando. En el siguiente ejemplo,
sustitúyalo por el identificador del almacén de secuencias y sequence store id
sustitúyelo por el identificador de importación.job import ID
aws omics get-read-set-import-job --sequence-store-id
--id
sequence store id
job import ID
A continuación se muestran los estados de todos los trabajos de importación asociados al ID de almacén de secuencias especificado.
{ "id": "1234567890", "sequenceStoreId": "1234567890", "roleArn": "arn:aws:iam::111122223333:role/OmicsImport", "status": "RUNNING", "statusMessage": "The job is currently in progress.", "creationTime": "2022-07-13T22:14:59.309Z", "sources": [ { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00100.chrom20.ILLUMINA.bwa.GBR.low_coverage.20101123.bam" }, "sourceFileType": "BAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/8625408453", "name": "HG00100", "description": "BAM for HG00100", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/SRR233106_1.filt.fastq.gz", "source2": "s3://amzn-s3-demo-bucket/SRR233106_2.filt.fastq.gz" }, "sourceFileType": "FASTQ", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "HG00146", "description": "FASTQ for HG00146", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/HG00096.alt_bwamem_GRCh38DH.20150718.GBR.low_coverage.cram" }, "sourceFileType": "CRAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/3242349265/reference/1234568870", "name": "HG00096", "description": "CRAM for HG00096", "generatedFrom": "1000 Genomes", "readSetID": "1234567890" }, { "sourceFiles": { "source1": "s3://amzn-s3-demo-bucket/NA12878_A.bam" }, "sourceFileType": "UBAM", "status": "IN_PROGRESS", "statusMessage": "The job is currently in progress." "subjectId": "mySubject", "sampleId": "mySample", "name": "NA12878_A", "description": "uBAM for NA12878", "generatedFrom": "GATK Test Data", "readSetID": "1234567890" } ] }
Busque los archivos de secuencias importados
Una vez finalizado el trabajo, puede utilizar la operación de la list-read-setsAPI para buscar los archivos de secuencia importados. En el siguiente ejemplo,
sustitúyalos por el ID del almacén de secuencias.sequence store
id
aws omics list-read-sets --sequence-store-id
sequence store id
Recibirás la siguiente respuesta.
{ "readSets": [ { "id": "0000000001", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/01234567890/readSet/0000000001", "sequenceStoreId": "1234567890", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00100", "description": "BAM for HG00100", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/01234567890/reference/0000000001", "fileType": "BAM", "sequenceInformation": { "totalReadCount": 9194, "totalBaseCount": 928594, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:25:20Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "d1d65429212d61d115bb19f510d4bd02" } }, { "id": "0000000002", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000002", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00146", "description": "FASTQ for HG00146", "fileType": "FASTQ", "sequenceInformation": { "totalReadCount": 8000000, "totalBaseCount": 1184000000, "generatedFrom": "1000 Genomes", "alignment": "UNALIGNED" }, "creationTime": "2022-07-13T23:26:43Z" "creationType": "IMPORT", "etag": { "algorithm": "FASTQ_MD5up", "source1": "ca78f685c26e7cc2bf3e28e3ec4d49cd" } }, { "id": "0000000003", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000003", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "HG00096", "description": "CRAM for HG00096", "referenceArn": "arn:aws:omics:us-west-2:111122223333:referenceStore/0123456789/reference/0000000001", "fileType": "CRAM", "sequenceInformation": { "totalReadCount": 85466534, "totalBaseCount": 24000004881, "generatedFrom": "1000 Genomes", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "CRAM_MD5up", "source1": "66817940f3025a760e6da4652f3e927e" } }, { "id": "0000000004", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/0123456789/readSet/0000000004", "sequenceStoreId": "0123456789", "subjectId": "mySubject", "sampleId": "mySample", "status": "ACTIVE", "name": "NA12878_A", "description": "uBAM for NA12878", "fileType": "UBAM", "sequenceInformation": { "totalReadCount": 20000, "totalBaseCount": 5000000, "generatedFrom": "GATK Test Data", "alignment": "ALIGNED" }, "creationTime": "2022-07-13T23:30:41Z" "creationType": "IMPORT", "etag": { "algorithm": "BAM_MD5up", "source1": "640eb686263e9f63bcda12c35b84f5c7" } } ] }
Obtén detalles sobre un conjunto de lecturas
Para ver más detalles sobre un conjunto de lecturas, usa la operación de la GetReadSetMetadataAPI. En el siguiente ejemplo,
sustitúyalo por el ID del almacén de secuencias y sequence store id
sustitúyelo por el ID del conjunto de lecturas.read set id
aws omics get-read-set-metadata --sequence-store-id
--id
sequence store id
read set id
Recibirás la siguiente respuesta.
{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/2015356892/readSet/9515444019", "creationTime": "2024-01-12T04:50:33.548Z", "creationType": "IMPORT", "creationJobId": "33222111", "description": null, "etag": { "algorithm": "FASTQ_MD5up", "source1": "00d0885ba3eeb211c8c84520d3fa26ec", "source2": "00d0885ba3eeb211c8c84520d3fa26ec" }, "fileType": "FASTQ", "files": { "index": null, "source1": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://
accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 }, "source2": { "contentLength": 10818, "partSize": 104857600, "s3Access": { "s3Uri": "s3://accountID
-sequence store ID
-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/readSet/9515444019/import_source1.fastq.gz" }, "totalParts": 1 } }, "id": "9515444019", "name": "paired-fastq-import", "sampleId": "sampleId-paired-fastq-import", "sequenceInformation": { "alignment": "UNALIGNED", "generatedFrom": null, "totalBaseCount": 30000, "totalReadCount": 200 }, "sequenceStoreId": "2015356892", "status": "ACTIVE", "statusMessage": null, "subjectId": "subjectId-paired-fastq-import" }
Descargue los archivos de datos del conjunto de lectura
Puede acceder a los objetos de un conjunto de lecturas activo mediante la operación de la GetObject API Amazon S3. El URI del objeto se devuelve en la respuesta de la GetReadSetMetadataAPI. Para obtener más información, consulte Acceso a conjuntos de HealthOmics lectura con Amazon S3 URIs.
Como alternativa, utilice la operación HealthOmics GetReadSet API. Se puede utilizar GetReadSet para descargar en paralelo descargando partes individuales. Estas piezas son similares a las piezas de Amazon S3. El siguiente es un ejemplo de cómo descargar la parte 1 de un conjunto de lecturas. En el siguiente ejemplo,
sustitúyalo por el ID del almacén de secuencias y sequence store id
sustitúyelo por el ID del conjunto de lectura.read set id
aws omics get-read-set --sequence-store-id
--id
sequence store id
--part-number 1 outfile.bam
read set id
También puedes usar el Gestor de HealthOmics transferencias para descargar archivos para un conjunto de HealthOmics referencia o lectura. Puedes descargar el Gestor de HealthOmics transferencias aquí