Creazione di processi di importazione per gli HealthOmics archivi di annotazioni - AWS HealthOmics

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Creazione di processi di importazione per gli HealthOmics archivi di annotazioni

Importante

AWS HealthOmics gli store di varianti e gli archivi di annotazioni non sono più aperti a nuovi clienti. I clienti esistenti possono continuare a utilizzare il servizio normalmente. Per ulteriori informazioni, consulta AWS HealthOmics modifica della disponibilità dell'archivio delle varianti e dell'archivio delle annotazioni.

Creazione di un processo di importazione delle annotazioni utilizzando l'API

L'esempio seguente mostra come utilizzare per avviare un AWS CLI processo di importazione di annotazioni.

aws omics start-annotation-import-job \ --destination-name myannostore \ --version-name myannostore \ --role-arn arn:aws:iam::123456789012:role/roleName \ --items source=s3://my-omics-bucket/sample.vcf.gz --annotation-fields '{"VEP": "CSQ"}'

Gli archivi di annotazioni creati prima del 15 maggio 2023 restituiscono un messaggio di errore se i campi di annotazione sono inclusi. Non restituiscono l'output per le operazioni API coinvolte nei processi di importazione di annotation store.

È quindi possibile utilizzare l'operazione get-annotation-import-jobAPI e il job ID parametro per ottenere maggiori dettagli sul processo di importazione delle annotazioni.

aws omics get-annotation-import-job --job-id 9e4198fb-fa85-446c-9301-9b823a1a8ba8

Riceverai la seguente risposta, inclusi i campi di annotazione.

{ "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "items": [ { "jobStatus": "COMPLETED", "source": "s3://my-omics-bucket/sample.vep.vcf" } ], "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} }

Per visualizzare tutti i lavori di importazione di Annotation Store, utilizzare. list-annotation-import-jobs

aws omics list-annotation-import-jobs --ids 9e4198fb-fa85-446c-9301-9b823a1a8ba8

La risposta include i dettagli e lo stato dei lavori di importazione dell'archivio di annotazioni.

{ "annotationImportJobs": [ { "creationTime": "2023-04-11T19:09:25.049767+00:00", "destinationName": "parsingannotationstore", "versionName": "parsingannotationstore", "id": "9e4198fb-fa85-446c-9301-9b823a1a8ba8", "roleArn": "arn:aws:iam::55555555555:role/roleName", "runLeftNormalization": false, "status": "COMPLETED", "updateTime": "2023-04-11T19:13:09.110130+00:00", "annotationFields" : {"VEP": "CSQ"} } ] }

Parametri aggiuntivi per i formati TSV e VCF

Per i formati TSV e VCF, esistono parametri aggiuntivi che informano l'API su come analizzare l'input.

Importante

I dati di annotazione CSV esportati con i motori di query restituiscono direttamente le informazioni dall'importazione del set di dati. Se i dati importati contengono formule o comandi, il file potrebbe essere soggetto all'iniezione di file CSV. Pertanto, i file esportati con i motori di query possono richiedere avvisi di sicurezza. Per evitare attività dannose, disattivate i link e le macro durante la lettura dei file di esportazione.

Il parser TSV esegue anche operazioni bioinformatiche di base, come la normalizzazione sinistra e la standardizzazione delle coordinate genomiche, elencate nella tabella seguente.

Tipo di formato Description
Generico File di testo generico. Nessuna informazione genomica.
CHR_POS Posizione iniziale - 1, Aggiungi posizione finale, che è la stessa di. POS
CHR_POS_REF_ALT Contiene informazioni sugli alleli contig, 1-base position, ref e alt.
CHR_START_END_REF_ALT_ONE_BASE Contiene informazioni sugli alleli contig, start, end, ref e alt. Le coordinate sono a base 1.
CHR_START_END_ZERO_BASE Contiene le posizioni contig, iniziale e finale. Le coordinate sono basate su 0.
CHR_START_END_ONE_BASE Contiene le posizioni contig, iniziale e finale. Le coordinate sono a base 1.
CHR_START_END_REF_ALT_ZERO_BASE Contiene informazioni sugli alleli contig, start, end, ref e alt. Le coordinate sono basate su 0.

Una richiesta di archiviazione delle annotazioni di importazione TSV è simile all'esempio seguente.

aws omics start-annotation-import-job \ --destination-name tsv_anno_example \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/genomic_data.bed.gz \ --format-options '{ "tsvOptions": { "readOptions": { "header": false, "sep": "\t" } } }'

Creazione di archivi di annotazioni in formato TSV

L'esempio seguente crea un archivio di annotazioni utilizzando un file con limiti di tabulazioni che contiene un'intestazione, righe e commenti. Le coordinate sono CHR_START_END_ONE_BASED e contiene la mappa HG19 genica della Synopsis of the Human Gene Map dell'OMIM.

aws omics create-annotation-store --name mimgenemap \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ONE_BASE, formatToHeader={CHR=chromosome, START=genomic_position_start, END=genomic_position_end}, schema=[ {chromosome=STRING}, {genomic_position_start=LONG}, {genomic_position_end=LONG}, {cyto_location=STRING}, {computed_cyto_location=STRING}, {mim_number=STRING}, {gene_symbols=STRING}, {gene_name=STRING}, {approved_gene_name=STRING}, {entrez_gene_id=STRING}, {ensembl_gene_id=STRING}, {comments=STRING}, {phenotypes=STRING}, {mouse_gene_symbol=STRING}]}'

È possibile importare file con o senza un'intestazione. Per indicarlo in una richiesta CLI, utilizzareheader=false, come mostrato nel seguente esempio di processo di importazione.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/annotation-examples/hg38_genemap2.txt \ --destination-name output-bucket \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

L'esempio seguente crea un archivio di annotazioni per un file bed. Un file bed è un semplice file delimitato da tabulazioni. In questo esempio, le colonne sono cromosoma, inizio, fine e nome della regione. Le coordinate sono a base zero e i dati non hanno un'intestazione.

aws omics create-annotation-store \ --name cexbed --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_START_END_ZERO_BASE, formatToHeader={CHR=chromosome, START=start, END=end}, schema=[{chromosome=STRING}, {start=LONG}, {end=LONG}, {name=STRING}]}'

È quindi possibile importare il file bed nell'archivio di annotazioni utilizzando il seguente comando CLI.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/TruSeq_Exome_TargetedRegions_v1.2.bed \ --destination-name cexbed \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

L'esempio seguente crea un archivio di annotazioni per un file delimitato da tabulazioni che contiene le prime colonne di un file VCF, seguite da colonne con informazioni sulle annotazioni. Contiene le posizioni del genoma con informazioni sul cromosoma, sugli alleli iniziali, di riferimento e alternativi e contiene un'intestazione.

aws omics create-annotation-store --name gnomadchrx --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions='{ annotationType=CHR_POS_REF_ALT, formatToHeader={CHR=chromosome, POS=start, REF=ref, ALT=alt}, schema=[ {chromosome=STRING}, {start=LONG}, {ref=STRING}, {alt=STRING}, {filters=STRING}, {ac_hom=STRING}, {ac_het=STRING}, {af_hom=STRING}, {af_het=STRING}, {an=STRING}, {max_observed_heteroplasmy=STRING}]}'

È quindi necessario importare il file nell'archivio di annotazioni utilizzando il seguente comando CLI.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://amzn-s3-demo-bucket/gnomad.genomes.v3.1.sites.chrM.reduced_annotations.tsv \ --destination-name gnomadchrx \ --format-options=tsvOptions='{readOptions={sep="\t",header=true,comment="#"}}'

L'esempio seguente mostra come un cliente può creare un archivio di annotazioni per un file mim2gene. Un file mim2gene fornisce i collegamenti tra i geni in OMIM e un altro identificatore genico. È delimitato da tabulazioni e contiene commenti.

aws omics create-annotation-store \ --name mim2gene \ --store-format TSV \ --reference=referenceArn=arn:aws:omics:us-west-2:555555555555:referenceStore/6505293348/reference/2310864158 \ --store-options=tsvStoreOptions=' {annotationType=GENERIC, formatToHeader={}, schema=[ {mim_gene_id=STRING}, {mim_type=STRING}, {entrez_id=STRING}, {hgnc=STRING}, {ensembl=STRING}]}'

Puoi quindi importare i dati nel tuo negozio come segue.

aws omics start-annotation-import-job \ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items=source=s3://xquek-dev-aws/annotation-examples/mim2gene.txt \ --destination-name mim2gene \ --format-options=tsvOptions='{readOptions={sep="\t",header=false,comment="#"}}'

Avvio di processi di importazione in formato VCF

Per i file VCF, sono disponibili due input aggiuntivi che ignorano o includono tali parametri come mostrato. ignoreQualField ignoreFilterField

aws omics start-annotation-import-job --destination-name annotation_example\ --role-arn arn:aws:iam::555555555555:role/demoRole \ --items source=s3://demodata/example.garvan.vcf \ --format-options '{ "vcfOptions": { "ignoreQualField": false, "ignoreFilterField": false } }'

È inoltre possibile annullare l'importazione di un archivio di annotazioni, come illustrato. Se l'annullamento ha esito positivo, non riceverai una risposta a questa AWS CLI chiamata. Tuttavia, se l'ID del processo di importazione non viene trovato o il processo di importazione è completato, viene visualizzato un messaggio di errore.

aws omics cancel-annotation-import-job --job-id edd7b8ce-xmpl-47e2-bc99-258cac95a508
Nota

I metadati importano la cronologia dei lavori per get-annotation-import-job, get-variant-import-joblist-annotation-import-jobs, e list-variant-import-jobsvengono eliminati automaticamente dopo due anni. I dati di varianti e annotazioni importati non vengono eliminati automaticamente e rimangono nei tuoi archivi dati.