Accesso ai set di HealthOmics lettura con Amazon S3 URIs - AWS HealthOmics

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Accesso ai set di HealthOmics lettura con Amazon S3 URIs

Puoi utilizzare i percorsi URI di Amazon S3 per accedere ai set di lettura del tuo archivio di sequenze attivo.

Con il percorso URI di Amazon S3, puoi utilizzare le operazioni di Amazon S3 per elencare, condividere e scaricare i tuoi set di lettura. L'accesso tramite S3 APIs accelera la collaborazione e l'integrazione degli strumenti, dato che molti strumenti del settore sono già progettati per essere letti da S3. Inoltre, puoi condividere l'accesso a S3 APIs con altri account e fornire l'accesso in lettura ai dati in più regioni.

HealthOmics non supporta l'accesso URI di Amazon S3 ai set di lettura archiviati. Quando attivi un set di lettura, viene ripristinato ogni volta sullo stesso percorso URI.

Con i dati caricati negli HealthOmics store, poiché l'URI di Amazon S3 è basato sui punti di accesso Amazon S3, puoi integrarti direttamente con strumenti standard del settore che leggono Amazon S3, come i URIs seguenti:

  • Applicazioni di analisi visiva come Integrative Genomics Viewer (IGV) o UCSC Genome Browser.

  • Flussi di lavoro comuni con estensioni Amazon S3 come CWL, WDL e Nextflow.

  • Qualsiasi strumento in grado di autenticare e leggere dal punto di accesso Amazon URIs S3 o leggere Amazon S3 prefirmato. URIs

  • Utilità Amazon S3 come Mountpoint o. CloudFront

Amazon S3 Mountpoint consente di utilizzare un bucket Amazon S3 come file system locale. Per ulteriori informazioni su Mountpoint e per installarlo per l'uso, consulta Mountpoint per Amazon S3.

Amazon CloudFront è un servizio di rete per la distribuzione di contenuti (CDN) creato per prestazioni elevate, sicurezza e praticità per gli sviluppatori. Per ulteriori informazioni sull'uso di Amazon CloudFront, consulta la CloudFront documentazione di Amazon. Per configurare CloudFront un Sequence Store, contatta il AWS HealthOmics team.

L'account root del proprietario dei dati è abilitato per le azioni S3:GetObject, S3: e S3:List Bucket sul prefisso del Sequence Store. GetObjectTagging Per consentire a un utente dell'account di accedere ai dati, devi creare una policy IAM e collegarla all'utente o al ruolo. Per un esempio di policy, consulta Autorizzazioni per l'accesso ai dati tramite Amazon S3 URIs.

Puoi utilizzare le seguenti operazioni API di Amazon S3 sui set di lettura attivi per elencare e recuperare i tuoi dati. Puoi accedere ai set di lettura archiviati tramite Amazon URIs S3 dopo che sono stati attivati.

  • GetObject— Recupera un oggetto da Amazon S3.

  • HeadObject— L'operazione HEAD recupera i metadati da un oggetto senza restituire l'oggetto stesso. Questa operazione è utile se desiderate solo i metadati di un oggetto.

  • ListObjects e ListObject v2 — Restituisce alcuni o tutti (fino a 1.000) gli oggetti in un bucket.

  • CopyObject— Crea una copia di un oggetto già archiviato in Amazon S3. HealthOmicssupporta la copia su un punto di accesso Amazon S3, ma non la scrittura su un punto di accesso.

HealthOmics gli archivi di sequenze mantengono l'identità semantica dei file tramite. ETags Nel corso del ciclo di vita di un file, Amazon ETag S3, che si basa sull'identità bit per bit, può cambiare, HealthOmics ETag ma rimane lo stesso. Per ulteriori informazioni, consulta HealthOmics ETags e provenienza dei dati.

Struttura URI Amazon S3 nello storage HealthOmics

Tutti i file con Amazon S3 URIs dispongono di tag omics:subjectId di omics:sampleId risorsa. Puoi utilizzare questi tag per condividere l'accesso utilizzando le policy IAM attraverso un modello come"s3:ExistingObjectTag/omics:subjectId": "pattern desired".

La struttura del file è la seguente:

.../account_id/sequenceStore/seq_store_id/readSet/read_set_id/files.

Per i file importati negli archivi di sequenza da Amazon S3, l'archivio di sequenze tenta di mantenere il nome sorgente originale. Quando i nomi sono in conflitto, il sistema aggiunge le informazioni sui set di lettura per garantire che i nomi dei file siano univoci. Ad esempio, per i set di lettura fastq, se entrambi i nomi di file sono uguali, per renderli unici, sourceX viene inserito prima di .fastq.gz o .fq.gz. Per un caricamento diretto, i nomi dei file seguono i seguenti schemi:

  • Per FASTQ— read_set_name _ .fastq.gz sourcex

  • uBAM/BAM/CRAMPer read_set_name —. file extensioncon estensioni di .bam o.cram. Un esempio è NA193948.bam.

Per i set di lettura che sono BAM o CRAM, i file di indice vengono generati automaticamente durante il processo di ingestione. Per i file di indice generati, viene applicata l'estensione di indice corretta alla fine del nome del file. Ha lo schema <name of the Source the index is on>.<file index extension>. Le estensioni dell'indice sono .bai o.crai.

Utilizzo di IGV ospitato o locale per accedere ai set di lettura

IGV è un browser genomico utilizzato per analizzare i file BAM e CRAM. Richiede sia il file che l'indice perché mostra solo una parte del genoma alla volta. IGV può essere scaricato e utilizzato localmente e sono disponibili guide per creare un IGV ospitato in AWS. La versione web pubblica non è supportata perché richiede CORS.

IGV locale si basa sulla AWS configurazione locale per accedere ai file. Assicurati che al ruolo utilizzato in quella configurazione sia associata una policy che kms: abiliti Decrypt e s3: GetObject autorizzazioni all'URI s3 dei set di lettura a cui si accede. Dopodiché, in IGV, puoi usare «File > carica da URL» e incollare l'URI per il codice sorgente e l'indice. In alternativa, presigned URLs può essere generato e utilizzato nello stesso modo, ignorando la configurazione AWS. Tieni presente che CORS non è supportato con l'accesso URI di Amazon S3, quindi le richieste che si basano su CORS non sono supportate.

L'esempio AWS Hosted IGV si affida ad AWS Cognito per creare le configurazioni e le autorizzazioni corrette all'interno dell'ambiente. Assicurati che venga creata una policy che abiliti le autorizzazioni KMS:Decrypt e s3: GetObject per l'URI Amazon S3 dei set di lettura a cui si accede e aggiungi questa policy al ruolo assegnato al pool di utenti Cognito. Dopodiché, in IGV, puoi usare «File > carica da URL» e inserire l'URI per l'origine e l'indice. In alternativa, presigned URLs può essere generato e utilizzato nello stesso modo, ignorando la configurazione AWS.

Tieni presente che l'archivio delle sequenze non verrà visualizzato nella scheda «Amazon» perché mostra solo i bucket di tua proprietà nella regione in cui è configurato il AWS profilo.

Utilizzando Samtools o in HTSlib HealthOmics

HTSlib è la libreria principale condivisa da diversi strumenti come Samtools, RSAMTools e altri. PySam Usa HTSlib la versione 1.20 o successiva per ottenere un supporto senza interruzioni per Amazon S3 Access Point. Per le versioni precedenti della HTSlib libreria, puoi utilizzare le seguenti soluzioni alternative:

  • Imposta la variabile di ambiente per l'host HTS Amazon S3 con:. export HTS_S3_HOST="s3.region.amazonaws.com"

  • Genera un URL predefinito per i file che desideri utilizzare. Se utilizzi un BAM o un CRAM, assicurati che venga generato un URL predefinito sia per il file che per l'indice. Dopodiché, entrambi i file possono essere utilizzati con le librerie.

  • Usa Mountpoint per montare l'archivio di sequenze o leggere il prefisso set nello stesso ambiente in cui stai usando HTSlib le librerie. Da qui, è possibile accedere ai file utilizzando i percorsi dei file locali.

Usare Mountpoint HealthOmics

Mountpoint per Amazon S3 è un client di file semplice e ad alta velocità per il montaggio di un bucket Amazon S3 come file system locale. Con Mountpoint per Amazon S3, le tue applicazioni possono accedere agli oggetti archiviati in Amazon S3 tramite operazioni sui file come apertura e lettura. Mountpoint per Amazon S3 traduce automaticamente queste operazioni in chiamate API di oggetti Amazon S3, offrendo alle applicazioni l'accesso allo storage elastico e al throughput di Amazon S3 tramite un'interfaccia di file.

Mountpoint può essere installato utilizzando le istruzioni di installazione di Mountpoint. Mountpoint utilizza il profilo AWS locale per l'installazione e funziona a livello di prefisso Amazon S3. Assicurati che il profilo utilizzato abbia una policy che abiliti le autorizzazioni s3:GetObject, s3: ListBucket e kms: Decrypt per il prefisso URI Amazon S3 dei set di lettura o dell'archivio di sequenze a cui si accede. Successivamente, il bucket può essere montato utilizzando il seguente percorso:

mount-s3 access point arn local path to mount --prefix prefix to sequence store or read set --region region

Usando con CloudFront HealthOmics

Amazon CloudFront è un servizio di rete per la distribuzione di contenuti (CDN) progettato per prestazioni elevate, sicurezza e praticità per gli sviluppatori. I clienti che lo desiderano CloudFront devono collaborare con il team di assistenza per attivare la CloudFront distribuzione. Collabora con il team del tuo account per coinvolgere il team HealthOmics di assistenza.