

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

# HealthOmics ETags e provenienza dei dati
<a name="etags-and-provenance"></a>

Un HealthOmics ETag (tag di entità) è un hash del contenuto acquisito in un archivio di sequenze. Ciò semplifica il recupero e l'elaborazione dei dati mantenendo al contempo l'integrità dei contenuti dei file di dati acquisiti. ETag Riflette le modifiche al contenuto semantico dell'oggetto, non ai suoi metadati. Il tipo di set di lettura e l'algoritmo specificati determinano la modalità di calcolo ETag . Il ETag calcolo non altera il file effettivo o i dati genomici. Quando lo schema del tipo di file del set di lettura lo consente, l'archivio delle sequenze aggiorna i campi collegati alla provenienza dei dati. 

I file hanno un'identità bit per bit e un'identità semantica. L'identità bit per bit significa che i bit di un ﬁle sono identici e un'identità semantica significa che i contenuti di un ﬁle sono identici. L'identità semantica è resistente alle modifiche dei metadati e alle modifiche di compressione poiché acquisisce l'integrità del contenuto del file. 

I set di lettura negli archivi di HealthOmics sequenza sono sottoposti a compression/decompression cicli e al monitoraggio della provenienza dei dati durante tutto il ciclo di vita di un oggetto. Durante questa elaborazione, l'identità bit per bit di un ﬁle ingerito può cambiare e dovrebbe cambiare ogni volta che viene attivato un file; tuttavia, l'identità semantica del ﬁle viene mantenuta. L'identità semantica viene acquisita come tag di HealthOmics entità, oppure ETag viene calcolata durante l'inserimento del Sequence Store e disponibile come metadati del set di lettura.

Quando lo schema dei tipi di ﬁle del set di lettura lo consente, i campi degli aggiornamenti dell'archivio delle sequenze sono collegati alla provenienza dei dati. Per i ﬁle UBam, BAM e CRAM, viene aggiunto un nuovo `@CO` tag or all'intestazione. `Comment` Il commento contiene l'ID dell'archivio della sequenza e il timestamp di inserimento. 

## Amazon S3 ETags
<a name="s3-etags"></a>

Quando si accede a un file utilizzando l'URI di Amazon S3, le operazioni API di Amazon S3 possono anche restituire valori Amazon S3 e valori di checksum. ETag I valori di Amazon S3 ETag e checksum differiscono da quelli HealthOmics ETags perché rappresentano l'identità bit per bit del file. Per ulteriori informazioni sui metadati e sugli oggetti descrittivi, consulta la documentazione dell'API Amazon [S3](https://docs.aws.amazon.com/AmazonS3/latest/API/API_Object.html) Object. ETag I valori di Amazon S3 possono cambiare con ogni ciclo di attivazione di un set di lettura e puoi utilizzarli per convalidare la lettura di un file. Tuttavia, non memorizzare nella cache ETag i valori di Amazon S3 da utilizzare per la convalida dell'identità dei file durante il ciclo di vita del file perché non rimangono coerenti. Al contrario, HealthOmics ETag rimane coerente per tutto il ciclo di vita del set di lettura. 

## Come calcola HealthOmics ETags
<a name="how-etags-calculated"></a>

 ETag Viene generato da un hash del contenuto del file ingerito. La famiglia di ETag algoritmi è impostata come impostazione MD5up predefinita, ma può essere configurata in modo diverso durante la creazione dell'archivio di sequenze. Quando ETag viene calcolato, l'algoritmo e gli hash calcolati vengono aggiunti al set di lettura. MD5 Gli algoritmi supportati per i tipi di file sono i seguenti.
+ *FASTQ\$1 MD5up* — Calcola l' MD5hash di una sorgente di lettura FASTQ completa e non compressa.
+ *BAM\$1 MD5up* — Calcola l' MD5 hash della sezione di allineamento di una sorgente non compressa del set di lettura BAM o UBam rappresentata nel SAM, in base al riferimento collegato, se disponibile.
+ *CRAM\$1 MD5up* — Calcola l' MD5 hash della sezione di allineamento della sorgente non compressa del set di lettura CRAM rappresentata nel SAM, in base al riferimento collegato.

**Nota**  
MD5 è noto che l'hashing è vulnerabile alle collisioni. Per questo motivo, due file diversi potrebbero avere le stesse caratteristiche ETag se fossero stati prodotti per sfruttare la collisione nota.

I seguenti algoritmi sono supportati per la famiglia. SHA256 Gli algoritmi vengono calcolati come segue:
+ *FASTQ\$1 SHA256up* — Calcola l'hash SHA-256 di una sorgente di set di lettura FASTQ completa e non compressa. 
+ *BAM\$1 SHA256up* — Calcola l'hash SHA-256 della sezione di allineamento di una sorgente non compressa del set di lettura BAM o UBam rappresentata nel SAM, in base al riferimento collegato, se disponibile. 
+ *CRAM\$1 SHA256up* — Calcola l'hash SHA-256 della sezione di allineamento di una sorgente del set di lettura CRAM non compressa rappresentata nel SAM, in base al riferimento collegato. 

I seguenti algoritmi sono supportati per la famiglia. SHA512 Gli algoritmi vengono calcolati come segue:
+ *FASTQ\$1 SHA512up* — Calcola l'hash SHA-512 di una sorgente di set di lettura FASTQ completa e non compressa. 
+ *BAM\$1 SHA512up* — Calcola l'hash SHA-512 della sezione di allineamento di una sorgente non compressa del set di lettura BAM o UBam rappresentata nel SAM, in base al riferimento collegato, se disponibile. 

   
+ *CRAM\$1 SHA512up * — Calcola l'hash SHA-512 della sezione di allineamento di una sorgente del set di lettura CRAM non compressa rappresentata nel SAM, in base al riferimento collegato. 