Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Acceso a conjuntos de HealthOmics lectura con Amazon S3 URIs
Puede utilizar las rutas URI de Amazon S3 para acceder a los conjuntos de lecturas de su almacén de secuencias activo.
Con la ruta URI de Amazon S3, puede utilizar las operaciones de Amazon S3 para enumerar, compartir y descargar sus conjuntos de lectura. El acceso a través del S3 APIs acelera la colaboración y la integración de herramientas, dado que muchas herramientas del sector ya están diseñadas para leer desde S3. Además, puede compartir el acceso al S3 APIs con otras cuentas y proporcionar acceso de lectura a los datos entre regiones.
HealthOmics no admite el acceso mediante URI de Amazon S3 a conjuntos de lectura archivados. Al activar un conjunto de lecturas, se restaura en la misma ruta de URI cada vez.
Con los datos cargados en HealthOmics las tiendas, dado que el URI de Amazon S3 se basa en los puntos de acceso de Amazon S3, puede integrarse directamente con las herramientas estándar del sector que leen Amazon S3 URIs, como las siguientes:
-
Aplicaciones de análisis visual como Integrative Genomics Viewer (IGV) o UCSC Genome Browser.
-
Flujos de trabajo habituales con extensiones de Amazon S3, como CWL, WDL y Nextflow.
-
Cualquier herramienta que pueda autenticar y leer desde el punto de acceso Amazon S3 URIs o leer Amazon S3 prefirmado. URIs
-
Utilidades de Amazon S3 como Mountpoint o. CloudFront
Amazon S3 Mountpoint le permite utilizar un bucket de Amazon S3 como sistema de archivos local. Para obtener más información sobre Mountpoint e instalarlo para su uso, consulte Mountpoint for Amazon S3
Amazon CloudFront es un servicio de red de entrega de contenido (CDN) creado para ofrecer un alto rendimiento, seguridad y comodidad para los desarrolladores. Para obtener más información sobre el uso de Amazon CloudFront, consulta la CloudFront documentación de Amazon. Para configurar CloudFront una tienda secuencial, ponte en contacto con el AWS HealthOmics equipo.
La cuenta raíz del propietario de los datos está habilitada para las acciones S3:GetObject, S3: GetObjectTagging y S3:List Bucket en el prefijo del almacén de secuencias. Para que un usuario de la cuenta acceda a los datos, debe crear una política de IAM y asociarla al usuario o rol. Para ver una política de ejemplo, consulte Permisos de acceso a los datos mediante Amazon S3 URIs.
Puede utilizar las siguientes operaciones de la API de Amazon S3 en los conjuntos de lectura activos para enumerar y recuperar sus datos. Puede acceder a los conjuntos de lectura archivados a través de Amazon S3 URIs después de haberlos activado.
-
GetObject— Recupera un objeto de Amazon S3.
-
HeadObject— La operación HEAD recupera los metadatos de un objeto sin devolver el objeto en sí. Esta operación es útil si solo desea los metadatos de un objeto.
-
ListObjects y ListObject v2: devuelve algunos o todos (hasta 1000) los objetos de un depósito.
-
CopyObject— Crea una copia de un objeto que ya está almacenado en Amazon S3. HealthOmicsadmite copiar en un punto de acceso Amazon S3, pero no escribir en un punto de acceso.
HealthOmics Los almacenes de secuencias mantienen la identidad semántica de los archivos a través ETags de ellos. A lo largo del ciclo de vida de un archivo, Amazon S3 ETag, que se basa en la identidad bit a bit, puede cambiar, pero HealthOmics ETag sigue siendo el mismo. Para obtener más información, consulte HealthOmics ETags y procedencia de los datos.
Temas
Estructura de URI de Amazon S3 en el HealthOmics almacenamiento
Todos los archivos de Amazon S3 URIs tienen omics:subjectId
etiquetas omics:sampleId
de recursos. Puede utilizar estas etiquetas para compartir el acceso mediante las políticas de IAM siguiendo un patrón como"s3:ExistingObjectTag/omics:subjectId": "pattern desired"
.
La estructura de archivos es la siguiente:
.../
account_id
/sequenceStore/seq_store_id
/readSet/read_set_id
/files
.
En el caso de los archivos importados a almacenes de secuencias desde Amazon S3, el almacén de secuencias intenta mantener el nombre de la fuente original. Cuando los nombres entran en conflicto, el sistema agrega la información del conjunto de lecturas para garantizar que los nombres de los archivos sean únicos. Por ejemplo, en el caso de los conjuntos de lectura fastq, si ambos nombres de archivo son iguales, para que sean únicos, sourceX
se inserta antes de .fastq.gz o .fq.gz. Para una carga directa, los nombres de los archivos siguen los siguientes patrones:
-
Para FASTQ:
read_set_name
_ .fastq.gzsourcex
-
uBAM/BAM/CRAMPara
read_set_name
—.file extension
con extensiones de.bam
o.cram
. Un ejemplo esNA193948.bam
.
En el caso de los conjuntos de lectura que son BAM o CRAM, los archivos de índice se generan automáticamente durante el proceso de ingesta. Para los archivos de índice generados, se aplica la extensión de índice adecuada al final del nombre del archivo. Tiene el patrón <name of the Source the index is on>.<file index extension>.
Las extensiones de índice son .bai
o.crai
.
Uso de IGV alojado o local para acceder a los conjuntos de lectura
IGV es un navegador de genomas que se utiliza para analizar archivos BAM y CRAM. Requiere tanto el archivo como el índice porque solo muestra una parte del genoma a la vez. El IGV se puede descargar y usar localmente, y hay guías para crear un IGV alojado en AWS. La versión web pública no es compatible porque requiere CORS.
El IGV local se basa en la AWS configuración local para acceder a los archivos. Asegúrese de que el rol utilizado en esa configuración tenga una política adjunta que habilite los GetObject permisos kms: Decrypt y s3: para el URI s3 de los conjuntos de lectura a los que se accede. Después, en IGV, puedes usar «Archivo > cargar desde URL» y pegar el URI de la fuente y el índice. Como alternativa, los prefirmados se URLs pueden generar y usar de la misma manera, lo que omitirá la configuración de AWS. Tenga en cuenta que CORS no es compatible con el acceso mediante URI de Amazon S3, por lo que no se admiten solicitudes que dependan de CORS.
El ejemplo de IGV AWS alojado se basa en AWS Cognito para crear las configuraciones y los permisos correctos dentro del entorno. Asegúrese de crear una política que habilite los permisos KMS:Decrypt y s3: para GetObject el URI de Amazon S3 de los conjuntos de lectura a los que se accede y añada esta política al rol asignado al grupo de usuarios de Cognito. Después, en IGV, puede usar «Archivo > cargar desde URL» e introducir el URI de la fuente y el índice. Como alternativa, los prefirmados se URLs pueden generar y usar de la misma manera, lo que evita la configuración de AWS.
Tenga en cuenta que el almacén de secuencias no aparecerá en la pestaña «Amazon», ya que solo muestra los depósitos de su propiedad en la región en la que está configurado el AWS perfil.
Usando Samtools o en HTSlib HealthOmics
HTSlib es la biblioteca principal que comparten varias herramientas, como Samtools, RSAMtools y otras. PySam Utilice HTSlib la versión 1.20 o posterior para obtener una compatibilidad perfecta con los puntos de acceso Amazon S3. Para las versiones anteriores de la HTSlib biblioteca, puede utilizar las siguientes soluciones alternativas:
-
Establezca la variable de entorno para el host HTS Amazon S3 con:
export HTS_S3_HOST="s3.
.region
.amazonaws.com" -
Genere una URL prefirmada para los archivos que desee usar. Si se utiliza un BAM o un CRAM, asegúrese de generar una URL prefirmada tanto para el archivo como para el índice. Después de eso, ambos archivos se pueden usar con las bibliotecas.
-
Utilice Mountpoint para montar el almacén de secuencias o leer el prefijo establecido en el mismo entorno en el que utiliza las bibliotecas. HTSlib Desde aquí, se puede acceder a los archivos mediante las rutas de archivo locales.
Uso de Mountpoint HealthOmics
Mountpoint for Amazon S3 es un cliente de archivos sencillo y de alto rendimiento para montar un bucket de Amazon S3 como un
Mountpoint se puede instalar siguiendo las instrucciones de instalación de Mountpoint.
mount-s3
access point arn
--prefix
local path to mount
--region
prefix to sequence store or read set
region
Utilizándolo CloudFront con HealthOmics
Amazon CloudFront es un servicio de red de entrega de contenido (CDN) creado para ofrecer un alto rendimiento, seguridad y comodidad para los desarrolladores. Los clientes que lo deseen CloudFront deben trabajar con el equipo de servicio para activar la CloudFront distribución. Trabaje con su equipo de cuentas para contratar al equipo HealthOmics de servicio.