기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon S3 URIs를 사용하여 HealthOmics 읽기 세트에 액세스
Amazon S3 URI 경로를 사용하여 활성 시퀀스 스토어 읽기 세트에 액세스할 수 있습니다.
Amazon S3 URI 경로를 사용하면 Amazon S3 작업을 사용하여 읽기 세트를 나열, 공유 및 다운로드할 수 있습니다. S3 APIs 가속화합니다. S3 또한 S3 APIs에 대한 액세스를 다른 계정과 공유하고 데이터에 대한 리전 간 읽기 액세스를 제공할 수 있습니다.
HealthOmics는 아카이브된 읽기 세트에 대한 Amazon S3 URI 액세스를 지원하지 않습니다. 읽기 세트를 활성화하면 매번 동일한 URI 경로로 복원됩니다.
데이터를 HealthOmics 스토어에 로드하면 Amazon S3 URI가 Amazon S3 액세스 포인트를 기반으로 하므로 다음과 같이 Amazon S3 URIs를 읽는 업계 표준 도구와 직접 통합할 수 있습니다.
-
Integrative Genomics Viewer(IGV) 또는 UCSC Genome Browser와 같은 시각적 분석 애플리케이션.
-
CWL, WDL, Nextflow와 같은 Amazon S3 확장을 사용하는 일반적인 워크플로입니다.
-
액세스 포인트 Amazon S3 URIs 또는 미리 서명된 Amazon S3 URIs.
-
Mountpoint 또는 CloudFront와 같은 Amazon S3 유틸리티.
Amazon S3 Mountpoint를 사용하면 Amazon S3 버킷을 로컬 파일 시스템으로 사용할 수 있습니다. Mountpoint에 대해 자세히 알아보고 사용하기 위해 설치하려면 Mountpoint for Amazon S3
Amazon CloudFront는 고성능, 보안 및 개발자 편의를 위해 구축된 콘텐츠 전송 네트워크(CDN) 서비스입니다. Amazon CloudFront 사용에 대한 자세한 내용은Amazon CloudFront 설명서를 참조하세요. 시퀀스 스토어로 CloudFront를 설정하려면 AWS HealthOmics 팀에 문의하세요.
데이터 소유자 루트 계정은 시퀀스 스토어 접두사의 S3:GetObject, S3:GetObjectTagging 및 S3:List 버킷 작업에 대해 활성화됩니다. 계정의 사용자가 데이터에 액세스할 수 있도록 IAM 정책을 생성하여 사용자 또는 역할에 연결합니다. 정책 예제는 Amazon S3 URIs를 사용한 데이터 액세스 권한을 참조하세요.
활성 읽기 세트에서 다음 Amazon S3 API 작업을 사용하여 데이터를 나열하고 검색할 수 있습니다. Amazon S3 URIs 활성화된 후 이를 통해 아카이브된 읽기 세트에 액세스할 수 있습니다.
-
GetObject - Amazon S3에서 객체를 검색합니다.
-
HeadObject - HEAD 작업은 객체 자체를 반환하지 않고 객체에서 메타데이터를 검색합니다. 이 작업은 객체의 메타데이터만 원하는 경우에 유용합니다.
-
ListObjects 및 ListObject v2 - 버킷에 있는 객체의 일부 또는 전부(최대 1,000개)를 반환합니다.
-
CopyObject - Amazon S3에 이미 저장된 객체의 복사본을 생성합니다. HealthOmics는 Amazon S3 액세스 포인트로의 복사를 지원하지만 액세스 포인트에 쓸 수는 없습니다.
HealthOmics 시퀀스 스토어는 ETags를 통해 파일의 의미 체계 ID를 유지합니다. 파일의 수명 주기 동안 비트 단위 자격 증명을 기반으로 하는 Amazon S3 ETag는 변경될 수 있지만 HealthOmics ETag는 동일하게 유지됩니다. 자세한 내용은 HealthOmics ETags 및 데이터 출처를 참조하세요.
주제
HealthOmics 스토리지의 Amazon S3 URI 구조
Amazon S3 URIs 있는 모든 파일에는 omics:subjectId
및 omics:sampleId
리소스 태그가 있습니다. 이러한 태그를 사용하여와 같은 패턴을 통해 IAM 정책을 사용하여 액세스를 공유할 수 있습니다"s3:ExistingObjectTag/omics:subjectId": "pattern desired"
.
파일 구조는 다음과 같습니다.
.../
account_id
/sequenceStore/seq_store_id
/readSet/read_set_id
/files
.
Amazon S3에서 시퀀스 스토어로 가져온 파일의 경우 시퀀스 스토어는 원래 소스 이름을 유지하려고 시도합니다. 이름이 충돌하면 시스템은 읽기 세트 정보를 추가하여 파일 이름이 고유한지 확인합니다. 예를 들어 fastq 읽기 세트의 경우 두 파일 이름이 동일한 경우 이름을 고유하게 만들기 위해가 .fastq.gz 또는 .fq.gz 앞에 삽입sourceX
됩니다. 직접 업로드의 경우 파일 이름은 다음 패턴을 따릅니다.
-
FASTQ의 경우 -
read_set_name
_sourcex
.fastq.gz -
uBAM/BAM/CRAM의 경우 - 확장자가
.bam
또는 인read_set_name
.file 확장입니다.cram
.예를 들면,
NA193948.bam
입니다.
BAM 또는 CRAM인 읽기 세트의 경우 인덱스 파일은 수집 프로세스 중에 자동으로 생성됩니다. 생성된 인덱스 파일의 경우 파일 이름 끝에 적절한 인덱스 확장자가 적용됩니다. 인덱스가 켜져 있는 소스의 <name> 패턴이 있습니다.<file index extension>.
인덱스 확장자는 .bai
또는 입니다.crai
.
호스팅 또는 로컬 IGV를 사용하여 읽기 세트 액세스
IGV는 BAM 및 CRAM 파일을 분석하는 데 사용되는 유전체 브라우저입니다. 한 번에 유전체의 일부만 표시하기 때문에 파일과 인덱스가 모두 필요합니다. IGV는 로컬에서 다운로드하여 사용할 수 있으며 AWS 호스팅 IGV를 생성하는 방법에 대한 가이드가 있습니다. 퍼블릭 웹 버전은 CORS가 필요하므로 지원되지 않습니다.
로컬 IGV는 로컬 AWS 구성을 사용하여 파일에 액세스합니다. 해당 구성에 사용되는 역할에 액세스 중인 읽기 세트의 s3 URI에 대한 kms:Decrypt 및 s3:GetObject 권한을 활성화하는 정책이 연결되어 있는지 확인합니다. 그런 다음 IGV에서 “파일 > URL에서 로드”를 사용하고 소스 및 인덱스의 URI에 붙여넣을 수 있습니다. 또는 미리 서명된 URLs 동일한 방식으로 생성하고 사용할 수 있으며, 이는 AWS 구성을 우회합니다. CORS는 Amazon S3 URI 액세스에서 지원되지 않으므로 CORS에 의존하는 요청은 지원되지 않습니다.
AWS 호스팅 IGV 예제는 AWS Cognito를 사용하여 환경 내에서 올바른 구성과 권한을 생성합니다. 액세스 중인 읽기 세트의 Amazon S3 URI에 대한kms:Decrypt 및 s3:GetObject 권한을 활성화하는 정책이 생성되었는지 확인하고이 정책을 Cognito 사용자 풀에 할당된 역할에 추가합니다. 그런 다음 IGV에서 “파일 > URL에서 로드”를 사용하고 소스 및 인덱스의 URI에를 입력할 수 있습니다. 또는 AWS 구성을 우회하는 동일한 방식으로 미리 서명된 URLs을 생성하고 사용할 수 있습니다.
는 AWS 프로파일이 구성된 리전에서 사용자가 소유한 버킷만 표시하므로 시퀀스 스토어는 “Amazon” 탭 아래에 표시되지 않습니다.
HealthOmics에서 Samtools 또는 HTSlib 사용
HTSlib는 Samtools, rSamtools, PySam 등과 같은 여러 도구에서 공유하는 코어 라이브러리입니다. HTSlib 버전 1.20 이상을 사용하여 Amazon S3 액세스 포인트를 원활하게 지원합니다. 이전 버전의 HTSlib 라이브러리의 경우 다음 해결 방법을 사용할 수 있습니다.
-
를 사용하여 HTS Amazon S3 호스트의 환경 변수를 설정합니다
export HTS_S3_HOST="s3.
.region
.amazonaws.com" -
사용하려는 파일에 대해 미리 서명된 URL을 생성합니다. BAM 또는 CRAM을 사용하는 경우 파일과 인덱스 모두에 대해 미리 서명된 URL이 생성되었는지 확인합니다. 그런 다음 두 파일을 라이브러리와 함께 사용할 수 있습니다.
-
Mountpoint를 사용하여 HTSlib 라이브러리를 사용하는 동일한 환경에 시퀀스 스토어 또는 읽기 세트 접두사를 탑재합니다. 여기에서 로컬 파일 경로를 사용하여 파일에 액세스할 수 있습니다.
Mountpoint HealthOmics 사용
Mountpoint for Amazon S3는 Amazon S3 버킷을 로컬 파일 시스템으로 탑재하기 위한 간단한 대용량 파일 클라이언트입니다
Mountpoint 설치 지침을 사용하여 Mountpoint를 설치할
mount-s3
access point arn
--prefix
local path to mount
--region
prefix to sequence store or read set
region
HealthOmics에서 CloudFront 사용
Amazon CloudFront는 고성능, 보안 및 개발자 편의를 위해 구축된 콘텐츠 전송 네트워크(CDN) 서비스입니다. CloudFront를 사용하려는 고객은 서비스 팀과 협력하여 CloudFront 배포를 활성화해야 합니다. 계정 팀과 협력하여 HealthOmics 서비스 팀을 참여시킵니다.