HealthOmics 참조 스토어 생성 - AWS HealthOmics

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

HealthOmics 참조 스토어 생성

HealthOmics의 참조 스토어는 참조 유전체를 저장하기 위한 데이터 스토어입니다. 각 AWS 계정 및 리전에 단일 참조 저장소를 가질 수 있습니다. 콘솔 또는 CLI를 사용하여 참조 저장소를 생성할 수 있습니다.

콘솔을 사용하여 참조 스토어 생성

참조 저장소 생성
  1. HealthOmics 콘솔을 엽니다.

  2. 왼쪽 탐색 창에서 HealthOmics 시작하기를 선택합니다.

  3. Genomics 데이터 스토리지 옵션에서 참조 유전체를 선택합니다.

  4. 이전에 가져온 참조 유전체를 선택하거나 새 참조 유전체를 가져올 수 있습니다. 참조 유전체를 가져오지 않은 경우 오른쪽 상단에서 참조 유전체 가져오기를 선택합니다.

  5. 참조 유전체 가져오기 작업 생성 페이지에서 빠른 생성 또는 수동 생성 옵션을 선택하여 참조 저장소를 생성한 다음 다음 다음 정보를 제공합니다.

    • 참조 유전체 이름 -이 저장소의 고유한 이름입니다.

    • 설명(선택 사항) -이 참조 저장소에 대한 설명입니다.

    • IAM 역할 - 참조 유전체에 액세스할 수 있는 역할을 선택합니다.

    • Amazon S3의 참조 - Amazon S3 버킷에서 참조 시퀀스 파일을 선택합니다.

    • 태그(선택 사항) -이 참조 저장소에 최대 50개의 태그를 제공합니다.

CLI를 사용하여 참조 저장소 생성

다음 예제에서는를 사용하여 참조 저장소를 생성하는 방법을 보여줍니다 AWS CLI. AWS 리전당 하나의 참조 저장소를 가질 수 있습니다.

참조 스토어는 확장명이 .fasta, , , .fa, , .fas, .faa, .fsa.fna.ffn, .frn, .mpfa, .seq인 FASTA 파일의 스토리지를 지원합니다.txt. 이러한 확장의 bgzip 버전도 지원됩니다.

다음 예제에서 reference store name를 참조 저장소에 대해 선택한 이름으로 바꿉니다.

aws omics create-reference-store --name "reference store name"

참조 스토어 ID 및 이름, ARN, 참조 스토어가 생성된 시점의 타임스탬프가 포함된 JSON 응답을 받습니다.

{ "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" }

추가 AWS CLI 명령에서 참조 스토어 ID를 사용할 수 있습니다. 다음 예제와 같이 list-reference-stores 명령을 사용하여 계정에 연결된 참조 스토어 IDs 목록을 검색할 수 있습니다.

aws omics list-reference-stores

이에 대한 응답으로 새로 생성된 참조 스토어의 이름을 받게 됩니다.

{ "referenceStores": [ { "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" } ] }

참조 저장소를 생성한 후 가져오기 작업을 생성하여 유전체 참조 파일을 해당 저장소에 로드할 수 있습니다. 이렇게 하려면 IAM 역할을 사용하거나 생성하여 데이터에 액세스해야 합니다. 다음은 예제 정책입니다.

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:GetBucketLocation" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket1", "arn:aws:s3:::amzn-s3-demo-bucket1/*" ] } ] }

또한 다음 예제와 유사한 신뢰 정책이 있어야 합니다.

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": [ "omics.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }

이제 참조 유전체를 가져올 수 있습니다. 이 예제에서는 오픈 액세스가 가능하고 오픈 데이터 레지스트리 AWS에서 사용할 수 있는 Genome Reference Consortium Human Build 38(hg38)을 사용합니다. 이 데이터를 호스팅하는 버킷은 미국 동부(오하이오)에 기반을 두고 있습니다. 다른 AWS 리전에서 버킷을 사용하려면 해당 리전에서 호스팅되는 Amazon S3 버킷에 데이터를 복사할 수 있습니다. 다음 AWS CLI 명령을 사용하여 유전체를 Amazon S3 버킷에 복사합니다.

aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta s3://amzn-s3-demo-bucket

그런 다음 가져오기 작업을 시작할 수 있습니다. reference store ID, role ARN및를 자체 입력source file path으로 바꿉니다.

aws omics start-reference-import-job --reference-store-id reference store ID --role-arn role ARN --sources source file path

데이터를 가져온 후 JSON으로 다음 응답을 받게 됩니다.

{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::111122223333:role/OmicsReferenceImport", "status": "CREATED", "creationTime": "2022-07-01T21:15:13.727Z" }

다음 명령을 사용하여 작업 상태를 모니터링할 수 있습니다. 다음 예제에서 reference store ID 및를 job ID 참조 스토어 ID와 자세히 알아볼 작업 ID로 바꿉니다.

aws omics get-reference-import-job --reference-store-id reference store ID --id job ID

이에 대한 응답으로 해당 참조 저장소의 세부 정보와 상태가 포함된 응답을 받게 됩니다.

{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::555555555555:role/OmicsReferenceImport", "status": "RUNNING", "creationTime": "2022-07-01T21:15:13.727Z", "sources": [ { "sourceFile": "s3://amzn-s3-demo-bucket/Homo_sapiens_assembly38.fasta", "status": "IN_PROGRESS", "name": "MyReference" } ] }

참조를 나열하고 참조 이름을 기준으로 필터링하여 가져온 참조를 찾을 수도 있습니다. 를 참조 스토어 IDreference store ID로 바꾸고 선택적 필터를 추가하여 목록의 범위를 좁힙니다.

aws omics list-references --reference-store-id reference store ID --filter name=MyReference

이에 대한 응답으로 다음 정보를 받게 됩니다.

{ "references": [ { "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/1234567890/reference/1234567890", "referenceStoreId": "12345678", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z" } ] }

참조 메타데이터에 대해 자세히 알아보려면 get-reference-metadata API 작업을 사용합니다. 다음 예제에서를 참조 스토어 IDreference store ID로 바꾸고를 자세히 알아볼 참조 IDreference ID로 바꿉니다.

aws omics get-reference-metadata --reference-store-id reference store ID --id reference ID

응답으로 다음 정보를 받게 됩니다.

{ "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/referencestoreID/reference/referenceID", "referenceStoreId": "1234567890", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z", "files": { "source": { "totalParts": 31, "partSize": 104857600, "contentLength": 3249912778 }, "index": { "totalParts": 1, "partSize": 104857600, "contentLength": 160928 } } }

get-reference를 사용하여 참조 파일의 일부를 다운로드할 수도 있습니다. 다음 예제에서를 참조 스토어 IDreference store ID로 바꾸고를 다운로드하려는 참조 IDreference ID로 바꿉니다.

aws omics get-reference --reference-store-id reference store ID --id reference ID --part-number 1 outfile.fa