建立 HealthOmics 參考存放區 - AWS HealthOmics

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 HealthOmics 參考存放區

HealthOmics 中的參考存放區是用於儲存參考基因體的資料存放區。您可以在每個 AWS 帳戶 和區域中擁有單一參考存放區。您可以使用 主控台或 CLI 建立參考存放區。

使用主控台建立參考存放區

建立參考存放區
  1. 開啟 HealthOmics 主控台

  2. 在左側導覽窗格中,選擇開始使用 HealthOmics

  3. 從 Genomics 資料儲存選項中選擇參考基因體

  4. 您可以選擇先前匯入的參考基因體,或匯入新的參考基因體。如果您尚未匯入參考基因體,請選擇右上角的匯入參考基因體

  5. 建立參考基因體匯入任務頁面上,選擇快速建立手動建立選項來建立參考存放區,然後提供下列資訊。

    • 參考基因體名稱 - 此存放區的唯一名稱。

    • 描述 (選用) - 此參考存放區的描述。

    • IAM 角色 - 選取可存取參考基因體的角色。

    • 來自 Amazon S3 的參考 - 選取 Amazon S3 儲存貯體中的參考序列檔案。

    • 標籤 (選用) - 為此參考存放區提供最多 50 個標籤。

使用 CLI 建立參考存放區

下列範例示範如何使用 建立參考存放區 AWS CLI。每個 AWS 區域可以有一個參考存放區。

參考存放區支援儲存副檔名為 .fasta.fa.fas.fsa.faa.fna.ffn.frn.mpfa、、、 .seq的 FASTA 檔案.txt。也支援這些擴充功能的bgzip版本。

在下列範例中,將 reference store name取代為您為參考存放區選擇的名稱。

aws omics create-reference-store --name "reference store name"

您會收到 JSON 回應,其中包含參考存放區 ID 和名稱、ARN,以及建立參考存放區時的時間戳記。

{ "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" }

您可以在其他 AWS CLI 命令中使用參考存放區 ID。您可以使用 list-reference-stores 命令來擷取連結至您帳戶的參考存放區 IDs 清單,如下列範例所示。

aws omics list-reference-stores

為了回應,您收到新建立的參考存放區名稱。

{ "referenceStores": [ { "id": "3242349265", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/3242349265", "name": "MyReferenceStore", "creationTime": "2022-07-01T20:58:42.878Z" } ] }

建立參考存放區之後,您可以建立匯入任務,將基因體參考檔案載入其中。若要這樣做,您必須使用或建立 IAM 角色來存取資料。政策範例如下。

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:GetBucketLocation" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket1", "arn:aws:s3:::amzn-s3-demo-bucket1/*" ] } ] }

您還必須擁有類似下列範例的信任政策。

JSON
{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": [ "omics.amazonaws.com" ] }, "Action": "sts:AssumeRole" } ] }

您現在可以匯入參考基因體。此範例使用 Genome Reference Consortium Human Build 38 (hg38),這是開放存取,可從 上的開放資料登錄 AWS檔取得。託管此資料的儲存貯體位於美國東部 (俄亥俄)。若要在其他 AWS 區域中使用儲存貯體,您可以將資料複製到您區域中託管的 Amazon S3 儲存貯體。使用下列 AWS CLI 命令將基因體複製到 Amazon S3 儲存貯體。

aws s3 cp s3://broad-references/hg38/v0/Homo_sapiens_assembly38.fasta s3://amzn-s3-demo-bucket

然後,您可以開始匯入任務。source file path 使用您自己的輸入取代 reference store IDrole ARN、 和 。

aws omics start-reference-import-job --reference-store-id reference store ID --role-arn role ARN --sources source file path

匯入資料後,您會以 JSON 收到下列回應。

{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::111122223333:role/OmicsReferenceImport", "status": "CREATED", "creationTime": "2022-07-01T21:15:13.727Z" }

您可以使用下列命令來監控任務的狀態。在下列範例中,將 reference store ID和 取代job ID為您的參考存放區 ID,以及您想要進一步了解的任務 ID。

aws omics get-reference-import-job --reference-store-id reference store ID --id job ID

為了回應,您會收到回應,其中包含該參考存放區的詳細資訊及其狀態。

{ "id": "7252016478", "referenceStoreId": "3242349265", "roleArn": "arn:aws:iam::555555555555:role/OmicsReferenceImport", "status": "RUNNING", "creationTime": "2022-07-01T21:15:13.727Z", "sources": [ { "sourceFile": "s3://amzn-s3-demo-bucket/Homo_sapiens_assembly38.fasta", "status": "IN_PROGRESS", "name": "MyReference" } ] }

您也可以列出您的參考,並根據參考名稱篩選它們,以找到匯入的參考。reference store ID 將 取代為您的參考存放區 ID,並新增選用篩選條件以縮小清單範圍。

aws omics list-references --reference-store-id reference store ID --filter name=MyReference

為了回應,您會收到下列資訊。

{ "references": [ { "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/1234567890/reference/1234567890", "referenceStoreId": "12345678", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z" } ] }

若要進一步了解參考中繼資料,請使用 get-reference-metadata API 操作。在下列範例中,將 reference store ID 取代為您的參考存放區 ID,並將 取代reference ID為您想要進一步了解的參考 ID。

aws omics get-reference-metadata --reference-store-id reference store ID --id reference ID

您會收到以下資訊以回應。

{ "id": "1234567890", "arn": "arn:aws:omics:us-west-2:555555555555:referenceStore/referencestoreID/reference/referenceID", "referenceStoreId": "1234567890", "md5": "7ff134953dcca8c8997453bbb80b6b5e", "status": "ACTIVE", "name": "MyReference", "creationTime": "2022-07-02T00:15:19.787Z", "updateTime": "2022-07-02T00:15:19.787Z", "files": { "source": { "totalParts": 31, "partSize": 104857600, "contentLength": 3249912778 }, "index": { "totalParts": 1, "partSize": 104857600, "contentLength": 160928 } } }

您也可以使用 get-reference 下載部分參考檔案。在下列範例中,將 取代reference store ID為您的參考存放區 ID,並將 reference ID 取代為您要從中下載的參考 ID。

aws omics get-reference --reference-store-id reference store ID --id reference ID --part-number 1 outfile.fa