建立 HealthOmics 序列存放區 - AWS HealthOmics

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

建立 HealthOmics 序列存放區

HealthOmics 序列存放區支援以未對齊格式 FASTQ(僅限 Gzip) 和 儲存基因體檔案uBAM。它也支援 BAM和 的對齊格式CRAM

匯入的檔案會儲存為讀取集。您可以新增標籤至讀取集,並使用 IAM 政策來控制讀取集的存取。對齊的讀取集需要參考基因體才能對齊基因體序列,但未對齊的讀取集是選用的。

若要存放讀取集,請先建立序列存放區。建立序列存放區時,您可以將選用的 Amazon S3 儲存貯體指定為備用位置,以及存放 S3 存取日誌的位置。備用位置用於儲存無法在直接上傳期間建立讀取集的任何檔案。備用位置適用於 2023 年 5 月 15 日之後建立的序列存放區。您可以在建立序列存放區時指定備用位置。

您最多可以指定五個讀取集標籤金鑰。當您使用符合其中一個金鑰的標籤金鑰建立或更新讀取集時,讀取集標籤會傳播到對應的 Amazon S3 物件。HealthOmics 建立的系統標籤預設會傳播。

使用主控台建立序列存放區

建立序列存放區
  1. 開啟 HealthOmics 主控台

  2. 在左側導覽窗格中,選擇序列存放區。

  3. 建立序列存放區頁面上,提供下列資訊

    • 序列存放區名稱 - 此存放區的唯一名稱。

    • 描述 (選用) - 此序列存放區的描述。

  4. 針對 S3 中的備用位置,指定 Amazon S3 位置。HealthOmics 使用備用位置來存放無法在直接上傳期間建立讀取集的任何檔案。您需要授予 HealthOmics 服務對 Amazon S3 備用位置的寫入存取權。如需政策範例,請參閱 設定備用位置

    備用位置不適用於 2023 年 5 月 16 日之前建立的序列存放區。

  5. (選用) 對於 S3 傳播的讀取集標籤金鑰,您可以輸入最多五個讀取集金鑰,以從讀取集傳播到基礎 S3 物件。透過將標籤從讀取集傳播到 S3 物件,您可以根據標籤和/或最終使用者授予 S3 存取許可,以透過 Amazon S3 getObjectTagging API 操作查看傳播的標籤。

    1. 在文字方塊中輸入一個索引鍵值。主控台會建立新的文字方塊,以新增下一個金鑰。

    2. (選用) 選擇移除以移除所有金鑰。

  6. 資料加密下,選取您希望資料加密由 擁有和管理, AWS 還是使用客戶受管 CMK。

  7. (選用) 在 S3 資料存取下,選取是否要建立新的角色和政策,以透過 Amazon S3 存取序列存放區。

  8. (選用) 對於 S3 存取記錄Enabled如果您希望 Amazon S3 收集存取日誌記錄,請選取 。

    對於 S3 中的存取記錄位置,指定要存放日誌的 Amazon S3 位置。只有在您啟用 S3 存取記錄時,才會顯示此欄位。

  9. 標籤 (選用) - 為此序列存放區提供最多 50 個標籤。這些標籤與讀取集匯入/標籤更新期間設定的讀取集標籤不同

建立 存放區之後,即可使用 匯入基因體檔案

使用 CLI 建立序列存放區

在下列範例中,sequence store name將 取代為您為序列存放區選擇的名稱。

aws omics create-sequence-store --name sequence store name --fallback-location "s3://amzn-s3-demo-bucket"

您會以 JSON 收到下列回應,其中包含新建立序列存放區的 ID 號碼。

{ "id": "3936421177", "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177", "name": "sequence_store_example_name", "creationTime": "2022-07-13T20:09:26.038Z" "fallbackLocation" : "s3://amzn-s3-demo-bucket" }

您也可以使用 list-sequence-stores 命令來檢視與您的帳戶相關聯的所有序列存放區,如下所示。

aws omics list-sequence-stores

您會收到下列回應。

{ "sequenceStores": [ { "arn": "arn:aws:omics:us-west-2:111122223333:sequenceStore/3936421177", "id": "3936421177", "name": "MySequenceStore", "creationTime": "2022-07-13T20:09:26.038Z", "updatedTime": "2024-09-13T04:11:31.242Z", "fallbackLocation" : "s3://amzn-s3-demo-bucket", "status": "Active" } ] }

您可以使用 get-sequence-store 來進一步了解序列存放區,方法是使用其 ID,如下列範例所示:

aws omics get-sequence-store --id sequence store ID

您會收到下列回應:

{ "arn": "arn:aws:omics:us-west-2:123456789012:sequenceStore/sequencestoreID", "creationTime": "2024-01-12T04:45:29.857Z", "updatedTime": "2024-09-13T04:11:31.242Z", "description": null, "fallbackLocation": null, "id": "2015356892", "name": "MySequenceStore", "s3Access": { "s3AccessPointArn": "arn:aws:s3:us-west-2:123456789012:accesspoint/592761533288-2015356892", "s3Uri": "s3://592761533288-2015356892-ajdpi90jdas90a79fh9a8ja98jdfa9jf98-s3alias/592761533288/sequenceStore/2015356892/", "accessLogLocation": "s3://IAD-seq-store-log/2015356892/" }, "sseConfig": { "keyArn": "arn:aws:kms:us-west-2:123456789012:key/eb2b30f5-635d-4b6d-b0f9-d3889fe0e648", "type": "KMS" }, "status": "Active", "statusMessage": null, "setTagsToSync": ["withdrawn","protocol"], }

建立之後,也可以更新數個存放區參數。這可以透過 主控台或 API updateSequenceStore操作來完成。

更新序列存放區

若要更新序列存放區,請遵循下列步驟:

  1. 開啟 HealthOmics 主控台

  2. 在左側導覽窗格中,選擇序列存放區。

  3. 選擇要更新的序列存放區。

  4. 詳細資訊面板中,選擇編輯

  5. 編輯詳細資訊頁面上,您可以更新下列欄位:

    • 序列存放區名稱 - 此存放區的唯一名稱。

    • 描述 - 此序列存放區的描述。

    • S3 中的備用位置,指定 Amazon S3 位置。HealthOmics 使用備用位置來存放無法在直接上傳期間建立讀取集的任何檔案。

    • S3 傳播的讀取集標籤金鑰 您可以輸入最多五個讀取集金鑰以傳播到 Amazon S3。

    • (選用) 對於 S3 存取記錄Enabled如果您希望 Amazon S3 收集存取日誌記錄,請選取 。

      對於 S3 中的存取記錄位置,指定要存放日誌的 Amazon S3 位置。只有在您啟用 S3 存取記錄時,才會顯示此欄位。

    • 標籤 (選用) - 為此序列存放區提供最多 50 個標籤。

更新序列存放區的讀取集標籤

若要更新序列存放區的讀取集標籤或其他欄位,請遵循下列步驟:

  1. 開啟 HealthOmics 主控台

  2. 在左側導覽窗格中,選擇序列存放區。

  3. 選擇您要更新的序列存放區。

  4. 選擇詳細資訊索引標籤。

  5. 選擇編輯

  6. 視需要新增新的讀取集標籤或刪除現有的標籤。

  7. 視需要更新名稱、描述、備用位置或 S3 資料存取。

  8. 選擇儲存變更

匯入基因體檔案

若要將基因體檔案匯入序列存放區,請遵循下列步驟:

匯入基因體檔案
  1. 開啟 HealthOmics 主控台

  2. 在左側導覽窗格中,選擇序列存放區。

  3. 序列存放區頁面上,選擇要匯入檔案的序列存放區。

  4. 在個別序列存放區頁面上,選擇匯入基因體檔案

  5. 指定匯入詳細資訊頁面上,提供下列資訊

    • IAM 角色 - 可存取 Amazon S3 上基因體檔案的 IAM 角色。

    • 參考基因體 - 此基因體資料的參考基因體。

  6. 指定匯入資訊清單頁面上,指定下列資訊資訊清單檔案。資訊清單檔案是 JSON 或 YAML 檔案,描述基因體資料的重要資訊。如需資訊清單檔案的資訊,請參閱 將讀取集匯入 HealthOmics 序列存放區

  7. 按一下建立匯入任務