View a markdown version of this page

Amazon Redshift Spectrum 中的指標 - Amazon Redshift

Amazon Redshift 將不再支援從修補程式 198 開始建立新的 Python UDFs。現有 Python UDF 將繼續正常運作至 2026 年 6 月 30 日。如需詳細資訊,請參閱部落格文章

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Redshift Spectrum 中的指標

本主題說明可用來監控資料湖查詢的系統檢視。

您可以使用下列系統檢視來監控資料湖查詢:

  • SVL_S3QUERY

    使用 SVL_S3QUERY 檢視來取得區段和節點分割層級的資料湖查詢詳細資訊。

  • SVL_S3QUERY_SUMMARY

    使用 SVL_S3QUERY_SUMMARY 檢視取得已在系統上執行之所有資料湖查詢的摘要。

以下是 SVL_S3QUERY_SUMMARY 中要尋找的一些內容:

  • Redshift Spectrum 查詢已處理的檔案數。

  • 從 Amazon S3 掃描的位元組數。Redshift Spectrum 查詢的成本反映在從 Amazon S3 掃描的資料量中。

  • 從 Redshift Spectrum 層傳回至叢集的位元組數。傳回的大量資料可能會影響系統效能。

  • Redshift Spectrum 請求的最大持續期間和平均持續時間。長時間執行的請求可能表示存在瓶頸。

有關 RG 佈建叢集的注意事項

在 RG 佈建叢集上,Redshift Spectrum 查詢會在叢集自己的運算上執行,而不是在 RA3 和 DC2 佈建叢集所使用的專用 Spectrum SVL_S3QUERY_SUMMARY 機群上執行。 SVL_S3QUERY並繼續填入 RG 叢集。下列資料欄具有不同的語意或已棄用。

RG 佈建叢集上填入不同語意的資料欄

在 RA3 和 DC2 佈建叢集上,這些欄描述在叢集和 Spectrum 機群之間移動的資料列、位元組和工作單位。在 RG 佈建叢集上,它們描述叢集原生讀取器執行的同等工作:

  • s3_scanned_rows — 由叢集的原生讀取器 (預先篩選) 直接從 Amazon S3 讀取的資料列。

  • s3_scanned_bytes — 由叢集的原生讀取器處理的位元組總掃描範圍大小。

  • s3query_returned_rows — 在叢集的原生讀取器下推篩選條件之後產生的資料列。

  • s3query_returned_bytes — 叢集原生讀取器在篩選下推後產生的位元組。

  • 分割 — 叢集原生讀取器耗用的掃描範圍數目。

  • total_split_size — 所有掃描範圍使用的總大小,以位元組為單位。

  • max_split_size — 最大掃描範圍的大小,以位元組為單位。

RG 佈建叢集上已棄用的資料欄

這些欄說明 RG 上不存在的 Spectrum-fleet 概念。在 RG 叢集上,它們在 STL_S3QUERY 中記錄為 -1,因此在 SVL_S3QUERY 和 SVL_S3QUERY_SUMMARY 中顯示為 -1 或不具意義:

  • total_retriesmax_retries — 在 RG 上,重試發生在 Amazon S3 用戶端層級。如需重試詳細資訊,請使用 STL_S3CLIENT 和 STL_S3CLIENT_ERROR。

  • max_request_durationavg_request_duration — RG 不使用 Spectrum 請求模型。

  • max_request_parallelismavg_request_parallelism — RG 不使用 Spectrum 請求字符。

  • slowdown_countmax_concurrent_slowdown_count — 在 RG 上,Amazon S3 減速會在 STL_S3CLIENT 中追蹤。

對於 RG 叢集上的每個查詢彙總指標 (分割區、掃描的檔案、傳回的資料列和位元組、檔案格式、檔案位置、清單和分割區擷取時間),您也可以使用SYS_EXTERNAL_QUERY_DETAIL監控檢視。