執行 Amazon Redshift 的概念驗證 (POC) - Amazon Redshift

Amazon Redshift 自 2025 年 11 月 1 日起不再支援建立新的 Python UDF。如果您想要使用 Python UDF,請在該日期之前建立 UDF。現有 Python UDF 將繼續正常運作。如需詳細資訊,請參閱部落格文章

執行 Amazon Redshift 的概念驗證 (POC)

Amazon Redshift 是熱門的雲端資料倉儲,提供全受管雲端型服務,可與組織的 Amazon Simple Storage Service 資料湖、即時串流、機器學習 (ML) 工作流程、交易工作流程等進行整合。下列各節將引導您在 Amazon Redshift 上執行概念驗證 (POC) 的程序。此處的資訊可協助您設定 POC 的目標,並利用可自動為 POC 佈建和設定服務的工具。

注意

如需此資訊的 PDF 副本,請在 Amazon Redshift 資源頁面上選擇執行自己的 Redshift POC 連結。

執行 Amazon Redshift 的 POC 時,您會測試、證明和採用各項功能,範圍涵蓋同級最佳安全功能、彈性擴展、輕鬆整合和擷取,以及靈活的分散式資料架構選項等。

顯示概念驗證流程中步驟的描述。

依照下列步驟執行成功的 POC。

步驟 1:設定 POC 的範圍

顯示範圍步驟是概念驗證流程中目前的步驟。

執行 POC 時,您可以選擇使用自己的資料,也可以選擇使用基準資料集。當您選擇自己的資料時,您會對資料執行自己的查詢。使用基準資料時,則會隨基準提供範例查詢。如果您尚未準備好使用自己的資料執行 POC,請參閱使用範例資料集以了解詳細資訊。

一般而言,我們建議使用兩週的資料來執行 Amazon Redshift POC。

首先執行下列操作:

  1. 識別您的業務和功能需求,然後反向進行。常見的範例包括:更快實現效能、降低成本、測試新的工作負載或功能,或是在 Amazon Redshift 與其他資料倉儲之間進行比較。

  2. 設定特定目標,這些目標會成為 POC 成功的條件。例如,從更快實現效能,延伸到列出您要加速的前五項程序,並包含目前的執行時間以及您所需的執行時間。這些可以是報告、查詢、ETL 程序、資料擷取,或任何您目前遇到的難處。

  3. 識別特定範圍和成品,這些是執行測試所需。您需要哪些資料集才能移轉或持續擷取至 Amazon Redshift,以及需要哪些查詢和程序才能執行測試,以依據成功條件進行衡量? 有兩種方式可以進行:

    使用自己的資料
    • 若要測試自己的資料,請列出測試成功條件所需的最低可行資料成品。例如,如果您目前的資料倉儲有 200 個資料表,但您想要測試的報告只需要 20 個,那麼僅使用一組較少數的資料表就能加快執行 POC 的速度。

    使用範例資料集
    • 如果您尚未準備好自己的資料集,您仍然可以使用 TPC-DSTPC-H 等業界標準基準資料集,開始在 Amazon Redshift 上執行 POC,並執行範例基準查詢以利用 Amazon Redshift 的強大功能。資料集建立後,您就可以從 Amazon Redshift 資料倉儲內存取這些資料集。如需如何存取這些資料集和範例查詢的詳細說明,請參閱 步驟 2:啟動 Amazon Redshift

步驟 2:啟動 Amazon Redshift

顯示 Amazon Redshift 啟動步驟是概念驗證流程中目前的步驟。

Amazon Redshift 透過大規模利用快速、簡單且安全的雲端資料倉儲,縮短您獲得深入分析的時間。藉由在 Redshift Serverless 主控台上啟動您的倉儲就能快速開始進行,並且在幾秒鐘內將資料轉化為深入分析。使用 Redshift Serverless 可讓您專注於交付業務成果,而不必擔心管理資料倉儲。

設定 Amazon Redshift Serverless

您第一次使用 Redshift Serverless 時,主控台會引導您完成啟動倉儲所需的步驟。您可能也有資格獲得帳戶中 Redshift Serverless 用量的點數。如需選擇免費試用的詳細資訊,請參閱 Amazon Redshift 免費試用版。依照《Amazon Redshift 入門指南》使用 Redshift Serverless 建立資料倉儲的步驟進行,以使用 Redshift Serverless 建立資料倉儲。如果您沒有想要載入的資料集,本指南也包含如何載入範例資料集的步驟。

如果您之前已在帳戶中啟動 Redshift Serverless,請依照《Amazon Redshift 管理指南》使用命名空間建立工作群組的步驟進行。有倉儲可用後,您可以選擇載入 Amazon Redshift 中可用的範例資料。如需使用 Amazon Redshift 查詢編輯器 v2 載入資料的相關資訊,請參閱《Amazon Redshift 管理指南》中的載入範例資料

如果您要使用自己的資料,而不載入範例資料集,請參閱 步驟 3:載入您的資料

步驟 3:載入您的資料

顯示載入步驟是概念驗證流程中目前的步驟。

啟動 Redshift Serverless 後,下一步是載入資料以用於 POC。無論您要上傳簡單的 CSV 檔案、從 S3 擷取半結構化資料,還是直接串流資料,Amazon Redshift 都能提供靈活的方式,讓您快速且輕鬆地從來源將資料移至 Amazon Redshift 資料表中。

請選擇下列其中一種方法來載入您的資料。

上傳本機檔案

若要快速擷取和分析,您可以使用 Amazon Redshift 查詢編輯器 v2 輕鬆地從本機桌面載入資料檔案。此方法能夠處理 CSV、JSON、AVRO、PARQUET、ORC 等各種格式的檔案。若要讓使用者以管理員身分使用查詢編輯器 v2 從本機桌面載入資料,您必須指定一般 Amazon S3 儲存貯體,而且使用者帳戶必須設定適當的許可。您可以依照使用查詢編輯器 V2 即可在 Amazon Redshift 中輕鬆且安全地載入資料的逐步指引進行。

載入 Amazon S3 檔案

若要從 Amazon S3 儲存貯體將資料載入 Amazon Redshift,首先使用 COPY 命令,指定來源 Amazon S3 位置和目標 Amazon Redshift 資料表。確認已正確設定 IAM 角色和許可,以允許 Amazon Redshift 存取指定的 Amazon S3 儲存貯體。依照教學課程:從 Amazon S3 載入資料的逐步指引進行。您也可以在查詢編輯器 v2 中選擇載入資料選項,以直接從 S3 儲存貯體載入資料。

持續資料擷取

自動複製 (預覽版)COPY 命令的延伸,會自動從 Amazon S3 儲存貯體持續載入資料。當您建立複製任務時,Amazon Redshift 會偵測何時在指定路徑中建立新的 Amazon S3 檔案,然後自動載入這些檔案,而無需您介入。Amazon Redshift 會追蹤載入的檔案,以確認檔案只載入一次。如需如何建立複製任務的指示,請參閱 COPY JOB

注意

自動複製目前為預覽版,僅在特定 AWS 區域 的佈建叢集中支援。若要建立預覽叢集以進行自動複製,請參閱 建立 S3 事件整合,以自動從 Amazon S3 儲存貯體複製檔案

載入串流資料

串流擷取可提供以低延遲、高速的方式,從 Amazon Kinesis Data StreamsAmazon Managed Streaming for Apache Kafka 將串流資料擷取至 Amazon Redshift。Amazon Redshift 串流擷取會使用具體化視觀表,其會利用自動重新整理從串流直接更新。具體化視觀表會對應至串流資料來源。在定義具體化視觀表的過程中,您可以對串流資料執行篩選和彙總。如需從串流載入資料的逐步指引,請參閱 Amazon Kinesis Data Streams 入門Amazon Managed Streaming for Apache Kafka 入門

步驟 4:分析您的資料

顯示分析步驟是概念驗證流程中目前的步驟。

建立 Redshift Serverless 工作群組和命名空間並載入資料後,您可以從 Redshift Serverless 主控台的導覽面板開啟查詢編輯器 v2,以立即執行查詢。您可以使用查詢編輯器 v2,利用您自己的資料集測試查詢功能或查詢效能。

使用 Amazon Redshift 查詢編輯器 v2 進行查詢

您可以從 Amazon Redshift 主控台存取查詢編輯器 v2。如需如何使用查詢編輯器 v2 設定、連線和執行查詢的完整指南,請參閱使用 Amazon Redshift 查詢編輯器 v2 簡化資料分析

或者,如果您想要在 POC 過程中執行負載測試,您可以依照下列步驟安裝和執行 Apache JMeter 來達成此目的。

使用 Apache JMeter 執行負載測試

若要執行負載測試來模擬 "N" 個使用者同時向 Amazon Redshift 提交查詢的情況,您可以使用 Apache JMeter,這是開放原始碼 Java 型工具。

若要安裝並設定 Apache JMeter 以針對 Redshift Serverless 工作群組執行,請依照使用 AWS Analytics Automation Toolkit 自動化 Amazon Redshift 負載測試中的指示進行。此工具使用 AWS Analytics Automation Toolkit (AAA),這是一種動態部署 Redshift 解決方案的開放原始碼公用程式,可自動啟動這些資源。如果您已將自己的資料載入 Amazon Redshift,則務必執行步驟 #5 - 自訂 SQL 選項,確保您提供適當的 SQL 陳述式來利用您的資料表進行測試。使用查詢編輯器 v2 測試每個 SQL 陳述式一次,確保其正確執行不會出錯。

完成自訂 SQL 陳述式並將測試計畫定案後,儲存您的測試計畫並針對 Redshift Serverless 工作群組執行該計畫。若要監控測試進度,請開啟 Redshift Serverless 主控台、瀏覽至查詢和資料庫監控、選擇查詢歷史記錄索引標籤,並檢視有關查詢的資訊。

對於效能指標,在 Redshift Serverless 主控台上選擇資料庫效能索引標籤,以監控資料庫連線CPU 使用率等指標。您可以在此檢視圖形,以監控使用的 RPU 容量,並觀察 Redshift Serverless 如何在工作群組上執行負載測試時自動擴展,以滿足並行工作負載需求。

此範例圖形顯示使用的平均 RPU 容量。

資料庫連線是在執行負載測試時進行監控的另一個實用指標,可了解您的工作群組如何在特定時間處理多個並行連線,以滿足不斷增加的工作負載需求。

此範例圖形顯示資料庫連線。

步驟 5:最佳化

顯示最佳化步驟是概念驗證流程中目前的步驟。

Amazon Redshift 藉由提供各種組態和功能來支援個別使用案例,讓成千上萬的使用者每天能夠處理數 EB 的資料,並為分析工作負載提供支援。在這些選項之中選擇時,客戶會尋找協助其判斷最佳資料倉儲組態,以支援其 Amazon Redshift 工作負載的工具。

試用

您可以使用 Test Drive,在可能的組態上自動重播現有的工作負載,並分析對應的輸出,以評估要移轉工作負載的最佳目標。請參閱使用 Redshift Test Drive 尋找最適合工作負載的 Amazon Redshift 組態,以取得使用 Test Drive 評估不同 Amazon Redshift 組態的相關資訊。