Amazon Redshift 自 2025 年 11 月 1 日起不再支援建立新的 Python UDF。如果您想要使用 Python UDF,請在該日期之前建立 UDF。現有 Python UDF 將繼續正常運作。如需詳細資訊,請參閱部落格文章
執行 Amazon Redshift 的概念驗證 (POC)
Amazon Redshift 是熱門的雲端資料倉儲,提供全受管雲端型服務,可與組織的 Amazon Simple Storage Service 資料湖、即時串流、機器學習 (ML) 工作流程、交易工作流程等進行整合。下列各節將引導您在 Amazon Redshift 上執行概念驗證 (POC) 的程序。此處的資訊可協助您設定 POC 的目標,並利用可自動為 POC 佈建和設定服務的工具。
注意
如需此資訊的 PDF 副本,請在 Amazon Redshift 資源
執行 Amazon Redshift 的 POC 時,您會測試、證明和採用各項功能,範圍涵蓋同級最佳安全功能、彈性擴展、輕鬆整合和擷取,以及靈活的分散式資料架構選項等。
依照下列步驟執行成功的 POC。
步驟 1:設定 POC 的範圍
執行 POC 時,您可以選擇使用自己的資料,也可以選擇使用基準資料集。當您選擇自己的資料時,您會對資料執行自己的查詢。使用基準資料時,則會隨基準提供範例查詢。如果您尚未準備好使用自己的資料執行 POC,請參閱使用範例資料集以了解詳細資訊。
一般而言,我們建議使用兩週的資料來執行 Amazon Redshift POC。
首先執行下列操作:
識別您的業務和功能需求,然後反向進行。常見的範例包括:更快實現效能、降低成本、測試新的工作負載或功能,或是在 Amazon Redshift 與其他資料倉儲之間進行比較。
設定特定目標,這些目標會成為 POC 成功的條件。例如,從更快實現效能,延伸到列出您要加速的前五項程序,並包含目前的執行時間以及您所需的執行時間。這些可以是報告、查詢、ETL 程序、資料擷取,或任何您目前遇到的難處。
識別特定範圍和成品,這些是執行測試所需。您需要哪些資料集才能移轉或持續擷取至 Amazon Redshift,以及需要哪些查詢和程序才能執行測試,以依據成功條件進行衡量? 有兩種方式可以進行:
使用自己的資料
若要測試自己的資料,請列出測試成功條件所需的最低可行資料成品。例如,如果您目前的資料倉儲有 200 個資料表,但您想要測試的報告只需要 20 個,那麼僅使用一組較少數的資料表就能加快執行 POC 的速度。
使用範例資料集
如果您尚未準備好自己的資料集,您仍然可以使用 TPC-DS
或 TPC-H 等業界標準基準資料集,開始在 Amazon Redshift 上執行 POC,並執行範例基準查詢以利用 Amazon Redshift 的強大功能。資料集建立後,您就可以從 Amazon Redshift 資料倉儲內存取這些資料集。如需如何存取這些資料集和範例查詢的詳細說明,請參閱 步驟 2:啟動 Amazon Redshift。
步驟 2:啟動 Amazon Redshift
Amazon Redshift 透過大規模利用快速、簡單且安全的雲端資料倉儲,縮短您獲得深入分析的時間。藉由在 Redshift Serverless 主控台
設定 Amazon Redshift Serverless
您第一次使用 Redshift Serverless 時,主控台會引導您完成啟動倉儲所需的步驟。您可能也有資格獲得帳戶中 Redshift Serverless 用量的點數。如需選擇免費試用的詳細資訊,請參閱 Amazon Redshift 免費試用版
如果您之前已在帳戶中啟動 Redshift Serverless,請依照《Amazon Redshift 管理指南》中使用命名空間建立工作群組的步驟進行。有倉儲可用後,您可以選擇載入 Amazon Redshift 中可用的範例資料。如需使用 Amazon Redshift 查詢編輯器 v2 載入資料的相關資訊,請參閱《Amazon Redshift 管理指南》中的載入範例資料。
如果您要使用自己的資料,而不載入範例資料集,請參閱 步驟 3:載入您的資料。
步驟 3:載入您的資料
啟動 Redshift Serverless 後,下一步是載入資料以用於 POC。無論您要上傳簡單的 CSV 檔案、從 S3 擷取半結構化資料,還是直接串流資料,Amazon Redshift 都能提供靈活的方式,讓您快速且輕鬆地從來源將資料移至 Amazon Redshift 資料表中。
請選擇下列其中一種方法來載入您的資料。
上傳本機檔案
若要快速擷取和分析,您可以使用 Amazon Redshift 查詢編輯器 v2 輕鬆地從本機桌面載入資料檔案。此方法能夠處理 CSV、JSON、AVRO、PARQUET、ORC 等各種格式的檔案。若要讓使用者以管理員身分使用查詢編輯器 v2 從本機桌面載入資料,您必須指定一般 Amazon S3 儲存貯體,而且使用者帳戶必須設定適當的許可。您可以依照使用查詢編輯器 V2 即可在 Amazon Redshift 中輕鬆且安全地載入資料
載入 Amazon S3 檔案
若要從 Amazon S3 儲存貯體將資料載入 Amazon Redshift,首先使用 COPY 命令,指定來源 Amazon S3 位置和目標 Amazon Redshift 資料表。確認已正確設定 IAM 角色和許可,以允許 Amazon Redshift 存取指定的 Amazon S3 儲存貯體。依照教學課程:從 Amazon S3 載入資料的逐步指引進行。您也可以在查詢編輯器 v2 中選擇載入資料選項,以直接從 S3 儲存貯體載入資料。
持續資料擷取
自動複製 (預覽版) 是 COPY 命令的延伸,會自動從 Amazon S3 儲存貯體持續載入資料。當您建立複製任務時,Amazon Redshift 會偵測何時在指定路徑中建立新的 Amazon S3 檔案,然後自動載入這些檔案,而無需您介入。Amazon Redshift 會追蹤載入的檔案,以確認檔案只載入一次。如需如何建立複製任務的指示,請參閱 COPY JOB。
注意
自動複製目前為預覽版,僅在特定 AWS 區域 的佈建叢集中支援。若要建立預覽叢集以進行自動複製,請參閱 建立 S3 事件整合,以自動從 Amazon S3 儲存貯體複製檔案。
載入串流資料
串流擷取可提供以低延遲、高速的方式,從 Amazon Kinesis Data Streams
步驟 4:分析您的資料
建立 Redshift Serverless 工作群組和命名空間並載入資料後,您可以從 Redshift Serverless 主控台
使用 Amazon Redshift 查詢編輯器 v2 進行查詢
您可以從 Amazon Redshift 主控台存取查詢編輯器 v2。如需如何使用查詢編輯器 v2 設定、連線和執行查詢的完整指南,請參閱使用 Amazon Redshift 查詢編輯器 v2 簡化資料分析
或者,如果您想要在 POC 過程中執行負載測試,您可以依照下列步驟安裝和執行 Apache JMeter 來達成此目的。
使用 Apache JMeter 執行負載測試
若要執行負載測試來模擬 "N" 個使用者同時向 Amazon Redshift 提交查詢的情況,您可以使用 Apache JMeter
若要安裝並設定 Apache JMeter 以針對 Redshift Serverless 工作群組執行,請依照使用 AWS Analytics Automation Toolkit 自動化 Amazon Redshift 負載測試
完成自訂 SQL 陳述式並將測試計畫定案後,儲存您的測試計畫並針對 Redshift Serverless 工作群組執行該計畫。若要監控測試進度,請開啟 Redshift Serverless 主控台
對於效能指標,在 Redshift Serverless 主控台上選擇資料庫效能索引標籤,以監控資料庫連線和 CPU 使用率等指標。您可以在此檢視圖形,以監控使用的 RPU 容量,並觀察 Redshift Serverless 如何在工作群組上執行負載測試時自動擴展,以滿足並行工作負載需求。
資料庫連線是在執行負載測試時進行監控的另一個實用指標,可了解您的工作群組如何在特定時間處理多個並行連線,以滿足不斷增加的工作負載需求。
步驟 5:最佳化
Amazon Redshift 藉由提供各種組態和功能來支援個別使用案例,讓成千上萬的使用者每天能夠處理數 EB 的資料,並為分析工作負載提供支援。在這些選項之中選擇時,客戶會尋找協助其判斷最佳資料倉儲組態,以支援其 Amazon Redshift 工作負載的工具。
試用
您可以使用 Test Drive