資料準備步驟 - Amazon Quick Suite

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料準備步驟

Amazon Quick Sight 的資料準備體驗提供十一種強大的步驟類型,可讓您有系統地轉換資料。每個步驟在資料準備工作流程中都有特定用途。

步驟可以透過設定窗格中的直覺式界面進行設定,並在預覽窗格中顯示即時意見回饋。步驟可以循序組合,以建立複雜的資料轉換,而不需要 SQL 專業知識。

每個步驟都可以從實體資料表或上一個步驟的輸出接收輸入。大多數步驟都接受單一輸入,而附加和聯結步驟是例外狀況 – 這些需要剛好兩個輸入。

Input

輸入步驟可讓您從多個來源選取和匯入資料,以在後續步驟中進行轉換,以啟動 Quick Sight 中的資料準備工作流程。

輸入選項

  • 新增資料集

    利用現有的 Quick Sight 資料集做為輸入來源,以您的團隊已準備和最佳化的資料為基礎。

  • 新增資料來源

    透過選取特定資料庫物件並提供連線參數,直接連線至資料庫,例如 Amazon Redshift、Athena、RDS 或其他支援的來源。

  • 新增檔案上傳

    以 CSV、TSV、Excel 或 JSON 等格式直接從本機檔案匯入資料。

組態

輸入步驟不需要組態。預覽窗格會顯示您匯入的資料以及來源資訊,包括連線詳細資訊、資料表名稱和資料欄中繼資料。

使用須知

  • 多個輸入步驟可以存在於單一工作流程中。

  • 您可以在工作流程中的任何時間點新增輸入步驟。

新增計算的資料欄

新增計算資料欄步驟可讓您使用對現有資料欄執行計算的資料列層級表達式建立新的資料欄。您可以使用純量 (資料列層級) 函數和運算子建立新的資料欄,並套用參考現有資料欄的資料列層級計算。

組態

若要設定新增計算資料欄步驟,請在組態窗格中:

  1. 為您的新計算資料欄命名。

  2. 使用支援資料列層級函數和運算子 (例如 ifelseround) 的計算編輯器建置運算式。

  3. 儲存您的計算。

  4. 預覽表達式結果。

  5. 視需要新增更多計算資料欄。

使用須知

  • 此步驟僅支援純量 (列層級) 計算。

  • 在 SPICE 中,計算的資料欄會具體化,並在後續步驟中做為標準資料欄運作。

變更資料類型

Quick Sight 透過支援四種抽象資料類型來簡化資料類型管理:dateintegerdecimalstring。這些抽象類型會自動將各種來源資料類型映射至其 Quick Sight 對等項目,以消除複雜性。例如,tinyintinteger、 和 smallintbigint全都對應至 integer,而 datedatetimetimestamp則對應至 date

此抽象表示您只需要了解 Quick Sight 的四種資料類型,因為 Quick Sight 會在與不同資料來源互動時自動處理所有基礎資料類型轉換和計算。

組態

若要設定變更資料類型步驟,請在組態窗格中:

  1. 選取要轉換的資料欄。

  2. 選擇目標資料類型 (stringdecimalintegerdate)。

  3. 對於日期轉換,請根據輸入格式指定格式設定和預覽結果。請參閱 Quick Sight 中支援的日期格式

  4. 視需要新增要轉換的其他資料欄。

使用須知

  • 在單一步驟中轉換多個資料欄的資料類型以提高效率。

  • 使用 SPICE 時,所有資料類型變更都會在匯入的資料中具體化。

重新命名資料欄

重新命名資料欄步驟可讓您修改資料欄名稱,使其更具描述性、更易於使用,並與組織的命名慣例保持一致。

組態

若要設定重新命名資料欄步驟,請在組態窗格中:

  1. 選取要命名的資料欄。

  2. 輸入所選資料欄的新名稱。

  3. 視需要新增更多資料欄來重新命名。

使用須知

  • 所有資料欄名稱在資料集內必須是唯一的。

選取資料欄

Select Columns 步驟可讓您透過包含、排除和重新排序欄來簡化資料集。這有助於最佳化資料結構,方法是移除不必要的資料欄,並以邏輯順序組織剩餘的資料欄以進行分析。

組態

若要設定選取資料欄步驟,請在組態窗格中:

  1. 選擇要包含在輸出中的特定資料欄。

  2. 依您偏好的順序選取資料欄以建立序列。

  3. 使用全選以原始順序包含其餘資料欄。

  4. 將不需要的資料欄保留為未選取以排除。

主要功能

  • 輸出資料欄會依選取順序顯示。

  • 選取全部會保留原始資料欄序列。

使用須知

  • 未選取的資料欄會從後續步驟中移除。

  • 移除不必要的資料欄,以最佳化資料集大小。

附加

附加步驟垂直結合兩個資料表,類似於 SQL UNION ALL 操作。Quick Sight 會自動依名稱而非序列比對資料欄,即使資料表的資料欄順序不同或資料欄數量不同,也能實現高效率的資料整合。

組態

若要設定附加步驟,請在組態窗格中:

  1. 選取要附加的兩個輸入資料表。

  2. 檢閱輸出資料欄序列。

  3. 檢查兩個資料表和單一資料表中存在哪些資料欄。

主要功能

  • 依名稱比對資料欄,而非序列。

  • 保留兩個資料表中的所有資料列,包括重複項目。

  • 支援具有不同資料欄數量的資料表。

  • 遵循資料表 1 的資料欄序列來比對資料欄,然後從資料表 2 新增唯一資料欄。

  • 顯示所有資料欄的明確來源指標

使用須知

  • 在附加具有不同名稱的資料欄時,請先使用重新命名步驟。

  • 每個附加步驟只會結合兩個資料表;針對更多資料表使用額外的附加步驟。

Join

聯結步驟會根據指定資料欄中的相符值水平合併來自兩個資料表的資料。Quick Sight 支援左外部、右外部、完整外部和內部聯結類型,為您的分析需求提供靈活的選項。步驟包含智慧型資料欄衝突解析,可自動處理重複的資料欄名稱。雖然無法以特定聯結類型提供自我聯結,但您可以使用工作流程差異來達成類似的結果。

組態

若要設定聯結步驟,請在組態窗格中:

  1. 選取要聯結的兩個輸入資料表。

  2. 選擇您的聯結類型 (左側外部、右側外部、完全外部或內部)。

  3. 從每個資料表指定聯結金鑰。

  4. 檢閱自動解析的資料欄名稱衝突。

主要功能

  • 支援多種聯結類型,以滿足不同的分析需求。

  • 自動解析重複的資料欄名稱。

  • 接受計算的資料欄做為聯結索引鍵。

使用須知

  • 聯結金鑰必須具有相容的資料類型;如有需要,請使用變更資料類型步驟。

  • 每個聯結步驟只會結合兩個資料表;針對更多資料表使用額外的聯結步驟。

  • 在加入後建立重新命名步驟,以自訂自動解析的資料欄標頭。

Aggregate

彙總步驟可讓您透過分組資料欄和套用彙總操作來摘要資料。這項強大的轉換會根據您指定的維度,將詳細資料精簡為有意義的摘要。Quick Sight 透過直覺式界面簡化複雜的 SQL 操作,提供全面的彙總函數,包括進階字串操作,例如 ListAggListAgg distinct

組態

若要設定彙總步驟,請在組態窗格中:

  1. 選取要分組的資料欄。

  2. 選擇量值資料欄的彙總函數。

  3. 自訂輸出資料欄名稱。

  4. 針對 ListAggListAgg distinct

    1. 選取要彙總的資料欄。

    2. 選擇分隔符號 (逗號、破折號、分號或垂直線)。

  5. 預覽摘要資料。

每個資料類型支援的函數

資料類型 支援的函數

數值

Average, Sum

Count, Count Distinct

Max, Min

日期

Count, Count Distinct

Max, Min

ListAggListAgg distinct(僅適用於日期)

String

ListAgg, ListAgg distinct

Count, Count Distinct

Max, Min

主要功能

  • 將不同的彙總函數套用至相同步驟中的資料欄。

  • 無彙總函數的 分組會充當 SQL SELECT DISTINCT。

  • ListAgg 串連所有值;僅ListAgg distinct包含唯一值。

  • ListAgg 函數預設會維持遞增排序順序。

使用須知

  • 彙總可大幅減少資料集中的資料列計數。

  • ListAggListAgg distinct支援 date 值,但不支援 datetime

  • 使用分隔符號來自訂字串串連輸出。

篩選條件

篩選步驟僅包含符合特定條件的資料列,可讓您縮小資料集範圍。您可以在單一步驟中套用多個篩選條件,所有條件都透過AND邏輯合併,以協助將您的分析集中在相關資料上。

組態

若要設定篩選步驟,請在組態窗格中:

  1. 選取要篩選的資料欄。

  2. 選擇比較運算子。

  3. 根據資料欄的資料類型指定篩選條件值。

  4. 視需要新增不同資料欄的其他篩選條件。

注意
  • 字串篩選條件包含 "is in" 或 "is not in":輸入多個值 (每行一個)。

  • 數值和日期篩選條件:輸入單一值 (除了需要兩個值的「介於」)。

每個資料類型支援的運算子

資料類型 支援的運算子

整數和小數

等於,不等於

大於、小於

大於或等於、小於或等於

介於

日期

之後、之前

介於

晚於或等於、早於或等於

String

等於,不等於

開頭為 ,結尾為

包含,不包含

位於、不在

使用須知

  • 在單一步驟中套用多個篩選條件。

  • 混合不同資料類型的條件。

  • 即時預覽篩選結果。

Pivot (樞紐)

Pivot 步驟會將資料列值轉換為唯一資料欄,將資料從長格式轉換為寬格式,以便於比較和分析。此轉換需要值篩選、彙總和分組的規格,才能有效管理輸出資料欄。

組態

若要設定樞紐步驟,請在組態窗格中使用下列項目:

  1. 樞紐分析資料欄:選取其值將成為資料欄標頭的資料欄 (例如,類別)。

  2. 樞紐分析欄資料列值:篩選要包含的特定值 (例如,技術、辦公室用品)。

  3. 輸出資料欄標頭:自訂新的資料欄標頭 (預設為樞紐分析資料欄值)。

  4. 值欄:選取要彙總的欄 (例如 Sales)。

  5. 彙總函數:選擇彙總方法 (例如總和)。

  6. 分組依據:指定組織資料欄 (例如區段)。

每個資料類型支援的運算子

資料類型 支援的運算子

整數和小數

Average, Sum

Count, Count Distinct

Max, Min

日期

Count, Count Distinct

Max, Min

ListAggListAgg distinct(僅限日期值)

String

ListAgg, ListAgg distinct

Count, Count Distinct

Max, Min

使用須知

  • 每個樞紐資料欄都包含值資料欄中的彙總值。

  • 為了清楚起見,請自訂資料欄標頭。

  • 即時預覽轉換結果。

取消樞紐

Unpivot 步驟會將資料欄轉換為資料列,將寬資料轉換為更長、更窄的格式。此轉換有助於將分散在多個資料欄的資料組織成更結構化的格式,以便於分析和視覺化。

組態

若要設定取消樞紐步驟,請在組態窗格中:

  1. 選取要復原至資料列的資料欄。

  2. 定義輸出資料欄資料列值。預設值為原始資料欄名稱。一些範例包括技術、辦公室用品和家具。

  3. 為兩個新輸出資料欄命名。

    • 取消樞紐資料欄標頭:舊資料欄名稱的名稱 (例如,類別)

    • 取消樞紐分析資料欄值:取消樞紐分析值的名稱 (例如,Sales)

主要功能

  • 保留輸出中所有未分頁的資料欄。

  • 自動建立新的兩個資料欄:一個用於先前的資料欄名稱,另一個用於對應的值。

  • 將寬資料轉換為長格式。

使用須知

  • 所有未樞紐分析的資料欄都必須具有相容的資料類型。

  • 資料列計數通常會在取消樞紐分析後增加。

  • 在套用變更之前即時預覽變更。