

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 使用分析探索您的資料
<a name="canvas-explore-data-analytics"></a>

**注意**  
您只能針對將 SageMaker Canvas 分析用於以表格式資料集建立的模型。也會排除多類別文字預測模型。

透過 Amazon SageMaker Canvas 中的分析功能，您可以在建立模型之前探索資料集並深入分析所有變數。您可以使用相互關聯矩陣來決定資料集中特徵之間的關係。您可以使用此技巧將資料集摘要成矩陣，以顯示兩個或多個值之間的相互關聯。這可幫助您識別並視覺化指定資料集中的模式，以進行進階資料分析。

矩陣會將每個特徵之間的相互關聯性 顯示為正、負或中性。建置模型時，您可能會想要包括彼此之間相互關聯性高的特徵。幾乎沒有相互關聯的特徵可能與您的模型不相關，您可以在建置模型時放棄這些特徵。

若要開始使用 SageMaker Canvas 中的相互關聯性矩陣，請參閱下列章節。

## 建立相互關聯性矩陣
<a name="canvas-explore-data-analytics-correlation-matrix"></a>

當您準備在 SageMaker Canvas 應用程式的**建置**標籤中建立模型時，可以建立相互關聯性矩陣。

如需如何開始建立模型的指示，請參閱[建立模型](canvas-build-model-how-to.md)。

在 SageMaker Canvas 應用程式中開始準備模型之後，請執行下列操作：

1. 在**建置**索引標籤中，選擇**資料視覺化工具**。

1. 然後選擇**分析**。

1. 選擇**相互關聯性矩陣**。

您應該會看到類似下列螢幕擷取畫面的視覺效果，該螢幕擷取畫面顯示組織成相互關聯矩陣的資料集最多 15 個資料欄。

![Canvas 應用程式中相互關連矩陣的螢幕擷取畫面。](http://docs.aws.amazon.com/zh_tw/sagemaker/latest/dg/images/studio/canvas/canvas-correlation-matrix-2.png)


建立相互關聯矩陣後，您可以藉由以下動作來自訂它：

### 1. 選擇您的資料欄
<a name="canvas-explore-data-analytics-correlation-matrix-columns"></a>

針對**資料欄**，您可以選取想要包含在矩陣中的欄。您最多可以比較資料集中的 15 個資料欄。

**注意**  
您可以針對相互關聯矩陣使用數值、分類或二進位資料欄類型。相互關聯矩陣不支援日期時間或文字資料欄類型。

若要在相互關聯矩陣中新增或移除資料欄，請從**資料欄**面板中選取並取消選取欄。您也可以將資料欄直接從面板拖放到矩陣上。如果資料集有很多資料欄，您可以在**搜尋欄位**中搜尋想要的資料欄。

若要依資料類型篩選資料欄，請選擇下拉式清單，然後選取**全部**、**數值**或**分類**。選取**全部**會顯示資料集中的所有資料欄，而**數值**和**分類**篩選只會顯示資料集中的數值或分類資料欄。請注意，二進位資料欄類型包含在數值或分類篩選條件中。

若要獲得最佳資料洞見，請在相互關聯矩陣中包含您的目標欄。當您將目標欄包括在相互關聯矩陣中時，它會在出現在矩陣中最後一個特徵，並包含一個目標符號。

### 2. 選擇相互關聯類型
<a name="canvas-explore-data-analytics-correlation-matrix-cor-type"></a>

SageMaker Canvas 支援不同的*相互關聯類型*或計算欄之間關聯性的方法。

若要變更相互關聯類型，請使用前一節中提到的**資料欄**篩選條件，篩選您想要的資料欄類型和資料欄。您應該會在側邊面板中看到**相互關聯類型**。針對數值比較，您可以選擇 **Pearson** 或 **Spearman**。針對分類比較，相互關聯類型會設定為 **MI**。針對分類與混合比較，相互關聯類型會設定為 **Spearman & MI**。

針對僅比較數值欄的矩陣，相互關聯類型是 Pearson 或 Spearman。Pearson 量值會評估兩個連續變數之間的線性關係。Spearman 量值會評估兩個變數之間的單調關係。對於 Pearson 與 Spearman，相互關聯性的規模範圍從 -1 到 1，規模的任一端表示一個完美的相關性 (直接 1:1 關係) 而 0 表示無相關性。如果您的資料具有更多線性關係 (如[散佈圖視覺效果](https://docs.aws.amazon.com/sagemaker/latest/dg/canvas-explore-data.html#canvas-explore-data-scatterplot)所顯示)，您可能會想要選取 Pearson。如果您的資料並非線性的，或者混合了包含線性和單調關係，那麼您可能需要選擇 Spearman。

針對只比較分類資料欄的矩陣，相互關聯類型會設定為相互資訊分類 (MI)。MI 值是兩個隨機變數之間相互相依性的量值。MI 量值的範圍為 0 到 1，0 表示無相互關聯，1 表示完美相互關聯。

針對比較數值和分類資料欄的混合矩陣，相互關聯類型 **Spearman & MI** 是 Spearman 和 MI 相互關聯類型的組合。針對兩個數值欄之間的相互關聯，矩陣會顯示 Spearman 值。針對數值和分類欄或兩個分類欄之間的相互關聯，矩陣會顯示 MI 值。

最後請記住，相互關聯不一定表示因果關係。強相互關聯值僅表示兩個變數之間存在關係，但這些變數可能沒有因果關係。請仔細檢閱您感興趣的資料欄，以避免在建置模型時出現偏差。

### 3. 篩選您的相互關聯
<a name="canvas-explore-data-analytics-correlation-matrix-filter"></a>

在側邊面板中，您可以使用**篩選相互關聯**功能來篩選要包含在矩陣中的相關值範圍。例如，如果您要篩選僅具有正或中性相互關聯的特徵，您可以將**下限**設定為 0，將**上限**設定為 1 (有效值為 -1 到 1)。

針對 Spearman 和 Pearson 比較，您可以在 -1 到 1 範圍之間的任何地方設定**篩選相互關聯**，0 表示沒有相互關聯，-1 和 1 表示變數分別具有強的負或正相互關聯。

針對 MI 比較，相互關聯範圍僅從 0 到 1，0 表示沒有相互關聯，1 表示變數具有很強的相互關聯，無論是正或負。

每個特徵都與本身具有完美的相互關聯 (1)。因此您可能會注意到相互關聯矩陣的第一列永遠為 1。如果要排除這些值，可以使用篩選器將**上限**設定為小於 1。

請記住，如果您的矩陣比較了數字和分類欄的混合，並使用 **Spearman & MI** 相互關聯類型，則*分類 x 數值*和*分類 x 分類*相互關聯 (使用 MI 量值) 的範圍為 0 到 1，而*數值 x 數值*關聯 (使用 Spearman 量值) 的範圍為 -1 到 1。仔細檢閱您感興趣的相互關聯，以確保您知道用於計算每個值的相互關聯類型。

### 4. 選擇視覺化方法。
<a name="canvas-explore-data-analytics-correlation-matrix-viz-method"></a>

在側邊面板中，您可以使用**視覺化依據**來變更矩陣的視覺化方法。選擇**數值**視覺化方法以顯示相互關聯 (Pearson、Spearman 或 MI) 值，或選擇**大小**視覺化方法，來視覺化與不同大小和顏色點的相互關聯。如果您選擇**大小**，您可以將游標暫留在矩陣的特定點上，以查看實際的相互關聯值。

### 5. 選擇調色盤
<a name="canvas-explore-data-analytics-correlation-matrix-color"></a>

在側邊面板中，您可以使用**顏色選取**來變更用於矩陣中負至正相互關聯的調色盤。選取其中一個替代調色盤，以變更矩陣中使用的顏色。