

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# 分析 Amazon Personalize 資料集中的資料品質和數量
<a name="analyzing-data"></a>

將資料匯入項目互動、使用者或項目資料集後，您可以使用 Amazon Personalize 主控台來分析資料。您可以透過資料洞察和資料欄和資料列統計資料來了解您的資料。您也可以了解可以採取哪些動作來改善資料。這些動作可協助您滿足 Amazon Personalize 資源需求，例如模型訓練需求，或者可以帶來改善的建議。

**重要**  
您無法使用 Amazon Personalize 主控台來分析*動作互動*或*動作*資料集中的資料。

 進行任何建議的變更後，您可以再次匯入資料，並查看您是否已解決任何問題或改善資料集統計資料。如需更新資料的資訊，請參閱 [訓練後更新資料集中的資料](updating-datasets.md)。

 如果您沒有看到任何洞見，您的資料會符合 Amazon Personalize 資料預期。您可以分析網域資料集群組或自訂資料集群組中的資料。

 產生洞見和計算統計資料時，Amazon Personalize 會考慮來自非匿名使用者的所有大量和串流資料。除非您將匿名使用者的事件與 建立關聯，否則不會考慮這些事件`userId`。如需詳細資訊，請參閱[記錄匿名使用者的事件](recording-events.md#recording-anonymous-user-events)。

**Topics**
+ [分析資料所需的許可](#analyze-data-minimum-permissions)
+ [資料洞見](#data-insights)
+ [檢視資料集洞察和統計資料](#run-analysis-console)

## 分析資料所需的許可
<a name="analyze-data-minimum-permissions"></a>

如果您提供使用者 Amazon Personalize 的完整存取權，則不需要變更許可。如果您只授予使用者在 Amazon Personalize 中執行任務所需的許可，您的 AWS Identity and Access Management (IAM) 政策必須包含下列額外的資料洞見動作。
+ personalize：CreateDataInsightsJob
+ personalize：ListDataInsightsJobs
+ personalize：DescribeDataInsightsJob
+ personalize：GetDataInsights

## 資料洞見
<a name="data-insights"></a>

 以下是您可以在 Amazon Personalize 中產生的可能資料洞見。


| Insight | Action | 相關資料集 (s) | 
| --- | --- | --- | 
| 互動資料集只有 X 個互動。模型訓練至少需要 1，000 個互動。我們建議至少 50，000 個。 | 在訓練模型之前，匯入 Y 額外的唯一互動記錄。 | 項目互動 | 
| 互動資料集只有 X 個唯一使用者具有兩個或多個互動。模型訓練至少需要 25 位這類使用者。我們建議至少 1，000 個。 |  為 Y 其他使用者匯入至少 2 個互動記錄。 | 項目互動 | 
| 項目資料集中的 X% 項目在互動資料集中沒有互動，因此可能不建議它們。 |  請務必匯入所有互動資料，並檢查項目和互動資料集之間的 IDs 是否不相符。檢查下方的資料集統計資料以取得您的項目和互動資料集，以確保您已匯入預期的資料列數。如果您的使用案例或配方使用探勘，請修改探勘組態以建議更多沒有互動資料的項目。  | 項目互動和項目 | 
| 使用者資料集中的 X% 使用者在互動資料集中沒有互動。這些使用者會收到熱門項目的建議。 |  請務必匯入所有互動資料，並檢查使用者和互動資料集之間的 IDs 是否不相符。檢查您的使用者和互動資料集的以下資料集統計資料，以確保您已匯入預期的資料列數。匯入任何其他互動，讓更多使用者擁有互動資料。  | 項目互動和使用者 | 
| <Users 或 Items 或 Interactions> 資料集具有缺少值的 X% 資料列。這可能會對建議產生負面影響。我們建議至少完成 70% 的所有必要和選用欄位。 |  匯入其他完整記錄，或在沒有不完整資料列的情況下再次匯入資料，或匯入遺失值以替代資料取代的資料，例如數值資料欄的平均值或分類資料欄的最常見值。  | 任何 | 
| <datasetType> 資料集中的下列資料欄 （已完成） 小於 70%：<ColumnName， ColumnName...>. 如果此資料包含在訓練中，可能會對建議產生負面影響。我們建議允許 null 值的資料欄至少完成 70%。 |  匯入其他完整記錄，或在沒有不完整資料列的情況下再次匯入資料，或匯入遺失值以替代資料取代的資料，例如數值資料欄的平均值或分類資料欄的最常見值。  | 任何 | 
| 下列 （數值） 欄具有極端值：<ColumnName， ColumnName...>. 極端值不一定是問題，但有時會對建議造成負面影響。 |  使用以下資料欄統計資料，檢查這些資料欄的最小值和最大值是否符合您的期望。如果這些值未預期，請檢查這些欄中的資料是否有不正確，並檢閱資料收集和資料處理是否有問題。  | 任何 | 
| 下列 （欄） 可能超過 1000 個類別：<ColumnName， ColumnName...>. 如果此資料包含在訓練中，可能會對建議產生負面影響：<ColumnName， ColumnName...>. |  檢查您的分類資料是否有問題，例如因拼字變化而造成的重複類別。解決任何不正確並再次匯入資料。  | 任何 | 
|  下列文字中繼資料欄 （已完成） 不到 85%，不會用於模型訓練：<ColumnName， ColumnName...>. |  匯入其他資料列，或使用這些資料欄的文字資料再次匯入資料列 ()。  | 項目 | 
|  互動資料集有超過 10 種唯一的事件類型，這會導致模型訓練失敗。 |  檢查您的事件類型資料欄是否有不正確的情況，例如因拼字變化而造成的重複事件類型。移除不必要的事件類型並再次匯入資料。  | 項目互動 | 
|  互動資料集的所有記錄都有相同的時間戳記。如果您使用 USER\$1SEGMENTATION 配方且所有記錄具有相同的時間戳記，則模型訓練將會失敗。 |  檢查您的資料是否有時間戳記問題，並以唯一的時間戳記取代重複的時間戳記。  | 項目互動 | 

## 檢視資料集洞察和統計資料
<a name="run-analysis-console"></a>

若要在 Amazon Personalize 資料集中檢視資料的洞見和統計資料，請在 Amazon Personalize 主控台中導覽至資料集，然後選擇執行分析。

**注意**  
您必須先匯入資料，Amazon Personalize 才能分析資料。如需詳細資訊，請參閱[將訓練資料匯入 Amazon Personalize 資料集](import-data.md)

**檢視洞見和統計資料**

1. 在 [https://console.aws.amazon.com/personalize/home](https://console.aws.amazon.com/personalize/home)：// 開啟 Amazon Personalize 主控台並登入您的帳戶。

1.  在**資料集群組**頁面上，選擇您的資料集群組。

1. 在導覽窗格中，**於資料集**下選擇**資料分析**。

1.  在右上角，選擇**執行分析**。Amazon Personalize 會開始分析您的資料。此程序最多需要 15 分鐘的時間。如果成功，結果會顯示在此頁面。

1. 在 **Insights** 中，使用下列項目來篩選顯示的洞見。
   + 若要尋找包含特定語言的洞見，請在**尋找洞見**中輸入您的條件。當您輸入文字時，清單會更新，在洞見或建議的動作中只包含具有確切字串的洞見。
   +  若要依資料集類型篩選洞見，請將**所有資料集**變更為特定資料集類型。清單會更新為僅包含與此資料集相關的洞見。

1. 若要檢視資料集的資料集統計資料，請執行下列動作。
   + 若要檢視資料集的一般詳細資訊和統計資料，例如互動資料集中的資料列數、唯一使用者和唯一項目，請展開資料集的 區段。
   + 若要檢視資料欄的詳細統計資料，請展開資料集區段，選擇資料**欄層級統計資料**，然後選擇資料欄的選項按鈕。

1.  更正資料中的任何問題，再次匯入，然後執行另一個分析以進行驗證。如需再次匯入資料的詳細資訊，請參閱[訓練後更新資料集中的資料](updating-datasets.md)。