本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
步驟 1:將文件新增至 Amazon S3
在資料集上執行 Amazon Comprehend 實體分析任務之前,您可以建立 Amazon S3 儲存貯體來託管資料、中繼資料和 Amazon Comprehend 實體分析輸出。
下載範例資料集
在 Amazon Comprehend 可以對資料執行實體分析任務之前,您必須下載並擷取資料集,並將其上傳至 S3 儲存貯體。
-
在裝置上下載 tutorial-dataset.zip 資料夾。
-
解壓縮
tutorial-dataset
資料夾以存取data
資料夾。
-
若要下載
tutorial-dataset
,請在終端機視窗上執行下列命令: -
若要從 zip 資料夾擷取資料,請在終端機視窗上執行下列命令:
在此步驟結束時,您應該將解壓縮的檔案放在名為 的解壓縮資料夾中tutorial-dataset
。此資料夾包含具有 Apache 2.0 開放原始碼屬性README
的檔案,以及名為 的資料夾,data
其中包含本教學課程的資料集。資料集包含 100 個副.story
檔名的檔案。
建立 Amazon S3 儲存貯體
下載並擷取範例資料資料夾之後,您可以將其存放在 Amazon S3 儲存貯體中。
重要
Amazon S3 儲存貯體的名稱在所有 中必須是唯一的 AWS。
登入 AWS Management Console 並開啟位於 https://https://console.aws.amazon.com/s3/
的 Amazon S3 主控台。 -
在儲存貯體中,選擇建立儲存貯體。
-
對於 Bucket name (儲存貯體名稱),輸入一個唯一名稱。
-
針對區域,選擇您要建立儲存貯體 AWS 的區域。
注意
您必須選擇同時支援 Amazon Comprehend 和 Amazon Kendra 的區域。您無法在建立儲存貯體之後變更儲存貯體的區域。
-
保留此儲存貯體、儲存貯體版本控制和標籤的封鎖公開存取設定的預設設定。
-
針對預設加密,選擇停用。
-
保留進階設定的預設設定。
-
檢閱您的儲存貯體組態,然後選擇建立儲存貯體。
-
若要建立 S3 儲存貯體,請使用 中的 create-bucket
命令 AWS CLI: 注意
您必須選擇同時支援 Amazon Comprehend 和 Amazon Kendra 的區域。您無法在建立儲存貯體之後變更儲存貯體的區域。
-
若要確保您的儲存貯體已成功建立,請使用 list
命令:
在 S3 儲存貯體中建立資料和中繼資料資料夾
建立 S3 儲存貯體之後,您可以在其中建立資料和中繼資料資料夾。
開啟位於 https://console.aws.amazon.com/s3/
的 Amazon S3 主控台。 -
在儲存貯體中,從儲存貯體清單中按一下儲存貯體的名稱。
-
從物件索引標籤中,選擇建立資料夾。
-
針對新的資料夾名稱,輸入
data
。 -
針對加密設定,選擇停用。
-
選擇 Create folder (建立資料夾)。
-
重複步驟 3 到 6 建立另一個資料夾來存放 Amazon Kendra 中繼資料,並命名步驟 4 中建立的資料夾
metadata
。
-
若要在 S3 儲存貯體中建立
data
資料夾,請使用 中的 put-object命令 AWS CLI: -
若要在 S3 儲存貯體中建立
metadata
資料夾,請使用 中的 put-object命令 AWS CLI: -
若要確保您的資料夾已成功建立,請使用 list
命令檢查儲存貯體的內容:
上傳輸入資料
建立資料和中繼資料資料夾之後,您會將範例資料集上傳到 data
資料夾。
開啟位於 https://console.aws.amazon.com/s3/
的 Amazon S3 主控台。 -
在儲存貯體中,從儲存貯體清單中按一下儲存貯體的名稱,然後按一下
data
。 -
選擇上傳,然後選擇新增檔案。
-
在對話方塊中,導覽至本機裝置中
data
資料夾內的tutorial-dataset
資料夾,選取所有檔案,然後選擇開啟。 -
保留目的地、許可和屬性的預設設定。
-
選擇上傳。
在此步驟結束時,您有一個 S3 儲存貯體,其中包含存放在 data
資料夾內的資料集,以及一個空metadata
資料夾,它會存放您的 Amazon Kendra 中繼資料。