翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ステップ 1: Amazon S3 にドキュメントを追加する
Amazon Comprehend 分析ジョブを開始するには、カスタマーレビューのサンプルデータセットを Amazon Simple Storage Service (Amazon S3) に保存しておく必要があります。Amazon S3 は、バケットと呼ばれるコンテナにデータを保存します。Amazon Comprehend は、バケットに保存されているドキュメントを分析し、その分析結果をバケットに送信します。このステップでは、S3 バケットを作成して、バケットに入出力フォルダを作成し、バケットにサンプルデータセットをアップロードします。
前提条件
この手順を開始するにあたっては、チュートリアル:Amazon Comprehend を使用してカスタマーレビューからインサイトを分析する を確認して前提条件を完了しておいてください。
サンプルデータをダウンロードする
次のサンプルデータセットには、より大きなデータセット「Amazon reviews-Full」から取得した Amazon レビューが含まれています。このデータセットは、「Character-level Convolutional Networks for Text Classification」(Xiang Zhang その他、2015 年) という記事と共に公開されたものです。データセットをコンピュータにダウンロードします。
サンプルデータを取得する
-
zip ファイル tutorial-reviews-data.zip をコンピューターにダウンロードします。
-
コンピューター上の zip ファイルを解凍します。2 つのファイルがあります。ファイル
THIRD_PARTY_LICENSES.txtは Xiang Zhang その他が公開したデータセットのオープンソースライセンスです。ファイルamazon-reviews.csvは、チュートリアルで分析するデータセットです。
Amazon S3 バケットを作成する
サンプルデータセットをダウンロードしたら、入出力データを保存するための Amazon S3 バケットを作成します。S3 バケットは、Amazon S3 コンソールまたは AWS Command Line Interface (AWS CLI) を使用して作成できます。
Amazon S3 コンソールで、すべて AWSにおいて一意の名前でバケットを作成します。
S3 バケットを作成する (コンソール)
にサインイン AWS Management Console し、https://console.aws.amazon.com/s3/
で Amazon S3 コンソールを開きます。 -
[Buckets] (バケット) で、[Create bucket] (バケットの作成) を選択します。
-
[バケット名] では、バケットの目的を説明するグローバルに一意の名前を入力します。
-
リージョンで、バケットを作成する AWS リージョンを選択します。選択するリージョンは Amazon Comprehend に対応している必要があります。レイテンシーを減らすには、Amazon Comprehend でサポートされている地理的な場所に最も近い AWS リージョンを選択します。Amazon Comprehend に対応しているリージョンについては、『グローバル・インフラストラクチャー・ガイド』の 「リージョン表
」 を参照してください。 -
[Object Ownership]、[Bucket settings for Block Public Access]、 [Bucket Versioning] および [Tags] にデフォルトの設定を使用します。
-
[Default encryption] (デフォルトの暗号化) には、[Disable] (無効) を選択します。
ヒント
このチュートリアルでは暗号化を使用しませんが、重要なデータを分析する場合は暗号化を使用することもできます。エンドツーエンドの暗号化では、バケットに保管中のデータばかりでなく、分析ジョブの実行時のデータも暗号化することができます。による暗号化の詳細については AWS、「 AWS Key Management Service デベロッパーガイド」の「 とは AWS Key Management Service」を参照してください。
-
バケットの設定を確認して、[バケットの作成]を選択します。
を開くと AWS CLI、 create-bucket コマンドを実行して、入出力データを保存するバケットを作成します。
Amazon S3 バケットを作成するには (AWS CLI)
-
バケットを作成するには、 AWS CLIで次のコマンドを実行します。amzn-s3-demo-bucket を、すべての で一意のバケットの名前に置き換えます AWS。
aws s3api create-bucket --bucket amzn-s3-demo-bucketデフォルトでは、
create-bucketコマンドはus-east-1AWS リージョンにバケットを作成します。us-east-1以外の AWS リージョン でバケットを作成するには、LocationConstraintパラメーターを追加してリージョンを指定します。たとえば、次のコマンドはus-west-2リージョンにファイルシステムを作成しています。aws s3api create-bucket --bucket amzn-s3-demo-bucket --region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2Amazon Comprehend に対応しているリージョンは限られていることに注意してください。Amazon Comprehend に対応しているリージョンについては、『グローバル・インフラストラクチャー・ガイド』の 「リージョン表
」 を参照してください。 -
バケットが正常に作成されたことを確認するには、次のコマンドを使用します。このコマンドは、アカウントに関連付けられているすべての S3 バケットを一覧表示します。
aws s3 ls
フォルダーを作成する (コンソールのみ)
次に S3 バケットに 2 つのフォルダを作成します。最初のフォルダは入力データ用です。2 つ目のフォルダは、Amazon Comprehend が分析結果の送信先になる場所です。Amazon S3 コンソールを使用する場合は、フォルダを手動で作成する必要があります。を使用する場合は AWS CLI、サンプルデータセットをアップロードするとき、または分析ジョブを実行するときにフォルダを作成できます。このため、ここではコンソールユーザー専用にフォルダを作成する手順を説明します。 AWS CLI を使用する場合は、入力データをアップロードする および ステップ 3: Amazon S3 上のドキュメントに対する分析ジョブの実行 にフォルダを作成します。
S3 バケットにフォルダーを作成する (コンソール)
https://console.aws.amazon.com/s3/
で Amazon S3 コンソールを開きます。 -
[バケット] のバケットリストからバケットを選択します。
-
[概要] タブで [フォルダーの作成] を選択します。
-
新しいフォルダ名に、
inputを入力します。 -
暗号化設定では、[なし (バケット設定を使用)] を選択します。
-
[Save] を選択します。
-
ステップ 3 ~ 6 を繰り返して分析ジョブの出力用の別のフォルダーを作成します。ただし、ステップ 4 では新しいフォルダー名として
outputを入力します。
入力データをアップロードする
バケットを作成しましたから、これでサンプルデータセット amazon-reviews.csv をアップロードできます。Amazon S3 コンソールまたは AWS CLIを使用して、S3 バケットにデータをアップロードできます。
Amazon S3 コンソールで、サンプルデータセットファイルを入力フォルダにアップロードします。
サンプルドキュメントをアップロードする (コンソール)
https://console.aws.amazon.com/s3/
で Amazon S3 コンソールを開きます。 -
[バケット] のバケットリストからバケットを選択します。
-
inputフォルダーを選択し、[アップロード] を選択します。 -
[ファイルを追加] を選択して、コンピューター上のファイル
amazon-reviews.csvを選択します。 -
その他の設定はデフォルト値のままにしておきます。
-
[アップロード] を選択します。
S3 バケットに入力フォルダを作成し、cp コマンドを使用してデータセットファイルをそのフォルダにアップロードします。
サンプルドキュメントをアップロードする (AWS CLI)
-
バケット内の新しいフォルダに
amazon-reviews.csvファイルをアップロードするには、次の AWS CLI コマンドを実行します。amzn-s3-demo-bucket は、実際のバケット名に置き換えます。Amazon S3 は末尾にパス/input/を追加することで、バケットに自動的にinputという名前の新しいフォルダを作成し、そのフォルダにデータセットファイルをアップロードします。aws s3 cp amazon-reviews.csv s3://amzn-s3-demo-bucket/input/ -
バケットが正常にアップロードされたことを確認するには、次のコマンドを使用します。このコマンドは、バケットの
inputフォルダー内容を一覧表示します。aws s3 ls s3://amzn-s3-demo-bucket/input/
これで、input という名前のフォルダに amazon-reviews.csv ファイルを含む S3 バケットが作成されました。コンソールを使用した場合は、バケットに output フォルダも作成されます。を使用した場合は AWS CLI、Amazon Comprehend 分析ジョブの実行時に出力フォルダを作成します。