ステップ 1: Amazon S3 にドキュメントを追加する - Amazon Kendra

ステップ 1: Amazon S3 にドキュメントを追加する

データセットで Amazon Comprehend エンティティ分析ジョブを実行する前に、データ、メタデータ、および Amazon Comprehend エンティティ分析出力をホストする Amazon S3 バケットを作成します。

サンプルデータセットをダウンロードする

Amazon Comprehend がデータに対してエンティティ分析ジョブを実行できるようにするには、データセットをダウンロードして抽出し、S3 バケットにアップロードする必要があります。

  1. デバイス上の tutorial-dataset.zip フォルダをダウンロードします。

  2. tutorial-dataset フォルダを抽出して data フォルダにアクセスします。

  1. tutorial-dataset をダウンロードするには、ターミナルウィンドウを開き、以下のコマンドを実行します。

    Linux
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    コードの説明は以下のとおりです。

    • path/ は、zip フォルダを保存する場所のローカルファイルパスです。

    macOS
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    コードの説明は以下のとおりです。

    • path/ は、zip フォルダを保存する場所のローカルファイルパスです。

    Windows
    curl -o path/tutorial-dataset.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/tutorial-dataset.zip

    コードの説明は以下のとおりです。

    • path/ は、zip フォルダを保存する場所のローカルファイルパスです。

  2. zip フォルダからデータを抽出するには、ターミナルウィンドウで次のコマンドを実行します。

    Linux
    unzip path/tutorial-dataset.zip -d path/

    コードの説明は以下のとおりです。

    • path/ は、保存した zip フォルダへのローカルファイルパスです。

    macOS
    unzip path/tutorial-dataset.zip -d path/

    コードの説明は以下のとおりです。

    • path/ は、保存した zip フォルダへのローカルファイルパスです。

    Windows
    tar -xf path/tutorial-dataset.zip -C path/

    コードの説明は以下のとおりです。

    • path/ は、保存した zip フォルダへのローカルファイルパスです。

このステップを完了すると、抽出されたファイルが tutorial-dataset という解凍したフォルダにあるはずです。このフォルダには、Apache 2.0 オープンソースのアトリビューションのある README ファイルと、このチュートリアルのデータセットが含まれている data というフォルダがあります。データセットは .story 拡張子のある 100 個のファイルで構成されます。

Amazon S3 バケットの作成

サンプルデータフォルダをダウンロードして抽出したら、Amazon S3 バケットに保存します。

重要

Amazon S3 バケットの名前はすべての AWS 全体で一意である必要があります。

  1. AWS マネジメントコンソール にサインインし、Amazon S3 コンソール https://console.aws.amazon.com/s3/ を開きます。

  2. [Buckets] (バケット) で、[Create bucket] (バケットの作成) を選択します。

  3. [Bucket name] (バケット名) に、一意の名前を入力します。

  4. [Region] (リージョン) では、バケットを格納する AWS リージョンを選択します。

    注記

    Amazon Comprehend と Amazon Kendra の両方をサポートするリージョンを選択する必要があります。作成後にバケットのリージョンを変更することはできません。

  5. [Block Public Access settings for this bucket] (このバケットのパブリックアクセス設定をブロックする)、[Bucket Versioning] (バケットバージョニング)、および [Tags] (タグ) はデフォルト設定のままにしておきます。

  6. [Default encryption] (デフォルトの暗号化) には、[Disable] (無効) を選択します。

  7. [Advanced settings] (詳細設定) はデフォルト設定のままにしておきます。

  8. バケットの設定を確認して、[Create bucket] (バケットの作成) を選択します。

  1. S3 バケットを作成するには、AWS CLI で [create-bucket] コマンドを使用します。

    Linux
    aws s3api create-bucket \ --bucket amzn-s3-demo-bucket \ --region aws-region \ --create-bucket-configuration LocationConstraint=aws-region

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    • aws-region は、バケットを作成するリージョンです。

    macOS
    aws s3api create-bucket \ --bucket amzn-s3-demo-bucket \ --region aws-region \ --create-bucket-configuration LocationConstraint=aws-region

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    • aws-region は、バケットを作成するリージョンです。

    Windows
    aws s3api create-bucket ^ --bucket amzn-s3-demo-bucket ^ --region aws-region ^ --create-bucket-configuration LocationConstraint=aws-region

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    • aws-region は、バケットを作成するリージョンです。

    注記

    Amazon Comprehend と Amazon Kendra の両方をサポートするリージョンを選択する必要があります。作成後にバケットのリージョンを変更することはできません。

  2. バケットが正常に作成されたことを確認するには、[list] コマンドを使用します。

    Linux
    aws s3 ls
    macOS
    aws s3 ls
    Windows
    aws s3 ls

S3 バケットにデータフォルダとメタデータフォルダを作成する

S3 バケットを作成した後、その中のフォルダにデータフォルダとメタデータフォルダを作成します。

  1. Amazon S3 コンソール (https://console.aws.amazon.com/s3/) を開きます。

  2. [Buckets] (バケット) で、バケットのリストからバケットの名前をクリックします。

  3. [Objects] (オブジェクト) タブから、[Create folder] (フォルダの作成) を選択します。

  4. 新しいフォルダ名に、data を入力します。

  5. 暗号化設定については、[Disable] (無効) を選択します。

  6. [Create folder] (フォルダの作成) を選択します。

  7. ステップ 3 から 6 を繰り返して Amazon Kendra メタデータを保存する別のフォルダーを作成し、ステップ 4 metadata で作成したフォルダに名前を付けます。

  1. S3 バケットで data フォルダを作成するには、AWS CLI で [put-object] コマンドを使用します。

    Linux
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key data/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    macOS
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key data/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    Windows
    aws s3api put-object ^ --bucket amzn-s3-demo-bucket ^ --key data/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

  2. S3 バケットで metadata フォルダを作成するには、AWS CLI で [put-object] コマンドを使用します。

    Linux
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key metadata/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    macOS
    aws s3api put-object \ --bucket amzn-s3-demo-bucket \ --key metadata/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    Windows
    aws s3api put-object ^ --bucket amzn-s3-demo-bucket ^ --key metadata/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

  3. フォルダが正常に作成されたことを確認するには、[list] コマンドを使用してバケットの内容をチェックします。

    Linux
    aws s3 ls s3://amzn-s3-demo-bucket/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    macOS
    aws s3 ls s3://amzn-s3-demo-bucket/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    Windows
    aws s3 ls s3://amzn-s3-demo-bucket/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

入力データをアップロードする

データフォルダとメタデータフォルダを作成したら、サンプルデータセットを data フォルダにアップロードします。

  1. Amazon S3 コンソール (https://console.aws.amazon.com/s3/) を開きます。

  2. [Buckets] (バケット) で、バケットのリストからバケットの名前、data の順にクリックします。

  3. [Upload] (アップロード)、[Add files] (ファイルの追加) の順に選択します。

  4. ダイアログボックスで、ローカルデバイスの tutorial-dataset フォルダ内の data フォルダで、すべてのファイルを選択し、[Open] (開く) をクリックします。

  5. [Destination] (送信先)、[Permissions] (アクセス許可)、および [Properties] (プロパティ) はデフォルト設定のままにしておきます。

  6. [Upload] (アップロード) を選択します。

  1. サンプルデータを data フォルダにアップロードするには、AWS CLI で [copy] コマンドを使用します。

    Linux
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    コードの説明は以下のとおりです。

    • path/ は、デバイス上の tutorial-dataset フォルダへのファイルパス、

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    macOS
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    コードの説明は以下のとおりです。

    • path/ は、デバイス上の tutorial-dataset フォルダへのファイルパス、

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

    Windows
    aws s3 cp path/tutorial-dataset/data s3://amzn-s3-demo-bucket/data/ --recursive

    コードの説明は以下のとおりです。

    • path/ は、デバイス上の tutorial-dataset フォルダへのファイルパス、

    • amzn-s3-demo-bucket は、ご使用のバケットの名前です。

  2. データセットファイルが data フォルダに正常にアップロードされたことを確認する場合は、AWS CLI で [list] コマンドを使用します。

    Linux
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用の S3 バケットの名前です。

    macOS
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用の S3 バケットの名前です。

    Windows
    aws s3 ls s3://amzn-s3-demo-bucket/data/

    コードの説明は以下のとおりです。

    • amzn-s3-demo-bucket は、ご使用の S3 バケットの名前です。

このステップを完了すると、data フォルダに S3 バケットのデータセットが保存されされた、metadata フォルダが空になります。このフォルダは Amazon Kendra メタデータを保存します。