

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# ドキュメント
<a name="hiw-documents"></a>

このセクションでは、 がサポートする多数のドキュメント形式と、ドキュメントのさまざまなフィールド/属性の Amazon Kendra インデックスを作成する方法について説明します。

**Topics**
+ [ドキュメントタイプまたは書式](#index-document-types)
+ [ドキュメントの属性またはフィールド](#hiw-document-attributes)

## ドキュメントタイプまたは書式
<a name="index-document-types"></a>

Amazon Kendra は、PDF、HTML、Word、PowerPoint などの一般的なドキュメントタイプまたは形式をサポートしています。インデックスには複数のドキュメント形式を含めることができます。

Amazon Kendra は、ドキュメントを検索可能にするために、ドキュメント内のコンテンツを抽出します。抽出されたテキストとドキュメント内の表形式のコンテンツ (HTML テーブル) での検索が最適化されるように、ドキュメントが解析されます。つまり、ドキュメントを、検索で使用するフィールドまたは属性に構築します。最終更新日などのドキュメントメタメタデータは、検索に役立つフィールドになります。

ドキュメントは行と列に編成できます。例えば、各ドキュメントは行で、タイトルや本文コンテンツなどの各ドキュメントフィールド/属性は列にします。例えば、データベースをデータソースとして使用する場合、データは行と列に構築または整理する必要があります。

ドキュメントをインデックスに追加するには、次の方法があります。
+ [BatchPutDocument](https://docs.aws.amazon.com/kendra/latest/dg/in-adding-documents.html) API
+ [データソースコネクタ](https://docs.aws.amazon.com/kendra/latest/dg/data-sources.html)

よくある質問ファイルを追加する場合は、[CreateFaq](https://docs.aws.amazon.com/kendra/latest/dg/in-creating-faq.html) API を使用して、 Amazon S3 バケットに保存されているファイルを追加します。基本的な CSV 形式、ヘッダーにカスタムフィールド/属性を含む CSV 形式、カスタムフィールドを含む JSON 形式から選択できます。デフォルトの形式は基本的な CSV です。

以下では、サポートされている各ドキュメント形式と、 Amazon Kendra がドキュメントのインデックス作成時に各形式をどのように処理するかについて説明します。


| ドキュメントの形式 | 処理方法 | ドキュメントの処理方法 | 元の構造 | 
| --- | --- | --- | --- | 
| ポータブルドキュメント形式 (PDF) | HTML | HTML に変換してから、コンテンツを抽出します。 | 構造化されない | 
| HyperText マークアップ言語 (HTML) | HTML | HTML タグをフィルターで除外して、コンテンツを抽出します。コンテンツはメインの HTML 開始タグと終了タグ (<HTML>content</HTML>) の間にある必要があります。 | 半構造化 | 
| 拡張マークアップ言語 (XML) | XML | XML タグをフィルターで除外して、コンテンツを抽出します。 | 半構造化 | 
| 拡張スタイルシート言語変換 (XSLT) | XSLT | タグをフィルターで除外して、コンテンツを抽出します。 | 半構造化 | 
| MarkDown (MD) | プレーンテキスト | コンテンツは MarkDown 構文を含めた状態抽出されます。 | 半構造化 | 
| カンマ区切り値 (CSV) | CSV | 各セルから抽出されたコンテンツで、1 つのファイルが 1 つのドキュメント結果として扱われます。 | よくある質問ファイルの場合は構造化、それ以外は半構造化 | 
| Microsoft Excel (XLS および XLSX) | XLS および XLSX | 各セルから抽出されたコンテンツで、1 つのファイルが 1 つのドキュメント結果として扱われます。 | 半構造化 | 
| JavaScript Object Notation (JSON) | プレーンテキスト | コンテンツは JSON 構文を含めた状態で抽出されます。 | 半構造化 | 
| リッチテキスト形式 (RTF) | RTF | RTF 構文はフィルターで除外され、内容が抽出されます。 | 半構造化 | 
| Microsoft PowerPoint (PPT) | PPT、PPTX | 検索のために PowerPoint スライドからテキストコンテンツのみが抽出されます。イメージやその他のコンテンツは抽出されません。 | 構造化されない | 
| Microsoft Word | DOC、DOCX | 検索のために Word ページからテキストコンテンツのみが抽出されます。イメージやその他のコンテンツは抽出されません。 | 構造化されない | 
| プレーンテキスト (TXT) | TXT | テキストドキュメント内のすべてのテキストが抽出されます。 | 構造化されない | 

## ドキュメントの属性またはフィールド
<a name="hiw-document-attributes"></a>

ドキュメントには属性またはフィールドが関連付けられています。ドキュメントのフィールドは、ドキュメントのプロパティ、またはドキュメントの構造に含まれる属性です。たとえば、各ドキュメントにタイトル、本文、著者が含まれている場合があります。特定の文書にカスタムフィールドを追加することもできます。例えば、インデックスが税務文書を検索する場合、W-2、1099 などの税文書の種類にカスタムフィールドを指定できます。

クエリでドキュメント属性を使用するには、その前にインデックスフィールドにマッピングする必要があります。例えば、タイトルフィールドをフィールド `_document_title` にマッピングできます。詳細については、「[Mapping fields](https://docs.aws.amazon.com/kendra/latest/dg/field-mapping.html)」を参照してください。新しいフィールドを追加するには、フィールドをマッピングするインデックスフィールドを作成する必要があります。コンソールを使用して、または [UpdateIndex](https://docs.aws.amazon.com/kendra/latest/APIReference/API_UpdateIndex.html) API を使用してインデックスフィールドを作成します。

ドキュメントフィールドを使用して、レスポンスをフィルタリングし、ファセット検索結果を作成できます。例えば、特定のバージョンのドキュメントのみを返すように応答をフィルタリングしたり、検索条件に一致する 1099 タイプの税務文書のみを返すように検索をフィルタリングできます。詳細については、「[Filtering and facet search](https://docs.aws.amazon.com/kendra/latest/dg/filtering.html)」を参照してください。

ドキュメントフィールドを使用して、クエリレスポンスを手動で調整することもできます。たとえば、タイトルフィールドの重要度を上げることで、レスポンスで返すドキュメントを決定するときに がフィールド Amazon Kendra に割り当てる重みを増やすことができます。詳細については、「[Tuning search relevance](https://docs.aws.amazon.com/kendra/latest/dg/tuning.html)」を参照してください。

ドキュメントをインデックスに直接追加する場合は、[BatchPutDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchPutDocument.html) API に[ドキュメント](https://docs.aws.amazon.com/kendra/latest/APIReference/API_Document.html)入力パラメータのフィールドを指定します。[DocumentAttribute](https://docs.aws.amazon.com/kendra/latest/APIReference/API_DocumentAttribute.html) オブジェクト配列のカスタム属性値を指定します。データソースを使用している場合、ドキュメントフィールドを追加するために使用する方法は、データソースによって異なります。詳細については、「[データソースフィールドのマッピング](https://docs.aws.amazon.com/kendra/latest/dg/field-mapping.html)」を参照してください。

### Amazon Kendra 予約済みまたは一般的なドキュメントフィールドの使用
<a name="index-reserved-fields"></a>

[UpdateIndex API](https://docs.aws.amazon.com/kendra/latest/APIReference/API_UpdateIndex.html) では、`DocumentMetadataConfigurationUpdates` を使用して Amazon Kendra 予約済みインデックスフィールド名を指定することにより、予約フィールドまたは共通フィールドを作成し、対応するドキュメント属性/フィールド名にマッピングできます。カスタムフィールドも作成できます。データソースコネクタを使用する場合、データソースドキュメントフィールドを Amazon Kendra インデックスフィールドにマッピングするフィールドマッピングがほとんど含まれます。コンソールを使用する場合は、データソースを選択し、編集アクションを選択してから、フィールドマッピングセクションの横に進んでデータソースを設定して、フィールドを更新します。

`Search` オブジェクトを設定して、フィールドを表示可能、ファセット可能、検索可能、ソート可能のいずれかに設定できます。特定のフィールド値にマッピングされたブースト、新しさ、重要度の値に適用するフィールドのランク順序、ブースト期間、または期間を設定するように `Relevance` オブジェクトを設定できます。コンソールを使用する場合は、ナビゲーションメニューのファセットオプションを選択して、フィールドの検索設定をセットできます。関連性調整を設定するには、ナビゲーションメニューでインデックスを検索するオプションを選択し、クエリを入力し、サイドパネルのオプションを使用して検索の関連性を調整します。フィールドを作成すると、フィールドタイプを変更することはできません。

Amazon Kendra には、使用できる以下の予約済みまたは共通ドキュメントフィールドがあります。
+ `_authors` - ドキュメントの内容を担当する 1 人以上の作成者のリスト。
+ `_category` - ドキュメントを特定のグループに配置するカテゴリ。
+ `_created_at` - ドキュメントが作成された ISO 8601 形式の日付と時刻。例えば、2012-03-25T12:30:10\$101:00 は、中央ヨーロッパ時間の 2012 年 3 月 25 日午後 12 時 30 分 (プラス 10 秒) の ISO 8601 の日付/時刻形式です。
+ `_data_source_id` - ドキュメントを含むデータソースの識別子。
+ `_document_body` - ドキュメントのコンテンツ。
+ `_document_id` - ドキュメントの一意の識別子。
+ `_document_title` - ドキュメントのタイトル。
+ `_excerpt_page_number` - ドキュメントの抜粋が表示される PDF ファイルのページ番号。2020 年 9 月 8 日より前にインデックスが作成された場合、この属性を使用する前に、ドキュメントのインデックスを再作成する必要があります。
+ `_faq_id` - これが質疑応答タイプのドキュメント (よくある質問) の場合、よくある質問の固有識別子です。
+ `_file_type` - pdf や doc など、ドキュメントのファイルタイプ。
+ `_last_updated_at` - ドキュメントが最後に更新された ISO 8601 形式の日付と時刻。例えば、2012-03-25T12:30:10\$101:00 は、中央ヨーロッパ時間の 2012 年 3 月 25 日午後 12 時 30 分 (プラス 10 秒) の ISO 8601 の日付/時刻形式です。
+ `_source_uri` - ドキュメントが利用可能な URI。例えば、会社のウェブサイト上のドキュメントの URI などです。
+ `_version` - ドキュメントの特定のバージョンの識別子。
+ `_view_count` - ドキュメントが表示された回数。
+ `_language_code` (文字列) - ドキュメントに適用される言語のコード。言語を指定しないと、デフォルトで英語になります。コードを含む、サポートされている言語の詳細については、[英語以外の言語でドキュメントを追加する](https://docs.aws.amazon.com/kendra/latest/dg/in-adding-languages.html)を参照してください。

カスタムフィールドの場合、予約フィールドまたは共通フィールドを作成する場合と同じように、`UpdateIndex` API で `DocumentMetadataConfigurationUpdates` を使用してこれらのフィールドを作成します。カスタムフィールドには適切なデータタイプを設定する必要があります。コンソールを使用する場合は、データソースを選択し、編集アクションを選択してから、フィールドマッピングセクションの横に進んでデータソースを設定して、フィールドを更新します。一部のデータソースは、新しいフィールドやカスタムフィールドの追加をサポートしていません。フィールドを作成すると、フィールドタイプを変更することはできません。

カスタムフィールドには以下のタイプを設定できます。
+ 日付
+ Number
+ String
+ 文字列リスト

[BatchPutDocument](https://docs.aws.amazon.com/kendra/latest/APIReference/API_BatchPutDocument.html) API を使用してインデックスにドキュメントを追加した場合、`Attributes` は、ドキュメントのフィールド/属性を一覧表示し、`DocumentAttribute` オブジェクトを使用してフィールドを作成します。

 Amazon S3 データソースからインデックス付けされたドキュメントの場合、フィールド情報を含む [JSON メタデータファイル](https://docs.aws.amazon.com/kendra/latest/dg/s3-metadata.html)を使用してフィールドを作成します。

サポートされているデータベースをデータソースとして使用する場合は、[フィールドマッピングオプション](https://docs.aws.amazon.com/kendra/latest/dg/data-source-database.html#data-source-procedure-database)を使用してフィールドを設定できます。