文档元数据 - Amazon 快速

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文档元数据

您可以向 Amazon S3 存储桶中的文档添加元数据,以自定义聊天结果并控制文档级访问权限。元数据是关于文档的其他信息,例如其标题、创建日期和访问权限。

Amazon Quick 支持使用引文进行来源归因。如果您指定_source_uri元数据字段,聊天结果中的来源归因链接会将用户引导至配置的网址。如果您未指定_source_uri,则用户仍然可以通过可点击的引文链接访问源文档,这些引文链接会在查询时下载文件。

文档元数据位置

在 Amazon S3 中,每个元数据文件都可与一个已编制索引的文档相关联。您的元数据文件必须与已编入索引的文件存储在同一 Amazon S3 存储桶中。在 Amazon Quick 中配置 Amazon S3 集成时,您可以在 Amazon S3 存储桶中为元数据文件指定一个位置。

如果您未指定 Amazon S3 前缀,则您的元数据文件必须与已编入索引的文档存储在相同的位置。如果您为元数据文件指定 Amazon S3 前缀,则这些文件必须位于与已编入索引的文档平行的目录结构中。Amazon Quick 仅在指定目录中查找您的元数据。如果未读取元数据,请检查目录位置是否与元数据的位置相匹配。

以下示例展示了如何将已编入索引的文档位置映射到元数据文件位置。文档的 Amazon S3 密钥将附加到元数据的 Amazon S3 前缀中,然后.metadata.json以后缀为构成元数据文件的 Amazon S3 路径。

注意

组合.metadata.json后的 Amazon S3 密钥、元数据的亚马逊 S3 前缀和后缀的总长度不得超过 1,024 个字符。我们建议您的 Amazon S3 密钥长度少于 1,000 个字符,以考虑将密钥与前缀和后缀组合时出现的额外字符。

例示例 1:未指定元数据路径
Bucket name: s3://bucketName Document path: documents Metadata path: none File mapping s3://bucketName/documents/file.txt -> s3://bucketName/documents/file.txt.metadata.json
例示例 2:指定元数据路径
Bucket name: s3://bucketName Document path: documents/legal Metadata path: metadata File mapping s3://bucketName/documents/legal/file.txt -> s3://bucketName/metadata/documents/legal/file.txt.metadata.json

文档元数据结构

您在 JSON 文件中定义文档元数据本身。该文件必须是没有 BOM 标记的 UTF-8 文本文件。JSON 文件的文件名必须是 <document>.<extension>.metadata.json。在此示例中,document是元数据所应用的文档的名称,extension也是该文档的文件扩展名。在 <document>.<extension>.metadata.json 中,文档 ID 必须是唯一的。

JSON 文件的内容使用以下模板:

{ "DocumentId": "document ID", "Attributes": { "_authors": ["author of the document"], "_category": "document category", "_created_at": "ISO 8601 encoded string", "_last_updated_at": "ISO 8601 encoded string", "_source_uri": "document URI", "_version": "file version", "_view_count": number of times document has been viewed }, "AccessControlList": [ { "Name": "user1@example.com", "Type": "GROUP | USER", "Access": "ALLOW | DENY" } ], "Title": "document title", "ContentType": "PDF | HTML | MS_WORD | PLAIN_TEXT | PPT | RTF | XML | XSLT | MS_EXCEL | CSV | JSON | MD" }

如果您提供元数据路径,请确保元数据目录内的目录结构与数据文件的目录结构完全匹配。

例如,如果数据文件位置在 s3://bucketName/documents/legal/file.txt,则元数据文件位置应在 s3://bucketName/metadata/documents/legal/file.txt.metadata.json

所有属性和字段均可选,因此不必包含所有属性。但是,您必须为要包含的每个属性提供一个值;该值不能为空。

_created_at_last_updated_at 元数据字段是 ISO 8601 编码的日期。例如,2012-03-25T12:30:10+01:00 是中部欧洲时间 2012 年 3 月 25 日中午 12:30(10 秒)的 ISO 8601 日期-时间格式。

AccessControlList字段是一个可选数组,用于定义文档级访问控制。数组中的每个条目都包含以下字段:

  • Name— 对于USER类型,指用户在 Quick 中的电子邮件地址。对于GROUP类型,使用 Quick 中的群组名称。

  • TypeUSERGROUP

  • AccessALLOWDENY

注意

要使用该AccessControlList字段,必须在创建知识库 ACLs 时启用文档级别。有关更多信息,请参阅 文档级 ACLs