多式联运疑难解答知识库 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

多式联运疑难解答知识库

本节为解决使用多式联运知识库时遇到的常见问题提供了指导。故障排除信息按一般限制、常见错误场景及其原因和解决方案以及性能优化建议进行组织。使用此信息来诊断和解决在设置、摄取或查询多式联运内容期间出现的问题。

一般限制

使用多式联运知识库时,请注意这些当前的局限性:

  • 文件大小限制:每个视频文件最大 1.5 GB,每个音频文件最大 1 GB(Nova Multimodal Embeddings),或者每个文件最大 1.5 GB(BDA)

  • 每个摄取任务的文件数:每个作业最多 15,000 个文件(Nova 多模式嵌入式)或每个作业最多 1,000 个文件(BDA)

  • 查询限制:每次查询最多只能有一张图片

  • 数据源限制:只有 Amazon S3 和自定义数据源支持多模式内容

  • BDA 分块限制:使用具有固定大小分块的 Bedrock Data Automation 时,重叠百分比设置不适用于音频和视频内容

  • BDA 并发任务限制:默认限制为 20 个并发 BDA 作业。对于大规模处理,可以考虑申请增加服务配额

  • Reranker 模型限制:多模式内容不支持 Reranker 模型

  • 摘要限制:不支持汇总包含非文本内容的检索响应

  • 查询输入限制:目前不支持同时包含文本和图像的输入。您可以同时使用文本或图像查询,但不能同时使用两者。

  • Guardrail 图像内容过滤器:在配置了图像内容过滤器的护栏上使用图像查询时,将对照护栏对输入图像进行评估,如果输入图像违反了配置的过滤器阈值,则可能会被屏蔽

  • 输入和类型不匹配:默认情况下,如果未指定类型,则假定输入为文本。使用文本以外的模式时,必须指定正确的类型

常见错误和解决方案

如果您的多式联运知识库遇到问题,请查看以下常见场景:

使用图像查询时出现 4xx 错误

原因:试图将图像查询与纯文本嵌入模型或 BDA 处理的知识库一起使用。

解决方案:在创建支持图像查询的知识库时,请选择 Amazon Nova 多模式嵌入。

RAG 返回包含多模式内容的 4xx 错误

原因:RetrieveAndGenerate与仅包含多式联运内容的知识库和 Amazon Nova 多模式嵌入模型一起使用。

解决方案:使用 BDA 解析器获取 RAG 功能,或者确保您的知识库包含文本内容。

需要多式联运存储目的地错误

原因:在未配置多模式存储目的地的情况下使用 Nova 多模式嵌入式。

解决方案:使用 Nova 多模态嵌入时指定多模式存储目的地。

数据源和多模式存储使用相同的 S3 存储桶

原因:将您的数据源和多模式存储目标配置为使用相同的 Amazon S3 存储桶,而不使用正确的包含前缀。

解决方案:要么使用单独的存储桶来存储数据源和多模式存储,要么配置包含前缀以防止重新摄取提取的媒体文件。

包含前缀不能以 “aws/” 开头

原因:当您的数据源和多模式存储目标共享同一 Amazon S3 存储桶时,使用以 “aws/” 开头的包含前缀。

解决方案:指定不同的包含前缀。“aws/” 路径保留用于提取的媒体存储,不能用作包含前缀以避免重新摄取已处理的内容。

BDA 摄取会跳过多模式内容

原因:知识库是在没有多模式存储目标的情况下创建的,然后添加了包含多模式内容的 BDA 数据源。

解决方案:使用配置为启用音频、视频和图像文件的 BDA 处理的多模式存储目标来重新创建知识库。

在没有多模嵌入模型的情况下创建知识库

原因:知识库是使用纯文本嵌入模型创建的,这限制了多模态能力。

解决方案:使用 Nova Multimodal Embeddings 创建新的知识库,以实现原生多模态处理和基于图像的查询。

使用 Amazon S3 生命周期策略管理临时数据

使用 Nova 多模式嵌入时,Amazon Bedrock 会将瞬态数据存储在您的多模式存储目标中,并在处理完成后尝试将其删除。我们建议在临时数据路径上应用生命周期策略,以确保其已正确过期。

Console
使用控制台创建生命周期规则
  1. 打开 Amazon S3 控制台

  2. 导航到您为知识库配置的多模式存储目的地。

  3. 选择 “管理” 选项卡,然后选择 “创建生命周期规则”。

  4. 生命周期规则名称中,输入Transient Data Deletion

  5. 在 “筛选器类型” 下,选择 “使用一个或多个过滤器限制此规则的范围”。

  6. 在 P refix 中,输入知识库和数据源的临时数据路径。

    将以下前缀中的占位符值替换为实际标识符:

    aws/bedrock/knowledge_bases/knowledge-base-id/data-source-id/transient_data
    重要

    请勿将生命周期策略应用于整个存储桶或 “aws/” 前缀,因为这会删除您的多式联运内容并导致检索失败。仅使用上面显示的特定瞬态数据路径。

  7. 在 “生命周期规则操作” 下,选择 “终止对象的当前版本”。

  8. 对于对象创建后的天数,请输入1

  9. 选择 Create rule(创建规则)。

AWS CLI
要使用创建生命周期规则 AWS CLI
  1. 使用以下内容创建名为 lifecycle-policy.json JSON 文件。

    用您的实际标识符替换占位符值:

    • knowledge-base-id-您的知识库标识符

    • data-source-id-您的数据源标识符

    { "Rules": [ { "ID": "TransientDataDeletion", "Status": "Enabled", "Filter": { "Prefix": "aws/bedrock/knowledge_bases/knowledge-base-id/data-source-id/transient_data" }, "Expiration": { "Days": 1 } } ] }
  2. 将生命周期策略应用于您的存储桶。将 your-multimodal-storage-bucket 替换为实际存储桶名称:

    aws s3api put-bucket-lifecycle-configuration \ --bucket your-multimodal-storage-bucket \ --lifecycle-configuration file://lifecycle-policy.json
  3. 验证生命周期策略是否已应用:

    aws s3api get-bucket-lifecycle-configuration \ --bucket your-multimodal-storage-bucket

有关 Amazon S3 生命周期策略的更多信息,请参阅 Amazon S3 用户指南中的管理对象生命周期。

性能注意事项

要使您的多模式知识库发挥最佳性能,请考虑以下因素:

  • 处理时间:由于内容转换,BDA 处理时间更长

  • 查询延迟:图像查询的延迟可能高于文本查询

  • 分块持续时间:较长的音频/视频区块持续时间会增加处理时间,但可能会提高准确性