本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
多式联运疑难解答知识库
本节为解决使用多式联运知识库时遇到的常见问题提供了指导。故障排除信息按一般限制、常见错误场景及其原因和解决方案以及性能优化建议进行组织。使用此信息来诊断和解决在设置、摄取或查询多式联运内容期间出现的问题。
一般限制
使用多式联运知识库时,请注意这些当前的局限性:
-
文件大小限制:每个视频文件最大 1.5 GB,每个音频文件最大 1 GB(Nova Multimodal Embeddings),或者每个文件最大 1.5 GB(BDA)
-
每个摄取任务的文件数:每个作业最多 15,000 个文件(Nova 多模式嵌入式)或每个作业最多 1,000 个文件(BDA)
-
查询限制:每次查询最多只能有一张图片
-
数据源限制:只有 Amazon S3 和自定义数据源支持多模式内容
-
BDA 分块限制:使用具有固定大小分块的 Bedrock Data Automation 时,重叠百分比设置不适用于音频和视频内容
-
BDA 并发任务限制:默认限制为 20 个并发 BDA 作业。对于大规模处理,可以考虑申请增加服务配额
-
Reranker 模型限制:多模式内容不支持 Reranker 模型
-
摘要限制:不支持汇总包含非文本内容的检索响应
-
查询输入限制:目前不支持同时包含文本和图像的输入。您可以同时使用文本或图像查询,但不能同时使用两者。
-
Guardrail 图像内容过滤器:在配置了图像内容过滤器的护栏上使用图像查询时,将对照护栏对输入图像进行评估,如果输入图像违反了配置的过滤器阈值,则可能会被屏蔽
-
输入和类型不匹配:默认情况下,如果未指定类型,则假定输入为文本。使用文本以外的模式时,必须指定正确的类型
常见错误和解决方案
如果您的多式联运知识库遇到问题,请查看以下常见场景:
- 使用图像查询时出现 4xx 错误
-
原因:试图将图像查询与纯文本嵌入模型或 BDA 处理的知识库一起使用。
解决方案:在创建支持图像查询的知识库时,请选择 Amazon Nova 多模式嵌入。
- RAG 返回包含多模式内容的 4xx 错误
-
原因:
RetrieveAndGenerate与仅包含多式联运内容的知识库和 Amazon Nova 多模式嵌入模型一起使用。解决方案:使用 BDA 解析器获取 RAG 功能,或者确保您的知识库包含文本内容。
- 需要多式联运存储目的地错误
-
原因:在未配置多模式存储目的地的情况下使用 Nova 多模式嵌入式。
解决方案:使用 Nova 多模态嵌入时指定多模式存储目的地。
- 数据源和多模式存储使用相同的 S3 存储桶
-
原因:将您的数据源和多模式存储目标配置为使用相同的 Amazon S3 存储桶,而不使用正确的包含前缀。
解决方案:要么使用单独的存储桶来存储数据源和多模式存储,要么配置包含前缀以防止重新摄取提取的媒体文件。
- 包含前缀不能以 “aws/” 开头
-
原因:当您的数据源和多模式存储目标共享同一 Amazon S3 存储桶时,使用以 “aws/” 开头的包含前缀。
解决方案:指定不同的包含前缀。“aws/” 路径保留用于提取的媒体存储,不能用作包含前缀以避免重新摄取已处理的内容。
- BDA 摄取会跳过多模式内容
-
原因:知识库是在没有多模式存储目标的情况下创建的,然后添加了包含多模式内容的 BDA 数据源。
解决方案:使用配置为启用音频、视频和图像文件的 BDA 处理的多模式存储目标来重新创建知识库。
- 在没有多模嵌入模型的情况下创建知识库
-
原因:知识库是使用纯文本嵌入模型创建的,这限制了多模态能力。
解决方案:使用 Nova Multimodal Embeddings 创建新的知识库,以实现原生多模态处理和基于图像的查询。
使用 Amazon S3 生命周期策略管理临时数据
使用 Nova 多模式嵌入时,Amazon Bedrock 会将瞬态数据存储在您的多模式存储目标中,并在处理完成后尝试将其删除。我们建议在临时数据路径上应用生命周期策略,以确保其已正确过期。
有关 Amazon S3 生命周期策略的更多信息,请参阅 Amazon S3 用户指南中的管理对象生命周期。
性能注意事项
要使您的多模式知识库发挥最佳性能,请考虑以下因素:
-
处理时间:由于内容转换,BDA 处理时间更长
-
查询延迟:图像查询的延迟可能高于文本查询
-
分块持续时间:较长的音频/视频区块持续时间会增加处理时间,但可能会提高准确性