选择您的多模式处理方法

Amazon Bedrock 知识库提供了两种处理多模态内容的方法：用于视觉相似度搜索的 Nova 多模态嵌入和用于基于文本的多媒体内容处理的 Bedrock 数据自动化 (BDA)。如果您的输入模式是图像，但不适用于音频或视频，则也可以使用基础模型作为解析器。

本节介绍如何使用 Nova 多模态嵌入和 BDA 作为多模态内容的处理方法。每种方法都针对不同的用例和查询模式进行了优化。

多模态处理方法

下表显示了用于处理多模态内容的 Nova 多模式嵌入和 BDA 之间的比较。

处理方法比较
特征	Nova Multimodal Embeddings	基岩数据自动化 (BDA)
处理方法	无需中间文本转换即可生成嵌入内容	将多媒体转换为文本，然后创建嵌入内容
支持的查询类型	文本查询或图像查询	仅限文本查询
主要用例	视觉相似度搜索、产品匹配、图像发现	语音转录、基于文本的搜索、内容分析
RAG 功能	仅限于文字内容	全力`RetrieveAndGenerate`支持
存储需求	需要多式联运存储目的地	多式联运存储目的地是可选的，但如果未指定，BDA 将只处理文本数据。对于非文本输入，必须指定多模式存储目的地。

区域可用性
Nova Multimodal Embeddings	基岩数据自动化 (BDA)
仅限美国东部（弗吉尼亚州北部）	美国西部（俄勒冈州）美国东部（弗吉尼亚州北部）欧洲地区（法兰克福）欧洲地区（伦敦）欧洲地区（爱尔兰）亚太地区（孟买）亚太地区（悉尼） AWS GovCloud (US-West)

使用此决策矩阵根据您的内容和用例要求选择适当的处理方法：

如果您将 BDA 解析器与 Amazon Nova 多模态嵌入模型一起使用，则嵌入模型将像文本嵌入模型一样起作用。处理多模式内容时，根据您的用例，使用其中一种处理方法以获得最佳结果。

支持的文件类型取决于您选择的处理方法：

按处理方法划分的支持的文件类型
文件类型	Nova Multimodal Embeddings	基岩数据自动化 (BDA)
图片	.png、.jpg、.jpeg、.gif、.webp	.png、.jpg、.jpeg
音频	.mp3、.ogg、.wav	.amr、.flac、.m4a、.mp3、.ogg、.wav
视频	.mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp	.mp4、.mov
文档	作为文本处理	.pdf（加上从图像中提取文本）

以下数据源支持多模式内容：

多模式检索目前仅适用于 Amazon S3 数据源。其他数据源（Confluence、 SharePoint、Salesforce、Web Crawler）在摄取期间不处理多模式文件。这些文件将被跳过，无法用于多模式查询。

Nova Multimodal Embeddings

关键能力：

限制:

基岩数据自动化 (BDA)

关键能力：

限制:

Nova Multimodal Embeddings 无法有效地处理音频或视频文件中的语音内容。如果您的多媒体内容包含用户需要搜索的重要口头信息，请选择 BDA 方法以确保完整的转录和可搜索性。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

为多模式内容建立知识库

先决条件