本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
选择您的多模式处理方法
Amazon Bedrock 知识库提供了两种处理多模式内容的方法:用于视觉相似度搜索的 Nova 多模态嵌入和用于基于文本的多媒体内容处理的 Bedrock 数据自动化 (BDA)。如果您的输入模式是图像而不是音频或视频,则也可以使用基础模型作为解析器。
本节介绍如何使用 Nova 多模态嵌入和 BDA 作为多模态内容的处理方法。每种方法都针对不同的用例和查询模式进行了优化。
多模态处理方法
下表显示了用于处理多模态内容的 Nova 多模式嵌入和 BDA 之间的比较。
| 特征 | Nova 多模态嵌入式 | 基岩数据自动化 (BDA) |
|---|---|---|
| 处理方法 | 无需中间文本转换即可生成嵌入内容 | 将多媒体转换为文本,然后创建嵌入内容 |
| 支持的查询类型 | 文本查询或图像查询 | 仅限文本查询 |
| 主要用例 | 视觉相似度搜索、产品匹配、图像发现 | 语音转录、基于文本的搜索、内容分析 |
| RAG 功能 | 仅限于文字内容 | 全力RetrieveAndGenerate支持 |
| 存储需求 | 需要多式联运存储目的地 | 多式联运存储目的地是可选的,但如果未指定,BDA 将只处理文本数据。对于非文本输入,必须指定多模式存储目的地。 |
区域可用性
| Nova 多模态嵌入式 | 基岩数据自动化 (BDA) |
|---|---|
| 仅限美国东部(弗吉尼亚州北部) |
|
按内容类型划分的选择标准
使用此决策矩阵根据您的内容和用例要求选择适当的处理方法:
注意
如果您将 BDA 解析器与 Amazon Nova 多模态嵌入模型一起使用,则嵌入模型将像文本嵌入模型一样起作用。处理多模式内容时,根据您的用例,使用其中一种处理方法以获得最佳结果。
| 内容类型 | Nova 多模态嵌入式 | 基岩数据自动化 (BDA) |
|---|---|---|
| 产品目录和图片 | 推荐-启用视觉相似度匹配和基于图像的查询 | 有限-仅通过 OCR 提取文本 |
| 会议录音和通话 | 无法有意义地处理语音内容 | 推荐-提供完整的语音转录和可搜索的文本 |
| 培训和教育视频 | 部分-处理视觉内容但错过了语音 | 推荐-捕获语音记录和视觉描述 |
| 客户支持录音 | 不推荐-无法有效处理语音内容 | 推荐-创建完整的可搜索对话记录 |
| 技术图表和图表 | 推荐-非常适合视觉相似度和模式匹配 | 有限-提取文本标签但错过了视觉关系 |
支持的文件类型和数据源
支持的文件类型取决于您选择的处理方法:
| 文件类型 | Nova 多模态嵌入式 | 基岩数据自动化 (BDA) |
|---|---|---|
| 图片 | .png、.jpg、.jpeg、.gif、.webp | .png、.jpg、.jpeg |
| 音频 | .mp3、.ogg、.wav | .amr、.flac、.m4a、.mp3、.ogg、.wav |
| 视频 | .mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp | .mp4、.mov |
| 文档 | 作为文本处理 | .pdf(加上从图像中提取文本) |
支持的数据源
以下数据源支持多模式内容:
-
Amazon S3:完全支持所有多模式文件类型
-
自定义数据源:支持最大 10MB base64 编码的内联内容
重要
多模式检索目前仅适用于 Amazon S3 数据源。其他数据源(Confluence、 SharePoint、Salesforce、Web Crawler)在摄取期间不处理多模式文件。这些文件将被跳过,无法用于多模式查询。
能力和局限性
- Nova 多模态嵌入式
-
关键能力:
-
原生多模态处理保留了原始内容格式,以实现最佳的视觉相似度匹配
-
基于图像的查询允许用户上传图像并查找视觉上相似的内容
-
适用于产品目录、视觉搜索和内容发现应用程序的卓越性能
限制:
-
无法有效处理语音或音频内容-无法搜索语音信息
-
RetrieveAndGenerate并重新排列功能仅限于文本内容 -
需要配置专用的多式联运存储目的地
-
- 基岩数据自动化 (BDA)
-
关键能力:
-
使用自动语音识别 (ASR) 技术进行全面的语音转录
-
视觉内容分析为图像和视频场景生成描述性文本
-
全面
RetrieveAndGenerate支持可在所有内容中实现完整的 RAG 功能 -
基于文本的搜索在所有多媒体内容类型中都能保持一致
限制:
-
在没有 Nova 多模式嵌入的情况下使用时,不支持基于图像的查询——所有搜索都必须使用文本输入
-
无法进行视觉相似度匹配或搜索 image-to-image
-
由于内容转换要求,摄取处理时间更长
-
与 Nova 多模式嵌入相比,支持的多媒体文件格式更少
-
语音内容处理
Nova Multimodal Embeddings 无法有效地处理音频或视频文件中的语音内容。如果您的多媒体内容包含用户需要搜索的重要口头信息,请选择 BDA 方法以确保完整的转录和可搜索性。