选择您的多模式处理方法 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

选择您的多模式处理方法

Amazon Bedrock 知识库提供了两种处理多模式内容的方法:用于视觉相似度搜索的 Nova 多模态嵌入和用于基于文本的多媒体内容处理的 Bedrock 数据自动化 (BDA)。如果您的输入模式是图像而不是音频或视频,则也可以使用基础模型作为解析器。

本节介绍如何使用 Nova 多模态嵌入和 BDA 作为多模态内容的处理方法。每种方法都针对不同的用例和查询模式进行了优化。

多模态处理方法

下表显示了用于处理多模态内容的 Nova 多模式嵌入和 BDA 之间的比较。

处理方法比较
特征 Nova 多模态嵌入式 基岩数据自动化 (BDA)
处理方法 无需中间文本转换即可生成嵌入内容 将多媒体转换为文本,然后创建嵌入内容
支持的查询类型 文本查询或图像查询 仅限文本查询
主要用例 视觉相似度搜索、产品匹配、图像发现 语音转录、基于文本的搜索、内容分析
RAG 功能 仅限于文字内容 全力RetrieveAndGenerate支持
存储需求 需要多式联运存储目的地 多式联运存储目的地是可选的,但如果未指定,BDA 将只处理文本数据。对于非文本输入,必须指定多模式存储目的地。

区域可用性

区域可用性
Nova 多模态嵌入式 基岩数据自动化 (BDA)
仅限美国东部(弗吉尼亚州北部)
  • 美国西部(俄勒冈州)

  • 美国东部(弗吉尼亚州北部)

  • 欧洲地区(法兰克福)

  • 欧洲地区(伦敦)

  • 欧洲地区(爱尔兰)

  • 亚太地区(孟买)

  • 亚太地区(悉尼)

  • AWSGovCloud (美国西部)

按内容类型划分的选择标准

使用此决策矩阵根据您的内容和用例要求选择适当的处理方法:

注意

如果您将 BDA 解析器与 Amazon Nova 多模态嵌入模型一起使用,则嵌入模型将像文本嵌入模型一样起作用。处理多模式内容时,根据您的用例,使用其中一种处理方法以获得最佳结果。

按内容类型划分的处理方法建议
内容类型 Nova 多模态嵌入式 基岩数据自动化 (BDA)
产品目录和图片 推荐-启用视觉相似度匹配和基于图像的查询 有限-仅通过 OCR 提取文本
会议录音和通话 无法有意义地处理语音内容 推荐-提供完整的语音转录和可搜索的文本
培训和教育视频 部分-处理视觉内容但错过了语音 推荐-捕获语音记录和视觉描述
客户支持录音 不推荐-无法有效处理语音内容 推荐-创建完整的可搜索对话记录
技术图表和图表 推荐-非常适合视觉相似度和模式匹配 有限-提取文本标签但错过了视觉关系

支持的文件类型和数据源

支持的文件类型取决于您选择的处理方法:

按处理方法划分的支持的文件类型
文件类型 Nova 多模态嵌入式 基岩数据自动化 (BDA)
图片 .png、.jpg、.jpeg、.gif、.webp .png、.jpg、.jpeg
音频 .mp3、.ogg、.wav .amr、.flac、.m4a、.mp3、.ogg、.wav
视频 .mp4、.mov、.mkv、.webm、.flv、.mpeg、.mpg、.wmv、.3gp .mp4、.mov
文档 作为文本处理 .pdf(加上从图像中提取文本)
支持的数据源

以下数据源支持多模式内容:

  • Amazon S3:完全支持所有多模式文件类型

  • 自定义数据源:支持最大 10MB base64 编码的内联内容

重要

多模式检索目前仅适用于 Amazon S3 数据源。其他数据源(Confluence、 SharePoint、Salesforce、Web Crawler)在摄取期间不处理多模式文件。这些文件将被跳过,无法用于多模式查询。

能力和局限性

Nova 多模态嵌入式

关键能力:

  • 原生多模态处理保留了原始内容格式,以实现最佳的视觉相似度匹配

  • 基于图像的查询允许用户上传图像并查找视觉上相似的内容

  • 适用于产品目录、视觉搜索和内容发现应用程序的卓越性能

限制:

  • 无法有效处理语音或音频内容-无法搜索语音信息

  • RetrieveAndGenerate并重新排列功能仅限于文本内容

  • 需要配置专用的多式联运存储目的地

基岩数据自动化 (BDA)

关键能力:

  • 使用自动语音识别 (ASR) 技术进行全面的语音转录

  • 视觉内容分析为图像和视频场景生成描述性文本

  • 全面RetrieveAndGenerate支持可在所有内容中实现完整的 RAG 功能

  • 基于文本的搜索在所有多媒体内容类型中都能保持一致

限制:

  • 在没有 Nova 多模式嵌入的情况下使用时,不支持基于图像的查询——所有搜索都必须使用文本输入

  • 无法进行视觉相似度匹配或搜索 image-to-image

  • 由于内容转换要求,摄取处理时间更长

  • 与 Nova 多模式嵌入相比,支持的多媒体文件格式更少

语音内容处理

Nova Multimodal Embeddings 无法有效地处理音频或视频文件中的语音内容。如果您的多媒体内容包含用户需要搜索的重要口头信息,请选择 BDA 方法以确保完整的转录和可搜索性。