为多模式内容建立知识库 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为多模式内容建立知识库

Amazon Bedrock 知识库支持多模式内容,包括图像、音频和视频文件。您可以使用图像作为查询进行搜索,检索视觉上相似的内容,以及与传统文本文档一起处理多媒体文件。此功能使您能够从不同数据类型(独立图像、录音和存储在组织中的视频文件)中提取见解。

Amazon Bedrock 知识库使您能够索引和检索文本、视频和音频内容中的信息。Organizations 现在可以使用图像搜索产品目录,在培训视频中查找特定时刻,并从客户支持电话录音中检索相关细分。

区域可用性

多式联运处理方法具有不同的区域可用性。有关详细信息,请参阅 区域可用性

特征和功能

多式联运知识库提供以下关键功能:

基于图像的查询

使用 Nova Multimodal Embeddings 时,以搜索查询形式提交图片,以查找视觉上相似的内容。支持产品匹配、视觉相似度搜索和图像检索。

音频内容检索

使用文本查询搜索音频文件。从带有时间戳参考的录音中检索特定片段。音频转录支持对语音内容(包括会议、电话和播客)进行基于文本的搜索。

视频片段提取

使用文本查询查找视频文件中的特定时刻。检索带有精确时间戳的视频片段。

跨模态搜索

在不同的数据类型中进行搜索,包括文本文档、图像、音频和视频。检索相关内容,无论其原始格式如何。

带有时间戳的源引用

检索结果包括对带有音频和视频临时元数据的原始文件的引用。支持精确导航到多媒体内容中的相关片段。

灵活的处理选项

您可以选择原生多模态嵌入以实现视觉相似度,也可以选择基于语音的内容的文本转换。根据内容特征和应用程序要求配置处理方法。

工作原理

多模态知识库通过多阶段管道处理和检索内容,该管道可以适当地处理不同的数据类型:

摄取和处理
  1. 数据源连接:将您的知识库连接到 Amazon S3 存储桶或包含文本文档、图像、音频文件和视频文件的自定义数据源。

  2. 文件类型检测:系统通过扩展名识别每种文件类型,并将其路由到相应的处理管道。

  3. 内容处理:根据您的配置,使用以下两种方法之一来处理文件:

    • Nova 多模态嵌入:保留原生格式以进行视觉和音频相似度匹配。图像、音频和视频直接嵌入,无需转换为文本。

    • 基岩数据自动化 (BDA):将多媒体转换为文本表示形式。使用自动语音识别 (ASR) 转录音频,处理视频以提取场景摘要和文字记录,图像采用 OCR 和视觉内容提取。

  4. 嵌入生成:使用所选嵌入模型将处理后的内容转换为矢量嵌入。这些嵌入可以捕获语义含义并支持基于相似度的检索。

  5. 矢量存储:嵌入内容与元数据一起存储在您配置的矢量数据库中,包括文件引用、时间戳(用于音频和视频)和内容类型信息。

  6. 多模式存储(可选):如果已配置,则会将原始多媒体文件复制到专用的多模式存储目的地,以便可靠地检索,即使源文件被修改或删除,也可确保可用性。

查询和检索
  1. 查询处理:使用采集期间使用的相同嵌入模型将用户查询(文本或图像)转换为嵌入式。

  2. 相似度搜索:将查询嵌入与矢量数据库中存储的嵌入进行比较,以确定最相关的内容。

  3. 结果检索:系统返回与元数据匹配的内容,包括:

    • 源 URI(原始文件位置)

    • 时间戳元数据(用于音频和视频片段)

    • 内容类型和模式信息

  4. 响应生成(可选):对于RetrieveAndGenerate请求,检索到的内容将传递到基础模型以生成与上下文相关的文本响应。使用 BDA 处理或知识库包含文本内容时支持此功能。

重要

系统返回对包含音频和视频内容时间戳元数据的完整文件的引用。您的应用程序必须根据提供的开始和结束时间戳提取和播放特定的片段。会自动AWS 管理控制台处理这个问题。