View a markdown version of this page

数据自动化库 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据自动化库

AWS Bedrock 数据自动化库使您能够增强 BDA 对您的内容的理解,并从您的数据中生成更准确的见解。数据自动化库充当存储实体的容器,可以与 BDA 项目关联,以提高针对特定用例的多种实体类型和模式的提取准确性。目前,数据自动化库支持自定义词汇,以提高音频和视频内容的提取准确性。与此功能相关的限制在 “配额和限制” 页面中。

主要优势

  1. 提高准确性:根据您的特定需求量身定制识别。

  2. 跨模态支持:增强音频和视频分析。

  3. 灵活管理:轻松创建、更新和关联项目。

  4. 可重复使用的资源:只需创建一次库即可在多个项目中使用。

  5. 易于集成:简单的 API 驱动的图书馆管理工作流程。

数据自动化库的工作原理

您可以创建数据自动化库并在其中填充特定领域的实体,这使得 BDA 能够在内容处理期间应用您的自定义知识并提高各个用例的提取准确性。您可以将库与 BDA 项目关联,这样通过该项目处理的所有作业就可以自动利用库的实体,而无需为每个作业进行额外配置。

提取完成后,将在摄取 API 请求中提供的 S3 URI 中创建一个名为任务 ID 的文件夹。输入清单和最终摄取结果都上传到该文件夹中。例如,如果请求中提供的输出存储桶是s3://my-bucket/outputs/,而 jobID 是,328c43e7-d226-41c9-9acb-e71a37022b99则输入清单和最终的摄取结果将上传到 s3://my-bucket/outputs/328c43e7-d226-41c9-9acb-e71a37022b99

基本工作流程:

  1. 创建库-CreateDataAutomationLibrary用于初始化空库容器。

  2. 向库中添加实体-用于添加InvokeDataAutomationLibraryIngestionJob特定于域的实体。

  3. 将库与项目关联-在项目创建期间将库与项目关联起来 CreateDataAutomationProject,或者将现有项目与之关联UpdateDataAutomationProject

  4. 处理您的内容-InvokeDataAutomationAsync通过关联的项目运行作业,以提高内容的提取精度。

重要概念

数据自动化库

存储一种或多种类型的实体的容器。库可以附加到多个数据自动化项目,并在不同的工作负载中重复使用。

数据自动化库实体类型

存储在库中的内容类型。当前,仅支持词汇实体类型。

数据自动化库实体

实体类型中的特定实例。对于 “自定义词汇”,实体表示特定语言的单词和短语集合。

数据自动化库摄取 Job

一种在库中添加、更新或删除实体的异步操作。按顺序处理作业以保持数据一致性。

项目协会

图书馆和 BDA 项目之间的链接。当您将库与项目关联时,通过该项目处理的所有作业都会应用该库的实体来提高内容的提取准确性。请注意,一个项目只能与一个库关联,但一个库可以与多个项目关联。

在 BDA 控制台中导航到 “数据自动化库” 页面

  1. 导航到 Amazon Bedrock 服务。

  2. 在侧栏菜单上,选择 “数据自动化”。

  3. 选择 “管理库”

区域可用性

以下 AWS 区域提供数据自动化库:

区域名称

区域代码

美国东部(弗吉尼亚州北部)

us-east-1

美国西部(俄勒冈州)

us-west-2

欧洲地区(爱尔兰)

eu-west-1

欧洲地区(伦敦)

eu-west-2

欧洲地区(法兰克福)

eu-central-1

亚太地区(孟买)

ap-south-1

亚太地区(悉尼)

ap-southeast-2