本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Bedrock 数据自动化功能项目
使用 Amazon Bedrock 数据自动化(BDA)功能处理文件的一种方法是创建项目。项目是标准输出和自定义输出配置的组合。项目中必须要有标准输出,自定义输出是可选的。当您使用项目 ARN 调用 InvokeDataAutomationAsync API 时,将使用在该项目中定义的配置设置自动处理文件,然后根据项目的配置生成输出。
您可以向项目指定 LIVE 或 DEVELOPMENT 阶段。每个阶段都是项目的独特且可变的版本。这意味着您可以在 DEVELOPMENT 阶段进行编辑或测试,然后使用 LIVE 阶段处理客户请求。DEVELOPMENT 项目无法在控制台中访问,必须通过 API 来更改和调用。
一个项目允许您将单个资源用于多种文件类型。例如,使用项目名称 ABC 发送到 BDA 的音频文件,将使用项目 ABC 的音频标准输出配置进行处理。使用项目名称 ABC 发送到 BDA 的文档,将使用项目 ABC 的文档标准输出配置进行处理。
在设置标准输出时,项目为您提供了更大的灵活性。每个标准输出都有自己的一组可配置选项,例如转录或摘要,在项目中,您可以更改这些选项来更好地适应自己的使用案例。您还可以为文档、音频和图像使用蓝图配置项目,来定义自定义输出。项目在配置了生成自定义输出之后,仍将自动生成标准输出。
以下部分介绍了几个使用项目的示例。
使用具有标准输出的项目
我们假想一个使用案例,在这个案例中,您只希望提取完整音频和视频文件的转录摘要。采用默认设置,当您向 BDA 发送音频和视频文件时,您会收到转录摘要以及完整的转录、场景级别的摘要、检测到的文本和其他信息。对于此使用案例,您不想花费额外的时间和资源来收集不需要的信息。因此,在此使用案例中,您可以配置标准输出项目,来仅启用针对音频和视频文件的摘要功能。
要使用 API 或控制台进行此配置,请创建一个项目并修改音频和视频的标准输出设置。对于视频,启用完整视频摘要,但要确保禁用其他提取(例如,完整音频转录、场景摘要、内容审核等)。对音频重复此配置。对项目进行配置以仅生成摘要后,保存项目并记下该项目的 Amazon 资源名称(ARN)。此 ARN 可用于 InvokeDataAutomationAsync 操作来大规模处理您的文件。您只需将音频或视频文件传递给 BDA 并指定此项目 ARN,就可以只收到每个文件的摘要输出。请注意,在本示例中,没有对文档或图像执行任何配置。这意味着,如果您使用该项目 ARN 将图像或文档传递给 BDA,就会收到这些文件的默认标准输出。
使用具有自定义输出和标准输出的项目
对于此使用案例,假设您要为文档和音频文件生成标准输出摘要,还要从文档中提取自定义字段。创建项目后,请为音频配置标准输出来启用完整音频摘要,并确保未启用其他提取。对文档重复此标准输出配置。然后,您可以通过添加新蓝图或 BDA 全局目录中现有的蓝图来为文档配置自定义输出。使用此项目 ARN 传递给 BDA 的文档将生成标准输出(完整文档摘要)和蓝图输出(所定义的自定义字段)。使用此项目 ARN 传递给 BDA 的音频文件将生成完整摘要。
处理文档时,您可能需要为传递给项目的不同类型的文档使用多个蓝图。一个项目最多可以附加 40 个文档蓝图。BDA 会自动将您的文档与项目中配置的相应蓝图进行匹配,并使用该蓝图生成自定义输出。此外,您可能需要批量传递文档。如果您传递的一个文件中包含多个文档,可以在创建项目时选择拆分文档。如果您选择这样做,BDA 会扫描文件,然后根据上下文将其拆分为单独的文档。随后将这些单独的文档匹配到正确的蓝图来进行处理。
目前,图像仅支持每个项目一个蓝图定义。对于图像文件类型 JPG 和 PNG,根据其内容,可能会被作为图像或扫描文档进行处理。我们建议您在处理文档的自定义输出时,为图像创建自定义蓝图,这样 BDA 就可以针对包含文本的图像文件提供您需要的输出。
音频文件也仅支持每个项目一个蓝图定义。