蓝图

蓝图是可用于配置文件处理业务逻辑的构件。每个蓝图都包含您可以提取的字段名称的列表，针对所提取字段的响应中所需的数据格式（例如字符串、数字或布尔值），以及用自然语言给出的每个字段的上下文（可用于指定数据标准化和验证规则）。您可以为要处理的每一类文件创建蓝图，例如 W2、工资单或 ID 卡。蓝图可以通过控制台或 API 创建。您创建的每个蓝图都是具有自己的蓝图 ID 和 ARN 的 AWS 资源。

使用蓝图进行提取时，您可以使用目录蓝图或自定义创建的蓝图。如果您已经知道要进行提取的文件类型，目录蓝图就为您提供了一个预先准备好的起点。您可以为不在目录中的文件创建自定义蓝图。您可以使用多种方法来创建蓝图，例如通过蓝图提示生成蓝图，通过添加单独字段手动创建蓝图，或者使用 JSON 编辑器创建蓝图的 JSON。这些蓝图可以保存到您的账户中并共享。

注意

音频蓝图无法通过蓝图提示创建。

蓝图的最大大小为 10 万个字符，采用 JSON 格式。对于打算与 InvokeDataAutomationAsyncAPI 一起使用的蓝图，每个蓝图的最大字段数为 100。对于打算与 InvokeDataAutomationAPI 一起使用的蓝图，每个蓝图的最大字段数为 15。

注意

在使用蓝图时，您可能会在字段中或创建蓝图时使用提示。仅允许可信来源控制提示输入。 Amazon Bedrock 不负责验证蓝图的意图。

蓝图演练

我们以护照等身份证件为例，演练蓝图在此类证件上的应用。

以下是我们在控制台上为此身份证件创建的示例蓝图。

蓝图的核心是包含字段的数据结构，而字段则包含由 BDA 自定义输出提取的信息。提取表中有两种类型的字段，即显式字段和隐式字段。显式提取用于在文档中可以看到的明确说明的信息。隐式提取用于需要根据在文档中的显示方式进行转换的信息。例如，您可以从社会保障号码中删除破折号，将 111-22-3333 转换为 111223333。字段包含一些基本组件：

字段名称：这是您可以为要从证件中提取的每个字段提供的名称。您可以为该字段使用将在下游系统中使用的名称，例如 Place_Birth 或 Place_of_birth。字段名称不能包含正斜杠 (/)；请改用下划线或字母数字字符。
描述：这是一个输入，为蓝图中的每个字段以自然语言提供上下文，用于描述数据标准化或要遵循的验证规则。例如，Date of birth in YYYY-MM-DD format 或 Is the year of birth before 1992?。您还可以使用提示方法来迭代蓝图并提高 BDA 响应的准确性。根据您需要的字段提供详细的提示，有助于底层模型提高其准确性。提示的长度最多为 300 个字符。
结果：BDA 根据提示和字段名称提取的信息。
类型：您希望对字段的响应使用的数据格式。支持的格式包括字符串、数字、布尔值、字符串数组和数字数组。
置信度分数：BDA 对提取的内容准确性的置信度百分比。音频和图像蓝图不返回置信度分数。
提取类型：提取的类型，可以是显式，也可以是推断。
页码：在文档的哪一页上找到了结果。音频和视频蓝图不返回页码。

除了简单的字段外，BDA 自定义输出还针对文档提取中可能遇到的使用案例提供了多种选项：表字段、组和自定义类型。

表字段

创建字段时，您可以选择创建表字段而不是基本字段。您可以为该字段命名并提供提示，就像对其他字段一样。您还可以提供列字段。这些字段具有列名、列描述和列类型。在提取表中显示时，表字段的列结果分组在表名下方。表字段最多只能有 15 个子字段。

组

组是一种结构，用于将提取中的多个结果整理到一个位置。创建组时，您可以为组命名，然后在该组中创建和放置字段。在您的提取表中会对该组进行标记，并在组的下方列出其中的字段。

自定义类型

在蓝图演练场中，您可以在编辑蓝图时创建自定义类型。任何字段都可以是自定义类型。此类型具有唯一名称，会提示创建组成检测内容的字段。例如，创建一个名为“Address”的自定义类型，并在其中包含字段“zip_code”、“city_name”、“street_name”和“state”。然后，在处理文档时，您可以在字段“company_address”中使用自定义类型。该字段随后会返回所有信息，这些信息在自定义类型下方按行分组。对于每个蓝图，您最多可以有 30 个自定义类型字段。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

自定义输出和蓝图

创建蓝图