本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Blueprints (藍圖)
藍圖是您可以用來設定檔案處理商業邏輯的成品。每個藍圖都包含您可以擷取的欄位名稱清單、您希望擷取欄位回應的資料格式,例如字串、數字或布林值,以及可用於指定資料標準化和驗證規則的每個欄位的自然語言內容。您可以為每個要處理的檔案類別建立藍圖,例如 W2、薪資單或身分證。您可以使用主控台或 API 建立藍圖。您建立的每個藍圖都是具有自己的藍圖 ID 和 ARN AWS的資源。
使用藍圖進行擷取時,您可以使用目錄藍圖或自訂建立的藍圖。如果您已經知道要從中擷取的檔案類型,目錄藍圖可提供預先製作的起點。您可以為不在目錄中的檔案建立自訂藍圖。建立藍圖時,您可以使用多種方法,例如透過藍圖提示產生的藍圖、透過新增個別欄位手動建立,或使用 JSON 編輯器建立藍圖的 JSON。這些可以儲存到您的帳戶並共用。
注意
音訊藍圖無法透過藍圖提示建立。
藍圖的大小上限為 100,000 個字元,格式為 JSON。對於旨在與 InvokeDataAutomationAsync API 搭配使用的藍圖,每個藍圖的最大欄位為 100。對於旨在與 InvokeDataAutomation API 搭配使用的藍圖,每個藍圖的最大欄位為 15。
注意
使用藍圖時,您可以在使用欄位或建立藍圖時使用提示。僅允許信任來源控制提示輸入。 Amazon Bedrock不負責驗證藍圖的意圖。
藍圖逐步解說
讓我們舉出護照等 ID 文件的範例,並逐步解說本文件的藍圖。
以下是我們在主控台上建立的此 ID 文件的範例藍圖。
藍圖的核心是包含欄位的資料結構,而欄位又包含由 BDA 自訂輸出擷取的資訊。擷取資料表中有兩種類型的欄位:明確和隱含。明確擷取用於明確陳述的資訊,可在文件中查看。隱含擷取用於需要從文件中顯示的方式轉換的資訊。例如,您可以從社會安全號碼移除破折號,從 111-22-3333 轉換為 111223333。欄位包含某些基本元件:
-
欄位名稱:這是您可以為要從文件中擷取的每個欄位提供的名稱。您可以使用您用於下游系統中的欄位名稱,例如
Place_Birth或Place_of_birth。 -
描述:這是輸入,可為藍圖中的每個欄位提供自然語言內容,以描述要遵循的資料標準化或驗證規則。例如
Date of birth in YYYY-MM-DD format或Is the year of birth before 1992?。您也可以使用提示在藍圖上迭代查看,並改善 BDA 回應的準確性。提供詳細的提示,說明您需要的欄位,有助於基礎模型提高準確性。提示長度最多可達 300 個字元。 -
結果:BDA 根據提示和欄位名稱擷取的資訊。
-
類型:您希望欄位回應使用的資料格式。我們支援字串、數字、布林值、字串陣列和數字陣列。
-
可信度分數:BDA 確定您的擷取是準確的百分比。音訊藍圖不會傳回可信度分數。
-
擷取類型:擷取的類型,包括明確或推斷。
-
頁碼:找到結果的文件頁面。音訊和視訊藍圖不會傳回頁碼。
除了簡單的欄位之外,BDA 自訂輸出還提供數個選項,供您在文件擷取中可能遇到的使用案例使用:資料表欄位、群組和自訂類型。
資料表欄位
建立欄位時,您可以選擇建立資料表欄位,而非基本欄位。您可以命名欄位並提供提示,就像其他欄位一樣。您也可以提供資料欄欄位。這些欄位具有資料欄名稱、資料欄描述和資料欄類型。在擷取資料表中顯示時,資料表欄位會將資料欄結果分組在資料表名稱下方。資料表欄位最多只能有 15 個子欄位。
Groups (群組)
群組是一種結構,用於將多個結果組織到擷取中的單一位置。建立群組時,您會為群組命名,而且您可以建立欄位並將其放入該群組。此群組會在擷取資料表中標記,並在其下方列出群組內的欄位。
自訂類型
您可以在藍圖遊樂場中編輯藍圖時建立自訂類型。任何欄位都可以是自訂類型。此類型具有唯一的名稱,並提示建立組成偵測的欄位。例如,建立名為 Address 的自訂類型,並在其中包含「zip_code」、「city_name」、「street_name」和「state」欄位。然後,在處理文件時,您可以在「company_address」欄位中使用自訂類型。該欄位接著會傳回所有資訊,分組為自訂類型下方的資料列。每個藍圖最多可以有 30 個自訂類型欄位。