使用 Ground Truth 最佳化您的藍圖 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Ground Truth 最佳化您的藍圖

您可以透過提供具有正確預期結果的範例內容資產來提高藍圖準確性。藍圖指示最佳化使用您的範例來精簡藍圖欄位中的自然語言指示,進而提升推論結果的準確性。

當您需要擷取直接出現在文件中的特定值時,藍圖指示最佳化效果最佳,例如發票號碼、合約金額或稅務表單欄位。我們建議提供 3 到 10 個範例資產,代表您在生產環境中處理的文件,尤其是遇到準確性挑戰的資產。

藍圖指令最佳化的運作方式

藍圖指令最佳化會分析預期結果與初始推論結果之間的差異。服務會反覆精簡藍圖中每個欄位的自然語言指示,直到指示在您的範例資產中產生更準確的結果為止。此程序會在幾分鐘內完成,而不需要任何模型訓練或微調。

開始最佳化程序時,您會提供範例資產和對應的 Ground Truth 資料,也就是您預期為每個欄位擷取的正確值。藍圖指令最佳化會將這些值與推論結果進行比較,並調整欄位描述以提高準確性。最佳化完成後,您會收到顯示準確性改善的準確度指標,包括完全相符率和根據基本事實測量的 F1 分數。

開始最佳化藍圖之前所需的項目

具有已定義欄位的藍圖。使用主控台或 API 建立藍圖。您的藍圖應包含您要擷取的資料的欄位名稱和初始描述。

範例內容資產。收集 3 到 10 個文件資產,這些資產代表您在文件上的生產工作負載。選擇包含藍圖中所有欄位的範例。

範例的預期結果。準備要從每個範例資產擷取的正確值。您可以在最佳化期間手動輸入這些值,或使用資訊清單檔案上傳這些值。

S3 儲存貯體位置。指定您要存放範例資產和 Ground Truth 資料的 S3 儲存貯體。您可以提供自己的儲存貯體,或允許服務為您建立一個儲存貯體。

最佳化藍圖Step-by-step程序

若要最佳化您的藍圖,請從 Amazon Bedrock Data Automation 主控台中的藍圖詳細資訊頁面開始。請注意,這僅適用於您的文件模式。

步驟 1. 選取最佳化藍圖以開始最佳化工作流程。

步驟 2. 上傳您的範例資產。從本機裝置或從 S3 位置選擇最多 10 個內容資產。服務會上傳您的資產,並顯示每個檔案的縮圖。如果您先前已最佳化此藍圖,您可以新增範例或移除現有的範例。

步驟 3。為每個資產提供基本事實。選取資產以開啟 Ground Truth 編輯器。編輯器會在左側顯示文件預覽,並在右側顯示藍圖欄位的簡化資料表。針對每個欄位,在 Ground Truth 欄中輸入您要擷取的正確值。

步驟 4. 若要加速 Ground Truth 項目,請選取自動填入以在資產上執行初始推論,並從結果欄中的值自動填入 Ground Truth 資料欄。在繼續之前編輯任何不正確的值。

步驟 5. 開始最佳化。完成所有所選資產的 Ground Truth 項目後,請選擇開始最佳化。資料自動化會分析您的範例,並精簡每個欄位的自然語言指示。進度指示器會顯示最佳化狀態,其中包含「讀取您的資產」和「在藍圖自然語言指示上交替」等訊息。

步驟 6. 檢閱評估指標。最佳化完成時,指標區段會顯示藍圖的準確性指標。指標會比較最佳化前和最佳化後的效能。檢閱整體 F1 分數、可信度分數和完全相符率,以評估藍圖是否符合您的準確度要求。

依範例檔案的指標索引標籤會顯示每個範例資產的欄位層級準確性。使用這些指標來識別哪些欄位已改善,以及哪些欄位可能需要額外的範例或手動精簡。

步驟 7. 完成最佳化。如果評估指標符合您的需求,請選取儲存最佳化藍圖,將最佳化藍圖提升至生產環境。您的藍圖現在會針對所有未來的推論請求使用精簡的自然語言指示。

重新最佳化您的藍圖

您可以隨時重新最佳化藍圖,以進一步提高準確性。返回藍圖詳細資訊頁面,然後選取最佳化藍圖。服務會顯示您先前用於最佳化的資產及其基本事實值。

若要重新最佳化,您可以新增範例資產、編輯現有資產的基本事實值,或移除不再代表工作負載的資產。當您選取開始最佳化時,藍圖指令最佳化會根據您目前的藍圖指示與新指示計算。

最佳化後編輯藍圖

如果您從最佳化藍圖新增或移除欄位,服務會移除最佳化歷史記錄和相關聯的範例資產。在編輯之前,請下載包含資產位置和 Ground Truth 標籤的資訊清單檔案。資訊清單檔案使用 JSON 格式,並包含先前最佳化的所有欄位和基本事實值。若要保留最佳化工作,請在重新最佳化編輯的藍圖時上傳資訊清單檔案。資料自動化會自動將 Ground Truth 值套用至相符欄位。藍圖中不再存在的欄位會從資訊清單中移除。在您提供新的欄位之前,這些欄位不會有基本事實值。

管理最佳化成本

如果手動編輯自然語言說明,並針對每個範例文件反覆測試,藍圖指令最佳化會產生推論成本。對於粗略計算,您提供做為範例的頁面數將是在您最佳化藍圖時要計費的頁面數。每個最佳化執行都會多次處理您的範例資產,以精簡指示。若要將成本降至最低,請從 3 到 5 個範例開始,進行初始最佳化。當您檢查評估指標並認為需要額外的準確性改善時,請新增更多範例。

此外,最佳化自然語言指示通常比原始指示更長且詳細,這可能會增加執行時間推論成本。