準備訓練資料集,以進行微調和持續的預先訓練 - Amazon Bedrock

準備訓練資料集,以進行微調和持續的預先訓練

若要為您的自訂模型準備訓練和驗證資料集,您可以建立 .jsonl 檔案,其中每一行都是對應於記錄的 JSON 物件。您必須先至少準備訓練資料集,才能開始模型自訂任務。您建立的檔案必須符合您選擇的自訂方法和模型的格式。其中的記錄必須符合大小要求,視您的模型而定。

如需有關模型需求的資訊,請參閱 訓練和驗證資料集的模型需求。若要查看用於自訂不同模型的訓練和驗證資料集的預設配額,請參閱 AWS 一般參考 中的 Amazon Bedrock 端點和配額中的訓練和驗證記錄總和配額。

是否支援驗證資料集,以及訓練和驗證資料集的格式取決於下列因素。

  • 微調自訂任務的類型 (微調或持續預先訓練)。

  • 資料的輸入和輸出模態。

如需微調 Amazon Nova 模型的資訊,請參閱微調 Amazon Nova 模型

支援用於微調和持續預先訓練的模態

下列各節說明每個模型支援的不同微調和預先訓練功能,依其輸入和輸出模態進行組織。如需微調 Amazon Nova 模型的資訊,請參閱微調 Amazon Nova 模型

文字轉文字模型

文字轉文字模型可以針對各種文字型任務進行微調,包括對話式和非對話式應用程式。如需有關為微調文字轉文字模型準備資料的資訊,請參閱 準備用於微調文字轉文字模型的資料

下列非對話式模型已針對摘要、翻譯和問題回答等任務進行最佳化:

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite

  • Amazon Titan Text Premier

  • Cohere Command

  • Cohere Command Light

  • Meta Llama 3.1 8B Instruct

  • Meta Llama 3.1 70B Instruct

下列對話式模型專為單回合和多回合互動而設計。如果模型使用 Converse API,您的微調資料集必須遵循 Converse API 訊息格式,並包含系統、使用者和助理訊息。如需範例,請參閱 準備用於微調文字轉文字模型的資料。如需 Converse API 操作的詳細資訊,請參閱 與 Converse API 操作進行對話

  • Anthropic Claude 3 Haiku

  • Meta Llama 3.2 1B Instruct (Converse API 格式)

  • Meta Llama 3.2 3B Instruct (Converse API 格式)

  • Meta Llama 3.2 11B Instruct Vision (Converse API 格式)

  • Meta Llama 3.2 90B Instruct Vision (Converse API 格式)

  • Meta Llama 3.3 70B Vision Instruct (Converse API 格式)

文字影像轉文字和文字轉影像模型

下列模型支援微調影像產生和文字影像處理。這些模型會根據文字輸入處理或產生影像,或根據文字和影像輸入產生文字。如需準備資料以微調文字影像轉文字和文字轉影像模型的相關資訊,請參閱 準備用於微調影像和文字處理模型的資料

  • Amazon Titan Image Generator G1 V1

  • Meta Llama 3.2 11B Instruct Vision

  • Meta Llama 3.2 90B Instruct Vision

  • Meta Llama 3.3 70B Vision Instruct

影像轉嵌入

下列模型支援對分類和擷取等任務進行微調。這些模型會從影像輸入產生數值表示 (嵌入)。如需有關準備資料以微調影像轉嵌入模型的資訊,請參閱 準備用於微調影像產生和嵌入模型的資料

  • Amazon Titan Multimodal Embeddings G1

  • Amazon Titan Image Generator G1 V1

持續預先訓練:文字轉文字

下列模型可用於持續的預先訓練。這些模型支援持續對特定領域的資料進行預先訓練,以增強其基礎知識。如需有關為文字轉文字模型的持續預先訓練準備資料的資訊,請參閱 準備資料集以繼續進行預先訓練

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite