準備訓練資料集,以進行微調和持續的預先訓練
若要為您的自訂模型準備訓練和驗證資料集,您可以建立 .jsonl 檔案,其中每一行都是對應於記錄的 JSON 物件。您必須先至少準備訓練資料集,才能開始模型自訂任務。您建立的檔案必須符合您選擇的自訂方法和模型的格式。其中的記錄必須符合大小要求,視您的模型而定。
如需有關模型需求的資訊,請參閱 訓練和驗證資料集的模型需求。若要查看用於自訂不同模型的訓練和驗證資料集的預設配額,請參閱 AWS 一般參考 中的 Amazon Bedrock 端點和配額中的訓練和驗證記錄總和配額。
是否支援驗證資料集,以及訓練和驗證資料集的格式取決於下列因素。
-
微調自訂任務的類型 (微調或持續預先訓練)。
-
資料的輸入和輸出模態。
如需微調 Amazon Nova 模型的資訊,請參閱微調 Amazon Nova 模型。
支援用於微調和持續預先訓練的模態
下列各節說明每個模型支援的不同微調和預先訓練功能,依其輸入和輸出模態進行組織。如需微調 Amazon Nova 模型的資訊,請參閱微調 Amazon Nova 模型。
文字轉文字模型
文字轉文字模型可以針對各種文字型任務進行微調,包括對話式和非對話式應用程式。如需有關為微調文字轉文字模型準備資料的資訊,請參閱 準備用於微調文字轉文字模型的資料。
下列非對話式模型已針對摘要、翻譯和問題回答等任務進行最佳化:
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Text Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct
下列對話式模型專為單回合和多回合互動而設計。如果模型使用 Converse API,您的微調資料集必須遵循 Converse API 訊息格式,並包含系統、使用者和助理訊息。如需範例,請參閱 準備用於微調文字轉文字模型的資料。如需 Converse API 操作的詳細資訊,請參閱 與 Converse API 操作進行對話。
Anthropic Claude 3 Haiku
Meta Llama 3.2 1B Instruct (Converse API 格式)
Meta Llama 3.2 3B Instruct (Converse API 格式)
Meta Llama 3.2 11B Instruct Vision (Converse API 格式)
Meta Llama 3.2 90B Instruct Vision (Converse API 格式)
Meta Llama 3.3 70B Vision Instruct (Converse API 格式)
文字影像轉文字和文字轉影像模型
下列模型支援微調影像產生和文字影像處理。這些模型會根據文字輸入處理或產生影像,或根據文字和影像輸入產生文字。如需準備資料以微調文字影像轉文字和文字轉影像模型的相關資訊,請參閱 準備用於微調影像和文字處理模型的資料。
Amazon Titan Image Generator G1 V1
Meta Llama 3.2 11B Instruct Vision
Meta Llama 3.2 90B Instruct Vision
Meta Llama 3.3 70B Vision Instruct
影像轉嵌入
下列模型支援對分類和擷取等任務進行微調。這些模型會從影像輸入產生數值表示 (嵌入)。如需有關準備資料以微調影像轉嵌入模型的資訊,請參閱 準備用於微調影像產生和嵌入模型的資料。
Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1
持續預先訓練:文字轉文字
下列模型可用於持續的預先訓練。這些模型支援持續對特定領域的資料進行預先訓練,以增強其基礎知識。如需有關為文字轉文字模型的持續預先訓練準備資料的資訊,請參閱 準備資料集以繼續進行預先訓練。
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite