Preparación de sus conjuntos de datos de entrenamiento para refinamiento y preentrenamiento continuo - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Preparación de sus conjuntos de datos de entrenamiento para refinamiento y preentrenamiento continuo

Para preparar conjuntos de datos de entrenamiento y validación para el modelo personalizado, debe crear archivos .jsonl, en los que cada línea es un objeto JSON que se corresponde con un registro. Antes de iniciar un trabajo de personalización de modelos, debe preparar al menos un conjunto de datos de entrenamiento. Los archivos que cree deben tener el formato del método y modelo de personalización que elija. Los registros que contiene también deben cumplir los requisitos de tamaño en función del modelo.

Para obtener información sobre los requisitos de los modelos, consulte Requisitos de los modelos para los conjuntos de datos de entrenamiento y validación. Para ver las cuotas predeterminadas que se aplican a los conjuntos de datos de entrenamiento y validación utilizados para personalizar diferentes modelos, consulte la Suma de las cuotas de los registros de entrenamiento y validación en los Amazon Bedrock endpoints and quotas en la Referencia general de AWS.

La compatibilidad con un conjunto de datos de validación y el formato del conjunto de datos de entrenamiento y validación dependen de los siguientes factores.

  • El tipo de trabajo de refinamiento (refinamiento o preentrenamiento continuo).

  • Las modalidades de entrada y salida de los datos.

Para obtener información sobre cómo refinar modelos de Amazon Nova, consulte Refinamiento de modelos de Amazon Nova.

Modalidades admitidas para el refinamiento y el preentrenamiento continuo

En las siguientes secciones se describen las diferentes capacidades de refinamiento y preentrenamiento que admite cada modelo, organizadas por sus modalidades de entrada y salida. Para obtener información sobre cómo refinar modelos de Amazon Nova, consulte Refinamiento de modelos de Amazon Nova.

Modelos de texto a texto

Los modelos de texto a texto se pueden refinar para diversas tareas basadas en texto, incluidas las aplicaciones conversacionales y no conversacionales. Para obtener información sobre la preparación de datos para refinar modelos de texto a texto, consulte Preparación de datos para el refinamiento de modelos de texto a texto.

Los siguientes modelos no conversacionales están optimizados para tareas como el resumen, la traducción y la respuesta a preguntas:

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite

  • Amazon Titan Text Premier

  • Cohere Command

  • Cohere Command Light

  • Meta Llama 3.1 8B Instruct

  • Meta Llama 3.1 70B Instruct

Los siguientes modelos conversacionales están diseñados para interacciones de un solo turno y de varios turnos. Si un modelo usa la API Converse, el conjunto de datos de refinamiento debe seguir el formato de mensaje de la API Converse e incluir los mensajes del sistema, del usuario y del asistente. Para ver ejemplos, consulte Preparación de datos para el refinamiento de modelos de texto a texto. Para obtener más información sobre las operaciones de la API Converse, consulte Cómo mantener una conversación con las operaciones de la API Converse.

  • Anthropic Claude 3 Haiku

  • Meta Llama 3.2 1B Instruct (formato de la API Converse)

  • Meta Llama 3.2 3B Instruct (formato de la API Converse)

  • Meta Llama 3.2 11B Instruct Vision (formato de la API Converse)

  • Meta Llama 3.2 90B Instruct Vision (formato de la API Converse)

  • Meta Llama 3.3 70B Vision Instruct (formato de la API Converse)

Modelos de texto o imagen a texto y de texto a imagen

Los siguientes modelos admiten el refinamiento para la generación de imágenes y el procesamiento de imágenes de texto. Estos modelos procesan o generan imágenes a partir de entradas textuales o generan texto a partir de entradas textuales y de imágenes. Para obtener información sobre la preparación de datos para refinar modelos de texto e imagen a texto y de texto a imagen, consulte Preparación de datos para el refinamiento de los modelos de procesamiento de imágenes y texto.

  • Amazon Titan Image Generator G1 V1

  • Meta Llama 3.2 11B Instruct Vision

  • Meta Llama 3.2 90B Instruct Vision

  • Meta Llama 3.3 70B Vision Instruct

De imagen a incrustaciones

Los siguientes modelos permiten realizar el refinamiento de tareas como clasificación y recuperación. Estos modelos generan representaciones numéricas (incrustaciones) a partir de entradas de imágenes. Para obtener información sobre la preparación de datos para refinar modelos de imagen a incrustaciones, consulte Preparación de datos para el refinamiento de los modelos de incrustación y generación de imágenes.

  • Amazon Titan Multimodal Embeddings G1

  • Amazon Titan Image Generator G1 V1

Preentrenamiento continuo: de texto a texto

Los siguientes modelos se pueden utilizar para un preentrenamiento continuo. Estos modelos permiten un preentrenamiento continuo a partir de datos específicos del dominio para mejorar sus conocimientos básicos. Para obtener información sobre cómo preparar los datos para el preentrenamiento continuo de los modelos de conversión de texto a texto, consulte Preparación de conjuntos de datos para su preentrenamiento continuo.

  • Amazon Titan Text G1 - Express

  • Amazon Titan Text G1 - Lite