Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparación de sus conjuntos de datos de entrenamiento para refinamiento y preentrenamiento continuo
Para preparar conjuntos de datos de entrenamiento y validación para el modelo personalizado, debe crear archivos .jsonl, en los que cada línea es un objeto JSON que se corresponde con un registro. Antes de iniciar un trabajo de personalización de modelos, debe preparar al menos un conjunto de datos de entrenamiento. Los archivos que cree deben tener el formato del método y modelo de personalización que elija. Los registros que contiene también deben cumplir los requisitos de tamaño en función del modelo.
Para obtener información sobre los requisitos de los modelos, consulte Requisitos de los modelos para los conjuntos de datos de entrenamiento y validación. Para ver las cuotas predeterminadas que se aplican a los conjuntos de datos de entrenamiento y validación utilizados para personalizar diferentes modelos, consulte la Suma de las cuotas de los registros de entrenamiento y validación en los Amazon Bedrock endpoints and quotas en la Referencia general de AWS.
La compatibilidad con un conjunto de datos de validación y el formato del conjunto de datos de entrenamiento y validación dependen de los siguientes factores.
-
El tipo de trabajo de refinamiento (refinamiento o preentrenamiento continuo).
-
Las modalidades de entrada y salida de los datos.
Para obtener información sobre cómo refinar modelos de Amazon Nova, consulte Refinamiento de modelos de Amazon Nova.
Temas
Modalidades admitidas para el refinamiento y el preentrenamiento continuo
Requisitos de los modelos para los conjuntos de datos de entrenamiento y validación
Preparación de datos para el refinamiento de modelos de texto a texto
Preparación de datos para el refinamiento de los modelos de procesamiento de imágenes y texto
Preparación de datos para el refinamiento de los modelos de incrustación y generación de imágenes
Preparación de conjuntos de datos para su preentrenamiento continuo
Modalidades admitidas para el refinamiento y el preentrenamiento continuo
En las siguientes secciones se describen las diferentes capacidades de refinamiento y preentrenamiento que admite cada modelo, organizadas por sus modalidades de entrada y salida. Para obtener información sobre cómo refinar modelos de Amazon Nova, consulte Refinamiento de modelos de Amazon Nova.
Modelos de texto a texto
Los modelos de texto a texto se pueden refinar para diversas tareas basadas en texto, incluidas las aplicaciones conversacionales y no conversacionales. Para obtener información sobre la preparación de datos para refinar modelos de texto a texto, consulte Preparación de datos para el refinamiento de modelos de texto a texto.
Los siguientes modelos no conversacionales están optimizados para tareas como el resumen, la traducción y la respuesta a preguntas:
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite
Amazon Titan Text Premier
Cohere Command
Cohere Command Light
Meta Llama 3.1 8B Instruct
Meta Llama 3.1 70B Instruct
Los siguientes modelos conversacionales están diseñados para interacciones de un solo turno y de varios turnos. Si un modelo usa la API Converse, el conjunto de datos de refinamiento debe seguir el formato de mensaje de la API Converse e incluir los mensajes del sistema, del usuario y del asistente. Para ver ejemplos, consulte Preparación de datos para el refinamiento de modelos de texto a texto. Para obtener más información sobre las operaciones de la API Converse, consulte Cómo mantener una conversación con las operaciones de la API Converse.
Anthropic Claude 3 Haiku
Meta Llama 3.2 1B Instruct (formato de la API Converse)
Meta Llama 3.2 3B Instruct (formato de la API Converse)
Meta Llama 3.2 11B Instruct Vision (formato de la API Converse)
Meta Llama 3.2 90B Instruct Vision (formato de la API Converse)
Meta Llama 3.3 70B Vision Instruct (formato de la API Converse)
Modelos de texto o imagen a texto y de texto a imagen
Los siguientes modelos admiten el refinamiento para la generación de imágenes y el procesamiento de imágenes de texto. Estos modelos procesan o generan imágenes a partir de entradas textuales o generan texto a partir de entradas textuales y de imágenes. Para obtener información sobre la preparación de datos para refinar modelos de texto e imagen a texto y de texto a imagen, consulte Preparación de datos para el refinamiento de los modelos de procesamiento de imágenes y texto.
Amazon Titan Image Generator G1 V1
Meta Llama 3.2 11B Instruct Vision
Meta Llama 3.2 90B Instruct Vision
Meta Llama 3.3 70B Vision Instruct
De imagen a incrustaciones
Los siguientes modelos permiten realizar el refinamiento de tareas como clasificación y recuperación. Estos modelos generan representaciones numéricas (incrustaciones) a partir de entradas de imágenes. Para obtener información sobre la preparación de datos para refinar modelos de imagen a incrustaciones, consulte Preparación de datos para el refinamiento de los modelos de incrustación y generación de imágenes.
Amazon Titan Multimodal Embeddings G1
Amazon Titan Image Generator G1 V1
Preentrenamiento continuo: de texto a texto
Los siguientes modelos se pueden utilizar para un preentrenamiento continuo. Estos modelos permiten un preentrenamiento continuo a partir de datos específicos del dominio para mejorar sus conocimientos básicos. Para obtener información sobre cómo preparar los datos para el preentrenamiento continuo de los modelos de conversión de texto a texto, consulte Preparación de conjuntos de datos para su preentrenamiento continuo.
Amazon Titan Text G1 - Express
Amazon Titan Text G1 - Lite