Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Prepare los datos para los modelos de peso abierto
Cuando ajustes modelos de peso abierto con ajustes de refuerzo compatibles con OpenAI APIs, proporciona datos de entrenamiento con tus propias indicaciones en formato JSONL con ese propósito. fine-tune
Formato y requisitos de los datos de entrenamiento
Los datos de entrenamiento deben seguir el formato de finalización del chat de OpenAI con entre 100 y 20 000 ejemplos. Cada ejemplo de formación contiene:
-
messages: En este campo, incluya el rol de usuario, sistema o asistente que contiene la solicitud de entrada proporcionada al modelo. -
reference_answer: En este campo, debe contener el resultado esperado o los criterios de evaluación que su función de recompensa utiliza para puntuar la respuesta del modelo. No se limita a los resultados estructurados, sino que puede contener cualquier formato que ayude a la función de recompensa a evaluar la calidad. -
[Opcional] Puede agregar los campos utilizados por la calificadora Lambda para la calificación.
Requisitos:
Formato JSONL con mensajes en formato de finalización de chat de OpenAI (un mensaje por línea)
El propósito debe estar establecido en
fine-tuneUn mínimo de 100 registros en el conjunto de datos de entrenamiento
Amazon Bedrock valida automáticamente el formato del conjunto de datos de entrenamiento
API de archivos
Puedes usar la API de archivos compatibles con OpenAI para cargar tus datos de entrenamiento para trabajos de ajuste fino. Los archivos se almacenan de forma segura en Amazon Bedrock y se utilizan para crear trabajos de ajuste preciso. Para obtener información completa sobre la API, consulte la OpenAI documentación de Files.
Para cargar un archivo de formación, elija la pestaña correspondiente al método que prefiera y, a continuación, siga los pasos:
Para recuperar los detalles de un archivo específico, selecciona la pestaña del método que prefieras y, a continuación, sigue estos pasos:
Para ver una lista de los archivos cargados, selecciona la pestaña del método que prefieras y, a continuación, sigue estos pasos:
Para eliminar un archivo, selecciona la pestaña del método que prefieras y, a continuación, sigue los pasos:
Características de los datos de entrenamiento efectivos
Los datos de entrenamiento de RFT efectivos requieren tres características clave:
-
Claridad y coherencia: utilice indicaciones claras e inequívocas con un formato coherente. Evite las etiquetas contradictorias, las instrucciones ambiguas o las respuestas de referencia contradictorias que puedan inducir a error a la formación.
-
Diversidad: incluya formatos de entrada variados, casos extremos y niveles de dificultad que reflejen los patrones de uso de la producción en diferentes tipos de usuarios y escenarios.
-
Funciones de recompensa eficientes: diseñe funciones que se ejecuten rápidamente (en segundos, no en minutos), paralelicen y AWS Lambda arrojen puntuaciones uniformes para una formación rentable.
Propiedades adicionales
El formato de datos RFT admite campos personalizados que van más allá de los requisitos básicos del esquema (y). messages reference_answer Esta flexibilidad le permite añadir cualquier dato adicional que su función de recompensas necesite para una evaluación adecuada.
nota
No necesitas configurar esto en tu receta. El formato de datos admite campos adicionales de forma inherente. Simplemente inclúyelos en el JSON de tus datos de entrenamiento y se transferirán a tu función de recompensas en el metadata campo.
Propiedades adicionales comunes
task_id— Identificador único para el seguimientodifficulty_level— Indicador de complejidad del problemadomain— Área temática o categoríaexpected_reasoning_steps— Número de pasos de la solución
Estos campos adicionales se transfieren a la función de recompensas durante la evaluación, lo que permite aplicar una lógica de puntuación sofisticada adaptada a su caso de uso específico.
Ejemplos con propiedades adicionales