Formato y requisitos de los datos de entrenamiento API de archivos Características de los datos de entrenamiento eficaces Propiedades adicionales

Prepare los datos para los modelos de peso abierto

Cuando ajustes modelos de peso libre con refuerzos mediante OpenAI-compatible API, proporciona datos de entrenamiento introduciendo tus propias instrucciones en formato JSONL con ese propósito. fine-tune

Formato y requisitos de los datos de entrenamiento

Los datos de entrenamiento deben seguir el formato de finalización del chat de OpenAI con entre 100 y 20 000 ejemplos. Cada ejemplo de formación contiene:

messages: En este campo, incluya el rol de usuario, sistema o asistente que contiene la solicitud de entrada proporcionada al modelo.
reference_answer: En este campo, debe contener el resultado esperado o los criterios de evaluación que su función de recompensa utiliza para puntuar la respuesta del modelo. No se limita a los resultados estructurados, sino que puede contener cualquier formato que ayude a la función de recompensa a evaluar la calidad.
[Opcional] Puede agregar los campos utilizados por la calificadora Lambda para la calificación.

Requisitos:

Formato JSONL con mensajes en formato de finalización de chat de OpenAI (un mensaje por línea)
El propósito debe estar establecido en fine-tune
Un mínimo de 100 registros en el conjunto de datos de entrenamiento
Amazon Bedrock valida automáticamente el formato del conjunto de datos de entrenamiento

API de archivos

Puedes usar la API de OpenAI-compatible archivos para cargar tus datos de entrenamiento para realizar tareas de ajuste. Los archivos se almacenan de forma segura en Amazon Bedrock y se utilizan para crear trabajos de ajuste. Para obtener información completa sobre la API, consulte la OpenAI documentación de Files.

Para cargar un archivo de formación, elija la pestaña correspondiente al método que prefiera y, a continuación, siga los pasos:

Para recuperar los detalles de un archivo específico, selecciona la pestaña del método que prefieras y, a continuación, sigue estos pasos:

Para ver una lista de los archivos cargados, selecciona la pestaña del método que prefieras y, a continuación, sigue estos pasos:

Para eliminar un archivo, selecciona la pestaña del método que prefieras y, a continuación, sigue los pasos:

Características de los datos de entrenamiento eficaces

Los datos de entrenamiento de RFT efectivos requieren tres características clave:

Claridad y coherencia: utilice indicaciones claras e inequívocas con un formato coherente. Evite las etiquetas contradictorias, las instrucciones ambiguas o las respuestas de referencia contradictorias que puedan inducir a error a la formación.
Diversidad: incluya formatos de entrada variados, casos extremos y niveles de dificultad que reflejen los patrones de uso de la producción en diferentes tipos de usuarios y escenarios.
Funciones de recompensa eficientes: diseñe funciones que se ejecuten rápidamente (en segundos, no en minutos), paralelicen y AWS Lambda arrojen puntuaciones uniformes para una formación rentable.

Propiedades adicionales

El formato de datos del RFT admite campos personalizados que van más allá de los requisitos básicos del esquema (messages y reference_answer). Esta flexibilidad te permite añadir cualquier dato adicional que tu función de recompensa necesite para una evaluación adecuada.

nota

No necesitas configurar esto en tu receta. El formato de datos admite campos adicionales de forma inherente. Solo tiene que incluirlos en el JSON de los datos de entrenamiento para que se transiferan a la de recompensas en el campo metadata.

Propiedades adicionales comunes

task_id: identificador único de seguimiento
difficulty_level: indicador de la complejidad del problema
domain: categoría o área del asunto
expected_reasoning_steps: número de pasos de la solución

Estos campos adicionales se transfieren a la función de recompensas durante la evaluación, lo que permite aplicar una lógica de puntuación sofisticada adaptada a su caso de uso específico.

Ejemplos con propiedades adicionales

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Acceso y seguridad

Configuración de las funciones de recompensa