Ajuste supervisado en 2.0 Amazon Nova - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ajuste supervisado en 2.0 Amazon Nova

Descripción general de

Amazon NovaLos datos de la SFT 2.0 utilizan el mismo formato de la API de Converse que en la Amazon Nova versión 1.0, con la adición de campos de contenido de razonamiento opcionales. Para ver las especificaciones de formato completas, consulte el esquema de la ReasoningContentBlockAPI de Converse.

Características admitidas

  • Tipos de entrada: texto, imagen o vídeo en bloques de contenido de usuario

  • Contenido de asistente: respuestas y contenido de razonamiento solo de texto

  • Composición del conjunto de datos: debe ser homogéneo. Elija una de las siguientes opciones: giros de solo texto, giros de texto con imagen o giros de texto con vídeo

importante

No puedes mezclar imágenes y vídeos en el mismo conjunto de datos ni en turnos diferentes.

Limitaciones actuales

  • Uso de herramientas: aunque el formato de entrada admite el uso de herramientas, actualmente no lo admite Amazon Nova 2.0 SFT. Añadir secciones de herramientas puede provocar un error en el trabajo.

  • Contenido de razonamiento multimodal: aunque el formato Converse admite contenido de razonamiento basado en imágenes, la SFT 2.0 no lo admite. Amazon Nova

  • Conjuntos de validación: es posible que la interfaz de usuario admita proporcionar un conjunto de validación, pero no se admitirá durante el entrenamiento de SFT.

Formatos multimedia compatibles

  • Imágenes: PNG, JPEG, GIF

  • Vídeos: MOV, MKV, MP4

Ejemplos de formatos de datos

Text-only

En este ejemplo se muestra un formato básico de solo texto compatible con Amazon Nova la versión 1.0.

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What country is right next to Australia?" } ] }, { "role": "assistant", "content": [ { "text": "The closest country is New Zealand" } ] } ] }
Text with reasoning

En este ejemplo se muestra texto con contenido de razonamiento opcional para Amazon Nova la versión 2.0.

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What country is right next to Australia?" } ] }, { "role": "assistant", "content": [ { "reasoningContent": { "reasoningText": { "text": "I need to use my world knowledge of geography to answer this question" } } }, { "text": "The closest country to Australia is New Zealand, located to the southeast across the Tasman Sea." } ] } ] }
nota

Actualmente, solo reasoningText es compatible con la versión internareasoningContent. El contenido de razonamiento multimodal aún no está disponible.

Image + text

En este ejemplo se muestra cómo incluir la entrada de imágenes con el texto.

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a helpful assistant." } ], "messages": [ { "role": "user", "content": [ { "image": { "format": "jpeg", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.jpg", "bucketOwner": "your-aws-account-id" } } } }, { "text": "Which country is highlighted in the image?" } ] }, { "role": "assistant", "content": [ { "reasoningContent": { "reasoningText": { "text": "I will determine the highlighted country by examining its location on the map and using my geographical knowledge" } } }, { "text": "The highlighted country is New Zealand" } ] } ] }
Video + text

En este ejemplo se muestra cómo incluir la entrada de vídeo con el texto.

{ "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a helpful assistant." } ], "messages": [ { "role": "user", "content": [ { "video": { "format": "mp4", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-video.mp4", "bucketOwner": "your-aws-account-id" } } } }, { "text": "What is shown in this video?" } ] }, { "role": "assistant", "content": [ { "reasoningContent": { "reasoningText": { "text": "I will analyze the video content to identify key elements" } } }, { "text": "The video shows a map with New Zealand highlighted" } ] } ] }

Modos de razonamiento y no razonamiento

Comprender el contenido del razonamiento: el contenido de razonamiento (también denominado chain-of-thought) captura los pasos intermedios del pensamiento del modelo antes de generar una respuesta final. assistantA su vez, usa el reasoningContent campo para incluir estas pistas de razonamiento.

Cómo se calcula la pérdida:

  • Con contenido de razonamiento: la pérdida por entrenamiento incluye tanto las fichas de razonamiento como las de resultado final

  • Sin contenido razonado: la pérdida de entrenamiento se calcula únicamente sobre las fichas de producción final

Puedes incluir reasoningContent varios turnos de asistente en conversaciones de varios turnos.

Cuándo activar el modo de razonamiento

Configure reasoning_enabled: true su configuración de entrenamiento cuando desee que el modelo genere señales de reflexión antes de producir los resultados finales o necesite mejorar el rendimiento en tareas de razonamiento complejas.

nota

Puedes activar el modo de razonamiento independientemente de si los datos de entrenamiento contienen contenido de razonamiento. Sin embargo, se recomienda incluir trazas de razonamiento en los datos de entrenamiento para que el modelo pueda aprender de estos ejemplos y mejorar la calidad del razonamiento.

reasoning_enabled: falseEstablézcalo cuando estés entrenando en tareas sencillas que no se beneficien de pasos de razonamiento explícitos o que desees optimizar para aumentar la velocidad y reducir el uso de fichas.

Pautas de formato

  • Usa texto plano para razonar el contenido.

  • Evite las etiquetas de marcado como <thinking> y </thinking> a menos que su tarea lo requiera específicamente.

  • Asegúrese de que el contenido del razonamiento sea claro y relevante para el proceso de resolución de problemas.

Generar datos de razonamiento

Si tu conjunto de datos carece de trazas de razonamiento, puedes crearlas utilizando un modelo capaz de razonar, como. Proporcione sus pares de entrada y salida al modelo y capture su proceso de razonamiento para crear un conjunto de datos con razonamiento aumentado.

Uso de fichas de razonamiento para el entrenamiento

Cuando se entrena con el modo de razonamiento activado, el modelo aprende a separar el razonamiento interno de la respuesta final. El proceso de formación hace lo siguiente:

  • Organiza los datos en triples: entrada, razonamiento y respuesta

  • Optimiza el uso de la pérdida de predicción estándar del siguiente token, tanto en el token de razonamiento como en el de respuesta

  • Alienta al modelo a razonar internamente antes de generar respuestas

Contenido de razonamiento efectivo

El contenido de razonamiento de alta calidad debe incluir lo siguiente:

  • Pensamientos y análisis intermedios

  • Deducciones lógicas y pasos de inferencia

  • Step-by-step enfoques de resolución de problemas

  • Conexiones explícitas entre los pasos y las conclusiones

Esto ayuda al modelo a desarrollar la capacidad de pensar antes de responder.

Directrices de preparación del conjunto de datos

La siguiente tabla proporciona pautas para preparar el conjunto de datos de entrenamiento.

Directrices de preparación del conjunto de datos

Directriz Description (Descripción)
Tamaño y calidad
  • Tamaño recomendado: 2.000-10.000 muestras

  • Muestras mínimas: 200

  • Prioriza la calidad sobre la cantidad. Asegúrese de que los ejemplos sean precisos y estén bien anotados.

  • El conjunto de datos debe reflejar de cerca sus casos de uso de producción.

Diversidad

Incluya diversos ejemplos que hagan lo siguiente:

  • Cubra toda la gama de entradas esperadas

  • Representa diferentes niveles de dificultad

  • Incluye casos extremos y variaciones

  • Evite el sobreajuste a patrones estrechos

Formateo de salida

Especifique claramente el formato de salida deseado en las respuestas del asistente. Los ejemplos incluyen estructuras JSON, tablas, formato CSV o formatos personalizados específicos de su aplicación.

Conversaciones de varios turnos
  • La pérdida se calcula solo en los turnos del asistente, no en los turnos del usuario.

  • La respuesta de cada asistente debe tener el formato correcto.

  • Mantenga la coherencia en todos los turnos de conversación.

Lista de control de calidad
  • Tamaño de conjunto de datos suficiente (entre 2000 y 10 000 muestras)

  • Diversos ejemplos que cubren todos los casos de uso

  • Formato de salida claro y coherente

  • Etiquetas y anotaciones precisas

  • Representativo de escenarios de producción

  • Libre de contradicciones o ambigüedades