Preparación de datos para el afinamiento de modelos de comprensión - Amazon Nova

Preparación de datos para el afinamiento de modelos de comprensión

Las siguientes son directrices y requisitos para preparar los datos para el afinamiento de los modelos de comprensión:

  1. El tamaño mínimo de los datos para el afinamiento depende de la tarea (es decir, si es compleja o sencilla), pero recomendamos que tenga al menos 100 muestras para cada tarea que desee que aprenda el modelo.

  2. Recomendamos utilizar su petición optimizada en un entorno desde cero tanto durante el entrenamiento como durante la inferencia para lograr los mejores resultados.

  3. Los conjuntos de datos de entrenamiento y validación deben ser archivos JSONL, donde cada línea sea un objeto JSON correspondiente a un registro. Estos nombres de archivo solo pueden estar compuestos por caracteres alfanuméricos, guiones bajos, guiones, barras y puntos.

  4. Restricciones de imágenes y videos

    1. El conjunto de datos no puede contener diferentes modalidades multimedia. Es decir, el conjunto de datos puede ser texto con imágenes o texto con videos.

    2. Una muestra (registro único en los mensajes) puede tener varias imágenes

    3. Una muestra (registro único en los mensajes) solo puede tener un video

  5. schemaVersion puede tener cualquier valor de cadena

  6. El turno system (opcional) puede ser una petición del sistema personalizada proporcionada por el cliente.

  7. Los roles compatibles son user y assistant.

  8. El primer turno en messages siempre debe comenzar con "role": "user". El último turno es la respuesta del bot, que se denota con “role”: “assistant”.

  9. Amazon Bedrock debe poder acceder al image.source.s3Location.uri y al video.source.s3Location.uri.

  10. Su rol de servicio de Amazon Bedrock debe poder acceder a los archivos de imágenes en Amazon S3. Para obtener más información sobre la concesión de acceso, consulte Crear un rol de servicio para la personalización del modelo.

  11. Las imágenes o videos deben estar en el mismo bucket de Amazon S3 que su conjunto de datos. Por ejemplo, si su conjunto de datos está en s3://amzn-s3-demo-bucket/train/train.jsonl, entonces sus imágenes o videos deben estar en s3://amzn-s3-demo-bucket

  12. Los términos User:, Bot:, Assistant: y System: son palabras clave reservadas. Si una petición del usuario o del sistema comienza con alguna de estas palabras clave, el trabajo de entrenamiento fallará debido a problemas de datos. Si necesita usar estas palabras clave para su caso de uso, agregue una instrucción adicional al principio de la petición para asegurarse de que no comience con una palabra clave reservada.

Ejemplo de formatos de conjuntos de datos

Los siguientes ejemplos de formatos de conjuntos de datos proporcionan una guía que puede seguir.

El siguiente ejemplo es para el afinamiento personalizado solo de texto.

// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }

El siguiente ejemplo es para el afinamiento personalizado de texto y una sola imagen.

// train.jsonl{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }

El siguiente ejemplo es para el afinamiento personalizado de texto y video.

{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a helpful assistant designed to answer questions crisply and to the point" }], "messages": [{ "role": "user", "content": [{ "text": "How many white items are visible in this video?" }, { "video": { "format": "mp4", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-video.mp4", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "There are at least eight visible items that are white" }] } ] }

Restricciones del conjunto de datos

Amazon Nova aplica las siguientes restricciones a las personalizaciones de modelos para los modelos de comprensión.

Modelo

Muestras mínimas

Muestras máximas

Longitud del contenido

Amazon Nova Micro

8

20 000

32 000

Amazon Nova Lite

8

20 000

32 000

Amazon Nova Pro

8

20 000

32 000

Restricciones de imágenes y videos

Número máximo de imágenes

10/muestra

Tamaño máximo de archivo de imagen

10 MB

Número máximo de videos

1/muestra

Duración máxima del video

90 segundos

Tamaño máximo de archivo de video

50 MB

Formatos multimedia compatibles
  • Imagen: png, jpeg, gif, webp

  • Video: mov, mkv, mp4, webm