Preparación de datos para el afinamiento de modelos de comprensión
Las siguientes son directrices y requisitos para preparar los datos para el afinamiento de los modelos de comprensión:
-
El tamaño mínimo de los datos para el afinamiento depende de la tarea (es decir, si es compleja o sencilla), pero recomendamos que tenga al menos 100 muestras para cada tarea que desee que aprenda el modelo.
-
Recomendamos utilizar su petición optimizada en un entorno desde cero tanto durante el entrenamiento como durante la inferencia para lograr los mejores resultados.
-
Los conjuntos de datos de entrenamiento y validación deben ser archivos JSONL, donde cada línea sea un objeto JSON correspondiente a un registro. Estos nombres de archivo solo pueden estar compuestos por caracteres alfanuméricos, guiones bajos, guiones, barras y puntos.
-
Restricciones de imágenes y videos
-
El conjunto de datos no puede contener diferentes modalidades multimedia. Es decir, el conjunto de datos puede ser texto con imágenes o texto con videos.
-
Una muestra (registro único en los mensajes) puede tener varias imágenes
-
Una muestra (registro único en los mensajes) solo puede tener un video
-
-
schemaVersion
puede tener cualquier valor de cadena -
El turno
system
(opcional) puede ser una petición del sistema personalizada proporcionada por el cliente. -
Los roles compatibles son
user
yassistant
. -
El primer turno en
messages
siempre debe comenzar con"role": "user"
. El último turno es la respuesta del bot, que se denota con “role”: “assistant”. -
Amazon Bedrock debe poder acceder al
image.source.s3Location.uri
y alvideo.source.s3Location.uri
. -
Su rol de servicio de Amazon Bedrock debe poder acceder a los archivos de imágenes en Amazon S3. Para obtener más información sobre la concesión de acceso, consulte Crear un rol de servicio para la personalización del modelo.
-
Las imágenes o videos deben estar en el mismo bucket de Amazon S3 que su conjunto de datos. Por ejemplo, si su conjunto de datos está en
s3://amzn-s3-demo-bucket/train/train.jsonl
, entonces sus imágenes o videos deben estar ens3://amzn-s3-demo-bucket
-
Los términos
User:
,Bot:
,Assistant:
ySystem:
son palabras clave reservadas. Si una petición del usuario o del sistema comienza con alguna de estas palabras clave, el trabajo de entrenamiento fallará debido a problemas de datos. Si necesita usar estas palabras clave para su caso de uso, agregue una instrucción adicional al principio de la petición para asegurarse de que no comience con una palabra clave reservada.
Ejemplo de formatos de conjuntos de datos
Los siguientes ejemplos de formatos de conjuntos de datos proporcionan una guía que puede seguir.
El siguiente ejemplo es para el afinamiento personalizado solo de texto.
// train.jsonl { "schemaVersion": "bedrock-conversation-2024", "system": [ { "text": "You are a digital assistant with a friendly personality" } ], "messages": [ { "role": "user", "content": [ { "text": "What is the capital of Mars?" } ] }, { "role": "assistant", "content": [ { "text": "Mars does not have a capital. Perhaps it will one day." } ] } ] }
El siguiente ejemplo es para el afinamiento personalizado de texto y una sola imagen.
// train.jsonl{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://
your-bucket/your-path/your-image.png
", "bucketOwner": "your-aws-account-id
" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
El siguiente ejemplo es para el afinamiento personalizado de texto y video.
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a helpful assistant designed to answer questions crisply and to the point" }], "messages": [{ "role": "user", "content": [{ "text": "How many white items are visible in this video?" }, { "video": { "format": "mp4", "source": { "s3Location": { "uri": "s3://
your-bucket/your-path/your-video.mp4
", "bucketOwner": "your-aws-account-id
" } } } } ] }, { "role": "assistant", "content": [{ "text": "There are at least eight visible items that are white" }] } ] }
Restricciones del conjunto de datos
Amazon Nova aplica las siguientes restricciones a las personalizaciones de modelos para los modelos de comprensión.
Modelo |
Muestras mínimas |
Muestras máximas |
Longitud del contenido |
---|---|---|---|
Amazon Nova Micro |
8 |
20 000 |
32 000 |
Amazon Nova Lite |
8 |
20 000 |
32 000 |
Amazon Nova Pro |
8 |
20 000 |
32 000 |
Número máximo de imágenes |
10/muestra |
Tamaño máximo de archivo de imagen |
10 MB |
Número máximo de videos |
1/muestra |
Duración máxima del video |
90 segundos |
Tamaño máximo de archivo de video |
50 MB |
Formatos multimedia compatibles
-
Imagen:
png
,jpeg
,gif
,webp
-
Video:
mov
,mkv
,mp4
,webm