Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Preparación de datos para el refinamiento de los modelos de procesamiento de imágenes y texto
nota
Para obtener información sobre cómo refinar modelos de Amazon Nova, consulte Refinamiento de modelos de Amazon Nova.
Para refinar modelos de imagen y texto a texto, cada objeto JSON es un ejemplo que contiene una conversación estructurada como una matriz messages, compuesta por objetos JSON alternos que representan las entradas del usuario y las respuestas del asistente. Las entradas del usuario pueden incluir texto e imágenes, mientras que las respuestas del asistente son siempre textuales. Esta estructura admite flujos de conversación de uno o varios turnos, lo que permite al modelo gestionar diversas tareas de forma eficaz. Los formatos de imagen compatibles para Meta Llama-3.2 11B Vision Instruct y Meta Llama-3.2 90B Vision
Instruct incluyen: gif, jpeg, png y webp.
Para permitir que Amazon Bedrock acceda a los archivos de imagen, agregue una política de IAM similar a la de Permisos para acceder a los archivos de entrenamiento y validación y escribir los archivos de salida en S3 al rol de servicio de personalización de modelos de Amazon Bedrock que ha configurado o que se ha configurado automáticamente para usted en la consola. Las rutas de Amazon S3 que proporcione en el conjunto de datos de entrenamiento deben estar en las carpetas que especifique en la política.
Conversaciones de un solo turno
Cada objeto JSON para conversaciones de un solo turno consta de un mensaje del usuario y un mensaje del asistente. El mensaje del usuario incluye un campo de rol establecido en user y un campo content que contiene una matriz con un campo type (text o image) que describe la modalidad de entrada. Para las entradas de texto, el campo content incluye un campo text con la pregunta o la petición del usuario. Para las entradas de imágenes, el campo content especifica la imagen format (por ejemplo, jpeg, png) y su source con un uri que apunta a la ubicación de la imagen en Amazon S3. El uri representa la ruta única de la imagen almacenada en un bucket de Amazon S3, normalmente en el formato s3://<bucket-name>/<path-to-file>. El mensaje del asistente incluye un campo role configurado como assistant y un campo content que contiene una matriz con un campo type configurado como text y un campo text que contiene la respuesta generada por el asistente.
Formato de ejemplo
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
Conversaciones de varios turnos
Cada objeto JSON para conversaciones de varios turnos contiene una secuencia de mensajes con roles alternos, en la que los mensajes del usuario y los mensajes del asistente se estructuran de forma coherente para permitir intercambios coherentes. Los mensajes del usuario incluyen un campo role configurado como user y un campo content que describe la modalidad de entrada. Para las entradas de texto, el campo content incluye un campo text con la pregunta o el seguimiento del usuario, mientras que para las entradas de imágenes, especifica el elemento format de la imagen y su source con un uri que apunta a la ubicación de la imagen en Amazon S3. El uri actúa como un identificador único en el formato s3://<nombre-bucket>/<ruta-de-archivo>y permite al modelo acceder a la imagen desde el bucket de Amazon S3 designado. Los mensajes del asistente incluyen un campo role configurado como assistant y un campo content que contiene una matriz con un campo type configurado como text y un campo text que contiene la respuesta generada por el asistente. Las conversaciones pueden abarcar varios intercambios, lo que permite al asistente mantener el contexto y ofrecer respuestas coherentes en todo momento.
Formato de ejemplo
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] }, { "role": "user", "content": [{ "text": "What does the text in this image say?" } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }