Prepare dados para ajustar modelos de processamento de imagens e textos - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Prepare dados para ajustar modelos de processamento de imagens e textos

nota

Para obter informações sobre modelos de ajuste fino, consulte Amazon Nova Modelos de ajuste fino Amazon Nova.

Para image-text-to-text modelos de ajuste fino, cada objeto JSON é uma amostra contendo uma conversa estruturada como uma messages matriz, consistindo em objetos JSON alternados representando as entradas do usuário e as respostas do assistente. As entradas do usuário podem incluir texto e imagens, enquanto as respostas do assistente são sempre textuais. Essa estrutura suporta fluxos de conversação de uma e várias voltas, permitindo que o modelo gerencie diversas tarefas de forma eficaz. Os formatos de imagem compatíveis Meta Llama-3.2 11B Vision Instruct e Meta Llama-3.2 90B Vision Instruct incluem: gif jpegpng,, webp e.

Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3 ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.

Conversas em um único turno

Cada objeto JSON para conversas de um único turno consiste em uma mensagem de usuário e uma mensagem de assistente. A mensagem do usuário inclui um campo de função definido como usuário e um campo de conteúdo contendo uma matriz com um type campo (texto ou imagem) que descreve a modalidade de entrada. Para entradas de texto, o content campo inclui um text campo com a pergunta ou solicitação do usuário. Para entradas de imagem, o content campo especifica a imagem format (por exemplo, jpeg, png) e está uri apontando para a localização da imagem no Amazon S3. source O uri representa o caminho exclusivo para a imagem armazenada em um bucket do Amazon S3, normalmente no formato. s3://<bucket-name>/<path-to-file> A mensagem do assistente inclui um role campo definido como assistente e um content campo contendo uma matriz com um type campo definido como texto e um text campo contendo a resposta gerada pelo assistente.

Formato de exemplo

{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }

Conversas em vários turnos

Cada objeto JSON para conversas em vários turnos contém uma sequência de mensagens com funções alternadas, em que as mensagens do usuário e as mensagens do assistente são estruturadas de forma consistente para permitir trocas coerentes. As mensagens do usuário incluem um role campo definido como usuário e um content campo que descreve a modalidade de entrada. Para entradas de texto, o content campo inclui um text campo com a pergunta ou acompanhamento do usuário, enquanto para entradas de imagem, ele especifica a imagem format e uri aponta para a localização da imagem no Amazon S3. source O uri serve como um identificador exclusivo no formato s3://<bucket-name>/< path-to-file > e permite que o modelo acesse a imagem do bucket Amazon S3 designado. As mensagens do assistente incluem um role campo definido como assistente e um content campo contendo uma matriz com um type campo definido como texto e um text campo contendo a resposta gerada pelo assistente. As conversas podem abranger várias trocas, permitindo que o assistente mantenha o contexto e forneça respostas coerentes por toda parte.

Formato de exemplo

{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] }, { "role": "user", "content": [{ "text": "What does the text in this image say?" } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }