As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Preparar os dados para ajustar modelos de processamento de imagem e texto
nota
Para ter informações sobre como ajustar modelos do Amazon Nova, consulte Ajuste dos modelos do Amazon Nova.
Para ajustar modelos de imagem de texto em texto, cada objeto JSON é uma amostra que contém uma conversa estruturada como uma matriz de messages, que consistem em objetos JSON alternados que representam as entradas do usuário e as respostas do assistente. As entradas do usuário podem incluir texto e imagem, enquanto as respostas do assistente são sempre textuais. Essa estrutura permite fluxos de conversação de um e vários turnos e que o modelo gerencie diversas tarefas de forma eficaz. Os formatos de imagem compatíveis para o Meta Llama-3.2 11B Vision Instruct e o Meta Llama-3.2 90B Vision
Instruct incluem: gif, jpeg, png e webp.
Para permitir que o Amazon Bedrock acesse os arquivos de imagem, adicione uma política do IAM semelhante à de Permissões para acessar arquivos de treinamento e de validação e gravar os arquivos de saída no S3 ao perfil de serviço do Amazon Bedrock de personalização de modelo do Amazon Bedrock que você configurou ou que foi configurado automaticamente para você no console. Os caminhos do Amazon S3 que você fornece no conjunto de dados de treinamento devem estar nas pastas que você especifica na política.
Conversas de um único turno
Cada objeto JSON para conversas de um único turno consiste em uma mensagem de usuário e uma mensagem de assistente. A mensagem do usuário inclui um campo de perfil definido como usuário e um campo de conteúdo que contém uma matriz com um campo type (texto ou imagem) que descreve a modalidade de entrada. Para entradas de texto, o campo content inclui um campo text com a pergunta ou prompt do usuário. Para entradas de imagem, o campo content especifica a imagem format (por exemplo, jpeg, png) e a source com um uri apontando para o local da imagem no Amazon S3. O uri representa o caminho exclusivo para a imagem armazenada em um bucket do Amazon S3, normalmente no formato s3://<bucket-name>/<path-to-file>. A mensagem do assistente inclui um campo role definido como assistente e um campo content que contém uma matriz com um campo type definido como texto e um campo text que contém a resposta gerada do assistente.
Formato de exemplo
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }
Conversas em vários turnos
Cada objeto JSON para conversas em vários turnos contém uma sequência de mensagens com perfis alternados, em que as mensagens do usuário e as mensagens do assistente são estruturadas de forma consistente para permitir trocas coerentes. As mensagens do usuário incluem um campo role definido como usuário e um campo content que descreve a modalidade de entrada. Para entradas de texto, o campo content inclui um campo text com a pergunta ou acompanhamento do usuário, enquanto para entradas de imagem, ele especifica o format e a respectiva source da imagem com o uri apontando para o local da imagem no Amazon S3. O uri serve como um identificador exclusivo no formato s3://<bucket-name>/<path-to-file> e permite que o modelo acesse a imagem do bucket designado do Amazon S3. A mensagem do assistente inclui um campo role definido como assistente e um campo content que contém uma matriz com um campo type definido como texto e um campo text que contém a resposta gerada do assistente. As conversas podem abranger várias trocas, permitindo que o assistente mantenha o contexto e forneça respostas coerentes o tempo todo.
Formato de exemplo
{ "schemaVersion": "bedrock-conversation-2024", "system": [{ "text": "You are a smart assistant that answers questions respectfully" }], "messages": [{ "role": "user", "content": [{ "text": "What does the text in this image say?" }, { "image": { "format": "png", "source": { "s3Location": { "uri": "s3://your-bucket/your-path/your-image.png", "bucketOwner": "your-aws-account-id" } } } } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] }, { "role": "user", "content": [{ "text": "What does the text in this image say?" } ] }, { "role": "assistant", "content": [{ "text": "The text in the attached image says 'LOL'." }] } ] }