As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

# Conectar-se ao Amazon S3 para obter sua base de conhecimento
<a name="s3-data-source-connector"></a>

O Amazon S3 é um serviço de armazenamento de objetos que armazena dados como objetos em buckets. [Você pode se conectar ao bucket do Amazon S3 para sua base de conhecimento do Amazon Bedrock usando o console de [AWSgerenciamento do Amazon Bedrock ou a API [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)(consulte Amazon Bedrock](https://console.aws.amazon.com/bedrock/home) suportado e). SDKs AWS CLI](https://docs.aws.amazon.com/bedrock/latest/APIReference/welcome.html)

**Suporte de conteúdo multimodal**  
As fontes de dados do Amazon S3 oferecem suporte a conteúdo multimodal, incluindo arquivos de imagens, áudio e vídeo. Para obter uma orientação abrangente sobre como trabalhar com conteúdo multimodal, consulte. [Crie uma base de conhecimento para conteúdo multimodal](kb-multimodal.md)

É possível carregar um pequeno lote de arquivos em um bucket do Amazon S3 usando o console ou a API do Amazon S3. Como alternativa, você pode usar [AWS DataSync](https://docs.aws.amazon.com/datasync/latest/userguide/create-s3-location.html)para carregar vários arquivos para o S3 continuamente e transferir arquivos de forma agendada do local, da borda, de outra nuvem ou AWS do armazenamento.

No momento, somente buckets do S3 de uso geral são compatíveis.

Há limites para quantos arquivos e MB por arquivo podem ser rastreados. Consulte [Quotas for knowledge bases](https://docs.aws.amazon.com/bedrock/latest/userguide/quotas.html).

**Topics**
+ [Recursos compatíveis](#supported-features-s3-connector)
+ [Pré-requisitos](#prerequisites-s3-connector)
+ [Configuração de conexão](#configuration-s3-connector)

## Recursos compatíveis
<a name="supported-features-s3-connector"></a>
+ Campos de metadados do documento
+ Prefixos de inclusão
+ Sincronizações de conteúdo incrementais para conteúdo adicionado, atualizado e excluído

## Pré-requisitos
<a name="prerequisites-s3-connector"></a>

**No Amazon S3, verifique se**:
+ Anote o URI do bucket do Amazon S3, o nome do recurso da Amazon (ARN) e o ID da conta da AWS do proprietário do bucket. É possível encontrar o URI e o ARN na seção de propriedades no console do Amazon S3. O bucket deve estar na mesma região que a base de conhecimento do Amazon Bedrock. Você deve ter permissão para acessar o bucket.

**Em sua AWS conta, certifique-se de**:
+ Inclua as permissões necessárias para se conectar à sua fonte de dados na role/permissions política AWS Identity and Access Management (IAM) da sua base de conhecimento. Para obter informações sobre as permissões necessárias para que essa fonte de dados seja adicionada à sua IAM função na base de conhecimento, consulte [Permissões para acessar fontes de dados](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html#kb-permissions-access-ds).

**nota**  
Se você usa o console, a IAM função com todas as permissões necessárias pode ser criada para você como parte das etapas para criar uma base de conhecimento. Depois que você tiver definido a fonte de dados e as outras configurações, o perfil do IAM com todas as permissões necessárias será aplicado à base de conhecimento específica.

## Configuração de conexão
<a name="configuration-s3-connector"></a>

Para conectar-se ao bucket do Amazon S3, forneça as informações de configuração necessárias para que o Amazon Bedrock possa acessar e rastrear os dados. Você também deve seguir os [Pré-requisitos](#prerequisites-s3-connector).

Um exemplo de configuração dessa fonte de dados está incluído nesta seção.

Para ter mais informações sobre filtros de inclusão, campos de metadados de documentos, sincronização incremental e como eles funcionam, selecione o seguinte:

### Campos de metadados do documento
<a name="ds-s3-metadata-fields"></a>

Você pode incluir um arquivo separado que especifica os metadados do documento fields/attributes para cada arquivo na sua fonte de dados do Amazon S3 e se deve incluí-los nas incorporações ao indexar a fonte de dados no armazenamento vetorial. Por exemplo, você pode criar um arquivo no formato a seguir, nomeá-lo {{fileName.extension.metadata.json}} e carregá-lo em seu bucket do S3.

```
{
  "metadataAttributes": {
    "company": {
      "value": {
        "type": "STRING",
        "stringValue": "BioPharm Innovations"
      },
      "includeForEmbedding": true
    },
    "created_date": {
      "value": {
        "type": "NUMBER",
        "numberValue": 20221205
      },
      "includeForEmbedding": true
    },
    "author": {
      "value": {
        "type": "STRING",
        "stringValue": "Lisa Thompson"
      },
      "includeForEmbedding": true
    },
    "origin": {
      "value": {
        "type": "STRING",
        "stringValue": "Overview"
      },
      "includeForEmbedding": true
    }
  }
}
```

O arquivo de metadados deve usar o mesmo nome do arquivo de documento original associado, com `.metadata.json` acrescentado ao final do nome do arquivo. O arquivo de metadados deve ser armazenado na mesma pasta ou local que o arquivo de origem no bucket do Amazon S3. O arquivo não deve exceder o limite de 10 KB. Para obter informações sobre os tipos de attribute/field dados suportados e os operadores de filtragem que você pode aplicar aos seus campos de metadados, consulte [Metadados](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-test-config.html) e filtragem.

### Prefixos de inclusão
<a name="ds-s3-inclusion-exclusion"></a>

Você pode especificar um prefixo de inclusão, que é um prefixo de caminho do Amazon S3, onde é possível usar um arquivo ou uma pasta do S3 em vez do bucket inteiro para criar o conector da fonte de dados do S3.

### Sincronização incremental
<a name="ds-s3-incremental-sync"></a>

O conector da fonte de dados rastreia conteúdo novo, modificado e excluído sempre que sua fonte de dados é sincronizada com sua base de conhecimento. Amazon Bedrockpode usar o mecanismo da sua fonte de dados para rastrear alterações no conteúdo e rastrear o conteúdo que foi alterado desde a última sincronização. Ao sincronizar a fonte de dados com a base de conhecimento pela primeira vez, todo o conteúdo é rastreado por padrão.

Para sincronizar sua fonte de dados com sua base de conhecimento, use a [StartIngestionJob](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_StartIngestionJob.html)API ou selecione sua base de conhecimento no console e selecione **Sincronizar** na seção de visão geral da fonte de dados.

**Importante**  
Todos os dados que você sincroniza na fonte de dados ficam disponíveis para qualquer pessoa com permissões `bedrock:Retrieve` para recuperá-los. Isso também pode incluir quaisquer dados com permissões de fonte de dados controladas. Para obter mais informações, consulte [Knowledge base permissions](https://docs.aws.amazon.com/bedrock/latest/userguide/kb-permissions.html).

------
#### [ Console ]

**Como conectar um bucket do Amazon S3 à base de conhecimento**

1. Siga as etapas em [Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento do Amazon Bedrock](knowledge-base-create.md) e escolha o **Amazon S3** como fonte de dados.

1. Forneça um nome para a fonte de dados.

1. Especifique se o bucket do Amazon S3 está na sua AWS conta corrente ou em outra AWS conta. O bucket deve estar na mesma região que a base de conhecimento.

1. (Opcional) Se o bucket do Amazon S3 estiver criptografado com uma chave do KMS, inclua a chave. Para obter mais informações, consulte [Permissões para descriptografar sua AWS KMS chave para suas fontes de dados no Amazon S3](encryption-kb.md#encryption-kb-ds).

1. (Opcional) Na seção **Análise e fragmentação de conteúdo**, você pode personalizar a forma de analisar e fragmentar seus dados. Consulte os seguintes recursos para saber mais sobre essas personalizações:
   + Para ter mais informações sobre as opções de análise, consulte [Opções de análise para a fonte de dados](kb-advanced-parsing.md).
   + Para ter mais informações sobre fragmentação, consulte [Como a fragmentação de conteúdo funciona para bases de conhecimento](kb-chunking.md).
**Atenção**  
Não será possível alterar a estratégia de fragmentação após a conexão da fonte de dados.
   + Para ter mais informações sobre como personalizar a fragmentação de dados e o processamento de metadados com uma função do Lambda, consulte [Usar uma função do Lambda de transformação personalizada para definir como os dados são ingeridos](kb-custom-transformation.md).

1. Na seção **Configurações avançadas**, você pode, opcionalmente, configurar o seguinte:
   + **Chave do KMS para armazenamento de dados temporário.** — Você pode criptografar os dados transitórios enquanto converte seus dados em incorporações com a chave padrão Chave gerenciada pela AWS ou sua própria chave KMS. Para obter mais informações, consulte [Criptografia de armazenamento de dados temporário durante a ingestão de dados](encryption-kb.md#encryption-kb-ingestion).
   + **Política de exclusão de dados**: você pode excluir as incorporações de vetores da sua fonte de dados que estão armazenadas no armazenamento de vetores por padrão ou optar por reter os dados do armazenamento de vetores.

1. Continue escolhendo um modelo de incorporação e um armazenamento de vetores. Para ver as etapas restantes, retorne a [Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento do Amazon Bedrock](knowledge-base-create.md) e continue após a etapa de conexão da fonte de dados.

------
#### [ API ]

Veja um exemplo de uma configuração para conexão ao Amazon S3 para a base de conhecimento do Amazon Bedrock. Você configura sua fonte de dados usando a API com o SDK compatível AWS CLI ou compatível, como Python. Depois de ligar [CreateKnowledgeBase](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateKnowledgeBase.html), você liga [CreateDataSource](https://docs.aws.amazon.com/bedrock/latest/APIReference/API_agent_CreateDataSource.html)para criar sua fonte de dados com suas informações de conexão`dataSourceConfiguration`.

Para saber mais sobre personalizações que você pode aplicar à ingestão incluindo o campo opcional `vectorIngestionConfiguration`, consulte [Personalizar a ingestão para uma fonte de dados](kb-data-source-customize-ingestion.md).

**AWS Command Line Interface**

```
aws bedrock-agent create-data-source \
 --name "S3-connector" \
 --description "S3 data source connector for Amazon Bedrock to use content in S3" \
 --knowledge-base-id "your-knowledge-base-id" \
 --data-source-configuration file://s3-bedrock-connector-configuration.json \
 --data-deletion-policy "DELETE" \
 --vector-ingestion-configuration '{"chunkingConfiguration":{"chunkingStrategy":"FIXED_SIZE","fixedSizeChunkingConfiguration":{"maxTokens":100,"overlapPercentage":10}}}'
                    
s3-bedrock-connector-configuration.json
{
    "s3Configuration": {
	    "bucketArn": "arn:aws:s3:::bucket-name",
	    "bucketOwnerAccountId": "000000000000",
	    "inclusionPrefixes": [
	        "documents/"
	    ]
    },
    "type": "S3"	
}
```

------