As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Como a fragmentação de conteúdo funciona para bases de conhecimento
Ao ingerir dados, o Amazon Bedrock primeiro divide os documentos ou o conteúdo em partes manejáveis para uma recuperação de dados eficiente. Depois, os fragmentos são convertidos em incorporações e gravados em um índice de vetores (representação vetorial dos dados), ao mesmo tempo em que mantêm uma correlação com o documento original. As incorporações de vetores permitem que os textos sejam comparados quantitativamente.
Tópicos
Fragmentação padrão
O Amazon Bedrock é compatível com as seguintes abordagens padrão de fragmentação:
nota
As estratégias de fragmentação de texto se aplicam somente a documentos de texto. Para conteúdo multimodal (áudio, vídeo, imagens), a fragmentação ocorre no nível do modelo de incorporação, não por meio dessas estratégias baseadas em texto.
-
Fragmentação de tamanho fixo: você pode configurar o tamanho do fragmento desejado especificando o número de tokens por fragmento e uma porcentagem de sobreposição, oferecendo flexibilidade para se alinhar aos requisitos específicos. É possível definir o número máximo de tokens que não devem exceder um fragmento e a porcentagem de sobreposição entre fragmentos consecutivos.
nota
Para conteúdo analisado (como conteúdo usando analisadores avançados ou convertido de HTML), as Bases de Conhecimento Amazon Bedrock podem fragmentar o conteúdo para otimizar e obter melhores resultados. O fragmento respeita os limites lógicos do documento (como páginas ou seções) e não mescla o conteúdo entre esses limites, mesmo quando o aumento do tamanho máximo do token permitiria fragmentos maiores.
-
Fragmentação padrão: divide o conteúdo em fragmentos de texto de aproximadamente 300 tokens. O processo de fragmentação respeita os limites das frases, garantindo que as frases completas sejam preservadas em cada fragmento.
Você também pode optar por nenhuma fragmentação para os documentos. Cada documento é tratado como um único fragmento de texto. Convém pré-processar os documentos, dividindo-os em arquivos separados antes de optar por nenhuma fragmentação como abordagem/estratégia de fragmentação. Se você optar por não agrupar seus documentos, não poderá visualizar o número da página na citação ou filtrar pelo campo/atributo de metadados x-amz-bedrock-kb- document-page-number.
Fragmentação hierárquica
A fragmentação hierárquica envolve a organização das informações em estruturas aninhadas de fragmentos pai e filho. Ao criar uma fonte de dados, você pode definir o tamanho do fragmento pai, o tamanho do fragmento filho e o número de tokens de sobreposição entre cada fragmento. Durante a recuperação, o sistema recupera inicialmente fragmentos filho, mas os substitui por fragmentos pai maiores para dar ao modelo um contexto mais abrangente.
Pequenas incorporações de texto são mais precisas, mas a recuperação visa um contexto abrangente. Um sistema de fragmentação hierárquica equilibra essas necessidades substituindo os fragmentos filho recuperados pelos fragmentos pai quando indicado.
nota
-
Como os fragmentos secundários são substituídos pelos fragmentos principais durante a recuperação, o número de resultados exibidos pode ser menor que o valor solicitado.
-
A fragmentação hierárquica não é recomendada ao usar o bucket vetorial do S3 como seu armazenamento de vetores. Ao usar um grande número de tokens para fragmentação (mais de 8000 tokens combinados), você pode se deparar com limitações de tamanho de metadados.
Para fragmentação hierárquica, as bases de conhecimento do Amazon Bedrock permitem especificar dois níveis ou a seguinte profundidade para fragmentação:
-
Pai: você define o tamanho máximo do token do fragmento pai.
-
Filho: você define o tamanho máximo do token do fragmento filho.
Você também define os tokens de sobreposição entre os fragmentos. Esse é o número absoluto de tokens de sobreposição entre fragmentos pai consecutivos e fragmentos filho consecutivos.
Fragmentação semântica
Fragmentação semântica é uma técnica de processamento de linguagem natural que divide o texto em fragmentos significativos para melhorar a compreensão e a recuperação de informações. Ela deve aumentar a precisão da recuperação concentrando-se no conteúdo semântico, e não apenas na estrutura sintática. Fazendo isso, ela pode facilitar uma extração e manipulação mais precisas de informações relevantes.
Ao configurar a fragmentação semântica, você tem a opção de especificar os hiperparâmetros a seguir.
-
Máximo de tokens: o número máximo de fichas que devem ser incluídos em um único fragmento, respeitando os limites de frase.
-
Tamanho do buffer: para uma determinada frase, o tamanho do buffer define o número de frases próximas a serem adicionadas para criação de incorporações. Por exemplo, um tamanho de buffer 1 resulta em 3 frases (atual, anterior e próxima) a serem combinadas e incorporadas. Esse parâmetro pode influenciar a quantidade de texto examinada em conjunto para determinar os limites de cada fragmento, afetando a granularidade e a coerência dos fragmentos resultantes. Um tamanho de buffer maior pode registrar mais contexto, embora também possa introduzir ruído, e um tamanho de buffer menor pode perder um contexto importante, mas garante uma fragmentação mais precisa.
-
Limite do percentil do ponto de interrupção: o limite do percentil da frase para traçar pontos de interrupção entre as frases. distance/dissimilarity Um limite mais alto exige que as frases sejam mais distinguíveis para serem divididas em partes diferentes. Um limite maior acarreta menos fragmentos e, normalmente, um tamanho de fragmento médio maior.
nota
Existem custos adicionais para o uso da fragmentação semântica por causa do uso de um modelo básico. O custo depende da quantidade de dados que você tem. Consulte Preços do Amazon Bedrock
para obter informações sobre o custo dos modelos de base.
Fragmentação de conteúdo multimodal
Para conteúdo multimodal (áudio, vídeo, imagens), o comportamento de fragmentação difere dos documentos de texto:
-
Embutimentos multimodais Nova: a fragmentação ocorre no nível do modelo de incorporação. Você pode configurar a duração do bloco de áudio e vídeo de 1 a 30 segundos (padrão: 5 segundos). Para arquivos de vídeo, somente a duração do fragmento de vídeo se aplica, mesmo que o vídeo contenha áudio. A duração do fragmento de áudio só se aplica a arquivos de áudio independentes.
-
Analisador Bedrock Data Automation (BDA): o conteúdo é primeiro convertido em texto (transcrições e resumos de cenas) e, em seguida, estratégias padrão de fragmentação de texto são aplicadas ao texto convertido.
nota
Ao usar incorporações multimodais Nova, as estratégias de fragmentação de texto configuradas em sua base de conhecimento afetam apenas documentos de texto em sua fonte de dados, não arquivos de áudio, vídeo ou imagem.