Rastrear páginas da web para sua base de conhecimento - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Rastrear páginas da web para sua base de conhecimento

O crawler da web fornecido pelo Amazon Bedrock se conecta e rastreia os URLs selecionados por você para uso na base de conhecimento do Amazon Bedrock. Você pode rastrear páginas de site de acordo com o escopo ou os limites definidos para os URLs selecionados. Você pode rastrear páginas de site usando o Console de Gerenciamento da AWS para Amazon Bedrock ou a API CreateDataSource (consulte os SDKs compatíveis com o Amazon Bedrock e a AWS CLI). No momento, somente o armazenamento de vetores do Amazon OpenSearch Sem Servidor está disponível para uso com essa fonte de dados.

nota

O conector de fonte de dados do crawler da web está em versão prévia e está sujeito a alterações.

Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Você só pode usar o crawler da web para indexar seus sites ou os sites que você tenha autorização para crawling e deve respeitar as configurações de robots.txt.

O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309

Há limites para quantos itens de conteúdo de página da web e MB por item de conteúdo podem ser rastreados. Consulte Quotas for knowledge bases.

Recursos compatíveis

O crawler da web se conecta e rastreia páginas HTML pelo URL inicial, percorrendo todos os links secundários no mesmo caminho e domínio principal. Se alguma das páginas HTML fizer referência a documentos compatíveis, o crawler da web buscará esses documentos, independentemente de estarem no mesmo domínio principal. Você pode modificar o comportamento de crawling alterando a configuração: consulte Configuração de conexão.

Há suporte para você:

  • Selecione vários URLs de origem para rastrear e defina o escopo dos URLs para rastrear somente o host ou também incluir subdomínios.

  • Rastreie páginas da web estáticas que fazem parte dos URLs de origem.

  • Especifique o sufixo personalizado do agente usuário para definir regras para seu próprio crawler.

  • Inclua ou exclua determinados URLs que correspondam a um padrão de filtro.

  • Respeite as diretivas padrão de robots.txt, como “Permitir” e “Não permitir”.

  • Limite o escopo dos URLs a serem rastreados e, se desejar, exclua os URLs que correspondam a um padrão de filtro.

  • Limite a taxa de URLs de crawling e o número máximo de páginas a serem rastreadas.

  • Visualizar o status dos URLs rastreados no Amazon CloudWatch.

Pré-requisitos

Para usar o crawler da web, não se esqueça de:

  • Verificar se você tem autorização para rastrear os URLs de origem.

  • Verificar se o caminho para robots.txt correspondente aos URLs de origem não impede o crawling dos URLs. O crawler da web segue os padrões de robots.txt: disallow por padrão se robots.txt não for encontrado para o site. O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309. Você também pode especificar um sufixo de cabeçalho personalizado do agente usuário para definir regras para seu próprio crawler. Para ter mais informações, consulte “Acesso ao URL do crawler da web” nas instruções em Configuração de conexão desta página.

  • Habilite a entrega do CloudWatch Logs e siga os exemplos de log do crawler da web para visualizar o status do trabalho de ingestão de dados referente à ingestão de conteúdo da web e se determinados URLs não puderem ser recuperados.

nota

Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Você só pode usar o crawler da web para indexar seus sites ou os sites que você tenha autorização para crawling.

Configuração de conexão

Para obter mais informações sobre o escopo da sincronização para URLs de crawling, filtros de inclusão/exclusão, acesso a URL, sincronização incremental e como eles funcionam, selecione o seguinte:

Você pode limitar o escopo dos URLs do crawling com base na relação específica de cada URL da página com os URLs iniciais. Para crawlings mais rápidos, você pode limitar os URLs àqueles com o mesmo host e caminho de URL inicial do URL inicial. Para rastreamentos mais amplos, você pode optar por rastrear URLs com o mesmo host ou em qualquer subdomínio do URL inicial.

Você pode escolher entre as opções a seguir.

  • Padrão: limite o crawling a páginas da web pertencentes ao mesmo host e com o mesmo caminho de URL inicial. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, somente esse caminho e as páginas da web que se estendem a partir desse caminho serão rastreados, como “https://aws.amazon.com/bedrock/agents/”. URLs irmãos como “https://aws.amazon.com/ec2/” não são rastreados, por exemplo.

  • Somente host: limite o crawling a páginas da web pertencentes ao mesmo host. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, as páginas da web com “https://aws.amazon.com” também serão rastreadas, como “https://aws.amazon.com/ec2”.

  • Subdomínios: inclua o crawling de qualquer página da web que tenha o mesmo domínio primário do URL inicial. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, qualquer página da web que contenha “amazon.com” (subdomínio) será rastreada, como “https://www.amazon.com”.

nota

Verifique se você não está fazendo crawling de sites possivelmente excessivos. Não é recomendável fazer crawling de sites grandes, como wikipedia.org, sem filtros ou limites de escopo. O crawling de sites grandes levará muito tempo.

Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo.

É possível usar o crawler da web em sites estáticos.

Você também pode limitar a taxa de URLs de crawling para controle de utilização da velocidade de crawling. Defina o número máximo de URLs rastreados por host por minuto. Além disso, é possível definir o número máximo (até 25 mil) do total de páginas da web a serem rastreadas. Observe que, se o número total de páginas da web dos URLs de origem ultrapassar o máximo definido, o trabalho de sincronização/ingestão da fonte de dados falhará.

Você pode incluir ou excluir determinados URLs de acordo com seu escopo. Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo. Se você especificar um filtro de inclusão e de exclusão e ambos corresponderem a um URL, o filtro de exclusão terá precedência e não será feito crawling do conteúdo da web.

Importante

Filtros problemáticos de padrões de expressão regular que causam retrocesso catastrófico e lookahead são rejeitados.

Um exemplo de um padrão de filtro de expressão regular para excluir URLs que terminam com “.pdf” ou anexos de sites em PDF: “.*\.pdf$”.

Você pode usar o crawler da web para rastrear as páginas dos sites que você tem autorização para rastrear.

Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Você só pode usar o crawler da web para indexar seus sites ou os sites que você tenha autorização para crawling.

O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309

Você pode especificar determinados bots de agente usuário para “permitir” ou “proibir” que o agente usuário rastreie seus URLs de origem. Você pode modificar o arquivo robots.txt do seu site para controlar como o crawler da web rastreia URLs de origem. O crawler procurará primeiro as regras bedrockbot-UUID e depois as regras genéricas bedrockbot no arquivo robots.txt.

Também é possível adicionar um sufixo User-Agent para acrescentar seu crawler à lista de permissões em sistemas de proteção de bots. Observe que esse sufixo não precisa ser adicionado ao arquivo robots.txt para garantir que ninguém consiga representar a string do agente usuário. Por exemplo, para permitir que o crawler da web rastreie todo o conteúdo do site e proibir o crawling de outros robôs, use a seguinte diretiva:

User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages

Sempre que o crawler da web é executado, ele recupera o conteúdo de todos os URLs acessíveis pelos URLs de origem que correspondem ao escopo e aos filtros. Para sincronizações incrementais após a primeira sincronização de todo o conteúdo, o Amazon Bedrock atualizará sua base de conhecimento com conteúdo novo e modificado e removerá o conteúdo antigo que não está mais presente. Às vezes, o crawler poderá não conseguir indicar se o conteúdo foi removido do site e, nesse caso, ele vai deixar de preservar o conteúdo antigo em sua base de conhecimento.

Para sincronizar a fonte de dados com a base de conhecimento, use a API StartIngestionJob ou selecione a base de conhecimento no console e escolha Sincronizar na seção de visão geral da fonte de dados.

Importante

Todos os dados que você sincroniza na fonte de dados ficam disponíveis para qualquer pessoa com permissões bedrock:Retrieve para recuperá-los. Isso também pode incluir quaisquer dados com permissões de fonte de dados controladas. Para obter mais informações, consulte Knowledge base permissions.

Console
Conectar uma fonte de dados do crawler da web à base de conhecimento
  1. Siga as etapas em Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento do Amazon Bedrock e escolha Crawler da web como fonte de dados.

  2. Forneça um nome e uma descrição opcional para a fonte de dados.

  3. Forneça os URLs de origem dos URLs cujo crawling você deseja fazer. Você pode acrescentar até nove URLs adicionais selecionando Adicionar URLs de origem. Ao fornecer um URL de origem, você confirma que tem autorização para fazer crawling de seu domínio.

  4. Na seção Configurações avançadas, você pode, opcionalmente, configurar o seguinte:

    • Chave do KMS para armazenamento de dados temporário. – Você pode criptografar os dados temporários enquanto converte seus dados em incorporações com a Chave gerenciada pela AWS padrão ou sua própria chave do KMS. Para obter mais informações, consulte Criptografia de armazenamento de dados temporário durante a ingestão de dados.

    • Política de exclusão de dados: você pode excluir as incorporações de vetores da sua fonte de dados que estão armazenadas no armazenamento de vetores por padrão ou optar por reter os dados do armazenamento de vetores.

  5. (Opcional) Forneça um sufixo de agente usuário para bedrock-UUID- que identifique o crawler ou o bot quando ele acessa um servidor da web.

  6. Configure o seguinte na seção Escopo de sincronização:

    1. Selecione um intervalo de domínios do site para rastrear seus URLs de origem:

      • Padrão: limite o crawling a páginas da web pertencentes ao mesmo host e com o mesmo caminho de URL inicial. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, somente esse caminho e as páginas da web que se estendem a partir desse caminho serão rastreados, como “https://aws.amazon.com/bedrock/agents/”. URLs irmãos como “https://aws.amazon.com/ec2/” não são rastreados, por exemplo.

      • Somente host: limite o crawling a páginas da web pertencentes ao mesmo host. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, as páginas da web com “https://aws.amazon.com” também serão rastreadas, como “https://aws.amazon.com/ec2”.

      • Subdomínios: inclua o crawling de qualquer página da web que tenha o mesmo domínio primário do URL inicial. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, qualquer página da web que contenha “amazon.com” (subdomínio) será rastreada, como “https://www.amazon.com”.

      nota

      Verifique se você não está fazendo crawling de sites possivelmente excessivos. Não é recomendável fazer crawling de sites grandes, como wikipedia.org, sem filtros ou limites de escopo. O crawling de sites grandes levará muito tempo.

      Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo.

    2. Insira Controle de utilização máximo da velocidade de crawling. Ingira entre 1 e 300 URLs por host por minuto. Uma velocidade de crawling maior aumenta a carga, mas leva menos tempo.

    3. Insira entre 1 e 25.000 em Máximo de páginas para sincronização da fonte de dados. Limite o número máximo de páginas da web rastreadas nos URLs de origem. Se as páginas da web excederem esse número, a sincronização da fonte de dados falhará e nenhuma página da web será ingerida.

    4. Para padrões de URL regex (opcional), você pode adicionar Padrões de inclusão ou Padrões de exclusão inserindo o padrão de expressão regular na caixa. Você pode adicionar até 25 padrões de filtro de inclusão e 25 de exclusão selecionando Adicionar novo padrão. O crawling dos padrões de inclusão e exclusão é feito de acordo com seu escopo. Se houver um conflito, o padrão de exclusão terá precedência.

  7. (Opcional) Na seção Análise e fragmentação de conteúdo, você pode personalizar a forma de analisar e fragmentar seus dados. Consulte os seguintes recursos para saber mais sobre essas personalizações:

  8. Continue escolhendo um modelo de incorporação e um armazenamento de vetores. Para ver as etapas restantes, retorne a Crie uma base de conhecimento conectando-se a uma fonte de dados nas Bases de Conhecimento do Amazon Bedrock e continue após a etapa de conexão da fonte de dados.

API

Para conectar uma base de conhecimento a uma fonte de dados usando o crawler da web, envie uma solicitação CreateDataSource com um endpoint de tempo de compilação do recurso Agentes para Amazon Bedrock, especifique WEB no campo type de DataSourceConfiguration e inclua o campo webConfiguration. Este é um exemplo de uma configuração do crawler da web para a base de conhecimento do Amazon Bedrock.

{ "webConfiguration": { "sourceConfiguration": { "urlConfiguration": { "seedUrls": [{ "url": "https://www.examplesite.com" }] } }, "crawlerConfiguration": { "crawlerLimits": { "rateLimit": 50, "maxPages": 100 }, "scope": "HOST_ONLY", "inclusionFilters": [ "https://www\.examplesite\.com/.*\.html" ], "exclusionFilters": [ "https://www\.examplesite\.com/contact-us\.html" ], "userAgent": "CustomUserAgent" } }, "type": "WEB" }

Para saber mais sobre personalizações que você pode aplicar à ingestão incluindo o campo opcional vectorIngestionConfiguration, consulte Personalizar a ingestão para uma fonte de dados.