As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Rastrear páginas da web para sua base de conhecimento
O crawler da web fornecido pelo Amazon Bedrock se conecta e rastreia os URLs selecionados por você para uso na base de conhecimento do Amazon Bedrock. Você pode rastrear páginas de site de acordo com o escopo ou os limites definidos para os URLs selecionados. Você pode rastrear páginas de site usando o Console de Gerenciamento da AWS para Amazon Bedrock
nota
O conector de fonte de dados do crawler da web está em versão prévia e está sujeito a alterações.
Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon
O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309
Há limites para quantos itens de conteúdo de página da web e MB por item de conteúdo podem ser rastreados. Consulte Quotas for knowledge bases.
Recursos compatíveis
O crawler da web se conecta e rastreia páginas HTML pelo URL inicial, percorrendo todos os links secundários no mesmo caminho e domínio principal. Se alguma das páginas HTML fizer referência a documentos compatíveis, o crawler da web buscará esses documentos, independentemente de estarem no mesmo domínio principal. Você pode modificar o comportamento de crawling alterando a configuração: consulte Configuração de conexão.
Há suporte para você:
-
Selecione vários URLs de origem para rastrear e defina o escopo dos URLs para rastrear somente o host ou também incluir subdomínios.
-
Rastreie páginas da web estáticas que fazem parte dos URLs de origem.
-
Especifique o sufixo personalizado do agente usuário para definir regras para seu próprio crawler.
-
Inclua ou exclua determinados URLs que correspondam a um padrão de filtro.
-
Respeite as diretivas padrão de robots.txt, como “Permitir” e “Não permitir”.
-
Limite o escopo dos URLs a serem rastreados e, se desejar, exclua os URLs que correspondam a um padrão de filtro.
-
Limite a taxa de URLs de crawling e o número máximo de páginas a serem rastreadas.
-
Visualizar o status dos URLs rastreados no Amazon CloudWatch.
Pré-requisitos
Para usar o crawler da web, não se esqueça de:
-
Verificar se você tem autorização para rastrear os URLs de origem.
-
Verificar se o caminho para robots.txt correspondente aos URLs de origem não impede o crawling dos URLs. O crawler da web segue os padrões de robots.txt:
disallowpor padrão se robots.txt não for encontrado para o site. O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309. Você também pode especificar um sufixo de cabeçalho personalizado do agente usuário para definir regras para seu próprio crawler. Para ter mais informações, consulte “Acesso ao URL do crawler da web” nas instruções em Configuração de conexão desta página. -
Habilite a entrega do CloudWatch Logs e siga os exemplos de log do crawler da web para visualizar o status do trabalho de ingestão de dados referente à ingestão de conteúdo da web e se determinados URLs não puderem ser recuperados.
nota
Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon
Configuração de conexão
Para obter mais informações sobre o escopo da sincronização para URLs de crawling, filtros de inclusão/exclusão, acesso a URL, sincronização incremental e como eles funcionam, selecione o seguinte:
Você pode limitar o escopo dos URLs do crawling com base na relação específica de cada URL da página com os URLs iniciais. Para crawlings mais rápidos, você pode limitar os URLs àqueles com o mesmo host e caminho de URL inicial do URL inicial. Para rastreamentos mais amplos, você pode optar por rastrear URLs com o mesmo host ou em qualquer subdomínio do URL inicial.
Você pode escolher entre as opções a seguir.
-
Padrão: limite o crawling a páginas da web pertencentes ao mesmo host e com o mesmo caminho de URL inicial. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, somente esse caminho e as páginas da web que se estendem a partir desse caminho serão rastreados, como “https://aws.amazon.com/bedrock/agents/”. URLs irmãos como “https://aws.amazon.com/ec2/” não são rastreados, por exemplo.
-
Somente host: limite o crawling a páginas da web pertencentes ao mesmo host. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, as páginas da web com “https://aws.amazon.com” também serão rastreadas, como “https://aws.amazon.com/ec2”.
-
Subdomínios: inclua o crawling de qualquer página da web que tenha o mesmo domínio primário do URL inicial. Por exemplo, com um URL inicial “https://aws.amazon.com/bedrock/”, qualquer página da web que contenha “amazon.com” (subdomínio) será rastreada, como “https://www.amazon.com”.
nota
Verifique se você não está fazendo crawling de sites possivelmente excessivos. Não é recomendável fazer crawling de sites grandes, como wikipedia.org, sem filtros ou limites de escopo. O crawling de sites grandes levará muito tempo.
Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo.
É possível usar o crawler da web em sites estáticos.
Você também pode limitar a taxa de URLs de crawling para controle de utilização da velocidade de crawling. Defina o número máximo de URLs rastreados por host por minuto. Além disso, é possível definir o número máximo (até 25 mil) do total de páginas da web a serem rastreadas. Observe que, se o número total de páginas da web dos URLs de origem ultrapassar o máximo definido, o trabalho de sincronização/ingestão da fonte de dados falhará.
Você pode incluir ou excluir determinados URLs de acordo com seu escopo. Os tipos de arquivo compatíveis passam por crawling independentemente do escopo e caso não haja um padrão de exclusão para o tipo de arquivo. Se você especificar um filtro de inclusão e de exclusão e ambos corresponderem a um URL, o filtro de exclusão terá precedência e não será feito crawling do conteúdo da web.
Importante
Filtros problemáticos de padrões de expressão regular que causam retrocesso catastrófico e lookahead são rejeitados.
Um exemplo de um padrão de filtro de expressão regular para excluir URLs que terminam com “.pdf” ou anexos de sites em PDF: “.*\.pdf$”.
Você pode usar o crawler da web para rastrear as páginas dos sites que você tem autorização para rastrear.
Ao selecionar sites para crawling, você precisa aderir à Política de uso aceitável da Amazon
O crawler da web segue o indicado em robots.txt de acordo com a RFC 9309
Você pode especificar determinados bots de agente usuário para “permitir” ou “proibir” que o agente usuário rastreie seus URLs de origem. Você pode modificar o arquivo robots.txt do seu site para controlar como o crawler da web rastreia URLs de origem. O crawler procurará primeiro as regras bedrockbot-UUID e depois as regras genéricas bedrockbot no arquivo robots.txt.
Também é possível adicionar um sufixo User-Agent para acrescentar seu crawler à lista de permissões em sistemas de proteção de bots. Observe que esse sufixo não precisa ser adicionado ao arquivo robots.txt para garantir que ninguém consiga representar a string do agente usuário. Por exemplo, para permitir que o crawler da web rastreie todo o conteúdo do site e proibir o crawling de outros robôs, use a seguinte diretiva:
User-agent: bedrockbot-UUID # Amazon Bedrock Web Crawler Allow: / # allow access to all pages User-agent: * # any (other) robot Disallow: / # disallow access to any pages
Sempre que o crawler da web é executado, ele recupera o conteúdo de todos os URLs acessíveis pelos URLs de origem que correspondem ao escopo e aos filtros. Para sincronizações incrementais após a primeira sincronização de todo o conteúdo, o Amazon Bedrock atualizará sua base de conhecimento com conteúdo novo e modificado e removerá o conteúdo antigo que não está mais presente. Às vezes, o crawler poderá não conseguir indicar se o conteúdo foi removido do site e, nesse caso, ele vai deixar de preservar o conteúdo antigo em sua base de conhecimento.
Para sincronizar a fonte de dados com a base de conhecimento, use a API StartIngestionJob ou selecione a base de conhecimento no console e escolha Sincronizar na seção de visão geral da fonte de dados.
Importante
Todos os dados que você sincroniza na fonte de dados ficam disponíveis para qualquer pessoa com permissões bedrock:Retrieve para recuperá-los. Isso também pode incluir quaisquer dados com permissões de fonte de dados controladas. Para obter mais informações, consulte Knowledge base permissions.